René Cotton
Posts
👨‍💻 IA : Guess who's back ?

👨‍💻 IA : Guess who's back ?

René COTTON
18th août 2025

Actualités
🚀 GPT-5 est là… mais l’atterrissage secoue
🤏 OpenAI redevient (un peu) Open
⚡️ Claude Opus 4.1 booste le code (et le raisonnement)
🎮 Genie 3 transforme les prompts en mondes
🧩 LangExtract : texte ➜ data
🎵 La génération de musique arrive chez ElevenLabs

Actualités

🚀 GPT-5 est là… mais l’atterrissage secoue

OpenAI a officialisé GPT-5, présenté comme un « système unifié » : un routeur en temps réel choisit entre une réponse rapide ou un mode “thinking” plus profond, et une version GPT-5 pro est dispo pour un raisonnement étendu.).

Côté promesses, OpenAI annonce de gros gains en code, écriture, santé et multimodal, avec des scores SOTA et moins d’hallucinations, ainsi qu’un comportement décrit comme plus « honnête ».

Mais le déploiement a été… chahuté. Sam Altman a reconnu lors d’un AMA Reddit que le routeur n’a pas correctement fonctionné au lancement, donnant l’impression d’un GPT-5 « plus bête » que 4o. Des correctifs et plus de transparence sont promis, ainsi qu’un doublement des limites pour les abonnés Plus.

Sam Altman sur le AMA Reddit

Face aux retours, OpenAI étudie aussi le retour de GPT-4o pour les abonnés Plus. Et l’équipe a dû s’excuser pour la fameuse “chart crime” (un graphique trompeur pendant la keynote). Une « méga boulette » assumée par Sam Altam sur X.

Le graphique trompeur durant la keynote.

Dans la communauté, certains influents parlent d’un décalage entre la preview et la version public. Defend Intelligence (Anis Ayari) explique que sa vidéo a été tournée avec un accès anticipé bien plus impressionnant, et explique que la version actuelle ressemble à une mouture “low-cost” pour encaisser la charge — ce qui n’aurait rien à voir avec ce qu’il a testé.

Tweet de Defend Intelligence

Pour l’instant, la magie annoncée ressemble surtout à un tour de passe-passe : GPT-5, c’est au mieux un 4.5 avec un routeur capricieux, un “mode thinking” parfois poussif.
La hype a dépassé le produit (encore), le retour de 4o en dit long…

🤏 OpenAI redevient (un peu) Open

Juste avant GPT-5, OpenAI a publié gpt-oss-120b et gpt-oss-20b, deux modèles de raisonnement open-weight. Pensés pour les workflows agentiques (outil web, exécution Python), ils exposent la chaîne de pensée, gèrent les sorties structurées et s’intègrent aussi à l’API Responses. Côté perfs : le 120B se rapproche d’o4-mini et surpasse même des modèles propriétaires sur certains benchmarks (AIME, HealthBench). Le 20B tape au niveau d’o3-mini… en beaucoup plus compact.

OpenAI annonce aussi un focus sécurité et des déploiements avec AI Sweden, Orange, Snowflake. De plus, les poids ont été publiés sur Hugging Face.

⚡️ Claude Opus 4.1 booste le code (et le raisonnement)

Anthropic sort Claude Opus 4.1, une mise à niveau d’Opus 4 qui pousse l’aiguille sur les tâches d’agent, le coding “réel” et le raisonnement. Au menu : 74,5 % sur SWE-bench Verified et de meilleurs résultats en recherche/analyse de données avec suivi de détails et recherche agentive. Disponible dès maintenant pour les abonnés Claude (et dans Claude Code), aussi via l’API.

Côté terrain, GitHub souligne des gains “partout”, avec un gros plus en refactor multi-fichiers. Rakuten Group apprécie sa précision pour corriger sans casser le reste du code, et Windsurf parle d’une amélioration d’un écart-type sur son benchmark “junior dev” (équivalente au saut Sonnet 3.7 → Sonnet 4).

Anthropic tease de « larges améliorations » à venir dans les prochaines semaines…

🎮 Genie 3 transforme les prompts en mondes

DeepMind dévoile Genie 3, un world model généraliste qui génère des environnements interactifs à partir d’un simple prompt… et tu peux t’y déplacer en temps réel à 24 fps en 720p. Des mondes dynamiques, cohérents pendant plusieurs minutes, directement sortis d’une description texte.

Côté capacités, Genie 3 montre des physiques crédibles (eau, lumière, terrains accidentés), des écosystèmes naturels (faune, flore, météo) et des univers stylisés/animés dignes d’un film d’animation.

Reste que tout n’est pas magique : actions encore limitées, texte peu lisible sans description dédiée, sessions interactives de quelques minutes, et pas de géographie réelle parfaitement fidèle. Le modèle sort en accès restreint à un petit groupe d’académiques et de créateurs avant une ouverture plus large.

🧩 LangExtract : texte ➜ data

Google vient de lancer LangExtract, une librairie open source pour extraire des données structurées à partir de texte libre avec des LLM comme Gemini. L’idée : tu décris ce que tu veux avoir (avec quelques exemples), et l’outil te renvoie un JSON bien formé avec ancrage précis dans la source (offsets + surlignage) pour chaque entité. Parfait pour des usages sensibles comme des comptes-rendus médicaux, contrats juridiques ou feedbacks clients.

Sous le capot, LangExtract combine controlled generation (pour respecter le schéma), chunking, traitement parallèle et passes multiples pour tenir la charge sur de gros documents. Tu peux l’intégrer à des modèles cloud (Gemini) ou à des modèles locaux via Ollama.

🍃 Le Mistral souffle au même en été

Mistral AI vient de dévoiler Mistral Medium 3.1, une mise à jour de son modèle multimodal “frontier” avec un boost global de perfs, un ton plus naturel dans les réponses, et surtout des recherches web plus intelligentes. Disponible dès maintenant dans Le Chat (c’est le modèle par défaut) et via l’API

Sous le capot, Medium 3.1 garde l’ADN de Medium 3 lancé le 7 mai (déploiements simplifiés, coût maîtrisé), mais peaufine l’expérience et la fiabilité des réponses — notamment grâce aux connecteurs de web search. Le modèle est référencé comme mistral-medium-2508 avec un contexte jusqu’à 128k tokens, de quoi avaler de gros dossiers sans sourciller.

🎵 La génération de musique arrive chez ElevenLabs

ElevenLabs lance Eleven Music, son générateur de morceaux “studio-grade” à partir de simples prompts. Tu peux contrôler le genre, style et la structure, choisir avec voix ou instrumental, et même éditer les paroles ou le son par section (intro, couplets, refrain). Le modèle est multilingue (anglais, espagnol, français, japonais, etc.) et vise les créateurs comme les boîtes média, la pub, le jeu vidéo.

Côté usage, la plupart des exploitations commerciales sont couvertes (films, TV, podcasts, réseaux sociaux, pub, gaming), avec des limites selon l’abonnement. Le service est disponible dès aujourd’hui sur le web. Techniquement, Eleven parle d’un moteur propriétaire entraîné sur des stems pour un rendu en 44,1 kHz, et évoque un tarif à partir de 0,50 $ / minute sur plans Business.

Conversation

Vous avez des idées à partager, des suggestions à proposer, des informations à échanger, ou vous souhaitez tout simplement discuter avec moi ?

Alors n'hésitez pas à répondre à cette newsletter !