Comment évaluer une IA ? Avec Stéphane Collot (ex-Meta)

27 mai 2026

Écouter sur :

Dans ce nouvel épisode de Génération IA, nous avons la chance de recevoir Stéphane Collot. Stéphane est un expert du machine learning et a commencé sa carrière dans le secteur bancaire avant d'aller chez Meta où il contribue activement au développement des modèles d'IA génératives Llama. Il nous partage son expérience et explique comment évaluer efficacement une intelligence artificielle.

Suivez Stéphane sur LinkedIn : https://www.linkedin.com/in/stephanecollot

Le projet VibeBob open source : https://github.com/stephanecollot/VibeBob

Tu as quelqu'un chose d'intéressant à partager sur l'IA générative ? Contacte moi : guillaume.gay@protonmail.com

N'hésitez pas à mettre 5 étoiles au podcast si vous voulez le soutenir et avoir d'autres invités !

Transcription brute générée automatiquement par Whisper — peut contenir des imprécisions.

Transcription

Bonjour à tous et bienvenue dans ce nouvel épisode de Génération IA. Aujourd'hui, j'ai l'honneur de recevoir un nouvel invité, Stéphane Collot, qui a passé plusieurs années chez Meta et qui vient de démissionner il y a quelques mois pour créer sa propre start-up dans l'IA. Je ne vais pas trop en dire ici, mais je suis ravi de recevoir Stéphane et on va aborder tout un tas de sujets sur l'intelligence artificielle générative, sur l'apparition de ChatGPT, sur l'état de l'art de l'IA actuellement — parce que pour beaucoup de gens, on ne sait pas trop ce qui se passe dans les grandes entreprises et quelles sont leurs stratégies. Merci Stéphane d'être avec nous, je te laisse te présenter rapidement pour que l'audience puisse te connaître.

Merci Guillaume pour l'invitation et merci pour l'introduction. Si je dois me présenter : ça fait plus de dix ans que je travaille en machine learning et en IA. Les trois dernières années et demie, je les ai passées chez Meta à Londres. Chez Meta, j'ai fait un an sur la partie réseau de neurones qui prédit sur quoi les gens vont cliquer, pour le ciblage publicitaire — c'est un modèle qui permet d'optimiser le retour sur investissement des annonceurs. Ensuite, j'ai passé deux ans et demi dans la partie generative AI, où j'ai bossé sur Llama, le modèle open source de Meta. J'ai été contributeur de Llama 3 et 4, et certains de mes travaux ont aussi été utilisés pour un nouveau modèle. Avant Meta, j'ai travaillé 7 ans chez ING, la banque : deux ans à Francfort et cinq à Amsterdam, où j'ai travaillé sur plein de projets pour résoudre des problèmes business de la banque, au départ sur le retail et le wholesale banking, et à la fin plutôt sur la finance de marché. J'étais ce qu'on appelle un quant researcher. C'est là que j'ai rencontré, il y a plus de cinq ans, mes co-fondateurs. Et il y a un mois et demi, j'ai fait mon dernier jour chez Meta pour lancer une boîte d'IA appliquée aux marchés financiers : on fait notre propre modèle de deep learning pour construire un hedge fund avec une stratégie systématique. Avant ING, j'ai fait un master à Georgia Tech, une grosse université américaine à Atlanta. L'avantage d'une grosse université américaine, c'est qu'il y a beaucoup de cours, et donc en 2014-2015 j'ai choisi beaucoup de cours liés à l'IA, au machine learning et au big data. C'est comme ça que je me suis spécialisé. Et avant ça, j'ai fait une école d'ingénieur.

Effectivement, petite info : on s'est connus en école, même si on n'était pas dans la même promo. Mais tu as su saisir cette vague de l'IA dès l'école, avec Georgia Tech, tout ce qui était big data. On sentait cette vague venir, et elle a vraiment déferlé quand ChatGPT est arrivé — mais on va en parler. J'aimerais d'abord que tu précises la différence entre la partie générative, l'intelligence artificielle générative, et ce que tu faisais avant, qui était aussi de l'IA mais qui n'est pas générative. Parce que le podcast s'appelle Génération IA, en référence à l'IA générative, qui s'est popularisée et à laquelle tout le monde peut avoir accès dans sa vie de tous les jours. Mais l'IA ne se réduit pas à cette partie générative, c'est une sous-catégorie. J'aimerais que tu expliques simplement la différence entre ces deux catégories.

C'est marrant, pour moi tout ça fait partie du même domaine. Ce qu'on appelle generative AI, c'est le fait qu'on génère des séquences. Je ne suis pas un expert des définitions, mais pour moi tout ça fait partie du même domaine : l'IA, le machine learning, où en gros on fait apprendre, dans ce cas-là à des réseaux de neurones, à prévoir quelque chose. Dans le cas des large language models, des LLM, on apprend à prédire le prochain mot, le prochain token. C'est pour ça que c'est génératif : le modèle prédit le prochain mot, et une fois qu'il l'a prédit, il le remet en input et continue avec le mot suivant. C'est pour ça qu'on voit dans ChatGPT que c'est généré mot par mot — c'est une espèce de boucle récursive où on génère le prochain mot le plus probable. Par exemple « le chat est assis sur… » le mot le plus probable serait « la chaise », une fois qu'on a mis « la chaise » on continue. Mais comme je disais, tout ça fait partie de l'ensemble que j'appelle machine learning, où on entraîne un modèle qui va ensuite prédire, et on évalue la capacité du modèle à prédire. Dans mon cas chez ING, j'ai fait pas mal de modèles de prédiction qui classifient des utilisateurs de la banque : est-ce qu'ils vont partir, est-ce qu'ils vont faire un défaut de paiement, etc.

Tu as cité les mots « prédiction » et « entraînement de modèle », c'est un peu les deux choses spécifiques au machine learning. Mais derrière, le format de sortie, dans le cas de la générative, c'est des mots. Et je pense que c'est grâce à ce format que ça s'est popularisé, que c'est devenu accessible à tout le monde, parce que c'est notre façon de communiquer à nous, les humains. Mais le principe sous-jacent reste le même, simplement il y a cette boucle récursive par-dessus qui va réinjecter à chaque fois les mots dans le contexte de la conversation. Est-ce que tu sais qui a inventé ce concept récursif, qui a eu l'idée le premier ?

Je ne suis pas un expert de l'historique. Mais à l'époque, avant ChatGPT, les modèles qu'on utilisait, un peu précurseurs, c'étaient les modèles d'embedding : ça permet d'entraîner un modèle qui donne, pour chaque mot, un vecteur, une suite de nombres dans laquelle est encodé le sens du mot. Ça permettait de faire des choses assez intéressantes. Ces modèles d'embedding étaient entraînés un peu comme ChatGPT, pas tout à fait : on a énormément de textes — des livres, internet — et on entraîne un modèle de façon semi-supervisée, c'est-à-dire qu'on prend une phrase, on cache un mot, et on essaie de faire prédire ce mot au modèle. Comme on a beaucoup de phrases et beaucoup de possibilités de masquer des mots, on peut entraîner ce modèle : l'input c'est la phrase avec le mot masqué, l'output c'est le mot caché. Et ça marche bien avec les réseaux de neurones : on connaît la réponse, et on propage dans les neurones les modifications des poids pour que la prédiction du mot caché soit correcte. En faisant ça, on obtient un modèle d'embedding qui commence à extraire du sens des mots. C'était un peu le précurseur. Moi, pour la petite histoire, j'avais utilisé un modèle d'IA pour détecter des vulnérabilités dans le code, des failles de cybersécurité, basé sur ce concept de vecteurs — avant qu'il y ait la révolution du transformer, le papier « Attention is all you need » qui a un peu tout révolutionné. Ça a simplement été une façon d'organiser différemment les connexions entre les neurones, ce qui permettait d'apprendre où mettre son attention sur quelle partie de la phrase pour chaque mot, ce qui a apporté beaucoup de flexibilité et d'« intelligence ».

Effectivement, ce papier sur les transformers, publié par une équipe de Google, a un peu révolutionné le domaine — tu l'as très bien expliqué, mieux que je ne l'aurais fait. J'avais moi-même bossé sur l'entraînement d'un modèle NLP, en stage de fin d'études, pour anonymiser des données textuelles. L'idée, c'était de prédire quels mots et quelles expressions correspondaient à des données personnelles : des adresses, des emails. On pouvait coupler ça avec des techniques qui ne sont pas de l'IA, comme des expressions régulières pour les emails, mais il y avait des moments où le sens du mot était super important. Par exemple « Paris », c'est une ville, mais ça peut aussi être un prénom. Si on prend juste un dictionnaire de villes et qu'on retire « Paris », mais qu'on veut garder le prénom, ça ne fonctionne pas. C'est pour ça qu'il faut parfois ajouter de l'intelligence. Avant l'IA générative, il y avait donc déjà tout ce qui était prédiction de mots, d'expressions, d'identités, pour tout un tas de cas d'usage. Dans mon cas, c'était pour une conformité RGPD : des opérateurs avaient des conversations avec des clients et il fallait anonymiser tout ça pour que les données personnelles ne fuient pas.

À partir de quand, chez Meta, avez-vous commencé à bosser sur Llama ? Toi, tu as fait une première partie de carrière dans une banque, puis tu as rejoint Meta — il y avait déjà des travaux en cours, puisque tu commençais sur Llama 3, donc il y avait déjà eu Llama 1 et 2. Parce que j'ai l'impression qu'avant la première version grand public de ChatGPT, il y avait déjà GPT, mais ça n'avait pas cassé ce « mur de verre » du grand public, ça restait très intimiste dans le monde du machine learning.

Je peux rajouter quelques précisions. Je ne connais pas les dates par cœur, mais c'est vrai que quelques mois avant l'exposition de ChatGPT au public, Meta avait un labo de recherche qui s'appelle FAIR, basé en partie à Paris avec plein de chercheurs. Et même avant Llama 1 et avant ChatGPT, Meta avait fait un modèle qui s'appelait Galactica, qui générait des papiers de recherche, et ça avait fait un petit bad buzz, ça n'avait pas pris auprès du grand public. La technologie était la même, mais c'est la formulation du produit par OpenAI, en tant que chat, qui a vraiment accroché avec les gens. Et les chercheurs derrière Llama 1 et 2, c'étaient principalement des Français à Paris, qui ont ensuite démissionné pour lancer Mistral.

Tu les connaissais personnellement ?

Non, je ne les connaissais pas personnellement parce que moi j'étais à Londres, et je rejoins Meta sur Llama 3. Llama 1, 2 et 3 étaient state of the art, c'est-à-dire qu'au moment de leur release, c'étaient les meilleurs modèles du moment.

Ils ont été released en open source, si je ne me trompe pas. Pourquoi ? Parce que ce n'est pas évident : OpenAI n'a pas fait ce choix-là, par exemple. Pourquoi Meta, qui est une grosse boîte, a release en open source, alors qu'OpenAI, censé être open source, a fait l'inverse ?

Disons qu'avant la révolution où tout le monde s'est concentré là-dessus, la plupart des labos étaient en mode open source. C'était « il faut publier pour attirer des talents », parce que quand tu fais une thèse, tu veux publier, avoir ton nom, avoir des citations. Le mouvement de Meta à cette époque émanait de FAIR, qui était très research-driven et très open-source-driven, donc ça a continué à être open source. Ensuite, le raisonnement de Mark Zuckerberg, c'était : notre avantage compétitif n'est pas forcément le modèle, parce que tout le monde peut faire un modèle ; notre avantage, c'est le nombre d'utilisateurs, on en a 3 milliards. Donc Llama était release sous une licence qui interdisait aux entreprises de plus de 700 millions d'utilisateurs de l'utiliser. Ça mettait un peu tout le monde à plat, sauf les concurrents directs de Meta.

C'est malin : ils interdisent à leurs concurrents directs de l'utiliser en mettant un certain seuil, mais ils gardent les avantages de l'open source, la distribution. Ils ont gardé le meilleur des deux mondes.

À ce moment-là, oui. Ensuite je peux continuer un peu l'histoire, c'est assez drôle. Au début de ChatGPT, OpenAI publiait pas mal de papiers aussi, puis a commencé à ne plus publier et à ne plus release de modèles open source, ou beaucoup moins souvent. Meta, lui, était toujours en mode « Llama 4 ça va être open source, c'est génial ». Et Llama 4 a été un peu une catastrophe industrielle, dans le sens où beaucoup d'argent a été mis dans son développement, et finalement il était à peu près au même niveau que Llama 3. La communauté a trouvé que Llama 4 n'était pas aussi bon qu'espéré, et la compétition était devenue de plus en plus rude. Llama 4 n'était pas forcément state of the art, peut-être sur quelques dimensions. C'était une grosse exception, et là Mark Zuckerberg a repris le contrôle : « OK, c'est moi qui suis en charge maintenant, vous avez merdé. » Et c'est là qu'il a commencé à recruter des chercheurs pour bâtir l'équipe « superintelligence ».

Exactement, c'est là qu'il y a eu des recrutements à coups de centaines de millions, sur des profils qui étaient soit chez OpenAI, soit chez DeepMind, soit chez Anthropic. Et il y a eu une grosse réorganisation, suite au recrutement et au rachat de la moitié de Scale AI, une boîte de notation. Une boîte de notation, c'est une boîte qui recrute des humains pour annoter des données qui seront ensuite utilisées pour l'entraînement des IA. Typiquement : on a une question d'utilisateur, une réponse d'un modèle A et d'un modèle B, et l'annotateur dit quelle est la meilleure réponse. C'est ce qu'on utilise dans le RLHF, le reinforcement learning from human feedback, un truc clé dans la révolution et l'augmentation d'intelligence de ces modèles. Tous les labos d'IA utilisaient des boîtes pour acheter de la donnée d'annotation, et Scale AI était utilisé par toute l'industrie. Mais dans mon expérience, Scale AI était connu pour des données de qualité pas terrible par rapport à ses compétiteurs, qui permettaient en revanche de délivrer de grosses quantités de données rapidement. Mark Zuckerberg a acheté la moitié de cette boîte — qu'on pourrait voir comme une boîte d'intérim, entre guillemets — pour 13 milliards, et il a pris le CEO, Alexandr Wang, qui avait 27 ans à l'époque, qui n'a pas un grand background en IA si ce n'est d'avoir créé cette boîte de notation. Il est devenu le chef de toute la partie IA chez Meta, avec plusieurs milliers de personnes dans son organisation de façon indirecte. FAIR a aussi été placé sous Alexandr Wang. Depuis Llama 4, il y a donc eu une réorganisation complète et la création d'un nouveau lab de recherche qui s'appelle TBD, pour « to be defined » — ils n'ont toujours pas de nom. Bref, je pourrais raconter plein d'anecdotes, mais tout ça pour dire que toute l'industrie est passée du mode open source et publication de papiers à « on met des milliards d'investissement et maintenant on garde tout pour nous ». Par exemple, FAIR doit maintenant demander l'autorisation à Alexandr Wang avant de publier. C'est un vrai changement dans toute l'industrie.

C'est sûr que là, Mark Zuckerberg fait un pari sur l'IA très important — je ne pourrais pas donner le chiffre exact, mais je pense que c'est de l'ordre de la centaine de milliards. Les enjeux sont tels qu'il y a eu ce revirement : il a voulu s'aligner avec ce que faisaient les principaux concurrents, OpenAI et Anthropic, et même Google — même si Google fait encore un peu d'open source récemment. Il s'est complètement retourné, sous la pression des investisseurs ou je ne sais pas exactement, mais il s'est dit « vas-y, j'envoie le paquet ». Il devait avoir des infos aussi. Du coup, j'ai vu que Yann LeCun, qui était un peu le chief scientist, le chef scientifique de Meta, a démissionné pour créer une entreprise de robotique à Paris. Je pense que ça n'a pas dû trop lui plaire de devoir reporter à un gars de 28 ans sans background en IA. Ce n'est peut-être pas la raison qu'il a évoquée, mais à mon avis ça doit en être une.

Moi je ne suis pas dans les petits papiers, mais je sais que depuis un an ou deux, Yann LeCun n'avait pas de grosses responsabilités hiérarchiques, même s'il avait le titre. Je pense que soit il a commencé à être mis de côté il y a quelques années, soit il était moins intéressé par le fait d'être manager, parce que quand on est chercheur, on ne veut pas passer sa vie à répondre à des mails et à être en réunion.

Exactement. Et je rebondis — il y a mille questions qui me viennent à chaque fois. Yann LeCun dit souvent qu'il ne croit pas trop en l'IA générative pour résoudre certains problèmes. Est-ce que tu as une opinion là-dessus ? Lui part plutôt sur une autre architecture, pour comprendre le monde réel. Concrètement ça signifie quoi, ils vont utiliser quoi comme données — des vidéos, des simulations 3D ? Quelle est ton opinion, même s'il y a une partie un peu philosophique ?

Ma perspective personnelle, c'est qu'on sait que les LLM fonctionnent : on a ce qu'on appelle la scaling law, qui explique en gros que si on multiplie par 10 le compute et les données, on augmente l'intelligence d'un certain facteur. Parfois il peut y avoir des effets de seuil, des thresholds, donc ce n'est pas forcément linéaire, mais il faut multiplier par 10 à chaque fois. Y a-t-il un plafond à ça ? Pour l'instant, jusqu'à preuve du contraire, on n'en a pas vu. Mais c'est sûr qu'une fois qu'on a construit une centrale nucléaire et le cluster associé, et qu'il faut multiplier par 10, il faut construire dix centrales nucléaires — donc il y a une limite physique à un moment, pour l'énergie et le compute. Pour les données, j'ai vu qu'il y a des boîtes comme Mercor spécialisées pour recueillir des données d'experts humains afin d'entraîner les IA. Et une fois qu'on aura siphonné toutes ces expertises, il y en aura forcément d'autres qui apparaîtront. Je ne suis pas un expert des facteurs limitants, mais sur les données, on a aussi les données synthétiques — c'est tout un domaine maintenant : générer des données par l'IA pour entraîner d'autres IA. On fait des environnements synthétiques. Le coding, par exemple, c'est parfait, parce qu'on génère du code, on l'exécute, et on peut créer des environnements où l'output du LLM est vérifiable. Il y a beaucoup à faire autour de tout ce qui est vérifiable.

On s'est un peu perdus sur les technologies, mais je disais : on sait que les LLM fonctionnent, il suffit de scaler. Et effectivement, il y a des innovations à trouver, un peu comme ce que DeepSeek a trouvé sur le thinking et l'inference-time scaling — le fait de dépenser des tokens au moment de l'inférence pour augmenter l'intelligence. Il y a pas mal de recherche et beaucoup d'optimisation à faire de ce côté-là. Moi, je sais que ça marche. Yann LeCun, lui, est plus en mode chercheur : il peut trouver le prochain truc, comme on a trouvé les transformers, alors que maintenant c'est surtout de l'industrialisation.

Exactement. C'est mon objectif un peu persévéré [sic], mais lui fait de la recherche sur des trucs beaucoup plus risqués : on ne sait pas si ça va fonctionner, mais si ça fonctionne, le potentiel est immense en termes d'intelligence et d'application dans le monde réel. Mais voilà, c'est la recherche.

Tu parlais d'optimisation. Je travaille pas mal sur ces sujets, parce qu'il y a énormément de gâchis de tokens, je trouve, et énormément de techniques — de prompting, de gestion du contexte — qui permettent de totalement changer l'output. C'est vraiment un champ nécessaire, parce que les providers d'IA comme Anthropic ne sont pas forcément intéressés par l'optimisation : ça leur fait dépenser plus de tokens, donc ils ne sont pas mécontents. Mais c'est fou comme de simples fichiers texte, des « skills », permettent de dire au modèle comment raisonner. J'ai vu aussi qu'à l'époque, avec « Strawberry » d'OpenAI, juste en lui demandant de détailler son raisonnement, on arrivait à un meilleur output. Il y a un vrai truc. Tout ce qui est optimisation, ce n'est pas vraiment ton domaine, mais c'est lié aux coûts. J'aimerais aussi qu'on parle des évaluations après, parce que ça, pour le coup, c'est quelque chose que tu connais très bien.

Ce que j'ai envie de dire là-dessus, c'est que globalement, le coût de l'intelligence diminue tous les mois. Tous les mois, on a un nouveau modèle qui est souvent le plus intelligent, souvent plus gros et plus cher. Mais quand on a des gros modèles comme ça, on peut les distiller dans des modèles plus petits.

« Distiller », explique rapidement ce que c'est exactement.

Distiller, ça veut dire qu'on prend un gros modèle, très intelligent, et un modèle plus petit, et on va distiller l'intelligence du gros modèle dans le petit, en créant des données d'entraînement. Il y a plusieurs façons de le faire, mais l'une d'elles, c'est de générer des données d'entraînement avec le gros modèle pour entraîner ou fine-tuner le petit modèle.

Exactement, j'ai fait un peu ça ce matin, je te demanderai trois conseils après le podcast. J'ai vu que DeepSeek avait été accusé de distillation par Anthropic : en gros, ils prenaient les modèles plus gros et plus intelligents pour entraîner leur modèle open source. Je crois que c'est interdit par les conditions d'utilisation, mais bon, à la guerre comme à la guerre. Là, il y a des enjeux géopolitiques énormes entre la Chine et les États-Unis, et celui qui va « craquer » l'IA le plus vite va gagner. La stratégie chinoise, je la trouve très intéressante : partir sur l'open source. En général, quand on est le plus petit, on balance en open source — sauf pour Meta, qui était un cas à part, et tu as expliqué pourquoi. Du coup, Anthropic et OpenAI lèvent tellement de milliards que si demain tu as un modèle chinois meilleur, ça risque de faire couler une de ces boîtes.

Ça, ce ne sont que des suppositions, parce qu'ils sont encore très, très puissants.

Refaisons la parenthèse : j'aimerais vraiment qu'on parle des évaluations des modèles, parce que c'était un peu ta responsabilité chez Meta. À quoi ça sert d'évaluer un modèle, comment on fait, et quelles sont les différentes techniques ?

La partie évaluation dans le développement des modèles est hyper importante, parce que ce développement est très empirique : on teste des architectures, différents mixes de données, on entraîne, et la seule façon de savoir si le modèle est mieux ou moins bien que la version précédente, c'est d'évaluer. Comment on évalue ? Avec ce qu'on appelle des benchmarks, qu'on doit créer. Un benchmark, c'est souvent un prompt qui simule un utilisateur, et la réponse attendue. Il y a différents types de benchmarks. Certains sont vérifiables de façon assez automatique : si je demande « 2 + 2 », il suffit de regarder si la réponse contient « 4 », ça peut se faire avec des règles, avec du code. Dans le même domaine, quand on génère du code, on peut faire un benchmark où on fixe un bug et on lance un unit test pour voir si c'est bon.

Exactement, donc ça marche très bien, c'est déterministe.

Oui, mais il y a beaucoup de cas d'usage qui ne sont pas déterministes, qui sont plus subtils. Par exemple : « crée-moi un poème sur un podcast qui s'appelle Génération IA. » Là, il peut y avoir plein de façons différentes de répondre, et c'est plus subtil de détecter de façon automatique quelle est la meilleure réponse, parce que c'est subjectif : il y a des gens qui vont préférer tel poème, d'autres un autre. C'est ça qui est difficile avec le langage. Attends, laisse-moi prendre un exemple plus pertinent, sur lequel j'ai bossé. Je travaillais sur la partie safety, la sécurité — le fait, par exemple, que le modèle ne doit pas être raciste, ou ne doit pas avoir certains biais.

L'alignement.

Exactement, sur l'alignement. Du coup, on définit une « policy », un document qui dit ce qui est raciste ou pas, ce qui est autorisé ou pas.

Ça doit être fun, pour celui qui crée les datasets.

Oui, il y a des sujets qui peuvent l'être. Mais voilà, dans ce type d'exemple, la question, c'est de savoir si la réponse est alignée ou non avec les instructions. Pour faire ce type d'évaluation dans l'industrie, on utilise beaucoup maintenant ce qu'on appelle « LLM as a judge » : en gros, on utilise un LLM pour juger un autre LLM.

Et le juge doit forcément être plus intelligent, ou pas nécessairement ?

C'est une bonne question. Il faut aussi évaluer le LLM-as-a-judge — c'est une de mes spécialités. Dans la création de juges, tu as différents types. Tu as des juges qui sont simplement des prompts : tu dis « voici la question de l'utilisateur, voici la réponse de l'agent, voici la policy qui dit ce qui est autorisé ou pas ; est-ce que la réponse de l'agent viole ou est conforme aux instructions ? ». Ça permet de faire des évaluations à grande échelle.

Mais ça doit coûter cher, de faire des évals avec des LLM en plus.

Oui, il y a une problématique de coût : il faut un juge intelligent et à la fois pas cher. Mais dans la plupart des cas, un juge LLM est maintenant plus intelligent et moins cher que de demander à des humains d'annoter les réponses.

Donc le métier d'annotateur a déjà été remplacé, et la boîte d'intérim d'Alexandr Wang peut fermer ou se pivoter.

C'est vrai que c'est de moins en moins ça. Maintenant, ce qui est intéressant pour les annotations, c'est plus subtil, je pourrais en parler plus longtemps. Mais oui, tu es obligé de mettre de l'intelligence pour juger si une réponse est conforme ou pas, parce que ce n'est pas déterministe : il peut y avoir des synonymes, on peut expliquer la même chose de plusieurs façons, il y a énormément de subtilité. C'est pour ça qu'il faut de l'intelligence pour juger.

Pour mon app MyTrainer, j'ai utilisé cette technique de LLM-as-a-judge pour juger la qualité du coaching dans l'application, parce que c'est totalement subjectif, ça dépend du coach. Avec des instructions spécifiques et une policy, comme tu dis, pour vérifier qu'il ne donne pas d'instructions dangereuses, par exemple, et qu'il se conforme bien au profil de l'utilisateur. C'est vraiment intéressant. Il y a un truc qui me fascine : avec les LLM, on peut tout faire — même juger d'autres LLM, même créer des données pour entraîner d'autres LLM. On a l'impression qu'il y a une boucle récursive et qu'on peut absolument tout faire avec.

C'est ce que je dis parfois : l'intelligence artificielle, c'est un peu la première technologie qui peut t'expliquer comment elle fonctionne elle-même. Je n'irai pas jusqu'à dire qu'elle a une conscience — c'est un débat parallèle — mais elle peut comprendre comment elle-même fonctionne, et là-dessus il y a vraiment un côté fascinant.

Moi aussi, j'ai toujours été fasciné par ça, par l'IA en général depuis que j'en ai fait à l'école, parce que c'est quelque chose qu'on n'arrive pas vraiment à comprendre : pourquoi ça marche, pourquoi le réseau de neurones fait ça. On part du résultat, et on interprète ensuite. Je pense que tu partages cet intérêt, puisque toi tu as carrément fait toute une carrière là-dessus. Avant de parler de ta prochaine startup — qui va être très intéressante aussi, parce que j'ai envie de savoir si une IA peut me faire gagner de l'argent en bourse ou pas, c'est très binaire et tu vas me le dire — est-ce que tu veux d'abord aborder ton projet open source ?

Pour mettre un peu de contexte : j'ai vu, il y a une semaine, que tu as sorti un projet open source sur GitHub, Vibe Bob, une extension Chrome, on va dire, pour modifier l'interface web avec laquelle tu interagis directement dans ton navigateur. J'ai testé un exemple où tu es sur Amazon et tu lui dis « change-moi l'interface, écris-moi un tableau des résultats de produits avec une comparaison », et il te fait ça directement dans l'interface. Je te laisse en parler. C'était juste pour le fun, est-ce qu'il y a une suite, ou est-ce que c'est un one-shot ?

C'est marrant, ça vient d'une frustration que j'ai depuis plusieurs années sur pas mal de petits trucs dans des applications ou des sites que j'utilise. Par exemple, je déteste les YouTube Shorts. Si je pouvais payer YouTube pour qu'il me désactive les Shorts, parce que ce sont des vidéos abrutissantes et addictives, j'aimerais payer pour qu'il me supprime cette feature, mais ce n'est pas possible.

On en arriverait à payer pour supprimer des features.

Oui ! Du coup, ça vient un peu de l'idée de donner plus de contrôle à l'utilisateur. Et cette idée se concrétise maintenant d'une façon complètement différente de ce que j'avais en tête avant : on peut donner à l'utilisateur la possibilité de modifier les sites et les applications qu'il utilise, directement sur son appareil. Les applications mobiles, ce n'est pas encore possible, mais j'imagine un monde où ça le sera. C'est une extension Chrome où, par exemple sur YouTube, j'ouvre le chat sur le côté, je dis « supprime-moi les YouTube Shorts », et ça modifie l'HTML et le CSS en local, uniquement pour moi. Ça modifie mon expérience utilisateur pour le mieux. La raison pour laquelle je voulais en parler ici, c'est que j'ai l'impression que, potentiellement, dans le futur, l'utilisateur sera le développeur de l'application en fonction de ses besoins. On pourrait imaginer que dans n'importe quelle application, on ait un bouton sur lequel on dit « ajoute-moi un bouton pour trier telle table de telle façon ». À l'origine de ce projet, j'utilisais un SaaS qui s'appelle Comet pour gérer toutes mes expériences — parce que je fais de la recherche avec ma prochaine start-up — et il me manquait une façon de visualiser des expériences. Je me suis dit « OK, je vais créer Vibe Bob, cette extension qui permet de modifier n'importe quelle interface utilisateur ». Je l'ai mise à disposition en open source, je mettrai le lien dans la description du podcast si vous voulez la checker.

J'avais vu des projets comme ça. Il y a un mec en France qui a fait une application qui te donne accès à Instagram, YouTube, Facebook et qui retire tous les formats courts, pour reprendre ton exemple, et ça marche plutôt bien. C'est bien de faire de la prospection comme ça, surtout quand tu crées des start-ups, parce que tu essaies d'anticiper ce dont les gens auront besoin. C'est original de penser que l'utilisateur va développer sa propre version, customisée, de ton application — je n'avais jamais pris la chose sous cet angle. Moi, j'étais plus sur une vision agentique, où en fait tu enlèves les boutons, tu enlèves tout, et tu interagis avec le logiciel en lui parlant. Mais peut-être qu'il y a un pont entre les deux, peut-être que la partie visualisation reste importante pour l'utilisateur, pour ne pas toujours avoir une interface de texte. D'ailleurs, j'ai ce problème en codant : je code quasiment uniquement avec des agents maintenant, donc je regarde de moins en moins le code, et parfois ça me manque de voir un peu ce qui se passe. Des fois, je regarde une pull request et je me dis « mais attends, ce n'est pas du tout ce que je lui ai demandé », ça marche, ça passe les tests, mais c'est trop complexe. La partie interface, je trouve qu'elle reste importante. Question annexe : tu codes en full agentique, ou ça t'arrive encore de taper des choses à la main ? Est-ce que tu regardes toujours ton code ?

Alors, actuellement — il faut toujours dire la date, on est en mai 2026, ça peut tout changer — et bon, il y a un contexte : je développe un fonds d'investissement systématique, donc j'ai du code qui potentiellement va gérer des millions, et là c'est important. Du coup, moi je n'écris pas de code, mais je revue, je regarde le code généré. La revue est assez rapide : je scrolle, et dès que j'ai une intuition qui me dit « tiens, je n'aurais pas fait comme ça » ou « c'est un peu bizarre », j'envoie mon intuition au chat. Et soit c'est une bonne intuition, soit il va fixer.

J'ai l'impression que comme notre métier change, on a développé de nouvelles compétences, comme cette intuition : quand tu survoles le code et que tu vois qu'il y a un truc qui ne va pas. J'ai l'impression que ça marche assez bien.

Exactement. Je sais qu'il y a des gens, notamment pour développer des applications avec du front-end, qui sont adeptes du full agentique et qui ne regardent quasiment plus le code. Dans mon cas c'est un peu moins le cas, mais à partir du moment où il y a des tests et que c'est bien testé — est-ce que la feature est là ? est-ce que c'est bien testé ? — ça va.

J'ai un peu cette vision que le vibe coding, c'est un peu comme l'IA en général : tu donnes ton résultat attendu, et ça va itérer sur un truc que tu ne comprends pas forcément jusqu'à ce que ça marche. C'est pareil pour l'optimisation de prompt. J'avais essayé d'optimiser des prompts, et du coup je ne lisais même pas les prompts que ça me sortait : je disais à l'agent « voici mon dataset d'évaluation, teste plein de prompts jusqu'à ce que ça valide ce dataset », et il itérait sur les prompts sans que je regarde. Je crois que c'est François Chollet — celui qui a créé le benchmark ARC-AGI — qui avait fait un tweet là-dessus, en disant que c'était une démarche similaire.

Tout à fait, tu peux considérer ton prompt comme des paramètres qui sont entraînés, parce que si tu changes le prompt de base, ça change le comportement. Il faut faire attention. Il y a des gens qui font ça, et notamment les prompts générés par l'IA sont souvent meilleurs que ceux générés par des humains. Une des techniques qui marche très bien, c'est de prendre un prompt écrit par un humain et de simplement le faire reformuler ou régénérer par l'IA. Cette technique très simple augmente la performance, ou l'« accuracy », dans le cas d'un LLM-as-a-judge par exemple.

Effectivement, tu peux juste changer un mot et ça changera l'output, donc tu peux tester plein de variations. Si vous avez des prompts en production, n'hésitez pas à faire cette passe facile pour déjà optimiser largement les résultats.

Exactement. Et encore une fois, ça se rapproche du machine learning, et il faut faire attention à l'over-optimisation. Une des problématiques dans les évaluations, c'est la contamination : le fait que le benchmark soit dans les données d'entraînement, et du coup c'est simplement de la mémorisation, ça ne permet pas de voir si le modèle généralise à d'autres situations. Pour prendre une métaphore, c'est comme un mec qui se souvient de tout, qui a une mémoire d'éléphant, mais qui n'est pas intelligent : dès que tu lui demandes quelque chose qu'il ne connaît pas, il est incapable de réfléchir.

J'avais vu aussi que le problème des benchmarks, c'est que les labos font tout pour avoir le meilleur score, et du coup si tu as un cas d'usage qui n'est pas dans le benchmark, ce n'est pas forcément garanti que le modèle soit bon dessus. C'est peut-être le rôle de ceux qui font les benchmarks de proposer encore plus de cas d'usage. Il y avait des modèles qui paraissaient incroyables parce qu'ils maximisaient tel benchmark, et en fait la communauté n'aimait pas ce modèle, pour une raison ou une autre, peut-être juste son caractère, son comportement. D'ailleurs, est-ce qu'il y a des benchmarks pour juger ce genre de choses ? J'ai vu un papier d'Anthropic qui disait qu'un de leurs modèles avait une « opinion », qu'il aimait défendre la cause animale — il y a un youtubeur français, Monsieur Phi, qui a fait des vidéos là-dessus. Ils arrivent parfois à extraire des insights comme ça. Est-ce qu'il y a des moyens d'évaluer ça aussi, ou est-ce que parfois vous découvrez des choses grâce à la communauté ?

Effectivement, il y a ce risque-là. Par exemple, pour Llama 4, les gens disent qu'il a été un peu « overfitté » sur les benchmarks — je n'ai pas d'éléments pour le confirmer ou le nier. Le mieux, c'est de faire appel à des évaluations privées, où les labos n'ont pas accès au benchmark, donc il n'est pas mémorisé. Il y a des gens qui font leur propre benchmark et qui le publient. Par exemple, il y a un youtubeur, ancien chercheur, très technique, qui s'appelle AI Explained, et qui a un benchmark privé qui s'appelle SimpleBench. J'aime bien regarder celui-là parce qu'il est privé et qu'il teste l'intelligence et le « common sense », le bon sens. C'est un des benchmarks que j'aime bien utiliser.

SimpleBench… Est-ce qu'on ne pourrait pas demander aux hommes politiques de passer ce benchmark pour être élus ?

Ça pourrait être bien. Mais sont-ils assistés ou pas ? Je ne vois pas pourquoi les hommes politiques ne devraient pas être assistés par l'IA.

C'est vrai, il y en a qui sont contre. En France, il y a beaucoup de députés qui ont dit que jamais de la vie ils n'utiliseraient l'IA. Je trouve ça dommage, parce qu'on peut bien l'utiliser comme mal l'utiliser — c'est justement tout le sens de ce podcast, j'essaie d'expliquer que si on l'utilise bien, ça aide. Ce serait dommage de s'en priver. En tout cas, on aborde la dernière partie de ce podcast, qui concerne ta nouvelle start-up, un peu ton retour à tes amours de la finance après ton passage chez Meta dans l'IA générative. Ça m'intrigue, parce que je me dis : est-ce qu'il y a déjà des gens — et je pense que c'est le cas — qui gagnent de l'argent grâce à des algorithmes d'IA, et c'est ultra confidentiel. Toi, tu fais un modèle d'IA qui se transforme en fonds d'investissement, dont le but est de générer de la performance et de surperformer le marché. Explique-nous ce que tu fais et quelles sont tes ambitions de performance.

Je vais rebondir sur ce que tu dis. Je pense que beaucoup de gens s'imaginent qu'on peut, entre guillemets, donner de l'argent à ChatGPT et qu'il va lui-même placer l'argent. Il y a eu un youtubeur, je crois que c'est « Defend Intelligence », Anis, qui a fait une vidéo où il crée des bots de trading. Je n'ai pas vu la vidéo, je ne sais pas si ça marchait. Mais ça nourrit des fantasmes : tu te dis « moi aussi je vais faire mon bot de trading ». Alors, pour placer ça tout de suite : je ne fais pas du tout ça, et je ne crois pas vraiment à ce genre de truc. On est en mai 2026, mais les LLM ne sont pas bons, je pense, pour prendre des décisions d'investissement. Après, oui, ça peut être utilisé pour faire de l'analyse fondamentale, peut-être.

J'aime bien que tu rajoutes la date à chaque fois, parce que ça évolue tellement vite qu'on n'a aucune certitude.

Du coup, ce n'est pas du tout mon approche. Moi, je fais un modèle de deep learning, ce n'est pas un LLM, ce n'est pas token-based, ce n'est pas sémantique : mes « tokens » ce ne sont pas des mots, c'est plus du time series, des séquences de chiffres. Donc ça n'a rien à voir avec ChatGPT, mais en même temps c'est quand même un réseau de neurones, avec un peu la même architecture. Je ne peux pas en dire beaucoup plus, parce que c'est une industrie secrète : si quelqu'un a une stratégie qui fonctionne bien, il ne va pas la partager. Mais je sais qu'il y a certains hedge funds très connus qui ont ce type d'approche, où un réseau de neurones génère les signaux d'achat ou de vente, qui doivent ensuite être convertis et implémentés. Il y a plusieurs parties : l'entraînement du modèle, puis comment tu utilises l'output du modèle et comment tu le traduis en ordres sur les marchés, comment tu gères ton risque.

Mais là, du coup, tu as déjà une preuve de concept, tu as déjà validé quelque chose ?

Oui, on a un track record avec notre propre argent, et les performances sont alignées avec le backtest — c'est un peu technique, mais le backtest, c'est notre simulation.

Ça te conforte sur le fait que tu as un modèle qui fonctionne, et te pousse à lancer ta boîte à fond là-dedans.

Voilà. Après, c'est pour des investisseurs professionnels, donc je ne peux pas trop en parler en public. Et depuis vendredi, je suis officiellement enregistré auprès de l'équivalent de l'AMF en Angleterre, qui est la FCA, l'organisme qui régule les marchés financiers.

Et donc, les premières mises en production, c'est dans quelques jours, dans quelques mois ?

On est déjà en production avec notre propre argent, et ensuite on va chercher des investisseurs professionnels qualifiés. On espère que ça va marcher.

Génial. Bon, on arrive à une heure de podcast. Je ne sais pas si tu voudrais rajouter des choses. Peut-être une question un peu d'ouverture : j'avais vu une vidéo où un mec expliquait qu'il avait un modèle qui prenait en compte tout ce qui se passe dans le monde pour essayer de prédire un peu le futur. Est-ce que c'est possible de prédire ce qui va se passer dans le futur grâce à toutes ces données ? C'est un peu ce que tu fais sur un domaine très spécifique. À quel point ça peut s'appliquer dans d'autres domaines ?

Je suis un peu sceptique sur la prédiction du futur, il y a tellement de possibilités. Mon approche, c'est plutôt de l'arbitrage : quand le marché est volatile, il y a des anomalies de marché qui se créent. Moi je suis sur le marché obligataire, qui n'est pas complètement automatisé, et du coup il y a des anomalies qu'on peut détecter et sur lesquelles on peut prendre des positions. Mais prédire le futur… je ne sais pas, il y a trop d'entropie, trop de facteurs.

Elle est difficile, cette question. Est-ce que tu veux revenir sur quelque chose avant de terminer ce podcast ?

Je pense qu'on a fait le tour. C'est un des podcasts les plus techniques que j'ai faits, mais je pense que l'audience, même si les gens n'entraînent pas des modèles tous les jours, a un intérêt croissant pour l'IA, et que ça reste à la portée de beaucoup de gens. Il faut peut-être s'accrocher pour certains passages, mais c'était ultra intéressant.

Merci encore Stéphane pour ton temps, je sais que tu es très occupé en ce moment.

Avec plaisir, Guillaume. Et voilà, si les gens veulent me suivre, c'est sur LinkedIn, tu pourras mettre le lien en description.

Magnifique. Merci beaucoup, et à bientôt !