note · 21 mai 2026 · 11 min de lecture
Standard Intelligence et FDM-1 : l'IA qui apprend l'ordinateur sans passer par le langage
Standard Intelligence vient de lever 75 millions de dollars pour entraîner une IA à utiliser un ordinateur en regardant 11 millions d'heures de vidéos d'écran — sans modèle de langage. Analyse technique, comparaison avec Claude, ChatGPT et Gemini Computer Use, et ce que ça change pour vos projets aujourd'hui.
Standard Intelligence est une startup américaine restée discrète jusqu'à fin avril 2026. Elle a annoncé deux choses en même temps : une levée de 75 millions de dollars chez Sequoia et Spark Capital, et la publication d'un modèle appelé FDM-1, entraîné sur 11 millions d'heures de vidéos de gens en train d'utiliser leur ordinateur.
La levée fait du bruit. Le modèle, beaucoup moins — alors qu'il représente, techniquement, le pari le plus radical du secteur depuis le lancement de Claude Computer Use par Anthropic en octobre 2024.
Cette note prend le temps de poser ce qui se joue vraiment. Pas parce que FDM-1 va changer votre quotidien demain matin — il ne le fera pas. Mais parce que comprendre la différence entre l'approche de Standard Intelligence et celle d'Anthropic, OpenAI ou Google vous évitera, dans les dix-huit prochains mois, quelques décisions coûteuses.
Ce que font les autres : un modèle de langage qui apprend à cliquer
Pour comprendre la rupture de Standard Intelligence, il faut d'abord poser ce que font les autres.
Quand Anthropic a sorti Claude Computer Use en octobre 2024, puis OpenAI son Operator début 2025, et Google son Mariner en 2026, tous ont fait sensiblement la même chose : prendre un modèle de langage déjà entraîné, lui montrer des captures d'écran, et lui apprendre à produire en sortie des actions — clique ici, tape ceci, scrolle là.
C'est une approche logique. On a déjà un modèle qui comprend le texte. On lui ajoute la vision. Il sait nommer ce qu'il voit. On lui apprend à associer un nom de bouton à une action. Le tour est joué.
Sauf que cette approche a trois plafonds techniques bien connus de quiconque a essayé de mettre Computer Use en production :
- Elle est lente. À chaque étape, le modèle prend une capture d'écran, raisonne en texte, produit une commande, attend la mise à jour de l'écran, recommence. Une action prend plusieurs secondes. Une tâche multi-étapes en prend des dizaines.
- Elle est coûteuse. Chaque capture consomme beaucoup de tokens — souvent 1 000 à 1 500 pour une image. Multiplié par cinquante actions, vous payez cher pour ce qu'un humain ferait en trente secondes.
- Elle est peu robuste. Le modèle raisonne en texte sur une image statique. Il ne voit pas le mouvement, pas la transition, pas l'animation qui révèle un menu déroulant. Quand l'interface est dynamique, il décroche.
Ces limites ne viennent pas du fait que les ingénieurs d'Anthropic, d'OpenAI ou de Google sont incompétents. Elles viennent du fait qu'on demande à un modèle entraîné pour le langage de faire une tâche qui n'est fondamentalement pas du langage. Utiliser un ordinateur, c'est de l'œil-main, pas de la lecture-écriture.
La proposition de Standard Intelligence : sortir du langage
L'idée de Standard Intelligence est de prendre le problème par l'autre bout. Au lieu de partir d'un modèle de langage et de lui ajouter la vision et les actions, on part directement des pixels et des actions, et on laisse le modèle apprendre tout le reste lui-même.
Concrètement, FDM-1 (Forward Dynamics Model 1) est entraîné sur des vidéos brutes d'écrans d'ordinateurs, avec en regard les mouvements de souris et les frappes clavier correspondants. À aucun moment du processus le modèle ne lit du texte décrivant ce qui se passe à l'écran. Il ne sait pas que bouton est un mot. Il sait juste qu'à certains motifs visuels correspondent certains gestes.
L'analogie que l'équipe utilise — qu'il faut prendre avec des pincettes, on y revient — est celle de la conduite autonome chez Tesla. La voiture n'a pas de modèle de langage interne qui se dit « c'est un piéton, je dois freiner ». Elle a un modèle entraîné sur des heures de vidéo qui prédit directement les actions sur la pédale et le volant à partir de l'image.
Standard Intelligence fait pareil, mais pour l'écran d'ordinateur.
Comment ils ont contourné l'obstacle des données
Là où ça devient techniquement intéressant, c'est sur la résolution d'un problème que personne d'autre n'avait résolu : où trouver 11 millions d'heures de vidéo d'écran d'ordinateur étiquetées action par action ?
Les datasets publics dépassent rarement 20 heures. Faire annoter manuellement des vidéos par des prestataires coûte des fortunes — Standard Intelligence l'a fait pour 40 000 heures, ce qui était déjà colossal.
Leur astuce : entraîner d'abord un petit modèle, appelé Inverse Dynamics Model (IDM), à reconnaître les actions à partir de leurs conséquences visuelles à l'écran. Quand un K apparaît dans une zone de texte, c'est qu'on a tapé K. Quand le curseur saute, c'est qu'on a cliqué. Quand un fond change brusquement, c'est probablement un Ctrl+V. L'interface graphique est, dans une large mesure, un système quasi-déterministe : ses transitions visibles révèlent les actions qui les ont causées.
Une fois ce petit modèle entraîné sur les 40 000 heures annotées humainement, ils l'ont lâché sur les 11 millions d'heures de vidéo brute — gameplay, tutoriels YouTube, screen recordings divers — et il a généré automatiquement les étiquettes pour tout le corpus.
C'est une astuce élégante. Elle n'est pas sans biais : l'IDM se trompe parfois, notamment sur la typographie où le bruit est plus élevé. Mais elle fait passer le coût d'étiquetage de plusieurs centaines de millions de dollars à quelques millions. Et surtout, elle débloque l'échelle : on n'est plus contraint par le nombre d'annotateurs humains, on est contraint par les GPU disponibles. Selon les termes de l'équipe, on est passé d'un régime data-constrained à un régime compute-constrained — autrement dit, on est revenu sur le terrain où les lois d'échelle classiques de l'IA fonctionnent.
Le détail technique qui pèse : l'encodeur vidéo
Une autre prouesse de FDM-1, plus discrète mais aussi importante, est leur encodeur vidéo. Il compresse environ deux heures de vidéo 30 images par seconde dans un million de tokens. Cinquante fois mieux que l'état de l'art précédent. Cent fois mieux que ce qu'utilise OpenAI.
Pourquoi c'est important ? Parce que pour qu'un modèle apprenne à utiliser un ordinateur, il doit voir des séquences longues. Une tâche réelle — modéliser une pièce en CAD, configurer un compte, traiter une commande — dure entre quelques minutes et plusieurs heures. Si votre fenêtre de contexte ne tient que trente secondes de vidéo, vous n'apprendrez jamais à enchaîner les étapes.
À titre de comparaison, dans une fenêtre équivalente de 200 000 tokens d'entrée :
- Gemini gère environ 775 images statiques.
- ChatGPT (en mode Computer Use) en gère 240.
- Claude en gère 162.
- FDM-1 gère 20 minutes de vidéo continue à 30 images par seconde — soit l'équivalent fonctionnel de 36 000 images.
Ce n'est pas un détail. C'est ce qui transforme un modèle qui réagit image par image en un modèle qui raisonne sur une activité.
Ce qui est démontré, ce qui ne l'est pas
L'équipe a publié plusieurs démonstrations sérieuses :
- Modélisation 3D dans Blender, avec extrusion et opérations CAD continues.
- Conduite autonome via une interface web (clés directionnelles), avec 50 % de précision après moins d'une heure de fine-tuning.
- Exploration de bugs profonds dans des interfaces utilisateur — par exemple, l'identification qu'une banque permet de valider deux fois le même virement (fuzzing GUI).
- Navigation sur des sites complexes, à 30 images par seconde, avec une latence de 11 ms en boucle.
C'est impressionnant. Mais il faut nommer ce qui n'est pas démontré, et qui sépare une démo d'un produit en production :
- La généralisation à des interfaces non vues. Le modèle a-t-il appris à utiliser un ordinateur ou à utiliser les ordinateurs qu'il a vus en entraînement ? La preuve d'une vraie généralisation reste à apporter publiquement.
- La fiabilité à grande échelle. Une démo qui marche dans 80 % des cas est inutilisable en production. Aucun chiffre n'a été publié sur des taux de réussite mesurés sur des benchmarks publics comparables (OSWorld, WebArena, etc.).
- La sécurité. Un modèle qui apprend par imitation d'humains imite aussi les comportements humains indésirables. Comment garantir qu'il ne clique pas sur Tout supprimer parce qu'il a vu un humain le faire dans une vidéo ?
- La disponibilité. À ce jour, FDM-1 n'est ni open source, ni accessible via API. Les démos publiées sont des démonstrations, pas un produit.
Cette section n'est pas un procès. C'est juste le rappel utile : un papier de recherche convaincant n'est pas un produit en production. Anthropic a mis presque dix-huit mois entre la publication de Constitutional AI et un Claude utilisable en prod. Comptez large.
Pourquoi l'analogie Tesla est trompeuse
L'équipe pousse la comparaison avec Tesla et la conduite autonome — on prédit des actions à partir de pixels, comme Tesla. Cette analogie aide à comprendre l'esprit, mais elle masque une différence majeure.
Une voiture, c'est cinq actions possibles : gauche, droite, accélérer, freiner, et quelques boutons annexes. Un ordinateur, c'est un espace d'actions ouvert : n'importe quel pixel cliquable, n'importe quelle combinaison de touches, n'importe quel mouvement de souris. La cardinalité du problème n'a rien à voir.
Surtout, la conduite est un problème dont la fonction objectif est claire : ne pas heurter, suivre la route, respecter les feux. Utiliser un ordinateur, c'est un problème dont la fonction objectif est, dans la plupart des cas, mal définie : qu'est-ce qu'un bon usage de Photoshop ? d'Excel ? de SAP ? Ça dépend complètement de l'intention de l'utilisateur, et cette intention n'est pas dans les pixels.
Standard Intelligence ne résout pas ce problème dans FDM-1. Le modèle prédit l'action suivante d'un humain — mais sans capacité à former une intention, à comprendre un but exprimé en langage, à dialoguer avec un demandeur. C'est une brique. Il en faudra d'autres au-dessus.
Ce que ça change pour vos projets aujourd'hui
Réponse courte : à peu près rien.
Réponse longue : à condition de comprendre où on en est.
Si vous êtes une TPE ou une PME qui se demande comment intégrer de l'IA dans son back-office, FDM-1 n'est pas votre sujet. Vous n'aurez accès à aucun produit basé dessus avant douze à vingt-quatre mois minimum, et les premiers produits seront chers, instables, et pas encore couverts par un écosystème mature — formations, intégrateurs, outils d'observabilité, support en français. Vos sujets restent les mêmes qu'il y a six mois : automatiser ce qui doit l'être, mettre des assistants là où ils ont du sens, ne pas mettre d'agent IA là où un script suffit (sujet sur lequel j'ai écrit une note plus complète : Des agents IA, mais pas partout).
Si vous êtes un éditeur ou une équipe technique qui développe des fonctionnalités IA dans vos produits, FDM-1 mérite votre veille active mais pas votre changement de roadmap. Continuez avec les modèles existants, gardez un œil sur les benchmarks publiés (ils ne le sont pas encore), et préparez-vous à ce que l'écosystème évolue rapidement à partir de 2027.
Si vous êtes un acteur du SaaS B2B dont une partie de la valeur tient à l'interface — CRM, ERP, outils métiers — c'est là que la rupture pourrait vous concerner réellement. Un modèle capable d'utiliser n'importe quelle interface comme un humain a deux conséquences. D'une, il devient possible d'automatiser au-dessus de votre produit sans intégration API. De deux, la valeur défensive de votre interface diminue. Pas en 2026. Mais dans deux à quatre ans, oui.
Ce qu'il faut faire maintenant
Trois actions concrètes, par ordre de coût et d'urgence :
1. Comprendre la distinction approche-langage vs approche-pixels
Si vous prenez des décisions sur l'IA dans votre organisation, savoir que ces deux paradigmes coexistent vous épargnera de mauvais arbitrages. Quand un fournisseur vous propose un agent qui utilise l'ordinateur, demandez-lui ce qu'il y a sous le capot : un modèle de langage avec capture d'écran (approche actuelle, lente et chère), ou un modèle pixel-natif (approche future, encore non commercialisée).
Aujourd'hui, c'est forcément le premier. Mais il sera utile, dans dix-huit mois, de savoir reconnaître l'arrivée du second sans se faire enfumer par le marketing.
2. Investir dans l'observabilité, pas dans la course aux modèles
Que vous restiez sur des modèles de langage ou que vous adoptiez plus tard des modèles type FDM, votre vrai sujet est le même : savoir ce que votre IA fait, pourquoi, et avec quel taux d'erreur. Cette infrastructure — journalisation des appels, traçage des décisions, tableaux de bord d'usage — est sous-investie à peu près partout, et elle restera utile peu importe le modèle dessous.
Mieux : c'est précisément ce qui vous permettra, le jour où un FDM débarque sur le marché, de comparer objectivement vos performances actuelles aux siennes. Sans observabilité, ce sera un argument commercial. Avec, ce sera une décision.
3. Garder un humain dans la boucle pour les actions irréversibles
Cette règle ne change pas avec FDM-1. Elle devient même plus importante. Parce qu'un modèle qui exécute à 30 images par seconde peut faire beaucoup de dégâts entre le moment où il commence à se tromper et le moment où vous vous en rendez compte. Une boucle humaine de validation sur les actions critiques (virement, suppression, envoi de message à un client) n'est pas un échec d'automatisation — c'est souvent le bon design.
Ce qu'il faut retenir
Standard Intelligence n'est pas le n-ième concurrent d'Anthropic et d'OpenAI. C'est une équipe qui pose une question différente : et si l'IA qui utilise un ordinateur n'avait pas besoin de parler ? Leur réponse, FDM-1, est techniquement sérieuse, économiquement astucieuse, et stratégiquement risquée. Il faudra encore des briques au-dessus pour transformer ce modèle en quelque chose d'utilisable par un humain qui ne parle pas pixel.
Ce qui se passe vraiment ici, c'est que l'industrie de l'IA arrête de considérer le langage comme la couche universelle. Pendant trois ans, on a essayé de tout faire passer par le texte — y compris des tâches qui n'en sont fondamentalement pas. FDM-1 acte que pour certaines tâches, on aura mieux fait de partir directement du signal brut.
Si vous deviez retenir trois choses :
- Le pari technique de Standard Intelligence est crédible mais non encore prouvé en production. Comptez dix-huit à vingt-quatre mois minimum avant un produit utilisable.
- L'écart de performance potentielle avec l'approche actuelle (LLM + Computer Use) est significatif sur la latence et le coût — ce sont les deux verrous qui empêchent aujourd'hui les agents qui utilisent un ordinateur d'être économiquement viables pour la plupart des cas d'usage.
- Aucune de vos décisions IA en 2026 ne devrait être différée à cause de FDM-1. Mais à partir de 2027, l'écosystème pourrait basculer, et des architectures qui paraissent solides aujourd'hui pourraient se trouver dépassées.
Le reste sera technique. Ça mérite qu'on en reparle quand les chiffres sortent. À suivre.
Questions fréquentes
- Quelle est la différence entre FDM-1 et Claude Computer Use ?
- Claude Computer Use part d'un modèle de langage auquel on ajoute la vision et les actions — il raisonne en texte sur des captures d'écran. FDM-1 apprend directement à partir de pixels et d'actions sans passer par le langage, entraîné sur 11 millions d'heures de vidéos d'écran. Cette approche pixel-native évite les trois plafonds du langage : la lenteur, le coût en tokens, et la faible robustesse face aux interfaces dynamiques.
- Pourquoi Standard Intelligence a entraîné FDM-1 sur 11 millions d'heures de vidéo ?
- Parce qu'utiliser un ordinateur, c'est une tâche d'œil-main, pas de langage. Pour qu'un modèle apprenne à enchaîner les étapes d'une tâche réelle (qui dure de quelques minutes à plusieurs heures), il doit voir des séquences longues. Avec seulement des captures statiques, le modèle ne peut pas apprendre à raisonner sur une activité complète.
- Comment Standard Intelligence a résolu le problème de l'étiquetage de 11 millions d'heures de vidéo ?
- Ils ont d'abord entraîné un petit modèle (Inverse Dynamics Model) sur 40 000 heures annotées manuellement pour reconnaître les actions à partir de leurs conséquences visuelles — quand un K apparaît, c'est qu'on a tapé K. Ensuite, ce modèle a généré automatiquement les étiquettes pour les 11 millions d'heures restantes. Cette astuce a transformé le problème d'un régime data-constrained à un régime compute-constrained.
- Quand pourrai-je utiliser FDM-1 dans mes projets ?
- FDM-1 n'est ni open source ni accessible via API. Comptez douze à vingt-quatre mois minimum avant un produit utilisable en production. Les premiers produits seront chers, instables, et sans écosystème mature autour. Pour 2026, continuez avec les modèles existants.
- FDM-1 peut-il vraiment remplacer un humain qui utilise un ordinateur ?
- FDM-1 prédit l'action suivante d'un humain à partir de pixels, mais sans capacité à former une intention, comprendre un but exprimé en langage, ou dialoguer avec un demandeur. C'est une brique technique. Il en faudra d'autres au-dessus pour transformer ce modèle en quelque chose d'utilisable par un humain qui ne parle pas pixel.