Articles de recherche IA sélectionnés quotidiennement avec traductions
De nombreux moments du monde réel n’attendent pas qu’un utilisateur pose une question. Un incendie se déclenche sur un écran de surveillance, une expression traverse un appel vidéo, ou un produit qu’un spectateur souhaite zien apparaît furtivement dans un live. Pourtant, les grands modèles actuels restent majoritairement conçus sur un mode tour par tour : ils ne répondent que lorsqu’on s’adresse à eux, et même les applications d’appel vidéo qui semblent interactives fonctionnent encore comme des systèmes questions-réponses, ne réagissant que lorsqu’elles sont interrogées ou sollicitées. Nous plaidons pour un paradigme différent : un modèle qui soit présent dans le monde à la manière d’une personne. Il observe en continu ce qui se passe à l’instant, décide de lui-même s’il doit parler ou se taire, interagit en temps réel, et délègue à un modèle en arrière-plan lorsque le problème est difficile. Pour faire progresser les modèles d’interaction et leur adoption dans divers domaines, nous apportons deux contributions entièrement open source. Premièrement, nous publions JoyAI-VL-Interaction, un modèle d’interaction VL (vision-langage) centré sur la vision de taille 8B. Le modèle prend la décision de réponse en interne, choisissant chaque seconde de rester silencieux, de répondre ou de déléguer à un modèle en arrière-plan, et il excelle dans la réactivité déclenchée par la vision et la conscience temporelle. Nous l’accompagnons d’une recette d’entraînement transférable, à partir de laquelle émergent des capacités pour lesquelles nous n’avons jamais entraîné le modèle, comme guider un acheteur à travers des changements d’écran d’application ou improviser un cours à partir d’un diaporama. Deuxièmement, nous publions un système complet et déployable construit autour de ce modèle. Ce système diffuse en continu toute vidéo en cours dans le modèle, le rendant véritablement présent dans le monde. Tous les autres composants sont enfichables, notamment les modules ASR/TTS, la mémoire, l’interface de visualisation et un cerveau en arrière-plan pouvant se connecter à n’importe quelle API ou agent. Dans six scénarios du monde réel, les évaluateurs humains préfèrent largement JoyAI-VL-Interaction aux assistants d’appel vidéo intégrés de Doubao et Gemini. À notre connaissance, il s’agit du premier modèle d’interaction ouvert, piloté par la vision, publié avec sa recette d’entraînement, ses données et son système complet déployable.
Les données racontent des histoires qui façonnent la société ; le travail du journaliste de données consiste à transformer des informations brutes en récits auxquels les non-experts peuvent accorder leur confiance. Un article d’actualité de qualité exige plusieurs semaines de travail en rédaction : rechercher le contexte, effectuer des analyses statistiques, choisir un angle et concevoir des visuels. Les agents récents traitent bien les étapes individuelles : les agents spécialisés en science des données bouclent la boucle d’analyse, tandis que les agents de conception génèrent de magnifiques sites web. Mais un agent peut-il agir en tant que journaliste de données de bout en bout ? Nous présentons Data Journalist Agent (Data2Story), un cadre multi-agents qui orchestre des rôles spécialisés au sein d’une unique rédaction virtuelle. Data2Story apporte deux innovations. (i) Les affirmations sont ancrées dans des preuves : un Inspecteur relie chaque nombre, angle et élément à une source de données, à du code ou à une référence externe. (ii) Les articles sont génératifs de manière multimodale : plutôt que de se cantonner à du texte brut et à des graphiques statiques, Data2Story raisonne sur ce que les lecteurs voudront voir, puis déploie des outils multimodaux, tels que des cartes interactives pour la géographie et des fichiers audio pour la musique. Nous évaluons Data2Story sur 18 articles, chacun associé à l’article expert original publié, selon quatre axes : (a) couverture des angles humains vs agents ; (b) évaluation par grille avec 53 participants sur cinq dimensions ; (c) utilisation d’agents d’utilisation informatique comme juges, un proxy économique pour simuler la navigation des lecteurs dans des articles interactifs ; et (d) vérifiabilité, où un vérificateur de code réexécute les affirmations par rapport aux données et contrôle les déclarations par rapport aux références. Data2Story produit des histoires multimédias compétitives, traçables par les preuves, avec une force particulière en matière de transparence et d’auditabilité. Les articles humains conservent un avantage dans l’angle éditorial, la conception créative et la présentation. Nous positionnons Data2Story comme un collaborateur pour les journalistes, permettant un reportage plus fondé sur les preuves, transparent et vérifiable. Le code et les démonstrations sont disponibles sur https://data2story.github.io.
Les politiques robotiques généralistes doivent suivre les instructions des utilisateurs tout en raisonnant sur la manière dont les objets, les caméras et les actions du robot interagissent dans le monde physique en 3D. Les récents modèles vision-langage-action (VLA) et modèles vidéo monde-action (WAM) héritent de fortes connaissances a priori sémantiques ou temporelles issues de modèles de fondation à grande échelle, mais ils opèrent encore principalement sur des images 2D ou des espaces latents dérivés du 2D, laissant implicite la géométrie 3D nécessaire à la manipulation riche en contacts. Nous proposons le modèle d’action géométrique (GAM), une politique de manipulation conditionnée par le langage qui réutilise directement un modèle de fondation géométrique (GFM) pré-entraîné comme substrat partagé pour la perception, la prédiction temporelle et le décodage d’actions. GAM scinde le GFM à une couche intermédiaire : les couches superficielles servent d’encodeur d’observation, tandis qu’un prédicteur causal de futur inséré au niveau de la scission prévoit les jetons latents futurs conditionnés par le langage, la proprioception et l’historique des actions. Les jetons futurs prédits sont ensuite acheminés à travers les blocs restants du GFM pour la propagation et le décodage des caractéristiques, permettant à une unique architecture de base de produire à la fois la géométrie future et les actions. Cette conception dote le GFM d’une modélisation temporelle du monde conditionnée par le langage grâce à une modification architecturale minimale, tout en préservant ses riches connaissances a priori géométriques. Sur un large ensemble de références de manipulation en simulation et sur robot réel, GAM est plus précis, plus robuste, plus rapide et plus léger que les modèles de fondation actuels de référence.
DreamX-World 1.0 est un modèle de monde généraliste interactif texte/image-vers-vidéo pour la génération contrôlable à long horizon. Il prend en charge la navigation de caméra, les revisites de régions précédemment observées et les événements actionnables par requête dans des domaines photoréalistes, de style jeu vidéo et stylisés. Notre moteur de données combine un rendu Unreal Engine précis au niveau de la caméra, des enregistrements de gameplay riches en actions et des vidéos du monde réel avec une géométrie de caméra reconstruite. Pour le contrôle de la caméra, nous introduisons E‑PROPE, une variante légère de l'encodage positionnel projectif qui conserve la géométrie projective de PROPE tout en appliquant une attention sensible à la caméra à des tokens réduits spatialement. Nous convertissons un générateur vidéo bidirectionnel en un modèle de monde autorégressif à quelques étapes en utilisant le forçage causal, la distillation de type DMD et l'entraînement sur de longs déploiements. L'entraînement sur des contextes à long horizon auto-générés expose le modèle à son propre historique généré et réduit la dérive de style et de couleur qui s'accumule au fil des chunks autorégressifs. La Persistance de Scène Conditionnée par la Mémoire récupère les vues antérieures via un rappel basé sur la géométrie de la caméra, tandis que le recyclage résiduel rend le chemin de conditionnement moins sensible aux latences de mémoire imparfaites. L'Ajustement par Instructions d'Événements ajoute un contrôle d'événements composable, et l'alignement par apprentissage par renforcement rétablit le contrôle de la caméra et la qualité visuelle après distillation. Avec l'exécution DiT en précision mixte, la réutilisation résiduelle, le décodage VAE élagué à 75 % et le parallélisme de pipeline asynchrone, DreamX‑World 1.0 atteint jusqu'à 16 FPS sur huit GPU RTX 5090. Sur notre évaluation de base de 5 secondes, DreamX‑World 1.0 obtient un score de contrôle de caméra de 73,75 et un score global de 84,76, surpassant HY‑WorldPlay 1.5 et LingBot‑World en score global, qui obtiennent respectivement 80,79 et 80,45.
Ce rapport technique présente VibeThinker-3B, un modèle dense compact de 3 milliards de paramètres développé pour étudier jusqu’où le raisonnement vérifiable peut être poussé dans un régime strictement petit modèle. En nous appuyant sur le paradigme de post-entraînement du spectre au signal, nous améliorons systématiquement le modèle via un pipeline optimisé qui comprend un apprentissage supervisé fin basé sur un curriculum, un apprentissage par renforcement multi-domaine et une auto-distillation hors ligne. Les évaluations expérimentales montrent que VibeThinker-3B atteint des performances de pointe sur des tâches vérifiables très exigeantes. Plus précisément, il obtient un score de 94,3 sur AIME26 (passant à 97,1 avec une mise à l’échelle au niveau des affirmations pendant le test), un Pass@1 de 80,2 sur LiveCodeBench v6, et présente une forte généralisation hors distribution avec un taux d’acceptation de 96,1 % sur de récents concours LeetCode inédits. Cela le place effectivement dans la gamme de performances des systèmes de raisonnement de premier plan, égalant ou dépassant des modèles phares d’ordres de grandeur plus grands, tels que DeepSeek V3.2, GLM-5 et Gemini 3 Pro. De plus, un score de 93,4 sur IFEval confirme que cet extrême renforcement du raisonnement ne compromet pas la contrôlabilité stricte des instructions. En prolongeant nos précédents travaux sur le modèle 1,5B, ces résultats motivent l’Hypothèse de Compression-Couverture Paramétrique, qui considère le raisonnement vérifiable comme compressible en noyaux de raisonnement compacts, tandis que les connaissances ouvertes et la compétence générale nécessitent une large couverture paramétrique des faits, concepts et scénarios de longue traîne. Cette perspective suggère que les modèles compacts ne sont pas simplement des substituts efficaces pour le déploiement, mais une voie complémentaire vers des performances de pointe dans les régimes de capacité denses en paramètres.
Les agents de codage basés sur les grands modèles de langage (LLM) ont obtenu de bons résultats sur des tâches de génie logiciel, mais l’exploration des dépôts reste un goulot d’étranglement majeur : localiser le code pertinent consomme un budget important de jetons et pollue le contexte de l’agent avec des extraits non pertinents. Dans la plupart des agents, le même modèle explore le dépôt et résout la tâche, ce qui laisse les lectures et les recherches exploratoires dans l’historique du solveur. Nous présentons FastContext, un sous-agent d’exploration dédié qui sépare l’exploration du dépôt de la résolution. Invoqué à la demande, FastContext émet des appels d’outils parallèles et renvoie des chemins de fichiers et des plages de lignes concis en tant que contexte ciblé. FastContext est alimenté par des modèles d’exploration spécialisés allant de 4 à 30 milliards de paramètres. Nous les amorçons à partir de trajectoires de modèles de référence solides et les affinons avec des récompenses ancrées dans la tâche pour une recherche large dès le premier tour, une collecte de preuves multi-tours et une génération précise de citations. Sur SWE-bench Multilingual, SWE-bench Pro et SWE-QA, l'intégration de FastContext dans Mini-SWE-Agent améliore les taux de résolution de bout en bout jusqu'à 5,5 % tout en réduisant la consommation de jetons de l'agent de codage jusqu'à 60 %, avec un surcoût marginal. Ces résultats montrent que l'exploration des dépôts peut être séparée de la résolution et traitée efficacement par des modèles spécialisés. Code et données : https://github.com/microsoft/fastcontext
L’intelligence agentique efficace et scalable nécessite des modèles capables de fournir à la fois des réponses à faible latence et de fortes capacités de raisonnement, tout en restant pratiques à entraîner, à servir et à déployer. Dans ce rapport, nous présentons Ling-2.6 et Ring-2.6, une famille de modèles conçue pour relever ce défi à grande échelle. Ling-2.6 est optimisé pour la génération instantanée de réponses et une capacité élevée par jeton de sortie, tandis que Ring-2.6 est taillé pour un raisonnement plus profond et des flux de travail agentiques plus avancés. Au lieu d’un entraînement à partir de zéro, nous faisons évoluer le modèle de base Ling-2.0 grâce à un pré-entraînement par migration architecturale et à un post-entraînement à grande échelle. Cette évolution est guidée par une conception conjointe unifiée de l’architecture du modèle, des objectifs d’optimisation, des systèmes de service et des environnements d’entraînement agentiques, permettant des améliorations à la fois de la capacité du modèle et de l’efficacité du déploiement. Au niveau architectural, nous introduisons une conception d’attention linéaire hybride intégrant Lightning Attention avec MLA, améliorant l’efficacité de l’entraînement et du décodage sur des contextes longs. Pour renforcer davantage l’efficacité des jetons, nous optimisons la capacité par jeton de sortie via la Chaîne de Pensée Évolutionnaire, l’Optimisation des Politiques par Unités Linguistiques, l’alignement bidirectionnel des préférences et la distillation des réponses correctes les plus courtes. Pour les capacités agentiques, nous proposons KPop, un cadre d’apprentissage par renforcement conçu pour soutenir l’entraînement stable de Ring-2.6-1T sur des données ancrées dans l’environnement à grande échelle. KPop améliore l’efficacité de l’entraînement grâce à une planification asynchrone entre le codage, la recherche, l’utilisation d’outils et l’exécution de workflows, permettant un apprentissage scalable à partir d’interactions complexes agent-environnement. Ensemble, Ling-2.6 et Ring-2.6 offrent une voie pratique vers des systèmes agentiques efficaces, scalables et ouverts. Nous open-sourçons tous les points de contrôle de la famille 2.6 pour soutenir la recherche et le développement futurs en intelligence agentique pratique.
Les modèles de langage à diffusion masquée (MDLM) sont devenus un paradigme distinct pour la génération de séquences. À mesure que les MDLM se diversifient en termes de capacités et de couverture des connaissances, une question importante est de savoir comment combiner leurs connaissances. Pour ce faire, nous étudions d'abord la dynamique de décodage unique des MDLM. Nous constatons que les générations réussies présentent une dynamique de confiance stable sur les positions pertinentes pour la réponse, tandis que les trajectoires non fiables peuvent souvent être corrigées en injectant des états intermédiaires prometteurs provenant d'autres modèles. Guidés par cette observation, nous proposons TIE (Trajectory-based Iterative Ensembling), un cadre de fusion des connaissances dans lequel les MDLM identifient de manière itérative des trajectoires de décodage fiables et les relaient entre les modèles. TIE suit la dynamique de confiance sur les positions pertinentes pour la réponse afin de déterminer quel modèle suit actuellement une trajectoire plus fiable et transfère sélectivement des séquences partiellement débruitées entre les modèles. Comme le modèle sur la trajectoire la plus prometteuse change souvent au fil des étapes de débruitage, TIE permet à différents modèles d'apporter des forces complémentaires à différentes étapes de la génération. Les performances élevées dans diverses tâches de raisonnement, ainsi que nos analyses, suggèrent que TIE offre une approche pratique au problème peu exploré de l'ensemblage de MDLM.
Le rendu inverse de scènes urbaines à partir de vidéos capturées permet de nombreuses applications, notamment la création de contenu et la simulation de conduite autonome. Les méthodes de rendu physiquement réaliste suivent et contrôlent la physique de l'éclairage, mais souffrent d'artefacts de reconstruction et de rendu. Tandis que les modèles génératifs produisent des vidéos réalistes, ils offrent une cohérence et une contrôlabilité limitées. Nous présentons BRDFusion, un cadre unifié qui combine deux modèles complémentaires pour le rendu inverse et direct. Plus précisément, BRDFusion récupère des propriétés de scène explicites et cohérentes grâce à la modélisation physique et atténue l'ambiguïté d'optimisation à l'aide de priors génératifs. Lors du rendu direct, le modèle physique permet un rendu contrôlable à partir de la configuration de la scène, et le modèle génératif débruit et corrige les artefacts. Ainsi, notre méthode produit des vidéos de haute qualité tout en permettant un contrôle précis, surpassant les bases de référence sur des scènes réelles et synthétiques. De plus, BRDFusion prend en charge le rééclairage de nouvelles vues, la simulation nocturne et l'insertion/édition dynamique d'objets. Page du projet : https://shigon255.github.io/brdfusion-page/
Les modèles de langage visuels servent d'interfaces polyvalentes pour des tâches multimodales complexes. Cependant, leur déploiement se heurte encore à trois écarts : les VLMs entraînent généralement une latence et un coût élevés lors du traitement de trames vidéo denses et de longues invites, l'infrastructure d'agent reste statique après le déploiement, et les référentiels standard de questions-réponses vidéo ne testent pas si les agents peuvent utiliser des preuves visuelles dans des espaces de travail utilisant des outils. Nous présentons VisualClaw, un agent multimodal auto-évolutif construit autour de deux principes. Premièrement, l'encodage hybride réduit le coût de déploiement en filtrant les trames de streaming moins informatives via une porte en cascade et en compressant la banque de compétences textuelles par injection top-k chaud/froid. Deuxièmement, l'évolution des compétences permet à l'agent d'apprendre de ses échecs : les souvenirs récupérés conditionnent un évolueur soit en tant que contexte directement concaténé, soit en tant que preuve guidée, produisant des mises à jour de la banque de compétences qui aident les questions futures. Sur 4 référentiels de questions-réponses vidéo avec 2 VLMs, VisualClaw réduit le coût API par question en moyenne de -98 % par rapport à l'upload complet des trames et de -25,9 % par rapport à la référence hors ligne uniforme de 8 trames, tout en améliorant la précision dans la plupart des configurations, par exemple une augmentation moyenne de +3,85 % et un pic de +15,80 % sur EgoSchema avec Gemini 3 Flash. Pour combler cet écart, nous élaborons VisualClawArena, un référentiel agentique multimodal de 200 scénarios construit via un pipeline strict en cinq étapes ; les modèles doivent utiliser des preuves vidéo, des documents, des mises à jour dynamiques et des vérifications exécutables dans un espace de travail. Sur VisualClawArena, le même cadre avec des backends d'agent d'utilisation d'ordinateur améliore la précision macro de +2,9 % pour Codex (GPT-5.5) et de +3,2 % pour Claude Code (Sonnet 4.6) par rapport aux bases sans évolution, avec une réduction du coût de -9,5 % par rapport à la base d'échantillonnage uniforme. Ces propriétés font de VisualClaw un choix naturel pour les applications périphériques, où la cascade réduit une session de streaming d'une heure d'environ 3 600 uploads API à seulement 5 à 20 appels, et l'auto-évolution en fait un assistant personnalisé parfait.
Nous présentons Qwen-RobotWorld, un modèle vidéo du monde conditionné par le langage pour l’intelligence incarnée. Utilisant le langage naturel comme interface d’action unifiée, il prédit des trajectoires visuelles futures physiquement fondées à partir d’observations actuelles, couvrant la manipulation robotique, la conduite autonome, la navigation en intérieur et le transfert humain-robot. Cette formulation unifiée offre trois directions d’application prometteuses : la génération de données synthétiques pour enrichir l’apprentissage des politiques, des environnements virtuels évolutifs pour l’évaluation des politiques, et des signaux de planification guidés par le langage pour le contrôle aval des robots. Ce résultat est obtenu grâce à une architecture en trois parties : a) un MMDiT à double flux avec encodage d’action MLLM, où un transformateur de diffusion à double flux de 60 couches couple la sémantique gelée de Qwen2.5-VL avec les latents vidéo-VAE via une attention conjointe par couche ; b) la Connaissance Mondiale Incarnée (Embodied World Knowledge, EWK), un corpus vidéo-texte de 8,6 millions d’entrées (plus de 200 millions d’images) avec une correspondance action-langage couvrant plus de 20 incarnations et plus de 500 catégories d’actions ; et c) un Curriculum Progressif Général+Expert, une stratégie d’entraînement en deux étapes qui apprend d’abord les a priori visuels généraux puis injecte une spécialisation incarnée sous une interface langagière partagée. Les résultats étendus montrent une forte compétitivité : classé 1er au classement général sur EWMBench et DreamGen Bench, surpassant tous les modèles open-source sur WorldModelBench et PBench. Des analyses zero-shot supplémentaires sur le benchmark RoboTwin-IF confirment une robustesse généralisée et une cohérence multi-vue.
L'apprentissage multi-tâches (AMT) est essentiel dans les systèmes de recommandation pour permettre un apprentissage complémentaire entre diverses formes de retour utilisateur. Alors que les pratiques industrielles modernes sont passées des réseaux de neurones profonds (DNN) aux architectures centrées sur les Transformers afin de renforcer la modélisation séquentielle et la capacité de passage à l'échelle, elles découplent toujours l'encodage des caractéristiques de la prédiction multi-tâches, traitant le Transformer comme un encodeur indépendant des tâches. Cette conception limite fondamentalement les performances et la capacité de passage à l'échelle en (1) créant un goulot d'étranglement informationnel sous des objectifs de tâches hétérogènes, (2) induisant une interférence de gradient qui conduit au phénomène de balancier, et (3) imposant une transition de flux de données dans laquelle l'apprentissage de représentations adaptatives au contexte fondé sur l'attention est converti en prédiction de tâches statique par propagation avant, avec des dynamiques de lecture-écriture d'informations incompatibles. Nous proposons OneRank, un cadre de classement multi-tâches natif des Transformers qui élimine la séparation encodeur-prédicteur et introduit des canaux privés aux tâches pour l'apprentissage de représentations en avant et l'optimisation en arrière, permettant un apprentissage spécialisé par tâche tout en réduisant l'interférence entre tâches. Lors du passage avant, OneRank apprend des représentations spécifiques aux tâches de manière ascendante grâce à une sélection d'informations conditionnée par la tâche, une contextualisation sensible au candidat et une interaction inter-tâches contrôlée. Lors du passage arrière, le détachement de gradient inter-tâches isole les mises à jour des paramètres privés aux tâches des modules d'extraction de connaissances partagées, empêchant ainsi le transfert négatif. Nous remplaçons en outre les prédicteurs MLP statiques et spécifiques aux tâches par une notation dynamique basée sur l'appariement pour un classement personnalisé sensible au contexte. En internalisant le raisonnement multi-tâches au sein de la pile du Transformer, OneRank établit un paradigme architectural unifié et extensible. Des expériences hors ligne et en ligne sur des ensembles de données industrielles à grande échelle montrent que OneRank surpasse significativement les bases de référence de pointe tout en maintenant une efficacité computationnelle.
Alors que les agents LLM sont déployés dans des sessions de longue durée, l'accumulation de contexte fait grimper les coûts d'inférence. Les approches existantes utilisent l'élagage de texte ou l'éviction dynamique de mémoire pour minimiser l'empreinte des tokens ; cependant, leurs mutations séquentielles non contraintes modifient les agencements, introduisant des décalages de préfixes et une invalidation du cache. Cela révèle un compromis critique entre la parcimonie du texte et la continuité du cache de prompts. Pour y remédier, nous présentons TokenPilot, un cadre de gestion de contexte à double granularité. Globalement, le compactage sensible à l'ingestion agit comme un harnais du cadre pour stabiliser les préfixes de prompts et éliminer le bruit environnemental du monde ouvert à la porte d'ingestion. Localement, l'éviction sensible au cycle de vie surveille l'utilité résiduelle continue des segments de contexte, imposant un calendrier conservateur par lots de tours pour décharger les segments de contenu uniquement lorsque leur pertinence pour la tâche expire. Les expériences sur PinchBench et Claw-Eval en modes isolé et continu montrent que TokenPilot réduit les coûts de 61 % et 56 % en mode isolé, et de 61 % et 87 % en mode continu, tout en maintenant des performances compétitives par rapport aux systèmes précédents. TokenPilot a été intégré dans LightMem2 à l'adresse https://github.com/zjunlp/LightMem2.
Les modèles de monde visuel (MMV) synthétisent des déroulements interactifs conditionnés par les actions à partir d'une seule image de contexte. Cependant, la question de la robustesse de ces modèles face aux perturbations adverses reste ouverte. Les attaques adverses standard ne parviennent pas à évaluer cette vulnérabilité car les attaquants ne disposent pas de vidéos futures de référence et ne peuvent pas prédire les contrôles ultérieurs de l'utilisateur. Nous introduisons BadWorld, un cadre adversarial sans étiquette conçu pour les MMV autorégressifs, qui surmonte systématiquement ces deux contraintes. Premièrement, pour contourner le besoin de supervision future, nous proposons une attaque de vélocité auto-supervisée qui perturbe directement la dynamique précoce de débruitage du modèle. Deuxièmement, pour garantir que l'attaque généralise à travers des actions utilisateur imprévisibles, nous formulons une optimisation bi-niveau adaptative à la trajectoire qui extrait activement des séquences de contrôle difficiles afin de forger des perturbations indépendantes du contrôle. Évalué sur des MMV représentatifs avec des contrôles continus et discrets, BadWorld révèle une fragilité structurelle sévère. Des images adverses visuellement indiscernables déclenchent de manière fiable une dégradation catastrophique dans les déroulements futurs, entraînant un débruitage incomplet, un effondrement structurel et une incohérence du contrôle. Ces résultats mettent en lumière des risques critiques pour le déploiement des MMV dans des systèmes critiques pour la sécurité, tout en suggérant un mécanisme pratique pour la protection de la vie privée.
Étendre une politique vision-langage-action (VLA) à une nouvelle tâche nécessite généralement des démonstrations téléopérées spécifiques à la tâche et un ajustement fin par tâche, ce qui rend l'adaptation coûteuse tant en termes de collecte de données que de calcul. Dans cet article, nous montrons que ce coût d'adaptation par tâche du côté cible peut être remplacé par la récupération. Notre politique augmentée par récupération est entraînée une fois sur des démonstrations appariées provenant de l'incarnation cible (requête) et d'une incarnation moins coûteuse (pool, par exemple, vidéo de main humaine), puis gelée. De nouvelles tâches sont ajoutées lors du déploiement en ajoutant des démonstrations côté pool à un pool de récupération. La politique gelée se conditionne sur les trajectoires récupérées à chaque pas de contrôle, de sorte que les nouvelles tâches sont absorbées par l'indexation des données plutôt que par la mise à jour des paramètres. L'ajustement fin n'est nécessaire que pour prendre en charge une nouvelle incarnation non vue, et non pour chaque nouvelle tâche. Nous montrons que la récupération améliore les politiques au-delà d'un backbone spécifique, y compris les politiques VLA standard, mais son effet est particulièrement prononcé dans Cosmos Policy, un modèle monde-action (WAM) basé sur la génération vidéo. Dans ce contexte, la récupération fournit une progression grossière de la tâche, tandis que l'objectif d'image future du WAM fournit un signal de cohérence visuelle supplémentaire qui renforce les actions conditionnées par la récupération. Sur PushT, nous étudions comment la récupération fournit un a priori de mouvement de haut niveau réutilisable pour la généralisation inter-incarnation à des angles objectifs non vus, tandis que sur RoboTwin 2.0, notre méthode surpasse les lignes de base inter-incarnation sur des tâches non vues, et nous démontrons également la méthode sur un robot réel.
Dans cet article, nous présentons SP^3, un nouvel algorithme « Plug-and-Play » qui accélère la restauration d’image par maximum a posteriori en remplaçant les débruitiseurs par des encodeurs sphériques (Spherical Encoders, SE) en tant qu’a priori génératifs. SP^3 approxime l’étape de proximal antérieure insoluble en utilisant l’espace latent étroitement structuré des SE comme une projection robuste sur la variété des images naturelles. En alternant cette projection avec une étape de consistance des données en forme fermée, via un splitting demi-quadratique (Half-Quadratic Splitting), une convergence stable est obtenue sans nécessiter de calcul de gradient lors de l’inférence. Cette formulation unique permet une capacité de restauration « à tout moment », produisant des images nettes et plausibles dès la première itération. Les évaluations sur diverses tâches de restauration d’image montrent que SP^3 atteint une qualité perceptuelle comparable aux méthodes de diffusion et de flot zero-shot de pointe, tout en étant 3 à 630 fois plus rapide.
La génération de vidéos longues nécessite que les sujets récurrents restent cohérents à travers divers plans, points de vue, mouvements et transitions de scènes. Les méthodes existantes de décomposition temporelle améliorent la scalabilité en générant des vidéos plan par plan. Cependant, elles se concentrent principalement sur l'optimisation de continuations plausibles du plan suivant sans vérifier si la mémoire historique préserve les preuves essentielles à l'identité du sujet. Par conséquent, à mesure que la génération progresse, les sujets récurrents peuvent être dilués, écrasés ou oubliés. Dans cet article, nous proposons Memento, un cadre guidé par la reconstruction du sujet qui traite la préservation du sujet comme un problème explicite d'ancrage identitaire, fondé sur le principe qu'une banque de mémoire fidèle à un sujet devrait permettre de reconstruire ce sujet à partir de la seule mémoire. Plus précisément, Memento entraîne conjointement la génération autorégressive du plan suivant avec la reconstruction du sujet basée sur la mémoire, en récupérant les apparences cibles à l'aide de la mémoire historique et des légendes globales de l'histoire. Pour démêler les preuves de sujet à long terme des indices à court terme, Memento introduit un mécanisme de mémoire à double requête, où une requête récupère la mémoire pertinente à l'identité et l'autre sélectionne des images clés à contexte court pour une continuation cohérente. De plus, un pipeline de données cinématographique sensible au sujet fournit une supervision précise de la reconstruction via des descriptions de sujet cohérentes et sans pronom. Les expériences montrent que Memento atteint des performances de pointe en matière de cohérence sujet à long terme, de cohérence inter-plan et de qualité visuelle.
Nous présentons le *Massive Video Embedding Benchmark* (MVEB), un ensemble de 23 tâches pour les plongements vidéo, couvrant la classification, la classification *zero-shot*, le regroupement (*clustering*), la classification par paires, la recherche et la réponse à des questions centrées sur la vidéo. Nous évaluons 33 modèles et constatons qu'aucun modèle unique ne domine : les plongements basés sur les MLLM excellent en classification, regroupement, classification par paires et Q&R ; la liaison multimodale (*multimodal binding*) est en tête pour la recherche et la classification *zero-shot* ; les MLLM génératifs sans adaptation contrastive s'effondrent sur les tâches intermodales. Des évaluations appariées vidéo seule versus audio+vidéo montrent que la contribution de l'audio dépend de la provenance des annotations des ensembles de données : l'audio aide lorsque les étiquettes ont été produites à partir des deux modalités et nuit lorsqu'elles ont été produites uniquement à partir du visuel, un écart de six points constant entre les familles de modèles. MVEB est dérivé de MVEB+, un ensemble de 184 tâches, et est conçu pour maintenir la diversité des tâches tout en réduisant le coût d'évaluation. Il s'intègre dans l'écosystème MTEB pour une évaluation unifiée du texte, de l'image, de l'audio et de la vidéo. Nous publions MVEB et l'ensemble des 184 tâches, accompagnés du code et d'un classement (*leaderboard*) à l'adresse https://github.com/embeddings-benchmark/mteb.
Nous présentons Nemotron 3 Ultra, un modèle de langage hybride Mamba-Attention à mélange d'experts (Mixture-of-Experts) de 550 milliards de paramètres au total, dont 55 milliards actifs. Nous avons pré-entraîné Nemotron 3 Ultra sur 20 000 milliards de tokens textuels, puis étendu la longueur de contexte à 1 million de tokens, et effectué un post-entraînement via du fine-tuning supervisé (SFT), de l'apprentissage par renforcement (RL) et une distillation sur politique multi-enseignants (MOPD). Nemotron 3 Ultra est notre modèle le plus performant à ce jour, intégrant plusieurs technologies clés : LatentMoE, prédiction multi-tokens (MTP), pré-entraînement NVFP4, RLVR multi-environnement, MOPD et contrôle du budget de raisonnement. Par rapport aux LLMs publics de pointe, Nemotron 3 Ultra atteint un débit d'inférence jusqu'à ~6 fois supérieur, tout en conservant une précision équivalente. Sa précision de pointe, son débit d'inférence élevé et sa longueur de contexte d'un million de tokens en font un modèle idéal pour les tâches agentiques autonomes de longue durée. Nous publions en open source les points de contrôle (checkpoints) de base, post-entraînés et quantifiés, ainsi que les données d'entraînement et la recette, sur HuggingFace.
Les agents avancés montrent de plus en plus leur capacité à fonctionner comme des ingénieurs autonomes, ce qui génère une demande croissante de bancs d’évaluation capables de capturer la complexité du développement réel. De tels environnements impliquent généralement à la fois du code complexe et des données à grande échelle (c’est-à-dire un système de fichiers). Cependant, les bancs d’évaluation existants évaluent le plus souvent les capacités centrées sur le code ou centrées sur les données de manière isolée, laissant un fossé évident avec les scénarios de développement réels. Dans cet article, nous comblons ce fossé en introduisant CODA-BENCH, le premier banc d’évaluation à évaluer conjointement l’intelligence liée au code et aux données dans un environnement intensif en données. Nous construisons un bac à sable Linux intensif en données basé sur l’écosystème Kaggle (contenant des centaines d’ensembles de données), où les agents doivent explorer activement des hiérarchies de fichiers complexes pour identifier les ressources pertinentes et générer du code pour des tâches analytiques pilotées par les données. CODA-BENCH comprend 1 009 tâches réparties dans 31 communautés, chaque environnement de tâche contenant en moyenne 980 fichiers, simulant ainsi l’échelle et le bruit réalistes des données. Les évaluations des agents avancés révèlent que même les systèmes les plus performants peinent à intégrer efficacement la découverte de données et l’exécution de code, avec un taux de succès de seulement 61,1 %. Ces résultats mettent en évidence un fossé considérable dans les capacités actuelles des agents pour les tâches intensives en données et indiquent des pistes prometteuses pour la recherche future.
Les agents web agissent à travers de longues séquences d'interaction, pourtant les benchmarks existants n'évaluent que le succès terminal, écartant toutes les informations de processus et offrant peu de pistes d'amélioration. Dans ce travail, nous menons une analyse au niveau des processus des agents web. Nous introduisons WebStep, un benchmark de 1 800 instances de tâches avec une difficulté contrôlée et un suivi d'état sémantique automatique. Chaque site web expose un MDP sémantique déterministe parallèlement à l'interface graphique : l'agent opère sur l'interface, tandis que l'environnement enregistre les états de haut niveau et les transitions en arrière-plan, permettant une analyse fine sans annotation manuelle. Sur la base de la trajectoire sémantique, nous montrons d'abord que les métriques de processus révèlent des différences invisibles à l'évaluation des résultats : trois agents dont les taux de réussite se situent entre 31 et 33 % divergent en termes de portée d'exploration versus précision d'exécution. Ensuite, une décomposition par compétence caractérise la nature de ces différences, exposant des classements par compétence opposés cachés au sein d'un même site : par exemple, sur Housing, OpenAI CUA surpasse Qwen3.5 de 23,7 % pour les actions de validation tout en lui étant inférieur de 15,6 % pour le filtrage, identifiant ainsi une compétence concrète à améliorer même au sein d'un domaine. L'analyse de bifurcation localise en outre l'erreur décisive qui fait perdre la tâche et montre que cette erreur est propre à l'agent plutôt que partagée. Enfin, ces différences s'accentuent à mesure que les tâches deviennent plus difficiles : le taux de réussite est similaire sur les tâches faciles mais se sépare nettement lorsque l'exploration devient plus exigeante. Notre analyse au niveau des processus ouvre une nouvelle voie dans l'évaluation des agents web, fournissant un aperçu précis et exploitable de là où et comment chaque agent doit être amélioré.
A mesure que les modèles de langage de grande taille (LLMs) progressent, l'apprentissage par renforcement (RL) post-entraînement repose de plus en plus sur des récompenses multidimensionnelles pour développer des capacités complètes. Cette évolution exige de nouveaux algorithmes capables d'optimiser simultanément des objectifs divers et potentiellement concurrents. Pour y répondre, des méthodes existantes telles que l'Optimisation de Politique Découplée par Groupe de Récompenses (GDPO) décomposent le score global en groupes de récompenses indépendants, puis calculent la perte RL séparément au sein de chaque groupe. Cependant, cette stratégie se heurte encore à des conflits multi-récompenses : un même déploiement peut générer des avantages positifs sur certaines dimensions de récompense et négatifs sur d'autres, provoquant une annulation mutuelle des signaux opposés lors de l'agrégation, ce qui freine l'efficacité de l'entraînement RL. Inspirés par l'Optimisation de Politique par Échantillonnage Dynamique (DAPO), qui améliore l'efficacité de l'entraînement RL en filtrant les déploiements inefficaces dont les avantages sont proches de zéro, nous proposons l'Optimisation de Politique Découplée par Groupe de Récompenses Dynamiques (GD²PO). Plus précisément, GD²PO utilise un mécanisme de filtrage sensible aux conflits pour masquer les déploiements souffrant d'un désaccord marqué entre les récompenses. En empêchant les signaux contradictoires de s'annuler mutuellement, cette stratégie de masquage préserve et amplifie l'amplitude des avantages RL effectifs, accélérant ainsi significativement l'efficacité de l'apprentissage. De plus, nous introduisons une répondération au niveau des requêtes afin d'ajuster dynamiquement l'intensité de mise à jour de chaque requête en fonction du consensus global de ses récompenses. Les expériences menées sur divers scénarios multi-récompenses, incluant l'appel d'outils et l'alignement des préférences humaines, montrent que GD²PO surpasse systématiquement et significativement les bases de référence existantes. Le code est disponible à l'adresse https://github.com/Qwen-Applications/GD2PO.
On attend de plus en plus des agents téléphoniques qu'ils exécutent de véritables workflows mobiles, plutôt que de simplement prédire la prochaine action à l'écran. Pourtant, une grande partie de la littérature actuelle sur les agents mobiles évalue encore ces agents principalement comme des contrôleurs d'interface graphique (GUI) qui observent un écran, émettent des taps et des swipes, et sont notés selon l'état cible de l'application. Les tâches réelles d'utilisation d'un téléphone sont plus larges : elles nécessitent de décider quand utiliser les GUI des applications, les commandes côté appareil ou des outils structurés, tout en laissant des preuves que l'effet de bord visé s'est réellement produit. Nous présentons PhoneHarness, un benchmark et un harnais d'exécution à actions mixtes pour étudier les agents d'utilisation de téléphone sur des workflows mobiles vérifiables. PhoneHarness exécute une boucle d'agent côté appareil sur des actions GUI, CLI et outils côté hôte, combinant un routage déterministe des actions avec une délégation GUI limitée et des traces d'exécution auditées. Son benchmark, PhoneHarness Bench, évalue si les agents accomplissent des tâches avec des effets de bord observables, et non seulement s'ils produisent des réponses finales plausibles. Sur la division d'évaluation annotée, PhoneHarness atteint un taux de réussite de 75,0 %, surpassant de 12,9 points de pourcentage les configurations non-PhoneHarness les plus performantes. PhoneHarness et PhoneHarness Bench jouent donc des rôles distincts mais mutuellement dépendants : le harnais rend exécutables les workflows téléphoniques mixtes, tandis que le benchmark mesure si les agents peuvent utiliser ce harnais de manière fiable et sûre. Nos résultats suggèrent qu'une automatisation téléphonique fiable dépend du routage par surface d'action et de l'exécution vérifiable, et non seulement du contrôle visuel de l'interface graphique.
Les Modèles Multimodaux Unifiés (MMU) sont devenus une direction cruciale pour l’intelligence multimodale à usage général, intégrant compréhension et génération au sein d’un unique cadre. Cependant, les MMU existants font face à des défis majeurs : (1) les conflits d’apprentissage inhérents entre les tâches de compréhension visuelle et de génération, conduisant à une modélisation sous-optimale dans les deux cas ; (2) des espaces visuels distincts pour la compréhension et la génération, entravant l’évolutivité ; (3) une dépendance excessive aux données spécifiques aux tâches, négligeant la dualité entre compréhension et génération texte-image. Pour relever ces défis, nous proposons UniDDT, qui exploite un encodeur ViT bruité ainsi qu’un LLM pour unifier le codage sémantique des tâches de génération et de compréhension visuelle, tout en utilisant un décodeur de diffusion séparé pour découpler le décodage par diffusion du décodage textuel. Grâce à cet encodeur ViT bruité, UniDDT peut tirer parti de l’espace latent comme représentation visuelle unifiée, permettant une compatibilité transparente entre les tâches de compréhension et de génération. Ainsi, l’évolutivité au sein des tâches de génération et l’expressivité sémantique dans les tâches de compréhension peuvent être équilibrées. De plus, nous construisons des structures de données duales à partir des mêmes paires image-texte, favorisant l’interdépendance entre les données de génération et de compréhension afin d’exploiter leur dualité inhérente. Des expériences approfondies montrent qu’UniDDT réalise une unification efficace de la compréhension et de la génération multimodales, avec une meilleure cohérence sémantique et une évolutivité accrue. Pour les tâches de génération visuelle, notre UniDDT obtient un score GenEval de 0,87 et un score global DPG de 86,9. Pour les tâches de compréhension multimodale, notre UniDDT atteint un score de 1699,5 sur le benchmark MME et un score global de 76,5 sur SEEDbench.
Le service de LLM multi-tours accumule un historique de dialogue dont le cache Key-Value (KV) croît à chaque tour et pour chaque utilisateur, dépassant rapidement la taille des poids du modèle eux-mêmes et faisant de la mémoire — et non du calcul — le facteur limitant du débit. La compression KV non uniforme, qui alloue des budgets hétérogènes entre les têtes d’attention, préserve la précision bien mieux que les schémas uniformes, mais reste irréalisable : les piles de service modernes supposent des longueurs de KV identiques entre les têtes, de sorte que l’hétérogénéité piège la mémoire libérée sous forme de fragmentation des pages, consomme jusqu’à 25 % du temps de préremplissage à récupérer des pages dispersées, et déséquilibre les charges de travail GPU ce qui gonfle la latence de décodage jusqu’à 1,7 fois ou brûle 15 à 20 % de chaque étape de décodage en re-planification. Nous observons que cette hétérogénéité n’a pas besoin d’être découverte à l’exécution : la rétention par tête suit une régularité structurelle à deux niveaux — un classement des têtes invariant par entrée avec des ratios par tête étroitement bornés — qui peut être calibré hors ligne à partir d’aussi peu que 50 échantillons. Sur la base de cette observation, nous présentons Tangram, un framework de service qui résout de manière statique ce que les systèmes antérieurs traitent de manière dynamique : la Réservation de Budget fixe l’empreinte après compression de chaque tête au moment de l’ordonnancement, éliminant la récupération de pages ; la Pagination Irrégulière regroupe les têtes aux budgets similaires dans des tables de pages indépendantes, transformant la fragmentation en mémoire récupérable ; et l’Équilibrage de Charge Anticipé précalcule des partitions GPU équilibrées sans aucune planification à l’exécution. Implémenté sur vLLM, Tangram sert de substrat prêt à l’emploi pour les méthodes de compression non uniforme existantes, égalant leur précision tout en améliorant le débit de bout en bout jusqu’à 2,6 fois par rapport à la ligne de base avec KV complet. Notre implémentation est publiquement disponible à l’adresse https://github.com/aiha-lab/TANGRAM.
Le ré-rendu d'une vidéo existante depuis un nouveau point de vue de caméra nécessite que la sortie suive la trajectoire de caméra prescrite tout en préservant l'apparence et la dynamique de la scène originale à chaque image. Les méthodes existantes reposent sur des plongements de pose par image, des rendus de nuages de points bruités ou des correspondances implicites apprises, mais aucune ne fournit un lien explicite et temporellement continu entre les pixels source et cible. Nous proposons Track2View, qui conditionne un transformateur de diffusion vidéo sur des suivis de points 3D appariés : des trajectoires clairsemées de points de la scène projetées à la fois dans les vues de caméra source et cible. Ces suivis fournissent des correspondances spatio-temporelles explicites, temporellement continues par construction, encodant quel contenu doit apparaître où et quand. Au cœur de Track2View se trouve un conditionneur de suivi à double vue qui transfère le contexte visuel de la vue source à la vue cible via des opérations géométriques sans paramètre et une agrégation temporelle apprise, garantissant la généralisation à des trajectoires de caméra arbitraires sans mémoriser de mouvements spécifiques. Nous introduisons en outre un pipeline de curation de données qui extrait des correspondances de suivi un-à-un en exécutant un suiveur de points 3D sur des paires de vues multi-caméras concaténées temporellement. Sur un benchmark de 400 vidéos couvrant des scènes statiques et dynamiques, Track2View atteint des résultats de pointe en termes de qualité visuelle, de synchronisation des vues et de précision de la caméra, réduisant l'erreur de rotation de 30 à 65 % et l'erreur de translation de 61 à 72 % par rapport aux références principales. La page du projet est disponible à cette URL : https://qjizhi.github.io/track2view.
Lorsque des politiques VLA pré-entraînées sont affinées par RL en ligne, chaque épisode de déploiement ne produit qu'un seul résultat binaire (succès ou échec), alors que la mise à jour de l'acteur nécessite une supervision par transition. Les approches existantes réduisent généralement ce résultat parcimonieux à un unique signal scalaire de récompense ou d'avantage, ce qui confond des formes distinctes de rétroaction au niveau des transitions et fournit un guidage limité une fois que le succès de la tâche de base devient atteignable. Premièrement, un signal scalaire unique confond les deux objectifs que sont la viabilité et l'efficacité ; une fois le succès de base atteint, l'étiquette binaire n'offre aucun gradient pour distinguer les accomplissements efficaces des accomplissements lents. Deuxièmement, les déploiements réels mélangent des segments autonomes et des segments d'intervention ; attribuer naïvement les résultats des épisodes à travers ces limites introduit une attribution de crédit incorrecte. Pour résoudre ces problèmes, nous proposons le Clonage Comportemental Hiérarchique Pondéré par l'Avantage (HABC), qui entraîne des têtes critiques distinctes pour ces deux objectifs sur différents sous-ensembles de données et combine leurs sorties avec un équilibre adaptatif à l'état. Une porte adaptative à l'état g_t fusionne leurs avantages en un pas, priorisant la viabilité lorsque le succès est incertain et ne basculant vers l'efficacité que lorsque la viabilité est élevée, et convertit le résultat en poids par transition sur la perte de l'acteur. L'attribution de crédit consciente des interventions restreint en outre les étiquettes de résultat aux segments exécutés par la politique courante, empêchant toute fuite de supervision à travers les limites d'intervention. Dans des expériences sur robot réel portant sur trois tâches bimanuelles à contact riche, HABC fait passer le taux de succès des bases d'ajustement supervisé (SFT) de 36 %, 44 % et 12 % à 92 %, 88 % et 38 %.
Les progrès en intelligence artificielle ont été largement portés par des méthodes qui reposent sur moins d'hypothèses. À mesure que la puissance de calcul et les données augmentent, les approches dotées de biais inductifs plus faibles surpassent généralement celles qui font des hypothèses plus fortes. Cette tendance est particulièrement caractéristique du domaine de l'apprentissage de représentations visuelles, où les approches sont passées d'une domination de l'apprentissage supervisé à celle de l'apprentissage faiblement supervisé, pour aboutir au succès désormais généralisé de l'apprentissage auto-supervisé sans étiquettes humaines. Pourtant, même les méthodes modernes d'apprentissage auto-supervisé dépendent encore de biais inductifs forts tels que les augmentations, le masquage ou le recadrage. Si cette tendance se maintient, ces biais résiduels devraient eux-mêmes devenir des goulots d'étranglement à grande échelle — et nos expériences le confirment : la force optimale des biais inductifs diminue à mesure que les données augmentent. Cela motive la recherche d'approches reposant sur moins d'hypothèses. À cette fin, nous introduisons la Différence Temporelle en Vision (TDV), un nouveau paradigme pour l'apprentissage auto-supervisé à partir de vidéos qui évite les biais inductifs existants, en s'appuyant plutôt sur une hypothèse causale selon laquelle le passé cause le futur. TDV fonctionne en entraînant conjointement un encodeur d'images et un encodeur de mouvement, de sorte que la représentation de l'image courante additionnée au mouvement encodé soit égale à la représentation de l'image suivante. Bien qu'elle n'exploite aucun biais inductif fort, TDV atteint des performances comparables aux méthodes de pointe sur des tâches spatiales denses, jetant ainsi les bases d'un apprentissage de représentations sans hypothèses fortes.
Les autoencodeurs parcimonieux (SAEs) sont largement utilisés pour interpréter les représentations des réseaux de neurones, mais leur utilité dépend de la reproductibilité des caractéristiques apprises d'un entraînement à l'autre. Nous étudions cette question à travers la stabilité des caractéristiques : pour chaque caractéristique d'un SAE, nous estimons la probabilité qu'une caractéristique similaire réapparaisse dans un SAE entraîné indépendamment. Cela produit un signal par caractéristique évolutif qui sépare les caractéristiques stables des instables. Dans une étude à grande échelle portant sur différents germes aléatoires, modèles, couches, tailles de dictionnaire et variantes de SAE, nous constatons une asymétrie fonctionnelle prononcée : les caractéristiques stables portent la majeure partie du signal pertinent pour la reconstruction et la prédiction, tandis que les caractéristiques instables ont un impact marginal faible et sont dominées par des déclencheurs de forme de surface à basse fréquence, tant dans les statistiques d'activation que dans les explications automatiques. Géométriquement, les caractéristiques instables ne sont pas reproductibles individuellement mais se concentrent dans des sous-espaces de rang inférieur reproductibles, ce qui suggère que la dépendance au germe reflète souvent une ambiguïté de base dans une région partagée de l'espace d'activation plutôt qu'un simple bruit. Un modèle synthétique contrôlé rend ce mécanisme explicite, montrant que des caractéristiques de vérité terrain de faible rang peuvent être récupérées au niveau du sous-espace tout en restant non identifiables en tant que latents individuels du SAE d'un germe à l'autre. Enfin, en regroupant les caractéristiques uniques inter-germes, nous construisons des SAE plus stables tout en préservant la variance expliquée dans ce cadre. Ensemble, ces résultats montrent que les caractéristiques instables ne sont pas simplement des latents échoués ou bruités : elles ont un faible impact fonctionnel individuel, mais reflètent une structure reproductible de faible dimension que les SAE standards résolvent différemment selon les germes.
Les transformers de diffusion ont démontré des capacités génératives remarquables, mais les riches représentations perceptuelles calculées tout au long de leur trajectoire de débruitage sont écartées une fois le contenu rendu. Nous présentons MMDiff, un framework qui transforme un transformer de diffusion figé en un système génératif multimodal produisant conjointement des images avec toute combinaison de modalités perceptuelles denses, en utilisant des têtes de décodeur légères. Notre résultat central est que l'information perceptuelle est distribuée temporellement le long de la trajectoire de débruitage, et que la fusion de caractéristiques multi-pas temporels avec des poids d'agrégation variant spatialement est essentielle, améliorant les résultats de segmentation sémantique jusqu'à 28,7 % de mIoU par rapport à l'extraction sur un seul pas temporel. Nous adoptons en outre l'extraction d'attention guidée par des concepts pour un guidage spatial interprétable, et montrons que les caractéristiques de diffusion figées sont compétitives avec les encodeurs de pointe tels que DINOv3 et leur sont complémentaires. En n'entraînant que des têtes de décodeur légères sur un backbone figé, nous obtenons de bonnes performances en segmentation sémantique, détection d'objets saillants et estimation de profondeur, et nous démontrons que ce framework permet une génération efficace de données synthétiques à grande échelle.
Le raisonnement avancé requiert généralement l’utilisation de l’invite de chaîne de pensée (Chain-of-Thought prompting), méthode précise mais qui entraîne une latence rédhibitoire et des coûts d’inférence importants lors du test. L’alternative standard, à savoir l’ajustement fin de modèles plus petits, sacrifie souvent l’interprétabilité tout en introduisant une surcharge opérationnelle et de ressources considérable. Pour pallier ces limitations, nous introduisons la distillation au niveau de l’invite (Prompt-Level Distillation, PLD). Nous extrayons des schémas de raisonnement explicites d’un modèle enseignant et les organisons en une liste structurée d’instructions expressives destinées à l’invite système du modèle étudiant. Évaluée avec Gemma-3 4B, la PLD a amélioré les scores F1 macro sur StereoSet (de 57 % à 90,0 %) et Contract-NLI (de 67 % à 83 %), tout en portant la précision sur LogiQA à 70 %. Des résultats similaires obtenus avec Mistral Small 3.1 démontrent une généralisabilité inter-architecture, permettant à ces modèles compacts d’atteindre des performances de pointe avec une surcharge de latence négligeable. Ces instructions expressives rendent le processus décisionnel transparent, autorisant une vérification humaine complète de la logique, ce qui rend cette approche idéale pour les secteurs réglementés tels que le droit, la finance et la modération de contenu, ainsi que pour les cas d’usage à fort volume et les dispositifs de périphérie.
L'apprentissage par renforcement (RL) à récompenses rares est devenu un outil standard pour améliorer le raisonnement des LLM, mais son succès dépend crucialement de la couverture présente dans le modèle de base. En pratique, les modèles sont souvent préparés pour le RL via un entraînement intermédiaire sur des traces de raisonnement curées qui enseignent des compétences primitives utiles telles que la décomposition, la vérification ou l'auto-correction. Bien qu'efficace, cette stratégie nécessite de spécifier manuellement ce que le modèle doit apprendre, et il reste incertain si une telle couverture primitive est suffisante pour des problèmes beaucoup plus difficiles, qui exigent de combiner ces compétences en des stratégies de résolution plus larges. Nous étudions une approche plus automatisée : un entraînement intermédiaire basé sur le RL utilisant de grands corpus de données de questions-réponses rédigées par des humains. Plutôt que de traiter les solutions de référence comme des cibles à imiter, notre méthode, ExpRL, les utilise comme échafaudages de récompenses : les références sont cachées de la politique et servent uniquement à construire des grilles d'évaluation spécifiques au problème pour juger les traces de raisonnement sur politique. La politique échantillonne à partir de l'énoncé initial du problème, tandis qu'un juge LLM compare la trace de raisonnement échantillonnée à la solution de référence et attribue des récompenses denses au niveau du résultat ou du processus. Cela permet à ExpRL de renforcer les progrès partiels, les réductions intermédiaires utiles et les comportements de raisonnement productifs que les récompenses rares basées sur la réponse finale échouent souvent à valoriser. Sur des tâches de raisonnement mathématique exigeantes, ExpRL produit un meilleur amorçage RL que le SFT, la GRPO à récompenses rares et l'auto-distillation, et fournit une meilleure initialisation pour le RL ultérieur à récompenses rares. Des expériences supplémentaires sur des domaines mixtes suggèrent en outre qu'ExpRL peut s'étendre au-delà du cadre purement mathématique initial.
La génération cohérente de vidéos sous des opérations d'édition nécessite de la persistance : lorsque les modifications altèrent l'apparence ou la disposition de la scène, les générations ultérieures doivent rester cohérentes dans le temps et à travers les points de vue. Cependant, les conceptions de mémoire existantes peinent à maintenir une cohérence à long terme après de telles modifications, car les contextes stockés peuvent devenir obsolètes ou invalides. Pour remédier à cela, nous proposons PermaVid, un nouveau cadre fondé sur une mémoire contextuelle multimodale qui désolidarise le contexte spatial en apparence sémantique et en structure géométrique, associé à une stratégie de mise à jour et de récupération de mémoire sensible aux éditions, garantissant que l'évolution de la mémoire reste alignée avec les observations ultérieures. Plus précisément, nous développons deux banques de mémoire complémentaires : une mémoire de contexte RGB qui capture les observations liées à l'apparence tout en encodant implicitement la géométrie, et une mémoire de contexte de profondeur qui préserve une structure uniquement géométrique, désolidarisée de la sémantique. Sur la base de cette conception, nous introduisons un modèle de génération vidéo guidé par la mémoire qui effectue une fusion de caractéristiques multimodales sous des conditions de référence issues de contextes mémoire de modalités mixtes. Les expériences démontrent que notre méthode maintient une forte cohérence sémantique et structurelle à long terme après les éditions, surpassant significativement les méthodes de pointe.
Bienvenue dans la neuvième édition du rapport de l'Indice IA. Alors que l'IA continue de progresser rapidement, la question se pose de savoir si les systèmes construits autour d'elle peuvent suivre le rythme. Les cadres de gouvernance, les méthodes d'évaluation, les systèmes éducatifs et l'infrastructure de données nécessaires au suivi de l'impact de l'IA peinent à égaler la cadence de la technologie elle-même. Ce fossé entre ce que l'IA peut accomplir et notre degré de préparation à la gérer traverse l'ensemble des chapitres de ce rapport annuel. Nouveauté dans cette édition, le rapport examine comment l'IA est testée de manière plus ambitieuse dans les domaines du raisonnement, de la sécurité et de l'exécution de tâches réelles, et pourquoi il est de plus en plus difficile de se fier à ces mesures. Il présente également de nouvelles estimations de la valeur économique de l'IA générative, accompagnées de données émergentes sur ses effets sur le marché du travail, un cadre analytique sur la souveraineté de l'IA, ainsi qu'un chapitre scientifique développé en collaboration avec Schmidt Sciences. Pour la première fois, le rapport inclut des chapitres autonomes sur l'IA dans la science et l'IA dans la médecine, reflétant l'impact croissant de l'IA dans ces deux domaines.
Les grands modèles de langage (LLMs) sont de plus en plus adoptés comme architectures de base pour la recommandation générative (RG), promettant un accès à des connaissances mondiales pré-entraînées. Cependant, la manière d'invoquer de manière fiable ces connaissances pour la RG reste mal comprise. Un obstacle majeur est que la RG basée sur les LLMs représente généralement les éléments avec des identifiants sémantiques (IDS), ce qui perturbe l'interface de raisonnement en langage naturel des LLMs, car ces tokens sont inconnus du LLM lors du pré-entraînement. Les approches existantes traitent ce problème avec des pipelines multi-étapes coûteux qui ancrent les IDS et suscitent des justifications explicites, mais offrent un aperçu limité du moment et de la raison pour lesquels chaque étape est nécessaire. Dans ce travail, nous décomposons systématiquement les pipelines d'entraînement au raisonnement explicite pour la RG basée sur les LLMs, révélant trois limitations clés : une verbalisation affaiblie des connaissances mondiales, un désalignement entre les espaces de plongement des tokens des IDS et du langage naturel, et une sensibilité à la qualité des justifications, qui nuisent toutes à la performance du raisonnement explicite. Pour contourner ces problèmes, nous proposons PauseRec, un paradigme de raisonnement implicite léger adapté à la RG. PauseRec est exceptionnellement pratique, évitant l'acquisition coûteuse de traces de raisonnement et l'entraînement à l'alignement du raisonnement, ce qui entraîne une multitude d'avantages : (1) il surpasse les méthodes standard de chaîne de pensée (CoT) explicite jusqu'à 6,22 %, (2) il réduit le coût d'entraînement jusqu'à 65 % d'heures GPU, et (3) il accélère l'inférence jusqu'à 71,3 %. Ces résultats positionnent PauseRec comme une alternative légère à la génération de justifications explicites, permettant une RG basée sur les LLMs plus efficace et efficiente.
Les humains comprennent naturellement la physique des objets à travers leurs interactions quotidiennes, mais prédire avec exactitude les dynamiques déformables complexes, telles que celles des matériaux élastiques et des tissus, demeure un défi majeur pour la vision par ordinateur et la robotique. Nous présentons EgoPhys, un cadre qui construit des jumeaux numériques physiques déformables à partir de vidéos égocentriques en RVB uniquement, en utilisant des a priori généralisables. EgoPhys surmonte les limites des méthodes existantes pour permettre la génération contrôlable de jumeaux numériques déformables à partir de vidéos égocentriques en distillant les solutions de physique inverse propres à chaque objet dans un dictionnaire de codes compact, ce qui permet de prédire des champs denses de raideur de ressorts pour des objets jamais vus, sans nécessiter d'optimisation par ressort lors du test. Entraîné avec des a priori généralisables issus de diverses interactions égocentriques, EgoPhys surpasse les méthodes de référence en matière de reconstruction, de prédiction future et de généralisation sans ajustement. Pour soutenir l'entraînement et l'évaluation, nous constituons un jeu de données d'interactions égocentriques couvrant divers objets déformables, scènes et styles de manipulation. Nous déployons EgoPhys sur un véritable robot xArm6, démontrant qu'un jumeau numérique initialisé à partir d'une seule vidéo de jeu humain égocentrique peut servir de représentation interne du monde pour faciliter la planification avec des objets déformables, mettant en évidence les observations RVB égocentriques comme une voie scalable vers des pipelines du réel au simulé.
Les benchmarks standard de précision sont conçus pour évaluer à quel point les grands modèles de langage (LLMs) se rapprochent des réponses correctes, mais ils ne conviennent pas pour tester si les LLMs maintiennent une réponse correcte lorsque celle-ci est contestée par un contre-argument plausible. Nous introduisons un protocole contrôlé pour évaluer la stabilité des réponses : après qu'un modèle a répondu correctement à une question à choix multiples, nous contestons sa réponse avec un argument cohérent en faveur d'une option incorrecte et mesurons si le modèle change d'avis. Ce dispositif a) isole le contenu argumentatif de toute pression sociale explicite et b) fait varier la longueur des arguments, l'auto-attribution et la source inter-modèle. Sur sept modèles de pointe et 57 sujets MMLU, les taux de changement s'échelonnent de 17,5 % à 97,3 %, révélant des différences importantes de stabilité qui ne sont pas capturées par les seules métriques de précision. Nous constatons que l'auto-attribution augmente systématiquement les taux de changement (moyenne +7,1 points de pourcentage, jusqu'à +18,7 pp). De plus, la mise en commun des arguments de réponses incorrectes entre modèles et la sélection du plus efficace par question produit des défis adversariaux plus forts que le recours à un seul modèle source. Nous construisons également MaxFlip, un ensemble de défis optimisé qui amplifie les changements jusqu'à +23,6 pp par rapport aux défis auto-générés standards. Nous publions le protocole, les enregistrements des défis et MaxFlip pour soutenir l'évaluation de la stabilité en complément des benchmarks de précision standard. Les documents sont disponibles à l'adresse https://github.com/nafisenik/WhoFlips et https://hf.co/datasets/nafisehNik/WhoFlips.
Les modèles Vision-Langage-Action (VLA) exploitent le pré-entraînement vision-langage à grande échelle pour le contrôle sémantique des robots, mais manquent souvent d'une anticipation explicite de la manière dont les actions robotiques modifient la scène. Les modèles Monde-Action (WAM) répondent à cette limitation en conditionnant les politiques sur des futurs prédits, bien que les approches existantes reposent généralement sur une génération vidéo coûteuse en calcul avec une redondance substantielle au niveau des pixels. Nous présentons LaWAM, un modèle d'action latent mondial qui expose la dynamique prédictive aux politiques robotiques via des sous-objectifs visuels latents compacts, plutôt que par une reconstruction vidéo future. Au cœur de LaWAM se trouve un modèle mondial latent (LaWM) conditionné par des actions latentes. Nous obtenons LaWM en entraînant un modèle d'action latent dans l'espace latent d'un modèle de vision fondamental pré-entraîné, et en réaffectant son décodeur avant pour prédire les caractéristiques d'observation futures afin de rendre compte de l'évolution de la scène. LaWAM conditionne ensuite la génération d'actions sur ces sous-objectifs visuels latents prédits, permettant ainsi un contrôle robotique conscient de la dynamique. LaWAM atteint des taux de succès (TS) à la pointe ou compétitifs sur LIBERO (98,6 % de TS), RoboTwin (91,22 % de TS) et des tâches de manipulation en environnement réel, tout en conservant une inférence à faible latence. LaWAM s'exécute en 187 ms par prédiction de bloc d'actions et atteint une latence murale jusqu'à 24 fois inférieure à celle des WAM basés sur les pixels.
Un système de modération de contenu peut obtenir de bons résultats sur tous les indicateurs de précision standard tout en causant des dommages réels, si ses erreurs portent sur les quelques utilisateurs qui connectent des communautés autrement séparées. Nous le montrons dans un modèle basé sur des agents où N=240 agents apprenants sur un réseau structuré en communautés publient chacun un contenu inoffensif, productif ou dangereux, et un régulateur supprime ou pénalise tout ce qu'un classificateur bruité signale. L'utilité globale ne bouge quasiment pas lorsque le bruit change (ANOVA univariée, p=0,96) : selon les mesures agrégées, rien ne semble anormal. Les dommages se concentrent plutôt sur ces utilisateurs-ponts, dont les publications utiles sont injustement supprimées et dont les publications dangereuses sont injustement épargnées. Une perte de gouvernance (L_gov) qui évalue ces deux erreurs séparément du coût de mise en application plus que double sous un bruit à forte proportion de faux positifs. La précision agrégée cache qui est lésé, et la quantité peu coûteuse à auditer est le nombre de connexions d'un utilisateur (degré), un proxy quasi parfait de l'intermédiarité qui définit un pont (r=0,96).
Malgré des progrès considérables dans le développement de détecteurs de textes générés par machine, la facilité avec laquelle ces textes peuvent être manipulés pour échapper à la détection a conduit à suggérer que le problème est intrinsèquement insoluble. Dans ce travail, nous étudions les limites de ces stratégies d'évasion. Nous démontrons que si les attaques actuelles, allant de l'ingénierie de prompt à l'optimisation guidée par détecteur, peuvent effectivement dégrader les performances des détecteurs standards, elles échouent à effacer les «empreintes digitales» stylistiques sous-jacentes du texte généré par machine. Nous montrons que les détecteurs few-shot qui utilisent l'espace de caractéristiques stylistiques sont robustes à ces tentatives d'évasion, détectant de manière fiable les échantillons même provenant de modèles explicitement ajustés pour éviter la détection. Cela soulève la question : le style représente-t-il une défense universelle contre les attaques de détection automatique ? Nous démontrons que la réponse est « non » en introduisant une nouvelle approche de paraphrase qui optimise simultanément l'indétectabilité et l'adhésion à des styles humains spécifiques. Nous montrons que contrairement aux méthodes antérieures, cette attaque échappe efficacement à tous les détecteurs considérés, y compris ceux qui utilisent le style d'écriture. Cependant, nous constatons que cette évasion n'est pas absolue : à mesure que le nombre de documents disponibles pour l'analyse augmente, les distributions humaine et machine redeviennent distinguables. Dans l'ensemble, nos résultats suggèrent qu'une détection fiable des textes générés par machine nécessite de dépasser l'analyse d'un seul document pour passer à une analyse multi-documents.
Les êtres humains peuvent saisir des objets sans effort, tandis que les robots multi-doigts sont loin d'atteindre ce niveau de généralité. Nous soutenons que la source la plus naturelle de données de préhension pour les robots provient des humains, qui ramassent des milliers d'objets chaque jour. Nous présentons HUG, un modèle d'appariement de flux qui génère des préhensions humaines diverses pour tout objet spécifié par l'utilisateur à partir d'une seule image RGB-D capturée par une caméra stéréo. À l'aide de lunettes intelligentes, nous collectons d'abord 1M-HUGs, un ensemble de données égocentrique de préhensions humaines couvrant 1 million d'images (27,8 heures) et 6 707 instances d'objets réparties dans 41 bâtiments. Ensuite, pour modéliser la distribution des préhensions humaines naturelles, notre nouveau modèle d'appariement de flux fusionne les observations RVB et de profondeur pour produire une préhension paramétrée par la translation du poignet, la rotation du poignet et la pose de la main MANO. Les préhensions prédites peuvent être réaffectées à différentes mains robotiques, permettant une préhension zero-shot dans des scènes quotidiennes. Pour standardiser l'évaluation, nous construisons un nouveau banc d'essai simulé, HUG-Bench, comprenant 90 objets non vus de cinq catégories géométriques et de tailles variées, avec des maillages 3D à l'échelle métrique. Nous évaluons HUG dans le monde réel sur l'ensemble de test de 30 objets de HUG-Bench avec plusieurs caméras stéréo, incarnations robotiques et environnements domestiques. HUG surpasse les références de préhension de pointe de +23 % et +34 % sur notre ensemble d'objets exigeant. Le code, les données, le banc d'essai, les points de contrôle et une démo interactive sont disponibles sur notre site Web : https://grasping.io/
Polymarket est devenu une plateforme de marché de prédiction de premier plan et l’une des applications à la croissance la plus rapide dans la DeFi. Pour parvenir à un trading à faible latence, elle adopte une architecture hybride qui apparie les ordres hors chaîne, mais les règle sur chaîne pour une exécution finale. Cette conception crée un écart de cohérence que nous appelons Ghost Fills : un ordre apparié avec succès hors chaîne peut échouer ultérieurement lors du règlement sur chaîne. Pour comprendre les implications de cet écart en matière de sécurité, nous étudions ces échecs de règlement en construisant GHOSTHUNTER, qui les reconstitue à partir de traces sur chaîne et les attribue à des schémas d’attaque concrets. Sur 1 952 440 transactions d’appariement d’ordres annulées, nous constatons que les attaquants exploitent le décalage temporel entre l’appariement et le règlement pour invalider des ordres déjà appariés avant leur finalisation sur chaîne. Nous identifions ensuite quatre vecteurs d’attaque à partir de ces incidents : incrémentation de nonce, vidage de solde, révocation d’autorisation et piège de proxy, réalisés via 35 variantes en évolution. Ces vecteurs permettent aux attaquants d’annuler sélectivement 980 133 ordres exécutés, permettant des prédictions sans risque, la chasse aux robots d’arbitrage et la manipulation des récompenses de liquidité, générant au moins 1,49 million de dollars de profit, ce qui expose 1,78 milliard de dollars à un risque et 2,17 millions de POL (environ 212 000 dollars) payés par l’opérateur. Aux heures de pointe, plus de 24,3 % de tous les ordres exécutés sont annulés, provoquant de facto des attaques par déni de service. Nous constatons également que du code dérivé du contrat défectueux apparaît encore dans 167 contrats indépendants répartis sur 10 chaînes, détenant au moins 23 millions de dollars de fonds utilisateurs, étendant ainsi l’impact au-delà de Polymarket. Nous avons divulgué nos preuves aux parties concernées, et le problème a été partiellement atténué.
Nous présentons TuneJury, un modèle de récompense par paire au niveau des instances, ouvert, pour la génération texte vers musique, qui prédit un score de préférence musicale à partir d’une prompte textuelle et d’un extrait audio. Le point de contrôle publié est entraîné sur des étiquettes de préférence humaine accessibles publiquement, couvrant des votes de type arène (A vs. B), des paires de préférence alignées sur des métriques, des comparaisons par paires issues du crowdsourcing, et des évaluations esthétiques d’experts. La marge de score prédite entre deux extraits est bien calibrée sur notre ensemble de test réservé, ce qui permet un filtrage des données via un simple seuil de score. TuneJury généralise à la fois sur les paires de test réservées et sur les références hors distribution, restant compétitif avec les bases de référence antérieures sur ces dernières. Pour les générateurs publiés après l’entraînement, nous introduisons la calibration d’ancrage, une calibration Bradley-Terry post-hoc par système qui retrouve l’accord avec une efficacité en termes de données nettement supérieure à celle d’un réentraînement à partir de zéro. La même récompense figée entraîne des gains constants sur l’axe de récompense dans trois applications en aval : la sélection best-of-N au moment de l’inférence, l’optimisation latente de type DITTO et le post-entraînement par itération experte. TuneJury est disponible à l’adresse https://github.com/yonghyunk1m/TuneJury.