Articles de recherche IA sélectionnés quotidiennement avec traductions
Le clonage du mouvement de caméra à partir de vidéos de référence est une tâche importante en génération vidéo, car les vidéos offrent un contrôle intuitif et précis. Les méthodes existantes utilisent soit directement des représentations paramétriques qui échouent à gérer la génération multi-plans, soit synthétisent des données appariées de manière croisée, souffrant d'une rareté des données qui entraîne de mauvaises performances pour le clonage de mouvements de caméra complexes. Pour résoudre ces problèmes, nous introduisons une représentation générale du mouvement de caméra qui encode les caméras sous forme de vidéos de mouvement en grille. Cette grille de caméra représente visuellement les paramètres de la caméra et permet d'intégrer diverses trajectoires pour la génération vidéo multi-plans. Sur cette base, nous proposons OmniDirector, un cadre unifié entraîné sur des paires grille de caméra-vidéo à l'échelle du million, qui coordonne personnages, actions et caméras pour offrir un contrôle de niveau réalisateur aux transformers de diffusion multimodaux. De plus, nous concevons un nouvel agent d'expansion hiérarchique de prompt qui intègre harmonieusement différents signaux de contrôle en décrivant systématiquement le mouvement de la caméra et le contenu visuel via la compréhension des relations entre signaux. Des expériences approfondies démontrent les performances supérieures et la contrôlabilité exceptionnelle de notre cadre. Page du projet : https://ymlinfeng.github.io/OmniDirector.github.io/
Les récentes avancées en apprentissage par renforcement agentique (RL) ont considérablement amélioré les capacités d'utilisation d'outils en plusieurs tours des agents basés sur de grands modèles de langage. Cependant, la plupart des méthodes existantes attribuent le crédit sur des unités heuristiques grossières, telles que les limites d'appels d'outils ou les workflows fixes, ce qui rend difficile l'identification des décisions intermédiaires influençant les résultats ultérieurs. Dans ce travail, nous étudions le RL agentique sous deux angles : où se ramifier et comment attribuer le crédit après la ramification. Notre analyse préliminaire montre que les points de décision influents sont largement répartis dans la séquence générée plutôt que concentrés au niveau des appels d'outils, tandis que l'entropie des jetons seule ne reflète pas de manière fiable leur impact sur les résultats finaux. Motivés par ces observations, nous proposons l'Optimisation Procédurale de Politique Agentique (APPO), qui déplace la ramification et l'attribution de crédit des unités d'interaction grossières vers des points de décision fins dans la séquence. APPO sélectionne les emplacements de ramification à l'aide d'un Score de Ramification qui combine l'incertitude des jetons avec les gains de vraisemblance induits par la politique dans les continuations ultérieures, permettant une exploration plus ciblée tout en filtrant les positions à haute entropie trompeuses. Il introduit en outre une mise à l'échelle des avantages au niveau de la procédure pour mieux répartir le crédit entre les déploiements ramifiés. Des expériences sur 13 benchmarks montrent qu'APPO améliore systématiquement les bases solides en RL agentique de près de 4 points, tout en maintenant des appels d'outils efficaces et une interprétabilité comportementale.
Malgré les progrès récents, les agents LLM peinent encore à raisonner sur de longues histoires d'interaction. Alors que les agents actuels à mémoire augmentée reposent sur un paradigme statique de récupération puis raisonnement, cette conception rigide en pipeline les empêche d'adapter dynamiquement l'accès à la mémoire en fonction des indices intermédiaires découverts durant l'inférence. Pour combler cette lacune, nous proposons MRAgent, un cadre qui combine un graphe de mémoire associative avec un mécanisme de reconstruction active. Nous représentons la mémoire sous la forme d'un graphe Indice-Étiquette-Contenu, où des étiquettes associatives servent de ponts sémantiques reliant des indices fins aux contenus mémoire. Opérant sur cette structure, notre mécanisme de reconstruction active intègre directement le raisonnement du LLM dans l'accès à la mémoire, permettant à l'agent d'explorer et d'élaguer itérativement les chemins de récupération en fonction des preuves accumulées. Cela garantit que la récupération en mémoire est dynamiquement adaptée au contexte de raisonnement tout en évitant l'explosion combinatoire due à une expansion non contrainte. Les expériences sur le benchmark LoCoMo et le benchmark LongMemEval montrent des améliorations significatives par rapport aux bases de référence solides (jusqu'à 23 %), tout en réduisant considérablement les coûts en tokens et en temps d'exécution, soulignant l'efficacité de la reconstruction active et associative pour le raisonnement mémoire à long horizon.
Les grands modèles de langage (LLM) connaissent une transformation fondamentale, passant de générateurs conversationnels à des systèmes d’IA intégrés capables de raisonnement, d’action, de mémoire et d’auto-amélioration. Nous conceptualisons cette transition comme un passage du Chatbot au Collègue numérique : des réponses conversationnelles au travail persistant. Nous organisons cette transition selon deux dimensions étroitement liées. Premièrement, au niveau du noyau cognitif, les LLM évoluent des systèmes de « pensée rapide » de l’ère Chatbot, pilotés par la prédiction du prochain jeton, vers des LLM pensants qui exploitent le calcul inférentiel, le raisonnement en chaîne de pensée, la réflexion, la supervision des processus et l’apprentissage par renforcement pour soutenir une cognition plus délibérée et fiable. Deuxièmement, au niveau de l’exécution des tâches augmentée par des outils, les LLM progressent d’Agents appelant des outils, qui invoquent des ressources externes de manière ponctuelle, vers des systèmes de poste de travail de style OpenClaw, équipés d’espaces de travail persistants, de compétences, de boucles de vérification et de gouvernance. Le paradigme « Espace de travail + Compétence » rend l’utilisation épisodique des outils comparable à celle d’un collègue, via la persistance des états, des procédures réutilisables, la clôture des tâches et la réutilisation de l’expérience. Nous examinons les évolutions de la construction des données, des paires instruction-réponse vers les trajectoires État-Action-Observation, et de l’évaluation, des bancs d’essai statiques vers des écosystèmes d’IA en bac à sable, auditable et auto-évolutifs.
Le récent succès des essaims d'agents a déplacé le paradigme des agents basés sur les grands modèles de langage (LLM) des workflows mono-agent vers les systèmes multi-agents, soulignant l'importance de l'orchestration des agents pour la décomposition et la collaboration des tâches. Cependant, les cadres d'orchestration existants se limitent à un ensemble restreint de modalités et peinent à se généraliser à des contextes plus complexes où des modalités hétérogènes coexistent et interagissent. Cette limitation devient particulièrement prononcée dans les scénarios omnimodaux, où les tâches nécessitent une compréhension et une coordination unifiées d'entrées diverses telles que le texte, l'image, l'audio et la vidéo. Dans ce travail, nous proposons Orchestra-o1, un cadre d'orchestration omnimodal d'agents conçu pour favoriser une collaboration efficace entre agents à travers plusieurs modalités. Orchestra-o1 introduit un mécanisme d'orchestration unifié permettant une décomposition de tâches tenant compte des modalités, une spécialisation en ligne des sous-agents, et une exécution parallèle des sous-tâches. Cette conception évolutive permet aux systèmes d'agents de traiter efficacement des tâches complexes du monde réel impliquant des sources d'information hétérogènes, surpassant la deuxième meilleure approche de 10,3 % en précision sur le benchmark OmniGAIA. De plus, nous introduisons l'optimisation de politique relative alignée sur les décisions (DA-GRPO), une approche d'apprentissage par renforcement agentique efficace pour entraîner Orchestra-o1-8B, qui atteint également des performances de pointe par rapport à tous les agents omnimodaux open source existants.
La performance des agents d’IA dépend crucialement du harnais d’exécution, comprenant les prompts, outils, mémoire et flux de contrôle qui médiatisent la façon dont un modèle observe, raisonne et agit. Pourtant, les harnais actuels restent largement fabriqués à la main et statiques : chaque nouveau modèle ou tâche exige encore un échafaudage sur mesure, et les riches traces produites pendant l’exécution sont rarement distillées en amélioration systématique. Nous présentons HarnessX, une fonderie de harnais d’agents composables, adaptatifs et évolutifs. HarnessX assemble des primitives de harnais typées via une algèbre de substitution, les adapte grâce à AEGIS, un moteur d’évolution multi-agent piloté par traces et ancré dans un miroir opérationnel entre adaptation symbolique et apprentissage par renforcement, et ferme la boucle harnais-modèle en transformant les trajectoires à la fois en mises à jour du harnais et en signal d’entraînement du modèle. Sur cinq benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench et SWE-bench Verified), HarnessX obtient un gain moyen de +14,5 % (jusqu’à +44,0 %), les gains les plus importants là où les lignes de base sont les plus basses. Ces résultats suggèrent que le progrès des agents ne doit pas nécessairement provenir du seul passage à l’échelle des modèles : composer et faire évoluer les interfaces d’exécution à partir du retour d’exécution est un levier actionnable et complémentaire. L’intégralité du code sera publiée en open source dans une version ultérieure.
La génération augmentée par récupération dépasse désormais le texte pour s'appliquer à de longues vidéos égocentriques, où les systèmes doivent sélectionner des segments pertinents pour la requête à travers de multiples modalités et granularités temporelles. Cependant, les progrès en VideoRAG sont limités par deux lacunes : les référentiels existants autorisent des requêtes auxquelles il est possible de répondre sans la vidéo, masquant ainsi les erreurs de récupération, et les méthodes antérieures appliquent une unique configuration modalité-granularité par requête, ignorant la variabilité au niveau des segments. Nous comblons ces deux lacunes en introduisant V-RAGBench, un référentiel de triplets ⟨requête, segment de preuve, réponse⟩ qui permet une évaluation fidèle et découplée de la récupération et de la génération, ainsi que CARVE, une méthode simple qui exécute des récupérateurs parallèles sur différentes configurations et emploie un reclassement adaptatif au segment pour identifier la configuration gagnante pour chaque segment. Chaque segment entre ensuite dans le générateur sous sa configuration gagnante sélectionnée lors de la récupération, produisant une forme de preuve entrelacée où la décision au niveau du segment se propage à travers les deux étapes. CARVE surpasse huit référentiels VideoRAG récents, les segments fournis au générateur entrelaçant plusieurs configurations plutôt que d'en partager une seule, un comportement inaccessible aux méthodes basées sur les requêtes.
Les pipelines automatisés actuels pour la Question-Réponse audio-visuelle (QA) adoptent généralement un paradigme « vidéo-légende-QA ». Cependant, ces méthodes segmentent typiquement les vidéos en courts extraits et génèrent des descriptions séparées pour les modalités audio et visuelle. Ce traitement découplé rompt les associations inhérentes entre les sons et leurs sources visuelles, tandis que le traitement indépendant des extraits entraîne souvent des descriptions incohérentes d’une même entité d’un segment à l’autre. De plus, coupler la compréhension de textes longs et la synthèse de QA en une seule étape limite souvent les modèles à des événements localisés, produisant des questions dépourvues de liens temporels à long terme et de raisonnement cross-modal profond. Pour résoudre ces problèmes, nous proposons un moteur de données automatisé doté de deux mécanismes : (1) la Scénarisation Vidéo Ancrée sur les Entités transforme les vidéos en scripts structurés, comprenant des résumés, des listes d’entités principales et des descriptions audio-visuelles par segment. La liste d’entités sert de prior global pour garantir la cohérence référentielle entre les segments et reconstruire les associations audio-visuelles. (2) la Génération de QA Guidée par les Indices incite les modèles à d’abord extraire du script des indices cross-modaux et inter-segments, puis à générer des paires QA sur la base de ces indices de grande valeur. Grâce à ce pipeline, nous construisons le jeu de données d’instruction-tuning OmniVideo-100K ainsi qu’un ensemble de test validé humainement, OmniVideo-Test. Le fine-tuning de VITA-1.5, Qwen2.5-Omni-7B et Qwen3-Omni-30B sur OmniVideo-100K permet des gains de performance allant jusqu’à 20,59 % sur OmniVideo-Test, démontrant une forte généralisation (jusqu’à 12,64 % d’amélioration) sur des benchmarks établis tels que Daily-Omni et JointAVBench.
Au cours de la dernière décennie, la construction d'une intelligence artificielle générale de niveau humain est passée d'une spéculation lointaine à un objectif concret pour la prochaine décennie pour nombre des plus grandes organisations d'IA. Atteindre cet objectif aurait des impacts profonds et considérables sur la société humaine, ce qui soulève de nombreuses questions complexes pour la décennie à venir. Ce rapport examine comment l'IA elle-même pourrait continuer à se développer dans un monde post-AGI, le long du continuum de l'intelligence machine. Le point final de ce continuum, l'IA universelle, est théoriquement bien compris, ce qui fournit une base formelle pour l'objectif principal de ce rapport : la transition de l'AGI de niveau humain à la superintelligence artificielle générale, qui, intuitivement, peut être comprise comme un système plus intelligent et cognitivement capable que de grandes organisations humaines. Après avoir caractérisé l'ASI, le rapport discute de quatre voies potentielles de l'AGI à l'ASI : le passage à l'échelle de l'AGI, les changements de paradigme en IA, l'amélioration récursive, et l'émergence de l'ASI à partir de collectifs multi-agents à grande échelle. Le rapport examine ensuite les frictions et goulets d'étranglement possibles le long de ces voies. Déterminer si l'impact de ces frictions sera négligeable ou substantiel soulève un certain nombre de questions de recherche ouvertes concrètes. En raison des grandes incertitudes liées à la prévision des progrès de l'ASI, on ne peut exclure que les progrès de l'IA continuent de s'accélérer au cours des prochaines années. Cela pourrait impliquer que l'image d'un changement unique et transformateur, provoqué par l'introduction d'une AGI de niveau humain dans notre société, pourrait être inexacte. Plus appropriée pourrait être la perspective d'une série de changements sociétaux transformateurs causés par les progrès et les percées permis par l'IA dans de nombreux domaines de la science et de la technologie. Se préparer à cette perspective nécessite une entreprise massivement interdisciplinaire d'envergure et d'intérêt mondiaux.
Nous identifions une nouvelle dimension pour améliorer la diversité des rollouts dans l'optimisation de politique relative de groupe (GRPO) pour les LLMs. Bien que GRPO repose sur des rollouts diversifiés, les stratégies dominantes augmentent principalement la diversité en injectant davantage d'aléa au niveau des tokens, ce qui peut introduire un bruit pas-à-pas et conduire à des trajectoires incohérentes. Nous découvrons que les modèles plus petits au sein d'une même famille de modèles présentent intrinsèquement une plus grande diversité au niveau de la politique, indiquée par leur pass@k supérieur à celui de leurs homologues plus grands lorsque le nombre d'échantillons augmente. Contrairement au bruit au niveau des tokens, cette diversité est temporellement corrélée, préserve la cohérence logique et fournit des signaux d'exploration structurés pour l'estimation du gradient. Nous proposons ainsi S2L-PO (Small-to-Large Policy Optimization), un cadre qui utilise des petits modèles fixes comme explorateurs naturels pour entraîner des modèles plus grands. Afin d'équilibrer exploration et exploitation, nous concevons une stratégie de recuit progressif qui passe des rollouts hors ligne du petit modèle à l'échantillonnage du grand apprenant lui-même. Ce passage évite élégamment les baisses de performance en milieu d'entraînement causées par les limites de capacité du petit modèle, permettant une convergence plus rapide et déverrouillant un plafond de performance plus élevé. S2L-PO améliore la précision sur divers benchmarks de raisonnement mathématique (par exemple, +8,8 % sur AIME 24 en utilisant un explorateur de 1,7B pour guider le modèle de 8B) tout en réduisant le calcul de rollout.
Les grands modèles de langage (LLMs) réalisent l'inférence en suivant une exécution non récurrente de toutes les couches, selon une profondeur et un ordre fixes. Nous révélons l'existence répandue de programme de couches (PoLar) flexible, dynamique et sans entraînement, où les couches pré-entraînées peuvent être regroupées en modules puis sautées ou bouclées pour former un programme personnalisé pour chaque entrée. Pour la plupart des entrées, des exécutions de programmes sensiblement plus courtes peuvent atteindre la même précision ou une meilleure, tandis que les prédictions incorrectes du LLM original peuvent être corrigées par des programmes alternatifs avec moins de couches. Ces observations indiquent que l'inférence admet plusieurs calculs latents valides au-delà du passage avant standard. Pour atteindre efficacement PoLar en pratique, nous proposons un réseau de prédiction PoLar léger, qui apprend à générer des programmes d'exécution qui sautent ou répètent dynamiquement des couches pré-entraînées pour chaque entrée. Les expériences sur des références de raisonnement mathématique montrent que PoLar améliore constamment la précision par rapport à l'inférence standard et aux méthodes dynamiques antérieures, souvent tout en exécutant moins de couches, et que ces gains persistent lors d'une évaluation hors distribution. Nos résultats suggèrent que l'exécution à profondeur fixe ne capture qu'un sous-ensemble étroit de la capacité de raisonnement latent d'un LLM.
Les grands modèles de langage (LLMs) atteignent désormais des scores de niveau expert aux examens d'autorisation d'exercice de la médecine, ce qui encourage l'hypothèse selon laquelle des scores élevés impliquent un jugement médical sûr, tandis que les patients les utilisent de plus en plus pour obtenir des conseils de santé. Nous montrons que cette hypothèse est fragile : lorsqu'un contexte trompeur est injecté dans des questions auxquelles les LLMs répondaient initialement correctement, ils abandonnent la bonne réponse. Nous appelons résilience épistémique la capacité à maintenir un jugement correct dans un contexte adversarial, et nous introduisons MedMisBench pour la mesurer. MedMisBench contient 10 932 questions médicales et 48 889 paires contexte-option trompeuses couvrant le raisonnement médical, la capacité agentive et l'évaluation du parcours patient. Sur 11 configurations de modèles, la précision moyenne passe de 71,1 % sur les questions originales à 38,0 % dans un contexte trompeur ciblé, avec un taux de réussite de l'attaque de 51,5 %. Les injections les plus dommageables sont des fabrications formelles et ressemblant à des règles : les contre-vérités cadrées par une autorité atteignent un taux de réussite de l'attaque de 69,5 % et les affirmations d'empoisonnement par exception atteignent 64,1 %. Un panel clinique de 14 membres provenant de 7 pays a identifié un préjudice potentiel grave dans 38,2 % des cas examinés. MedMisBench expose un angle mort structurel dans l'évaluation des LLMs en contexte médical : les références existantes mesurent ce que les modèles savent, mais pas s'ils préservent un jugement médical correct dans un contexte trompeur.
Les utilisateurs s'appuient sur les traces d'exécution pour observer le comportement des agents, diagnostiquer les défaillances et garantir la responsabilité. Ces traces contiennent des détails procéduraux riches, notamment les invocations d'outils, les décisions intermédiaires et la logique de récupération d'erreurs. Cependant, ces détails peuvent exposer des compétences procédurales privées, permettant à des méthodes aval de reconstituer des formules, seuils et stratégies clés sans accès aux poids du modèle ni aux fichiers de compétences. Pour quantifier ce risque et évaluer la protection, nous construisons CapTraceBench, un banc d'essai comprenant 75 tâches spécialisées à long horizon et 154 compétences soigneusement sélectionnées dans sept domaines. Nous introduisons également RedAct (https://github.com/XuShuwenn/RedAct), un cadre de publication de traces protégées qui localise les informations clés à protéger, réécrit les traces tout en préservant les preuves essentielles pour le vérificateur, et intègre des filigranes comportementaux pour l'analyse de provenance en aval. Sur des méthodes représentatives de réutilisation des traces, RedAct réduit le transfert normalisé de compétences (NST) de 44,7 à 67,1 % sur les traces brutes en dessous du seuil de base sans compétence, tout en préservant les preuves d'audit. Ses filigranes comportementaux autonomes atteignent un taux de détection vraie de 93,6 à 100,0 % avec un taux de fausses alarmes d'au plus 1,9 %. Ces résultats présentent les traces d'agents publics comme des interfaces de sécurité et montrent qu'une rédaction sélective peut réduire les fuites de capacités procédurales sans supprimer les preuves d'audit.
Les agents de codage alimentés par de grands modèles de langage ont démontré des performances solides dans les tâches de génie logiciel. Cependant, la plupart des agents consomment les dépôts presque exclusivement sous forme de texte, ce qui diffère de la manière dont les développeurs humains utilisent la structure visuelle, telle que les hiérarchies de dossiers et les relations de dépendance, pour s'orienter dans de grandes bases de code. Avec les grands modèles de langage multimodaux (MLLM), il reste une question ouverte de savoir si les agents peuvent bénéficier efficacement des représentations visuelles des dépôts. Cet article présente la première étude empirique systématique des représentations visuelles de dépôts pour les agents basés sur des LLM dans le cadre de la résolution de problèmes au niveau du dépôt. Nous évaluons quatre modèles multimodaux récents. Nos résultats montrent qu'une configuration strictement visuelle dégrade la précision et augmente le coût en tokens, car les agents manquent de détails symboliques suffisants et compensent par des requêtes visuelles répétées. En revanche, l'intégration de graphes visuels de la structure du dépôt en tant que modalité supplémentaire aux côtés des interfaces textuelles standard aide les agents à comprendre la structure plus efficacement : la consommation de tokens en entrée diminue jusqu'à 26 % tandis que la précision de résolution des problèmes est maintenue ou améliorée. La visualisation est la plus utile lors de la localisation des défauts et lorsque l'agent contrôle de manière autonome la profondeur d'exploration. Ces résultats indiquent une conception hybride texte-et-vision pratique pour les agents de codage de nouvelle génération.
Les grands modèles de langage (LLMs) sont largement utilisés dans les systèmes de texte-à-image (T2I), mais ils sont généralement limités à l'encodage du texte, tandis que le débruitage est pris en charge par des architectures génératives nouvellement entraînées. L'émergence des autoencodeurs de représentation (RAEs) déplace l'objectif de génération vers des représentations visuelles sémantiquement structurées, créant un espace latent plus compatible avec les a priori des LLMs pré-entraînés. Inspirés par les LLMs multimodaux (MLLMs), où un projecteur MLP suffit pour aligner des représentations visuelles propres avec un LLM pré-entraîné, nous réutilisons le MLLM lui-même comme encodeur de représentation bruitée, étendant ce mécanisme des entrées propres aux entrées bruitées. Nous présentons RepFusion, qui utilise les sorties résultantes du MLLM comme signal de conditionnement pour un transformateur de diffusion. Dans des comparaisons contrôlées à des budgets d'inférence similaires, RepFusion surpasse les baselines qui consacrent une capacité comparable à des débruitages nouvellement initialisés. Ces résultats démontrent que les MLLMs fournissent des a priori solides pour le débruitage de représentations visuelles et qu'en conditionnant sur des représentations bruitées en évolution, le calcul en phase de test peut être utilisé de manière productive pour un conditionnement répété du MLLM dans les systèmes T2I modernes.
Les modèles du monde incarnés sont devenus un paradigme central pour la prise de décision robotique visuelle et la simulation interactive d’environnements. Cependant, les architectures incarnées conventionnelles reposent sur des vecteurs d’action structurés de faible dimension (par exemple, les angles articulaires et les poses de l’effecteur terminal), qui souffrent d’une capacité expressive limitée, d’une mauvaise généralisation entre diverses incarnations et d’une modélisation dynamique non naturelle pour des interactions physiques complexes. Pour pallier ces limitations, cet article propose iMac (Image as Action Control), un nouveau paradigme de contrôle unifié qui traite les images visuelles brutes comme des représentations d’action natives pour les modèles du monde incarnés. Contrairement au codage cinématique explicite traditionnel des actions, iMac formule la manipulation visuelle continue comme des tokens d’action basés sur l’image, qui encapsulent intrinsèquement les intentions de mouvement spatial, les contraintes géométriques interactives et les dynamiques physiques subtiles. Nous construisons une architecture incarnée à double branche composée d’un encodeur d’action-image et d’un prédicteur dynamique du monde : l’encodeur compresse les images visuelles guidées par la cible en plongements d’action compacts, tandis que le prédicteur apprend les règles de transition de l’environnement conditionnées par les actions image afin d’obtenir une prédiction d’état futur de haute fidélité et un contrôle incarné en boucle fermée. Des expériences approfondies sont menées sur des bancs d’essai publics de manipulation incarnée et des scénarios robotiques réels. Les résultats montrent qu’iMac surpasse les références de contrôle d’action basées sur des vecteurs en termes de précision de prédiction, de taux de réussite des tâches et de capacité de généralisation inter-scènes. De plus, notre conception d’action-image élimine la dépendance aux espaces d’action définis manuellement, réalisant un contrôle flexible et universel pour des agents incarnés hétérogènes. Ce travail offre une perspective visuelle-action innovante pour les modèles du monde incarnés, fournissant un paradigme simple mais efficace pour une perception et une manipulation robotiques évolutives.
Dans ce rapport, nous présentons Hy-Embodied-0.5-VLA, abrégé en HyVLA-0.5, un système de bout en bout qui couvre l'ensemble de la pile d'apprentissage robotique : collecte de données, conception de modèle, pré-entraînement continu et ajustement fin supervisé, post-entraînement par apprentissage par renforcement, et déploiement dans le monde réel. Chaque composant joue un rôle distinct dans cette pile.
Les prouveurs de théorèmes Lean modernes n’atteignent des performances élevées qu’avec des ressources computationnelles importantes en entraînement et en inférence, en partie à cause de la rareté des données de preuves vérifiées et des longues traces de raisonnement issues de la recherche de preuves formelles, ce qui rend coûteux à la fois le fine-tuning supervisé (SFT) et l’échantillonnage. Nous présentons Pythagoras-Prover, une famille de prouveurs Lean open source économes en calcul, conçue pour des budgets computationnels pratiques. Cette famille couvre deux paradigmes de génération : des modèles autorégressifs de 4B et 32B paramètres, ainsi qu’un premier prouveur basé sur la diffusion (4B) à titre de preuve de concept, qui affine itérativement les preuves Lean au moment de l’inférence. Pour l’efficacité de l’entraînement, nous construisons un corpus vérifié Lean stratifié en problèmes faciles, moyens et difficiles pour un SFT curriculaire, permettant aux modèles d’acquérir progressivement des compétences en preuve, depuis des preuves plus courtes et simples jusqu’à des preuves plus longues et complexes. Pendant le SFT, un mécanisme de filtrage dynamique du raisonnement de preuve préserve les traces informatives tout en maintenant chaque instance dans un budget de contexte de 8k tokens. Nous introduisons également l’Augmented Lean Formalisation (ALF), qui étend les corpus vérifiés rares en variants d’énoncés formels, peuplés via auto-distillation pour un signal d’entraînement supplémentaire sans vérifier formellement chaque instance mutée. En perturbant des problèmes connus tout en préservant leur caractère formel, ALF réduit la dépendance à la forme de surface d’un énoncé. Empiriquement, Pythagoras-Prover-4B surpasse DeepSeek-Prover-V2-671B à pass@32 sur MiniF2F-Test (86.1 % contre 82.4 %) avec environ 167 fois moins de paramètres, tandis que Pythagoras-Prover-32B établit un nouvel état de l’art open source à 93.0 % sur MiniF2F-Test et résout 93 des 672 problèmes de PutnamBench. Nous publions MiniF2F-ALF, un benchmark sensible à la contamination par mutation ALF sur lequel chaque modèle évalué perd en précision ; ici, notre modèle 32B reste le plus fort et notre modèle 4B égale l’état de l’art précédent, Goedel-Prover-V2-32B.
Alors que les évaluations générées par l’IA passent d’outils expérimentaux à une infrastructure d’examen par les pairs, la plupart des préoccupations concernant la robustesse se sont concentrées sur des attaques explicites telles que les instructions cachées et l’injection d’invites. Nous étudions un mode de défaillance plus difficile et plus pertinent sur le plan politique : aucun texte caché, aucune injection d’invite, et aucune modification des méthodes, expériences, figures, équations, preuves ou résultats numériques. L’attaquant ne modifie que le contenu formel, tel que le résumé, le cadrage des contributions, les travaux connexes, la discussion et la structure narrative. Nous introduisons le *reconditionnement adversarial* : une attaque en boucle fermée qui utilise les retours de l’évaluateur IA pour rechercher des révisions au niveau formel tout en maintenant les preuves scientifiques inchangées. Sur trois évaluateurs IA courants, le reconditionnement adversarial atteint un taux de succès de 75,1 % et un gain de score moyen de +1,21/10. Cet effet ne s’explique pas par un simple polissage de la prose. Nous révélons également que les stratégies qui modifient la façon dont l’évaluateur interprète l’article—comme le repositionnement des travaux connexes et l’expansion de la discussion analytique—surpassent largement les modifications superficielles telles que le polissage local, la mise en forme des tableaux et les encadrés d’algorithmes. Notre analyse met en évidence deux modes de défaillance structurels plus profonds. Premièrement, les évaluateurs IA sont plus faciles à impressionner qu’à convaincre : mettre en avant les forces augmente de manière fiable le mérite perçu, tandis que les tentatives de dissiper les faiblesses se retournent fréquemment contre elles. Deuxièmement, les évaluateurs IA peuvent confondre l’apparence d’une réponse à une limitation avec sa résolution effective, permettant ainsi à des preuves inchangées d’être réinterprétées comme une contribution scientifique plus forte. Ces résultats montrent que le risque lié au déploiement ne réside pas seulement dans les instructions cachées malveillantes, mais aussi dans l’émergence de la présentation même de l’article comme une surface d’optimisation. Nous publions un benchmark évolutif sans contamination ainsi qu’un cadre d’attaque pour tester si les évaluateurs IA restent ancrés dans le contenu scientifique sous l’effet de modifications formelles uniquement.
Lorsque l'on applique l'Optimisation Relative des Politiques par Groupes (GRPO) pour l'ancrage d'interface graphique (GUI Grounding), les tirages (rollouts) sont échantillonnés à partir d'une seule vue d'écran ; les groupes deviennent souvent soit tous des échecs sur des instances difficiles, soit tous des succès sur des instances faciles, ne fournissant ainsi aucun avantage relatif utile. Nous proposons VISTA (View-Consistent Self-Verified Training), un cadre d'entraînement basé sur GRPO qui construit chaque groupe de comparaison à partir de multiples vues préservant la cible d'une même instance d'interface graphique. Chaque vue est générée par un recadrage (crop) qui maintient l'élément cible visible et remappe exactement sa boîte, permettant ainsi de comparer les tirages du modèle sur des entrées sémantiquement équivalentes mais géométriquement différentes. Pour stabiliser la génération de coordonnées courtes sans transformer l'apprentissage par renforcement en imitation inconditionnelle, VISTA ajoute en outre un ancrage inter-vues auto-vérifié : une réponse oracle optimisée avec une perte pondérée par l'avantage, exclue de la baseline du groupe et activée uniquement lorsque le modèle a produit un tirage de récompense maximale. Sur cinq benchmarks d'ancrage d'interface graphique et plusieurs backbones Qwen, VISTA améliore systématiquement la précision d'ancrage. Sur ScreenSpot-Pro, il fait passer Qwen3-VL 4B/8B/30B-A3B de 55,5/52,7/53,7 à 63,4/65,8/67,0. Les analyses de robustesse montrent en outre une précision de pire vue plus élevée et des taux de basculement de prédiction plus faibles.
Les récentes avancées dans les modèles du monde basés sur la vidéo ont démontré une capacité sans précédent à synthétiser des séquences visuelles haute-fidélité. Cependant, un écart fondamental persiste entre la génération vidéo visuellement plausible et les exigences fonctionnelles d’un modèle du monde, notamment en ce qui concerne le maintien d’un état interne stable et raisonnable sur des horizons temporels étendus. Alors que les référentiels existants mettent principalement l’accent sur la qualité visuelle, la cohérence du mouvement et l’adéquation texte-vidéo, ils négligent largement la mémoire, capacité essentielle d’un modèle du monde à préserver la cohérence sur de longs horizons et des interactions complexes. Pour combler cette lacune, nous présentons MBench, un référentiel complet dédié à la quantification et à l’évaluation de la capacité de mémoire des modèles du monde vidéo. Nous décomposons systématiquement la capacité de mémoire des modèles du monde vidéo en trois dimensions fondamentales hiérarchiques et complémentaires : la cohérence des entités, la cohérence de l’environnement et la cohérence causale, qui sont ensuite affinées en 12 sous-dimensions quantifiables pour caractériser complètement la mémoire à long terme. Notre référentiel s’appuie sur de longues vidéos réelles rigoureusement organisées, et est évalué à l’aide de matrices quantitatives basées sur des règles et d’un VLM afin de permettre une évaluation objective et complète de la cohérence. Des évaluations approfondies des principaux modèles du monde vidéo de pointe révèlent des limitations systémiques critiques des méthodes existantes en matière de maintien de l’état à long terme, fournissant ainsi un référentiel standardisé et une direction de recherche claire pour faire progresser le domaine.
Les modèles du monde qui capturent la manière dont les actions induisent des changements physiques permettent un apprentissage robotique scalable sans dépendre d'étiquettes d'actions spécifiques à l'incarnation. Les modèles vidéo dans l'espace pixel fournissent des a priori visuels étendus mais dépensent la capacité du modèle dans la reconstruction dense de l'apparence, tandis que les modèles d'action directs nécessitent des étiquettes spécifiques à l'incarnation qui entravent la scalabilité. Nous présentons μ₀, un modèle du monde scalable basé sur des traces 3D. Au lieu de prédire des pixels denses ou de modéliser directement les actions, μ₀ prévoit des trajectoires 3D lisses pour des points d'interaction saillants tels que les objets, les outils, les mains et les zones de contact, fournissant ainsi une interface de mouvement compacte et indépendante de l'incarnation. Pour permettre l'entraînement à partir de diverses sources vidéo, notre système TraceExtract extrait automatiquement une supervision 3D en sélectionnant des points clés, en construisant des traces globalement alignées et en associant des segments de mouvement à des légendes linguistiques hiérarchisées. Cette supervision de TraceExtract pré-entraîne μ₀ en combinant un backbone vision-langage pré-entraîné avec un expert de traces modulaire, qui représente chaque requête via des points de contrôle B-spline et prédit les traces futures. Les expériences montrent que μ₀ surpasse les bases de référence tant dans la prédiction de traces 2D que 3D, y compris les modèles de prédiction de traces et les méthodes VLM tokenisées. Parce que μ₀ est figé et réutilisable, il peut être associé à des experts d'action pour les incarnations robotiques en aval. Malgré un pré-entraînement sans action, les politiques conditionnées par les traces qui en résultent atteignent des performances compétitives avec les modèles VLA pré-entraînés avec supervision d'action, tels que π₀. Ces résultats établissent les traces 3D comme une représentation scalable et transférable pour la manipulation inter-incarnation.
À mesure que les systèmes d'IA composés de multiples agents basés sur des modèles de langage se généralisent, ils sont de plus en plus utilisés pour prendre des décisions collectivement : discuter, négocier et agir sur des tâches partagées. Bien que des agents individuels puissent sembler bien alignés lorsqu'ils sont testés isolément, des problèmes peuvent surgir de leurs interactions mutuelles. Nous présentons l’Arbiter, un agent conçu pour surveiller en temps réel les conversations multi-agents et identifier quels participants pourraient adopter un comportement non aligné. L’Arbiter fonctionne sous un « budget d'inspection » limité, ce qui l'oblige à utiliser ses ressources avec discernement. En observant une conversation pas à pas, il peut choisir d'attendre, d'interroger un participant, d'examiner des informations internes telles que les invites système ou les traces de raisonnement, ou de consigner un comportement suspect. À l'issue de l'observation, il produit un rapport identifiant la source probable du désalignement. Nous évaluons l’Arbiter dans cinq conditions conversationnelles, allant de conseils financiers risqués (organismes modèles) à des agents conscients de l'évaluation et en collusion. Nous testons cinq configurations d'outils de capacités croissantes ainsi que deux modèles de base. Nous constatons que l’Arbiter détecte de manière fiable les agents non alignés bien avant la fin de la conversation, les outils d'inspection active améliorant à la fois la précision et la rapidité de détection. Le désalignement induit par les poids s'avère le plus difficile à détecter, tandis que le désalignement induit par les instructions est identifié de manière fiable même sous observation passive. L'outil de consignation présente un effet double : il améliore le rappel au détriment de la précision. Ces résultats suggèrent qu'une surveillance continue et tenant compte du budget peut efficacement détecter le désalignement, et que superviser des systèmes multi-agents pourrait exiger de considérer l'auditeur comme un participant actif au processus. Le code est disponible à l'adresse https://github.com/aisilab/arbiter.
Générer des vidéos d’avatar qui ne sont pas seulement visuellement similaires à une personne cible, mais également reconnaissables sur le plan comportemental, en reproduisant fidèlement leur rythme de parole, leurs tendances gestuelles et leur dynamique expressionnelle, reste un défi ouvert. Les méthodes existantes se basent principalement sur des images statiques uniques, qui fournissent des informations d’identité insuffisantes et ne peuvent capturer les traits dynamiques du mouvement, tandis que les objectifs standard au niveau des pixels sous-servent les régions faciales critiques pour la perception qui déterminent la fidélité de l’avatar. Nous présentons Avatar V, un cadre à l’échelle de production qui répond à ces limitations grâce à une modélisation de l’identité conditionnée par une référence vidéo. Plutôt que de compresser l’identité en embeddings de taille fixe, le modèle se conditionne directement sur la séquence complète de tokens d’une vidéo de référence, apprenant à reproduire à la fois les attributs d’identité statique (géométrie faciale, texture de la peau) et les schémas comportementaux dynamiques (rythme de parole, micro-expressions) via une attention sur le contexte de référence. Nous introduisons l’Attention de Référence Éparse (Sparse Reference Attention), un mécanisme asymétrique offrant un conditionnement à complexité linéaire sur des références arbitrairement longues ; un flux de représentation du mouvement permettant le transfert de style de parole en boucle fermée ; et un affineur de super-résolution conscient de l’identité héritant du conditionnement complet de la référence. Ces éléments sont soutenus par un moteur de données qui organise plus de 100 millions de clips d’entraînement à partir de 50 millions de vidéos brutes, et un pipeline d’entraînement en cinq étapes comprenant un pré-entraînement par appariement de flux (flow matching), un réglage fin de la personnalité, une distillation en deux phases (accélération >10×), et un alignement RLHF, déployé sur des milliers de GPU. Avatar V génère des vidéos 1080p de durée illimitée, atteignant un état de l’art en matière de préservation de l’identité, de synchronisation labiale et de qualité de génération sur notre référentiel trans-scène, surpassant systématiquement les systèmes leaders tels que Seedance 2.0, Kling O3 Pro, Veo 3.1 et OmniHuman 1.5, à la fois dans les métriques automatisées et l’évaluation humaine.
Les modèles de génération vidéo basés sur les Transformers de diffusion (DiTs) ont obtenu des performances remarquables en synthèse vidéo, mais souffrent d’une latence d’inférence élevée et de coûts de calcul importants en raison de la complexité quadratique de l’attention 3D. Les méthodes d’accélération existantes réduisent principalement la complexité de calcul au sein de chaque étape individuelle de débruitage grâce à des techniques telles que l’attention sparse et la mise en cache KV. Cependant, elles adhèrent rigoureusement à la contrainte inhérente du pipeline de diffusion standard : chaque image de la séquence vidéo cible doit subir un processus de débruitage complet et dense sur l’ensemble des pas de temps de diffusion. Nous observons qu’en raison des contenus et des mouvements correspondants entre les images adjacentes, lorsque des images clés avec des transitions sémantiques critiques sont ancrées, les états intermédiaires des autres suivent souvent des trajectoires plus prévisibles, ce qui indique qu’un tel processus de débruitage uniforme et dense est intrinsèquement redondant pour les données vidéo naturelles. À cette fin, nous introduisons RhymeFlow, un cadre sans entraînement qui découple les trajectoires de débruitage des différentes images. Plus précisément, nous identifions d’abord un ensemble sparse d’images clés pivot qui dominent l’évolution sémantique latente. Ensuite, seules ces images clés subissent un débruitage dense, étape par étape, pour garantir l’intégrité structurelle, tandis que les images non clés sautent progressivement des étapes de débruitage afin de minimiser le coût de calcul. Étant donné que les états intermédiaires sautés des images non clés brisent la cohérence temporelle dans les étapes de débruitage des images clés, entraînant une dégradation visuelle, nous introduisons en outre un module de projection de trajectoire latente, qui permet aux images clés d’interagir avec une représentation de séquence complète et temporellement cohérente. Des expériences approfondies sur les modèles actuels de génération vidéo basés sur DiT démontrent que notre méthode surpasse les bases de référence existantes avec une vitesse d’inférence plus élevée et une meilleure qualité visuelle.
Dans l'Adaptation de Bas-Rang (LoRA), le facteur d'échelle α est souvent traité comme un simple complément du taux d'apprentissage, mais son rôle dans l'optimisation reste mal compris. Dans cet article, nous révélons que le facteur d'échelle α et le taux d'apprentissage agissent différemment, α s'imposant comme le moteur dominant de l'optimisation effective, apportant des gains que la seule mise à l'échelle du taux d'apprentissage ne peut reproduire. Grâce à la synergie d'une analyse empirique approfondie et d'un cadre théorique Signal-Dérive, nous découvrons trois constats sur le mécanisme de mise à l'échelle de LoRA : premièrement, la suppression spectrale de LoRA lisse le paysage d'optimisation, rendant les hyperparamètres standards trop conservateurs et créant un écart d'optimisation. Deuxièmement, en tirant parti de ce lissage pour accélérer la convergence, α surpasse le taux d'apprentissage en amplifiant le signal de la tâche sans augmenter le rapport de dérive. Troisièmement, le facteur d'échelle optimal suit une relation sous-linéaire avec le rang, bien caractérisée par une loi en racine carrée avec un coefficient étonnamment grand, révélant une mise à l'échelle insuffisante des heuristiques existantes liées au rang. À partir de ces observations, nous proposons LoRA-α, un cadre minimaliste qui rétablit α dans son régime de principe, rendant LoRA compatible avec de petits taux d'apprentissage standards. Des évaluations approfondies sur diverses tâches montrent que LoRA-α améliore systématiquement les performances tout en simplifiant la recherche d'hyperparamètres, libérant ainsi le potentiel d'apprentissage de LoRA.
Le guidage par activation offre une approche légère pour contrôler le comportement des modèles de langage lors de l'inférence, mais sa réussite ou son échec dépend fortement de la requête, du concept, du modèle et de la configuration de guidage. Déterminer le régime et les limites d'un guidage réussi nécessite généralement des recherches par grille coûteuses et une évaluation post-hoc de déroulements autorégressifs complets. Dans ce travail, nous examinons si la guidabilité peut être prédite à partir des états internes du modèle au début du processus de génération, par exemple après la génération des premiers tokens, et comment exploiter un tel prédicteur pour améliorer le taux de succès du guidage. À cette fin, nous introduisons d'abord ASTEER, un banc d'essai comprenant 1,4 million de générations guidées, couvrant 150 concepts, chaque guidage étant étiqueté comme réussi ou échoué. En exploitant ce banc d'essai, nous analysons la dynamique précoce du décodage du modèle en extrayant des caractéristiques qui comparent les états cachés avant et après le guidage à travers les couches et les premières étapes de décodage. Ces caractéristiques nous aident à comprendre comment les effets du guidage se propagent le long des couches et des positions des tokens, fournissant des informations clés pour la prédiction de la guidabilité. Nous entraînons ensuite un classifieur à arbres de décision à gradient boosting (GBDT) sur ces caractéristiques afin de prédire si une intervention entraînera un sous-guidage, un succès ou un sur-guidage, sans nécessiter de déroulement complet. Notre prédicteur atteint un score F1 macro d'environ 0,7 sur des concepts non vus, démontrant que les états cachés précoces encodent une information substantielle et structurée sur l'efficacité ultime du guidage. Nous exploitons en outre ce prédicteur de guidabilité comme guide pour la recherche de l'intensité de guidage, obtenant des performances quasi optimales avec une fraction du coût de décodage.
La construction de modèles de langage multimodaux médicaux de grande taille (MLLMs) fiables est essentielle pour un soutien fiable à la décision clinique. Les référentiels existants sur les hallucinations médicales se concentrent principalement sur la collecte de données, mais ignorent souvent l’origine des hallucinations dans le processus de raisonnement. Nous constatons que les sources d’hallucination varient selon les échantillons : les erreurs peuvent provenir d’une méconnaissance visuelle, d’un rappel incorrect de connaissances médicales ou d’une intégration défaillante du raisonnement. Pour permettre un diagnostic des hallucinations au niveau des sources, nous introduisons ClinHallu, un référentiel pour le diagnostic par étape des hallucinations dans le raisonnement des MLLMs médicaux. ClinHallu contient 7 031 instances validées, chaque instance étant enrichie d’une trace de raisonnement structurée décomposée en Reconnaissance Visuelle, Rappel de Connaissances et Intégration du Raisonnement. Nous utilisons également des interventions de remplacement d’étapes pour mesurer comment la correction d’étapes spécifiques affecte la réponse finale. Au-delà de l’évaluation, nous montrons que le fine-tuning supervisé par trace réduit les hallucinations par étape. ClinHallu fournit un banc d’essai d’hallucinations à grain fin pour diagnostiquer et atténuer les échecs de raisonnement dans les MLLMs médicaux. Le référentiel est accessible publiquement à l’adresse https://github.com/alibaba-damo-academy/ClinHallu.
Les groupes de discussion en ligne sont des espaces sociaux dotés de normes conversationnelles locales rarement explicitées. La capacité et la propension des agents basés sur les LLM à reconnaître et à s'adapter à ces normes reste largement inexplorée. Nous présentons LoSoNA, un référentiel pour l'adaptation aux normes sociales locales dans les conversations multipartites. Chaque scénario fournit au modèle sujet un transcript de discussion de groupe préétabli dans lequel les participants non sujets manifestent une norme locale cachée, suivi d'un tour de sollicitation final qui force une réponse révélant si le sujet a inféré cette norme. Nous évaluons huit modèles de pointe et à poids ouverts sous quatre conditions de sollicitation qui varient en fonction du degré d'explicitation donné au modèle pour traiter la conversation antérieure comme preuve de la manière dont il doit répondre. La sollicitation naïve reste limitée pour la plupart des modèles ; l'aide d'une sollicitation explicite prenant en compte les normes est inégale, Gemini 3.1 Pro atteignant 84,2 % et Claude Fable 5 atteignant 81,6 %, tandis que plusieurs autres modèles ne montrent que de faibles gains ou des régressions. LoSoNA contribue aux appels récents à évaluer les capacités sociales des LLM en testant si les modèles peuvent inférer des normes conversationnelles locales à partir de précédents et les utiliser dans une réponse de discussion de groupe en un seul tour.
Les agents IA sont de plus en plus développés pour accélérer la découverte scientifique, mais leurs capacités pratiques en contexte de recherche réelle restent mal comprises. Les référentiels existants pour évaluer les agents IA capturent rarement la complexité, l'hétérogénéité et le raisonnement étendu qu'exigent les travaux scientifiques, tandis que les référentiels dédiés aux tâches scientifiques réduisent souvent la recherche à des problèmes statiques et directs, offrant un soutien limité pour une évaluation interactive. Nous présentons ici SciAgentArena, un référentiel systématique pour évaluer les agents IA dans des scénarios de recherche scientifique réels, issus de besoins émergents dans plusieurs domaines. SciAgentArena comprend environ 200 tâches avec une vérification par étapes et un environnement interactif et indépendant de l'agent pour évaluer divers agents IA. En utilisant ce référentiel, nous constatons que les agents actuels peuvent contribuer efficacement à des flux de travail d'analyse de données bien spécifiés, en particulier lorsque la structure de la tâche et les critères d'évaluation sont clairs. Cependant, leurs performances restent inégales selon les contextes scientifiques : les agents peinent à générer des perspectives véritablement nouvelles, à maintenir une exploration autonome et à formuler des solutions robustes pour des questions de recherche ouvertes. Nous caractérisons en outre les modes de défaillance courants chez les agents et identifions des opportunités pour améliorer leur fiabilité, leur autonomie et leur raisonnement scientifique. Dans l'ensemble, SciAgentArena fournit un cadre pratique pour mesurer les progrès des agents IA appliqués à la science et pour guider la conception de futurs agents capables de relever des défis scientifiques complexes. L'ensemble des codes, tâches et jeux de données sont accessibles via ce lien : https://sciagentarena.github.io/.
La distillation sur politique (OPD) est récemment devenue une méthode de post-entraînement importante car elle combine deux ingrédients souhaitables : les trajectoires sur politique de l'étudiant et une supervision dense de l'enseignant. Cependant, la manière dont ce mélange modifie les paramètres d'un modèle reste floue. À travers plusieurs paires de modèles de langage et de vision-langage ainsi que différents cas d'usage, notre analyse aboutit à deux résultats principaux. En ce qui concerne la parcimonie, les mises à jour de type OPD sont petites et parcimonieuses par coordonnées. Elles sont réparties entre les couches et concernent généralement principalement les FFN. Cette structure parcimonieuse est utile sur le plan opérationnel : entraîner uniquement le sous-réseau découvert permet d'atteindre des performances presque identiques à celles de l'OPD complète. Cependant, l'optimiseur SGD favorisant la parcimonie obtient de moins bons résultats qu'AdamW dans notre ablation d'optimiseur, probablement parce que la supervision dense de l'enseignant préserve des échelles de gradient hétérogènes par coordonnées pour lesquelles la mise à l'échelle adaptative d'AdamW reste utile. En ce qui concerne la géométrie, les mises à jour sont numériquement de rang plein mais spectralement concentrées ; elles se situent principalement en dehors des sous-espaces singuliers principaux des poids sources et tombent de manière disproportionnée sur les coordonnées où les poids sources sont proches de zéro. Ces résultats suggèrent que la supervision dense de l'enseignant ne transforme pas l'OPD en une simple réécriture dense des paramètres ; au contraire, l'OPD conserve des signatures géométriques importantes du post-entraînement sur politique.
Le raisonnement sur les affordances, qui consiste à déduire les possibilités d'action d’un objet à partir de ses propriétés physiques (par exemple, sa forme et sa matière), est fondamental pour la compréhension physique humaine et devient de plus en plus crucial pour les grands modèles de langage (LLMs). Cependant, les benchmarks existants sur les affordances révèlent largement l’identité explicite des objets dans le cadre d’évaluation, ce qui permet aux modèles de s’appuyer sur des correspondances mémorisées entre objets et affordances plutôt que de raisonner sur les propriétés physiques. Pour combler cette lacune, nous présentons Affordance20Q, un nouveau benchmark de raisonnement sur les affordances formulé comme un jeu des 20 questions sans révéler l’identité de l’objet. Dans chaque partie, le modèle identifie l’affordance d’un objet caché parmi un ensemble de candidats en posant des questions oui/non sur ses propriétés physiques. Affordance20Q comprend 1 009 parties portant sur 454 objets et 59 affordances, toutes filtrées, affinées et annotées manuellement. Nous menons des expériences approfondies avec 15 LLMs de pointe et constatons un écart substantiel (~20 points) par rapport à la performance humaine. Une analyse du gain d’information (IG) basé sur la divergence KL montre en outre que les modèles ne parviennent pas à poser des questions discriminantes au fur et à mesure que la partie progresse. Pour combler cet écart, nous développons l’Induction de règles ancrées dans les KB (KARI), un pipeline basé sur les LLMs qui génère des règles d’affordance étayées par des preuves provenant de bases de connaissances (KBs). KARI améliore les LLMs open source jusqu’à 15,2 points, tandis que la couverture limitée des KBs entrave des gains supplémentaires. Nous publions l’ensemble de notre code et de nos données à l’adresse https://github.com/1171-jpg/Affordance20Q.git.
Des études sur le raisonnement humain ont montré que les individus sont généralement plus performants pour évaluer des raisonnements que pour en produire de toutes pièces. En revanche, les grands modèles de raisonnement (LRM) sont entraînés à exceller dans la production de longues chaînes de raisonnement pour résoudre des problèmes complexes. Comment les LRM se comportent-ils alors dans l'évaluation des raisonnements ? Nous étudions cette question à l'aide de l'ensemble de données VAIR (Valid-Answer-Invalid-Reasoning) : des problèmes et solutions mathématiques comportant des défauts de raisonnement triviaux mais des réponses valides, conçus pour isoler l'évaluation du raisonnement de la confusion avec la production de raisonnement. Contrairement aux humains, dont nous constatons qu'ils ne sont que 6 % moins performants pour noter que pour résoudre de tels problèmes, nous observons un écart substantiel entre production et évaluation chez les LRM : les modèles de pointe obtiennent à peine 48 % lors de l'évaluation des solutions VAIR, malgré une production quasi parfaite des solutions. Pourquoi cette énigme ? Grâce à une analyse de la chaîne de pensée (CoT), nous trouvons des preuves d'un biais de confirmation de la réponse : les LRM produisent souvent une solution, puis vérifient la présence de la réponse correcte au lieu d'examiner soigneusement chaque étape, en fabriquant des rationalisations même lorsqu'ils remarquent un raisonnement anormal. Des sondes linéaires corroborent cela, montrant que bien que les activations des LRM encodent une certaine représentation d'un raisonnement valide, elles échouent à représenter robustement les solutions VAIR comme invalides. Le patching causal des représentations de la réponse finale entraîne un basculement des verdicts et des activations des LRM, démontrant que la validité de la réponse est responsable des biais de confirmation des modèles. Ces résultats mettent en évidence une limitation majeure des approches dominantes d'entraînement au raisonnement, qui incitent les LRM à produire et confirmer des raisonnements menant à des réponses correctes, mais pas à évaluer robustement les raisonnements sous-jacents.
Les grands modèles de langage multimodaux peuvent écrire du code pour générer des programmes complexes, ainsi qu'utiliser des programmes pour effectuer de la modélisation 3D, ce qui ouvre une nouvelle voie pour la génération 3D alimentée par leurs connaissances préalables, leur connaissance du monde et leur raisonnement. Pourtant, les référentiels existants évaluent rarement la modélisation 3D via le code. Une telle modélisation exige plus qu'un code exécutable : à partir d'une spécification textuelle ou visuelle, un modèle doit générer un programme 3D paramétrique qui est géométriquement précis, sémantiquement aligné et cohérent au niveau de l'assemblage. Nous présentons P3D-Bench, un référentiel pour la génération 3D paramétrique. Contrairement à un maillage 3D, un programme 3D paramétrique expose des dimensions explicites, des opérations de construction et des relations entre les pièces, révélant si un modèle retrouve la structure d'une conception, et pas seulement son apparence. Sous un protocole unifié, P3D-Bench couvre trois familles de tâches (Texte vers 3D, Image vers 3D et Assemblage 3D) et évalue chaque sortie pour l'exécutabilité, la fidélité géométrique, la topologie, les contraintes ancrées dans le texte, l'alignement sémantique multivue et la structure au niveau des pièces. Nous évaluons les MLLM de pointe et les LLM uniquement textuels sur 400 cas textuels, 400 cas d'image et 203 assemblages annotés, avec des modèles spécifiques au domaine comme points de référence. Notre évaluation approfondie produit trois résultats. Premièrement, les assemblages sont le cadre le plus difficile, où les modèles échouent encore à composer plusieurs pièces en une structure cohérente. Deuxièmement, les modèles peuvent souvent retrouver la forme globale et l'identité sémantique de l'objet cible, mais échouent à reproduire la géométrie paramétrique précise spécifiée par l'entrée. Troisièmement, la modélisation au niveau des pièces reste faible sur les assemblages, où les modèles ne retrouvent ni la géométrie de chaque pièce ni le nombre correct de pièces. Ces résultats positionnent P3D-Bench comme un référentiel pour l'évaluation de la géométrie paramétrique précise et de la structure au niveau des pièces dans la génération 3D paramétrique.
Les modèles Vision-Langage-Action (VLA) qui associent des Modèles Vision-Langage (MVL) pré-entraînés à des experts d'action continue ont obtenu des performances de manipulation élevées, mais leur généralisation à des instructions en langage hors distribution (OOD) reste faible. Un défi connu est le déséquilibre structurel dans les données VLA, où le langage est bien moins diversifié que le contenu visuel et actionnel, rendant les politiques sujettes aux raccourcis visuels. Bien que les méthodes à action discrète atténuent ce problème par un co-entraînement vision-langage, les experts d'action continue ne bénéficient pas d'une telle protection : ils partent d'une initialisation aléatoire et apprennent entièrement à partir de données déséquilibrées, produisant des gradients bruités qui corrompent le MVL et n'exploitent pas ses capacités langagières. Nous abordons cela d'un point de vue bayésien, en factorisant la politique en un a priori Vision-Action (VA) indépendant du langage et une vraisemblance VLA conditionnée par le langage, et proposons APT, une méthode d'entraînement en deux étapes mettant l'accent sur le pré-entraînement de l'expert d'action (*Action expert PreTraining*). Lors de l'étape 1, l'expert d'action est pré-entraîné comme un a priori VA sur des paires vision-action provenant d'un MVL figé, contournant ainsi le déséquilibre langagier. Lors de l'étape 2, les tokens de langage sont injectés via un mécanisme de fusion à porte qui intègre les caractéristiques du MVL tout en préservant l'antériorité visuomotrice apprise. APT s'applique aux architectures VLA courantes, y compris les architectures de type π et GR00T. Des expériences exhaustives valident qu'APT obtient des gains constants sur des instructions invisibles et des tâches compositionnelles. Page du projet : https://xukechun.github.io/papers/APT/
Les méthodes de conversion image-à-3D font souvent un compromis entre fidélité et complétude : les estimateurs de profondeur sont ancrés aux pixels d'entrée mais s'arrêtent à la surface visible, tandis que les modèles image-à-3D génèrent des formes complètes souvent mal alignées avec l'entrée. Nous introduisons World Tracing, une représentation géométrique générative alignée sur les pixels qui prédit des points 3D alignés avec les pixels observés tout en complétant la géométrie au-delà de la surface visible. Pour chaque pixel d'entrée, World Tracing prédit une pile ordonnée de points 3D dans l'espace caméra, où la première couche représente la surface visible et les couches suivantes représentent les intersections avant-arrière avec les surfaces occluses. Nous instancions cette représentation avec un transformeur de diffusion world-tracing, WT-DiT, qui traite les multiples couches géométriques comme des jetons de débruitage séparés couplés par attention factorisée et globale. WT-DiT est entraîné avec un flow matching dans l'espace des pixels et un programme de bruit mixte qui équilibre la reconstruction de la surface visible avec la génération de géométrie occluse. World Tracing atteint de bonnes performances en reconstruction de surface visible et en génération de géométrie complète sur des bancs d'essai d'objets, de scènes et dynamiques, surpassant à la fois les prédicteurs de profondeur et les générateurs image-à-3D. Il préserve également la correspondance 2D-à-3D, permettant l'édition de scènes 3D pilotée par texte, la synthèse de vidéos de nouvelles vues conditionnée par la géométrie, et l'intégration sans entraînement avec des générateurs de maillages texturés.
Les Modèles Fondamentaux Multimodaux (MFMs) ont réalisé des progrès considérables, mais restent fragiles en matière de raisonnement spatial sur le monde physique. Un goulet d'étranglement clé réside dans leur incapacité à transformer les observations égocentriques locales en une représentation spatiale allocentrique globale. Pour y remédier, nous proposons AlloSpatial, un cadre agentique pour la cognition spatiale allocentrique dans les modèles fondamentaux. AlloSpatial introduit World2Mind, un bac à sable de cartographie cognitive prêt à l'emploi qui convertit les observations égocentriques en priors allocentriques structurés, incluant des Arbres Spatiaux Allocentriques (AST) et des cartes d'itinéraire prenant en charge l'interrogation de la topologie des objets, des relations géométriques, de la passabilité et des trajectoires. Pour exploiter ces priors de manière fiable malgré les reconstructions bruitées et les preuves visuelles ambiguës, AlloSpatial introduit un Harnais de Raisonnement Spatial pour le jugement d'utilisation d'outils, la collecte d'indices découplés par modalité et l'arbitrage géométrico-sémantique. Nous internalisons en outre ce processus dans Qwen3-VL grâce à un apprentissage par renforcement à démarrage à froid avec une récompense au niveau de la trajectoire contrôlée par le harnais. Les expériences sur VSI-Bench et MindCube montrent qu'AlloSpatial améliore les modèles propriétaires de 5 % à 18 % dans un cadre sans entraînement, tandis que les AST seuls soutiennent un raisonnement spatial robuste même lorsque les entrées visuelles sont supprimées. Les agents AlloSpatial entraînés surpassent en outre les grands modèles à usage général et les bases de référence spatiales compétitives, suggérant que les représentations allocentriques structurées, l'utilisation active d'outils et le raisonnement vérifiable offrent une voie prometteuse vers des modèles fondamentaux spatialement capables.
Nous étudions l'identification de la meilleure action avec confiance fixée (BAI) dans les arbres minimax stochastiques. Ce problème devient de plus en plus pertinent dans la planification moderne en IA, où la recherche minimax approfondie et la recherche arborescente Monte-Carlo (MCTS) avec des simulations longues de modèles linguistiques sont confrontées à un compromis fondamental : les évaluations heuristiques sont peu coûteuses mais biaisées, tandis que les simulations précises sont fiables mais d'un coût prohibitif. Nous proposons 2FFS, un algorithme de recherche arborescente à deux fidélités qui transpose les idées des bandits plats multi-fidélité aux arbres. L'algorithme combine une expansion rapide de type minimax avec un échantillonnage stochastique de type MCTS, en décidant de manière adaptative quand exploiter des évaluations biaisées peu coûteuses et quand recourir à des évaluations précises coûteuses pour une certification locale. Nous prouvons la correction à confiance fixée, établissons un arrêt fini pour l'identification exacte et donnons une borne supérieure de coût polynomiale en profondeur pour les arbres de profondeur générale. À travers des expériences numériques sur des arbres stochastiques, 2FFS utilise nettement moins d'échantillons et d'opérations de calcul que la baseline existante BAI-MCTS.
Les détecteurs d'hallucination au niveau des tokens sont évalués en tant que classifieurs, par AUC sur l'ensemble des tokens, mais un moniteur en continu est jugé par son temps de réaction : le nombre de tokens qui s'écoulent entre l'apparition d'une hallucination et l'alarme. Nous formulons la détection du début d'hallucination comme un problème de détection de changement le plus rapide. Un modèle de Markov du premier ordre de l'état latent fidèle/hallucinatoire, validé sur RAGTruth, situe la tâche dans le cadre de la théorie classique des points de changement et fournit la borne inférieure de Lorden sur le délai de détection : environ 1,3 token à un taux de fausses alarmes de 0,01. Nous montrons ensuite qu'un étiqueteur récurrent causal agit comme un CUSUM avec un incrément appris ; à un taux de fausses alarmes équivalent, il détecte en 11 à 13 tokens, contre 31 pour une baseline linéaire par token, et une décomposition contrôlée attribue la majeure partie de cet avantage à un meilleur score par token plutôt qu'à une accumulation temporelle. Un théorème d'optimalité du taux d'information de type Donsker-Varadhan explique l'écart d'ordre de grandeur restant : le score appris ne réalise qu'1/4,5 de la divergence portée par les caractéristiques, un déficit que le recalibrage ne peut combler, le reste étant un effet d'horizon fini. Les métriques de classification masquent cette structure de délai ; l'analyse séquentielle la rend mesurable.
Nous présentons un benchmark pour évaluer les modèles et agents d'IA sur des tâches réelles de vérification formelle de logiciels. Nous extrayons d'abord 11 039 tests basés sur des propriétés (PBT) issus de dépôts Python réels, puis traduisons automatiquement 2 772 d'entre eux (25 %) en 9 415 spécifications Lean 4 avec des espaces réservés "sorry" (environ 3 formalisations par PBT ; nous conservons plusieurs tentatives lorsqu'aucune ne domine sur les métriques de qualité). Traduire les PBT en spécifications Lean est difficile : cela nécessite de modéliser la sémantique de Python dans Lean, d'inférer la propriété logique encodée dans un PBT impératif, et de gérer les difficultés inhérentes à la programmation typée dépendante dans un langage peu utilisé. Nous décrivons un pipeline LLM à trois agents pour la transpilation des PBT en spécifications Lean, évaluons des métriques de couverture et de qualité, et fournissons des lignes de base pour la génération de preuves utilisant plusieurs approches automatisées et basées sur des modèles. Tout le code (scraper et agents) et les données (PBT et spécifications Lean) sont open source. Notre benchmark vise à stimuler les progrès sur le problème encore peu exploré de la vérification formelle assistée par IA de logiciels réels, un enjeu d'intérêt croissant alors que l'IA produit de plus en plus de code dans le monde.
La vidéo humaine égocentrique offre une alternative scalable aux données robotiques pour le pré-entraînement, pourtant les modèles pré-entraînés sur ces vidéos sous-performent systématiquement ceux pré-entraînés sur des données robotiques. Nous attribuons cet écart à un signal manquant : le comportement de perception active dans les vidéos égocentriques, où les humains repositionnent continuellement leur point de vue lors de la manipulation, induisant un mouvement de caméra que les pipelines standards traitent comme du bruit. Pour y remédier, nous présentons ActiveMimic, un cadre de pré-entraînement qui récupère des trajectoires synchronisées de la caméra et du poignet à partir d’une seule caméra RGB portée sur le corps, modélise le mouvement de la caméra comme une action de point de vue, et apprend conjointement la perception active et la manipulation à partir de vidéos humaines égocentriques en conditions réelles avant de s’adapter à un robot cible. Empiriquement, des expériences en conditions réelles sur des tâches aux exigences diverses en perception active montrent qu’ActiveMimic surpasse systématiquement les bases pré-entraînées sur vidéo humaine et égale les modèles de pointe pré-entraînés sur données robotiques. Des analyses supplémentaires fournissent la preuve que la capacité de perception active provient du pré-entraînement sur vidéo humaine égocentrique plutôt que du réglage fin spécifique au robot, confirmant ainsi la perception active comme la clé pour exploiter la vidéo humaine égocentrique dans le pré-entraînement robotique.
La conduite interactive révèle un mode de défaillance facile à manquer dans les piles de conduite autonome conscientes des règles : une marge de règle stricte peut devenir négative pour un candidat ego, même si une petite concession légale de la part d’un agent non prioritaire rétablirait la faisabilité. Les livrets de règles, boucliers et filtres d’atteignabilité existants sont efficaces pour opposer leur veto à des actions dangereuses, tandis que les planificateurs basés sur la prédiction modélisent les réponses probables. Ni les uns ni les autres ne renvoient un objet de preuve en temps réel qui indique quelle modification multi-agents bornée répare la manœuvre, à qui appartient la modification, si la demande est abordable en termes de priorité, et quelle solution de repli pour l’ego reste si la demande n’est pas respectée. Nous formulons cet objet manquant comme une *certification de réparation interactive* et introduisons *CARVE*, une couche de certification sans prédiction reposant sur un treillis fini d’opérateurs tactiques appartenant à l’ego et à l’agent. Les demandes appartenant à l’agent ne sont admissibles qu’à l’intérieur de \(B_j(s) = β(π_j)α_j^{\max}(s)\), une enveloppe de coopération qui sépare l’atteignabilité cinématique de la priorité normative. Le certificat résultant enregistre la règle contraignante, la catégorie de réparation, l’ensemble de réparation, la répartition des coûts pondérée par la responsabilité et la solution de repli. Sur 589 épisodes de rejeu INTERACTION ancrés dans la géométrie Lanelet2, CARVE-Greedy accepte 98,64 % des manœuvres initialement mises en veto et récupère 370/378 faux vetos résolus par l’humain, tout en préservant 589/589 respect des priorités, zéro faux positif d’agent prioritaire et 400/400 vetos de stress négatif. Nous prouvons la solidité du certificat, le respect structurel des priorités, la minimalité exacte dans un treillis fini, la contingence de repli et les conditions de cohérence de l’attribution de responsabilité. CARVE ne prédit ni n’exige la conformité d’un autre conducteur ; il certifie si une interaction proposée est bornée, attribuable et normativement admissible sous les hypothèses déclarées.
Les grands modèles de raisonnement suivent généralement un paradigme "lire puis penser" : ils observent l'entrée complète, raisonnent sur un contexte statique, puis produisent la réponse. Pourtant, de nombreux scénarios réels sont intrinsèquement dynamiques, comme les flux audio et vidéo, où l'information arrive sous forme d'un flux continu et les modèles doivent raisonner, mettre à jour et répondre sous des observations partielles. Les récentes méthodes de raisonnement en flux permettent aux modèles de penser tout en lisant, mais elles reposent largement sur l'imitation supervisée de trajectoires préconstruites, ce qui limite leur flexibilité. Dans cet article, nous proposons AdaSR, un cadre de raisonnement adaptatif en flux qui permet aux modèles de raisonner pendant l'entrée du flux et d'effectuer une délibération finale une fois le flux terminé, apprenant quand penser et combien de calcul allouer à différentes étapes. Pour optimiser ce processus de raisonnement hiérarchique, nous introduisons l'Optimisation Hiérarchique par Politique Relative (HRPO), qui décompose l'optimisation de la politique en phases de raisonnement en flux et de raisonnement profond, offrant une attribution d'avantage plus fine au lieu de distribuer uniformément un avantage unique au niveau de la séquence sur tous les jetons. HRPO intègre des récompenses de format, de précision et de pensée adaptative pour imposer des protocoles de raisonnement valides, préserver la performance finale de la tâche et encourager une allocation de calcul tenant compte de la latence. Les expériences montrent qu'AdaSR atteint un meilleur équilibre entre précision du raisonnement, efficacité computationnelle et latence de flux par rapport à la ligne de base de l'ajustement fin supervisé. Nous publions notre code à l'adresse https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.
L'élagage non structuré produit des tenseurs de poids creux, mais l'implémentation standard conserve les dimensions des tenseurs inchangées, de sorte que le modèle déployé n'est pas plus petit qu'avant l'élagage. Nous présentons une réécriture structurelle exacte, que nous appelons minimisation, qui convertit un réseau masqué en un réseau dense plus petit dont la fonction de propagation avant est identique à l'arrondi en virgule flottante près. Le cycle Squeeze-Release itère l'élagage et la minimisation avec une étape de libération intermédiaire qui réactive les positions exactement nulles à l'intérieur des tenseurs compactés sous forme d'un petit bruit calibré, transformant ainsi une capacité autrement perdue en paramètres entraînables. Les cycles successifs utilisent cette capacité pour détecter une redondance structurelle qu'un seul passage ne peut atteindre. Nous introduisons également CompensatedLayerNorm, un remplacement préservant la fonction de LayerNorm qui étend la minimisation à la réduction des canaux dans les flux résiduels équipés de LayerNorm. Squeeze-Release comprime le réseau déployable à 39 fois plus petit que le modèle non élagué sur un réseau entièrement connecté et à 14,8 fois plus petit sur un CNN moderne (ConvNeXt-Tiny), avec une précision comparable. De plus, nous prouvons que la réécriture peut être étendue aux architectures de transformeurs.
Des ensembles de données volumineux et équilibrés sur le plan démographique sont essentiels pour obtenir des biomarqueurs fiables en neuroimagerie. La synthèse d'IRM cérébrale 3D en pleine résolution peut soutenir l'augmentation de données dans ce contexte, mais les approches existantes entraînent soit un coût de calcul prohibitif à l'échelle volumétrique, soit reposent sur une compression latente avec pertes qui peut compromettre les détails anatomiques. En conséquence, l'augmentation générative 3D pratique nécessite souvent une infrastructure de calcul spécialisée. Nous proposons WaveDiT, un cadre de matching de flux conditionnel opérant dans l'espace des coefficients d'une transformée en ondelettes discrètes de Haar 3D. Le modèle combine une attention spatio-profondeur factorisée avec une modélisation de l'incertitude hétéroscédastique par bande, dérivée de statistiques d'ondelettes d'ordre supérieur. La log-variance prédite est intégrée à la fois dans l'objectif du flux et dans la voie de conditionnement, permettant une précision adaptative cohérente avec la structure de variance à queue lourde et dépendante de l'entrée des détails anatomiques. Cette formulation permet une synthèse 3D en pleine résolution sous des contraintes pratiques de mémoire et de temps sur une seule GPU moderne. L'évaluation sur une cohorte multi-site démontre un meilleur alignement entre les distributions d'IRM générées et réelles, ainsi qu'une amélioration de la prédiction en aval de l'âge cérébral et de l'accord anatomique au niveau régional par rapport aux références basées sur la diffusion, la latence et les ondelettes. Le code est disponible à l'adresse https://github.com/sisinflab/WaveDiT.
Avec PRECISE, nous avons étendu l’inférence assistée par prédiction pour produire des estimations corrigées du biais des métriques d’évaluation de classement en combinant un petit ensemble annoté par des humains avec un vaste ensemble évalué par un LLM. PPI est prouvé sans biais, quel que soit le profil d’erreur du juge LLM. Nous le rendons applicable à des métriques hiérarchiques comme Precision@K, où les annotations portent sur chaque document mais la métrique porte sur chaque requête, en réduisant le calcul de l’espace de sortie de O(2^|C|) à O(2^K). Sur le benchmark ESCI, l’ajout de 30 annotations humaines aux jugements de Claude 3 Sonnet réduit l’erreur type des estimations de Precision@4 de 4,45 à 3,50 (soit une réduction relative de 21 %). Dans un système de production, notre cadre a correctement identifié la meilleure des trois variantes du système à partir de 100 étiquettes humaines et de 2 heures d’annotation par des experts du domaine ; les tests A/B ont confirmé ce classement avec +407 points de base dans les ventes quotidiennes.