Articles de recherche IA sélectionnés quotidiennement avec traductions
Les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont considérablement amélioré la compréhension de documents. Pourtant, les évaluations actuelles de Doc-VQA ne notent que la réponse finale et ne vérifient pas les preuves sous-jacentes. Cette approche centrée uniquement sur la réponse masque un mode de défaillance critique : un modèle peut fournir une réponse correcte tout en l'ancrant dans le mauvais passage — un risque majeur dans des domaines à forts enjeux comme le droit, la finance et la médecine, où chaque conclusion doit être traçable jusqu'à une région source spécifique. Pour y remédier, nous introduisons CiteVQA, un benchmark qui exige que les modèles renvoient des citations sous forme de boîtes englobantes au niveau des éléments, en plus de chaque réponse, et les évalue conjointement. CiteVQA comprend 1897 questions réparties sur 711 PDF couvrant sept domaines et deux langues, avec une moyenne de 40,6 pages par document. Pour garantir la fidélité et l'évolutivité, les citations de vérité terrain sont générées par un pipeline automatisé — qui identifie les preuves cruciales via une ablation par masquage — puis validées par un examen d'experts. Au cœur de notre évaluation se trouve la Précision Attribuée Stricte (SAA), qui ne crédite une prédiction que lorsque la réponse et la région citée sont toutes deux correctes. L'audit de 20 MLLMs révèle une Hallucination d'Attribution omniprésente : les modèles produisent fréquemment une réponse correcte tout en citant une région erronée. Le système le plus performant (Gemini-3.1-Pro-Preview) atteint une SAA de seulement 76,0, et le meilleur MLLM open-source atteint à peine 22,5. En définitive, en vue d'une intelligence documentaire digne de confiance, CiteVQA expose un écart de fiabilité que les évaluations centrées uniquement sur la réponse négligent, fournissant ainsi l'instrumentation nécessaire pour le combler. Notre dépôt est disponible à l'adresse https://github.com/opendatalab/CiteVQA.
Les modèles vision-langage-action ont progressé rapidement, mais les trajectoires de robots seules offrent une couverture limitée pour apprendre une compréhension physique large. PhysBrain 1.0 étudie une voie complémentaire : convertir des vidéos égocentriques humaines à grande échelle en supervision structurée de bon sens physique avant l'adaptation robotique. Notre moteur de données extrait les éléments de scène, les dynamiques spatiales, l'exécution d'actions et les relations de profondeur, puis les transforme en supervision question-réponse pour entraîner les VLM PhysBrain. Les a priori physiques résultants sont ensuite transférés aux politiques VLA via une conception d'adaptation préservant les capacités et sensible au langage. Sur des benchmarks de QA multimodale et de contrôle incarné, y compris ERQA, PhysBench, SimplerEnv-WidowX, LIBERO et RoboCasa, PhysBrain 1.0 atteint des résultats SOTA et montre des performances particulièrement solides en hors-domaine sur SimplerEnv. Ces résultats suggèrent que la mise à l'échelle du bon sens physique à partir de vidéos d'interaction humaine peut fournir un pont efficace de la compréhension multimodale à l'action robotique.
Les compétences réutilisables sont devenues un substrat essentiel pour améliorer les capacités des agents. Pourtant, la plupart des packages de compétences existants encodent les comportements réutilisables principalement sous forme d'invites textuelles, de code exécutable ou de routines apprises. Pour les agents visuels, cependant, la connaissance procédurale est intrinsèquement multimodale : la réutilisation ne dépend pas seulement de l'opération à effectuer, mais aussi de la reconnaissance de l'état pertinent, de l'interprétation des indices visuels de progression ou d'échec, et de la décision quant à la prochaine action. Nous formalisons cette exigence sous le nom de connaissance procédurale multimodale et abordons trois défis pratiques : (I) ce qu'un package de compétences multimodales devrait contenir ; (II) où de tels packages peuvent être dérivés d'expériences d'interaction publiques ; et (III) comment les agents peuvent consulter des preuves multimodales lors de l'inférence sans un contexte d'image excessif ou un ancrage excessif dans des captures d'écran de référence. Nous présentons MMSkills, un cadre pour représenter, générer et utiliser des procédures multimodales réutilisables pour la prise de décision visuelle en temps réel. Chaque MMSkill est un package compact et conditionné par l'état, qui associe une procédure textuelle à des cartes d'état d'exécution et à des images clés multi-vues. Pour construire ces packages, nous développons un générateur agentique trajectoire-à-compétence qui transforme les trajectoires publiques non-évaluation en compétences multimodales réutilisables via le regroupement de workflows, l'induction de procédures, l'ancrage visuel et l'audit guidé par méta-compétences. Pour les utiliser, nous introduisons un agent de compétences multimodales à branche chargée : les cartes d'état et images clés sélectionnées sont inspectées dans une branche temporaire, alignées avec l'environnement en direct, et distillées en directives structurées pour l'agent principal. Les expériences menées sur des benchmarks d'agents visuels basés sur des interfaces graphiques et des jeux montrent que MMSkills améliore de manière constante à la fois les agents multimodaux de pointe et ceux plus petits, suggérant que la connaissance procédurale multimodale externe complète les connaissances internes des modèles.
Personnalisation vidéo centrée sur l'humain, en particulier au niveau du vêtement, présente une valeur commerciale significative. Cependant, les approches existantes ne permettent pas un contrôle interactif et à faible latence des vêtements, essentiel pour des applications telles que le commerce électronique et la création de contenu. Cet article étudie comment réaliser une personnalisation vidéo interactive multi-vêtements tout en préservant la cohérence du mouvement, en utilisant uniquement des données vidéo d'un seul vêtement. Nous présentons FashionChameleon, un cadre interactif et en temps réel pour la personnalisation humain-vêtement dans la génération vidéo autorégressive, où les utilisateurs peuvent changer interactivement de vêtement pendant la génération. FashionChameleon repose sur trois techniques clés : (i) Au lieu d'un entraînement sur des données vidéo multi-vêtements, nous entraînons un Modèle Enseignant avec Apprentissage en Contexte sur une paire référence-vêtement unique. En conservant le paradigme d'entraînement image-vers-vidéo tout en imposant une discordance entre l'image de référence et l'image du vêtement, le modèle est encouragé à préserver implicitement la cohérence lors du changement d'un seul vêtement. (ii) Pour atteindre cohérence et efficacité durant la génération, nous introduisons la Distillation en Flux avec Apprentissage en Contexte, qui affine le modèle par forçage enseignant en contexte et améliore la cohérence d'extrapolation via une distillation par appariement de distributions repondérée par gradient. (iii) Pour étendre le modèle à la personnalisation vidéo interactive multi-vêtements, nous proposons la Réorganisation du Cache KV sans Entraînement, qui inclut le rafraîchissement KV du vêtement, le retrait KV historique et le démêlage KV de référence, permettant le changement de vêtement tout en préservant la cohérence du mouvement. Notre FashionChameleon prend en charge de manière unique la personnalisation interactive et l'extrapolation cohérente de longues vidéos, tout en réalisant une génération en temps réel à 23,8 FPS sur un seul GPU, soit 30 à 180 fois plus rapide que les références existantes.
La distillation sur politique (OPD) est devenue un paradigme de post-entraînement efficace pour les grands modèles de langage. Cependant, les études existantes attribuent principalement cet avantage à une supervision plus dense et plus stable, tandis que les mécanismes au niveau des paramètres qui sous-tendent l'efficacité de l'OPD restent mal compris. Dans ce travail, nous soutenons que l'efficacité de l'OPD découle d'une forme d'« anticipation » : elle établit une trajectoire de mise à jour stable vers le modèle final dès le début de l'entraînement. Cette anticipation se manifeste sous deux aspects. Premièrement, au niveau de l'allocation des modules, l'OPD identifie les régions à faible utilité marginale et concentre les mises à jour sur les modules les plus critiques pour le raisonnement. Deuxièmement, au niveau de la direction de mise à jour, l'OPD présente une concentration de faible rang plus prononcée, ses sous-espaces dominants s'alignant étroitement avec le sous-espace de mise à jour final dès le début de l'entraînement. Sur la base de ces résultats, nous proposons EffOPD, une méthode d'accélération plug-and-play qui accélère l'OPD en sélectionnant de manière adaptative une taille de pas d'extrapolation et en progressant le long de la direction de mise à jour actuelle. EffOPD ne nécessite ni modules entraînables supplémentaires ni réglage complexe des hyperparamètres, et atteint une accélération moyenne de l'entraînement de 3 fois tout en maintenant des performances finales comparables. Dans l'ensemble, nos résultats offrent une perspective de dynamique des paramètres pour comprendre l'efficacité de l'OPD et fournissent des pistes pratiques pour concevoir des méthodes de post-entraînement plus efficaces pour les grands modèles de langage.
Atteindre un niveau de manipulation comparable à celui des humains nécessite des mains robotiques dextres capables d'interactions complexes avec les objets. Pour progresser dans cette direction, des référentiels standardisés permettant une évaluation systématique sont indispensables. Cependant, les référentiels existants pour la manipulation dextre manquent de tâches reflétant les capacités uniques des mains dextres par rapport aux pinces parallèles, ainsi que de pipelines d'évaluation complets. Dans cet article, nous présentons DexJoCo, un référentiel et une boîte à outils pour la manipulation dextre orientée tâche, comprenant 11 tâches fonctionnellement fondées qui évaluent l'utilisation d'outils, la coordination bimanuelle, l'exécution à long horizon et le raisonnement. Nous développons un système de collecte de données à faible coût et recueillons 1 100 trajectoires sur ces tâches, avec un support pour la randomisation des domaines afin d'évaluer la robustesse. Nous évaluons les modèles modernes dans divers contextes, incluant la randomisation visuelle et dynamique, l'entraînement multitâche et l'adaptation des têtes d'action. Grâce à une analyse empirique approfondie, nous identifions plusieurs informations importantes et limitations courantes des politiques actuelles en matière de manipulation dextre, mettant en évidence les défis clés pour les futures recherches sur l'apprentissage des mains robotiques dextres. Page du projet disponible à l'adresse : https://dexjoco.github.io
La distillation des grands modèles de raisonnement est essentielle pour rendre pratique le raisonnement Long-CoT, car l'inférence à grande échelle reste prohibitive sur le plan computationnel. Les approches existantes basées sur la curation sélectionnent des traces de raisonnement complètes a posteriori, négligeant la collaboration entre enseignants hétérogènes et manquant d'exploration dynamique, ce qui entraîne un échantillonnage redondant et des opportunités de raisonnement complémentaire manquées. Nous introduisons CoRD, un cadre de décodage collaboratif multi-enseignant qui effectue une synthèse de raisonnement pas à pas guidée par un scoring basé sur la perplexité prédictive et une recherche par faisceau. Cela permet à des LRM hétérogènes de construire conjointement des trajectoires de raisonnement cohérentes tout en préservant efficacement des hypothèses diverses et prometteuses. Les expériences montrent que CoRD produit des données de raisonnement de meilleure qualité et atteint des performances étudiantes proches de celles des enseignants avec moins de signaux de supervision structurés, sans surcoût d'efficacité substantiel. CoRD se généralise également bien à des contextes hors domaine et ouverts. L'ensemble de données et le modèle sont disponibles à l'adresse https://github.com/DISL-Lab/CoRD.
Les textes et les visages comptent parmi les motifs les plus saillants sur le plan perceptif et les plus importants en pratique dans la génération visuelle, mais ils restent difficiles à traiter pour les générateurs autorégressifs fondés sur une tokenization discrète. Un goulet d'étranglement central est le tokenizer : un sous-échantillonnage et une quantification agressifs éliminent souvent les structures à grain fin nécessaires pour préserver les glyphes lisibles et les caractéristiques faciales distinctives. Nous attribuons cet écart au fait que les objectifs standards des tokenizers discrets sont faiblement alignés avec la lisibilité du texte et la fidélité des visages, car ces objectifs optimisent généralement une reconstruction générique tout en compressant uniformément un contenu diversifié. Pour y remédier, nous proposons InsightTok, un cadre simple mais efficace de tokenization visuelle discrète qui améliore la fidélité du texte et des visages grâce à des pertes perceptuelles localisées et conscientes du contenu. Avec un codebook compact de 16k et un taux de sous-échantillonnage de 16x, InsightTok surpasse nettement les tokenizers antérieurs dans la reconstruction de texte et de visage sans compromettre la qualité générale de reconstruction. Ces gains se transfèrent systématiquement à la génération d'images autorégressive dans InsightAR, produisant des images avec un texte plus clair et des détails faciaux plus fidèles. Globalement, nos résultats soulignent le potentiel d'une supervision spécialisée dans l'entraînement des tokenizers pour faire progresser la génération d'images discrètes.
L'Optimisation Relative de Politique par Groupes (Group Relative Policy Optimization, GRPO) est devenue essentielle pour aligner les modèles de diffusion vidéo sur les préférences humaines, mais elle se heurte à un goulot d'étranglement computationnel critique : l'entraînement d'un modèle de 14 milliards de paramètres nécessite généralement des centaines de jours GPU par expérience. Les méthodes d'efficacité existantes réduisent les coûts grâce à un sous-échantillonnage par fenêtre glissante des pas de temps d'entraînement, mais compromettent fondamentalement l'optimisation, présentant une instabilité sévère et ne parvenant pas à atteindre la performance complète de la trajectoire. Nous présentons Flash-GRPO, un cadre d'entraînement en une seule étape qui surpasse l'entraînement complet sur trajectoire en termes de qualité d'alignement sous de faibles budgets computationnels, tout en améliorant considérablement l'efficacité de l'entraînement. Flash-GRPO aborde deux défis critiques : le regroupement iso-temporel élimine la variance confondue par le pas de temps en imposant une cohérence temporelle par prompt, découplant ainsi la performance de la politique de la difficulté du pas de temps ; la rectification du gradient temporel neutralise le facteur d'échelle dépendant du temps qui provoque des magnitudes de gradient très incohérentes entre les pas de temps. Les expériences sur des modèles de 1,3 à 14 milliards de paramètres valident l'efficacité de Flash-GRPO, démontrant une accélération substantielle de l'entraînement avec une stabilité constante et une qualité d'alignement de pointe.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme scalable pour améliorer les capacités de raisonnement des grands modèles de langage. Cependant, son efficacité est fondamentalement limitée par l'exploration : la politique ne peut s'améliorer que sur les trajectoires déjà échantillonnées. Bien qu'augmenter le nombre de déploiements atténue ce problème, ce passage à l'échelle par force brute est coûteux en calcul, et les approches existantes modifiant l'objectif d'optimisation offrent un contrôle limité sur ce qui est exploré. Dans ce travail, nous proposons NudgeRL, un cadre pour une exploration structurée et axée sur la diversité dans le RLVR. Notre approche introduit l'Incitation Stratégique (Strategy Nudging), qui conditionne chaque déploiement sur des contextes légers au niveau stratégique afin de générer des trajectoires de raisonnement diverses sans recourir à une supervision oracle coûteuse. Pour apprendre efficacement de cette exploration structurée, nous proposons également un objectif unifié, qui décompose le signal de récompense en composantes inter- et intra-contexte et intègre un objectif de distillation pour transférer les comportements découverts à la politique de base. Empiriquement, NudgeRL surpasse le GRPO standard avec des budgets de déploiement jusqu'à 8 fois plus importants, tout en surpassant la référence RL guidée par oracle en moyenne sur cinq benchmarks mathématiques difficiles. Ces résultats démontrent que l'exploration structurée et guidée par le contexte peut servir d'alternative efficace et scalable tant au passage à l'échelle par force brute des déploiements qu'aux méthodes orientées faisabilité reposant sur des informations privilégiées. Notre code est disponible à l'adresse https://github.com/tally0818/NudgeRL.
Les modèles de monde de jeu actuels simulent des environnements depuis une perspective subjective et centrée sur le joueur. Cependant, en traitant le Personnage Non-Joueur (PNJ) comme de simples pixels d'arrière-plan, ces modèles ne peuvent pas capturer les interactions entre le joueur et le PNJ. En ce sens, ils agissent comme des rendus vidéo passifs plutôt que comme de véritables moteurs de simulation, dépourvus de la compréhension physique nécessaire pour modéliser les réactivités des PNJ induites par les actions. Nous présentons ReactiveGWM, un modèle de monde de jeu réactif qui synthétise les interactions dynamiques entre le joueur et le PNJ. Au lieu d'entremêler toutes les dynamiques d'interaction, ReactiveGWM découple explicitement les contrôles du joueur des comportements du PNJ. Les actions du joueur sont injectées dans le backbone de diffusion via un biais additif léger, tandis que les réponses de haut niveau du PNJ (par exemple, Attaque, Contrôle, Défense) sont ancrées via des modules d'attention croisée. De manière cruciale, ces modules apprennent une représentation de la logique interactive indépendante du jeu. Cela permet un transfert de stratégie zero-shot : nos modules appris peuvent être directement branchés sur des modèles de monde prêts à l'emploi et non annotés de jeux différents. Ils déverrouillent instantanément des interactions orientables avec le PNJ sans aucun réentraînement spécifique au domaine. Évalué sur deux jeux Street Fighter, ReactiveGWM maintient une contrôlabilité fine du joueur tout en atteignant une adhésion robuste aux stratégies du PNJ, alignée sur les consignes, ouvrant la voie à une interaction évolutive et riche en stratégie avec le PNJ.
L'Optimisation Relative de Politique par Groupe (GRPO) améliore les grands modèles de langage en estimant les avantages à travers un groupe de trajectoires échantillonnées. Cependant, la mise en correspondance de ces avantages au niveau des trajectoires avec les mises à jour de la politique nécessite d'agréger les probabilités au niveau des tokens au sein de chaque séquence. Le fait de s'appuyer sur un mécanisme d'agrégation fixe pour cette étape limite fondamentalement l'adaptabilité de l'algorithme. Empiriquement, nous observons un compromis critique : certaines agrégations fixes souffrent fréquemment d'un effondrement de l'entraînement, tandis que d'autres ne parviennent pas à produire des performances satisfaisantes. Pour résoudre ce problème, nous proposons HölderPO, un cadre d'optimisation de politique généralisé qui unifie l'agrégation des probabilités au niveau des tokens via la moyenne de Hölder. En modulant explicitement le paramètre p, notre cadre offre un contrôle continu sur le compromis entre la concentration du gradient et les bornes de variance. Théoriquement, nous prouvons qu’un p plus élevé concentre le gradient pour amplifier les signaux d’apprentissage épars, tandis qu’un p plus faible borne strictement la variance du gradient. Étant donné qu’aucune configuration statique ne peut résoudre universellement ce compromis concentration-stabilité, nous instancions le cadre avec un algorithme de recuit dynamique qui planifie progressivement p tout au long du cycle d’entraînement. Des évaluations approfondies démontrent une stabilité et une convergence supérieures par rapport aux bases de référence existantes. Plus précisément, notre approche atteint une précision moyenne de 54,9 % (état de l’art) sur plusieurs benchmarks mathématiques, réalisant un gain relatif substantiel de 7,2 % par rapport à la GRPO standard, et obtient un taux de réussite exceptionnel de 93,8 % sur ALFWorld.
Les modèles de langage de grande taille (LLMs) peinent encore face aux exigences de raisonnement rigoureux des problèmes de programmation compétitive difficile. Bien que des cadres multi-agents récents tentent de combler ce fossé de fiabilité, ils restent fondamentalement sans état : ils s'appuient sur une récupération statique et négligent l'expérience précieuse de résolution de problèmes et de débogage acquise lors de tâches antérieures. Pour y remédier, nous présentons Solvita, un cadre d'évolution agentique qui permet un apprentissage continu sans nécessiter de mise à jour des poids du LLM sous-jacent. Solvita réorganise la résolution de problèmes en un système en boucle fermée comprenant la sélection de stratégies, la synthèse de programmes, la supervision certifiée et le ciblage de vulnérabilités, exécuté par quatre agents spécialisés : Planificateur, Solveur, Oracle et Pirate. Fondamentalement, chaque agent est associé à un réseau de connaissances structuré en graphe et entraînable. À mesure que le système fonctionne, les signaux de résultat, tels que les verdicts de succès/échec, la qualité de la certification des tests et les vulnérabilités adverses découvertes par le Pirate, sont reformulés en mises à jour d'apprentissage par renforcement de ces poids de réseau. Cela permet aux agents d'orienter dynamiquement les requêtes futures en fonction des succès et échecs passés, accumulant ainsi efficacement une expérience de raisonnement transférable au fil du temps. Évalué sur CodeContests, APPS, AetherCode et des tours live de Codeforces, Solvita établit un nouvel état de l'art parmi les agents de génération de code, surpassant les pipelines multi-agents existants et doublant presque la précision des références à passage unique.
Les modèles modernes d'édition d'images produisent des résultats réalistes mais peinent avec des instructions abstraites et multi-étapes (par exemple, « rendre cette publicité plus végétarienne »). Les méthodes antérieures basées sur des agents décomposent de telles tâches mais reposent sur des pipelines artisanaux ou une imitation d'enseignant, limitant la flexibilité et dissociant l'apprentissage des résultats réels d'édition. Nous proposons un cadre expérientiel pour l'édition d'images à long horizon, dans lequel un planificateur génère des décompositions atomiques structurées et un orchestrateur sélectionne les outils et les régions pour exécuter chaque étape. Un juge de langage visuel fournit des récompenses basées sur les résultats, tenant compte du respect des instructions et de la qualité visuelle. L'orchestrateur est entraîné à maximiser ces récompenses, et les trajectoires réussies sont utilisées pour affiner le planificateur. En couplant étroitement la planification avec une exécution basée sur les récompenses, notre approche produit des éditions plus cohérentes et fiables que les références mono-étape ou multi-étapes basées sur des règles.
Les grands modèles vision-langage ont considérablement amélioré les agents d'interface graphique (GUI), permettant une interaction exécutable sur les interfaces web, mobiles et de bureau. Cependant, ces progrès reposent largement sur un paradigme tolérant aux régions, où de nombreux pixels voisins à l'intérieur d'un même composant restent valides. La construction géométrique précise remet en cause cette hypothèse : les actions doivent atterrir sur des points dans un espace de canevas continu plutôt que sur des régions tolérantes. Étant donné que les primitives géométriques portent des dépendances ontologiques, une erreur de coordonnées locale peut induire des défaillances topologiques en cascade qui déforment les objets en aval et invalident la construction finale. Nous identifions ce régime comme des tâches GUI sensibles à la précision, nécessitant une exactitude au niveau du point, une vérification tenant compte de la géométrie et une robustesse face à la propagation d'erreurs dépendant des dépendances. Pour l'évaluer, nous introduisons PAGE Bench, comprenant 4 906 problèmes et plus de 224 000 actions GUI supervisées par processus au niveau du pixel. Nous proposons également PAGER, un agent sensible à la topologie qui décompose la construction en planification structurée par dépendances et exécution au niveau du pixel. L'ajustement supervisé ancré dans les pixels établit une grammaire d'action exécutable, tandis que l'apprentissage par renforcement aligné sur la précision atténue le biais d'exposition induit par le déploiement grâce à un retour géométrique conditionné par l'état. Les expériences révèlent un écart sémantique-exécution prononcé : les modèles multimodaux généraux peuvent dépasser 88 % de précision sur le type d'action mais restent en dessous de 6 % de réussite de tâche. PAGER comble cet écart, offrant 4,1 fois plus de réussite de tâche que la référence générale la plus forte évaluée et portant le taux de réussite des étapes de moins de 9 % pour les agents spécialisés GUI à plus de 62 %, établissant un nouvel état de l'art pour le contrôle GUI précis au point près.
L'apprentissage visuel 3D moderne repose sur des observations échantillonnées à partir d'actifs 3D métriques, mais les scans, maillages, nuages de points, simulations et reconstructions existants ne fournissent pas directement une interface d'entraînement panoramique clairsemée, comparable et géométriquement cohérente. Les trajectoires denses dupliquent les vues proches, les politiques de rendu spécifiques aux sources produisent des annotations hétérogènes, et des heuristiques éparses peuvent omettre des régions importantes ou introduire des observations incohérentes en profondeur. Nous étudions comment convertir des actifs 3D en données panoramiques RVB-D-pose clairsemées qui préservent une couverture complète de la scène avec une faible redondance et une provenance vérifiable. Nous proposons COVER (Curatage de points de vue orienté couverture avec déformation de profondeur de plage ERP), un curateur de points de vue ERP sans entraînement qui projette la géométrie observée depuis des vues sélectionnées dans des sondes ERP candidates, score la couverture incrémentale et pénalise les conflits de profondeur. Sous une erreur de proxy bornée, son proxy de couverture glouton préserve le comportement d'approximation standard de type couverture jusqu'à un terme d'erreur additif. À l'aide de COVER, nous construisons CM-EVS (Ensemble de Vues ERP Métriques Curatées pour la Couverture), un jeu de données panoramique RVB-D-pose comprenant 36 373 images ERP curatées issues de 1 275 scènes intérieures couvrant Blender indoor, HM3D et ScanNet++, complété par des panoramas extérieurs de TartanGround et OB3D ré-encodés dans le même schéma. Chaque image fournit une sphère complète RVB, une profondeur métrique de plage, une pose calibrée ; les images intérieures produites par COVER incluent des journaux de provenance par étape. Avec une médiane de seulement 25 images par scène intérieure, CM-EVS couvre les 13 types de pièces unifiés tout en maintenant une couverture compacte au niveau de la scène. Les expériences montrent que COVER améliore le compromis couverture-conflit, faisant de CM-EVS une ressource RVB-D-pose clairsemée, compacte et vérifiable pour l'apprentissage 3D panoramique géométriquement cohérent.
Les Modèles Vision-Langage (VLM) excellent dans les tâches 2D telles que l'ancrage (grounding) et le sous-titrage (captioning), mais restent limités dans la compréhension 3D. Une limitation clé réside dans leur paradigme de supervision uniquement textuelle, qui sous-contraint la perception visuelle fine et empêche la récupération d'une géométrie dense. Les méthodes antérieures soit distillent la géométrie à partir de modèles de vision externes, introduisant une accumulation d'erreurs, soit permettent une prédiction directe avec une requête par pixel inefficace ou des sorties grossières au niveau des tokens. Dans cet article, nous proposons DepthVLM, un cadre simple mais efficace qui transforme un VLM unique en un prédicteur natif de géométrie dense tout en préservant sa capacité multimodale. En attachant une tête de profondeur légère au backbone du LLM et en l'entraînant sous un paradigme de supervision vision-texte unifié avec un planning en deux étapes, DepthVLM génère des cartes de profondeur en pleine résolution en parallèle des sorties linguistiques en une seule passe avant. Nous introduisons également un benchmark unifié de profondeur métrique intérieur-extérieur dans un format compatible avec les VLM. Les expériences montrent que DepthVLM surpasse significativement les VLM existants avec une efficacité d'inférence supérieure, dépasse les principaux modèles de vision purs, et améliore le raisonnement spatial 3D complexe, se rapprochant ainsi d'un véritable modèle de fondation unifié. Tout le code et les points de contrôle seront rendus publics.
Les systèmes multi-agents automatiques visent à instancier des flux de travail d'agents sans recourir à une orchestration manuelle ou fixe. Cependant, les approches automatiques existantes ne restent que partiellement adaptatives : elles effectuent soit une recherche sans entraînement au moment du test, soit optimisent le concepteur de niveau méta tout en gelant les agents d'exécution en aval, ce qui crée un plafond d'exécution figé et laisse inexploré l'apprentissage de bout en bout des modèles agentiques auto-conçus et auto-exécutés. Pour y remédier, nous introduisons MetaAgent-X, un cadre d'apprentissage par renforcement de bout en bout qui optimise conjointement la conception et l'exécution automatiques des systèmes multi-agents. MetaAgent-X permet la génération de scripts pour les systèmes multi-agents, la collecte de déploiements d'exécution et l'attribution de crédits pour les trajectoires du concepteur et de l'exécuteur. Afin de soutenir une optimisation stable et évolutive, nous proposons le déploiement hiérarchique concepteur-exécuteur et la co-évolution par étapes pour améliorer la stabilité de l'entraînement et révéler la dynamique de la co-évolution concepteur-exécuteur. MetaAgent-X surpasse systématiquement les références automatiques existantes en matière de systèmes multi-agents, avec des gains allant jusqu'à 21,7 %. Des ablations complètes montrent que tant le concepteur que l'exécuteur s'améliorent au cours de l'entraînement et que l'apprentissage efficace des systèmes multi-agents automatiques suit un processus de co-évolution par étapes. Ces résultats établissent les systèmes multi-agents automatiques entraînables de bout en bout comme un paradigme pratique pour construire des modèles agentiques auto-conçus et auto-exécutés.
L'orientation d'activation est une technique de contrôle en boîte blanche populaire qui modifie les activations d'un modèle afin d'obtenir un changement abstrait dans son comportement. Elle est également devenue un outil standard dans la recherche en interprétabilité (par exemple, sonder la véracité ou traduire les activations en explications compréhensibles par l'humain) et en sécurité (par exemple, le risque de contournement). Cependant, on ne sait pas dans quelle mesure le comportement orienté est réalisable par une invite textuelle quelconque. Dans ce travail, nous formulons cette question comme un problème de surjectivité : pour un modèle fixé, toute activation orientée admet-elle un antécédent dans le passage avant naturel du modèle ? Sous des hypothèses pratiques, nous prouvons que l'orientation d'activation pousse le flux résiduel hors de la variété des états accessibles à partir d'invites discrètes. Presque sûrement, aucune invite ne peut reproduire le même comportement interne induit par l'orientation. Nous illustrons également cette conclusion empiriquement sur trois LLMs largement utilisés. Nos résultats établissent une séparation formelle entre l'orientabilité en boîte blanche et le prompting en boîte noire. Par conséquent, nous mettons en garde contre l'interprétation de la facilité et du succès de l'orientation d'activation comme une preuve d'interprétabilité ou de vulnérabilité basée sur l'invite, et nous plaidons pour des protocoles d'évaluation qui découplent explicitement les interventions en boîte blanche et en boîte noire.
La surveillance d’actifs industriels complexes repose sur des règles symboliques rédigées par des ingénieurs, qui se déclenchent en fonction des conditions des capteurs et incitent les techniciens à effectuer des actions correctives. Le goulot d’étranglement n’est pas la détection mais la réponse : traduire les règles en étapes de maintenance nécessite des connaissances spécifiques aux actifs acquises par des années de pratique. Nous étudions si les LLM peuvent servir d’aide à la décision pour cette étape de la règle à l’action et introduisons un benchmark de 6 690 questions à choix multiples validées par des experts, issues de 118 paires règle-action pour 16 types d’actifs. Nous contribuons (i) un pipeline symbolique-vers-MCQA normalisant les règles en Forme Normale Disjonctive avec un échantillonnage de distracteurs basé sur les embeddings, (ii) cinq variantes explorant des modes de défaillance distincts (Pro, Pert, Verbose, Aug, Rationale), et (iii) un benchmark de 29 LLM et 4 baselines d’embeddings. Une évaluation humaine (9 praticiens, moyenne 45,0 %) confirme que cela nécessite des connaissances spécialisées au-delà de l’expérience opérationnelle. Trois résultats se démarquent. La frontière s’est resserrée : les trois meilleurs LLM se situent à moins d’un point Macro l’un de l’autre, avec l’Elo de Bradley-Terry plaçant claude-opus-4-6 30 points au-dessus du modèle suivant. Pourtant, Pro expose la fragilité : chaque modèle perd 13 à 60 % de précision relative lors de l’expansion des distracteurs. Aug expose la recherche de motifs : sous inversion de condition, les modèles de pointe sélectionnent encore la réponse originale dans 49 à 63 % des cas. Le goulet d’étranglement du déploiement n’est pas la capacité mais la calibration : les modèles de pointe gèrent la détection de défauts par template mais échouent sous perturbation structurelle.
Les récentes avancées des modèles Vision Langage Action (VLA) ont généré un besoin critique en ensembles de données égocentriques à grande échelle. Cependant, les ensembles existants sont souvent limités par des durées d'épisodes courtes, ne couvrant généralement que quelques minutes, ce qui ne permet pas de capturer les dépendances temporelles à long horizon nécessaires à l'exécution de tâches robotiques complexes. Pour combler cette lacune, nous présentons MobileEgo Anywhere, un cadre conçu pour faciliter la collecte de trajectoires égocentriques robustes d'une heure ou plus à l'aide d'un matériel mobile grand public. Nous exploitons les capteurs omniprésents des smartphones modernes pour offrir un suivi de pose de caméra haute fidélité sur le long terme, levant ainsi les obstacles matériels élevés associés à la collecte de données robotiques traditionnelles. Nos contributions sont triples : (1) nous publions un nouvel ensemble de données comprenant 200 heures de données égocentriques variées et de longue durée, avec un suivi persistant des états ; (2) nous open source une application mobile permettant à tout utilisateur d'enregistrer des données égocentriques ; et (3) nous fournissons un pipeline de traitement complet pour convertir les captures mobiles brutes en formats standardisés, prêts pour l'entraînement, destinés à la recherche sur les modèles Vision Langage Action et les modèles de base. En démocratisant le processus de collecte de données, ce travail permet l'acquisition à grande échelle de données à long horizon dans des environnements globaux variés, accélérant ainsi le développement de politiques robotiques généralisables.
La génération d'images en quelques étapes a connu des progrès rapides, les méthodes basées sur la cohérence et le flux moyen réduisant considérablement le nombre d'étapes d'échantillonnage. Malgré leur faible coût d'inférence, ces approches souffrent souvent d'une instabilité d'entraînement et d'une évolutivité limitée. L'encodeur sphérique (Sphere Encoder) est une alternative récente qui produit des images de haute qualité en seulement quelques étapes ; cependant, il nécessite des transitions répétées entre l'espace des pixels et l'espace latent lors de l'inférence, tout en optimisant conjointement la reconstruction et la génération au sein d'une seule architecture. Cette conception entraîne une inefficacité computationnelle et un conflit d'objectifs entre reconstruction et génération. Pour remédier à ces limitations, nous découplons le cadre en un encodeur d'images pré-entraîné fixe et un modèle de débruitage latent séparé, entraîné entièrement dans un espace latent sphérique. Notre approche élimine les opérations répétées dans l'espace des pixels pendant l'entraînement et l'inférence, améliorant ainsi l'efficacité et permettant à la reconstruction et à la génération de se spécialiser indépendamment. Sur les ensembles de données Animal-Faces, Oxford-Flowers et ImageNet-1K, notre méthode surpasse significativement l'encodeur sphérique tant en qualité de génération qu'en vitesse d'inférence, tout en obtenant des résultats compétitifs face à des références solides en quelques étapes et en plusieurs étapes.
Les modèles de vision-langage pré-entraînés à grande échelle, tels que CLIP, démontrent des performances remarquables en zero-shot sur diverses tâches. Cependant, le fine-tuning de ces modèles pour améliorer les performances en aval dégrade souvent la robustesse face aux changements de distribution. Les approches récentes ont tenté d'atténuer ce compromis, mais reposent souvent sur un guidage par texte coûteux en calcul. Nous proposons une nouvelle méthode pour un fine-tuning robuste, SAE-FT, qui agit uniquement sur les représentations visuelles du modèle. SAE-FT régularise les modifications de ces représentations en pénalisant l'ajout et la suppression de caractéristiques sémantiquement significatives identifiées par un autoencodeur parcimonieux (Sparse Autoencoder) entraîné sur le modèle pré-entraîné. Cette contrainte empêche l'oubli catastrophique et rend le processus de fine-tuning interprétable, permettant une analyse directe des changements sémantiques. SAE-FT est à la fois transparent sur le plan mécaniste et efficace sur le plan computationnel, égalant ou dépassant les performances de l'état de l'art sur ImageNet et ses benchmarks de changement de distribution associés. Le code est disponible publiquement à l'adresse : https://github.com/Fabian-Mor/sae-ft.
La reconstruction d'avatars a traditionnellement reposé sur une optimisation par sujet nécessitant des heures de calcul ou sur un prétraitement coûteux limitant l'évolutivité. Nous introduisons FFAvatar, un cadre généralisable de type feed-forward qui reconstruit, en quelques secondes, des avatars de tête gaussiens 3D animables de haute qualité à partir de quelques images de portrait non posées. FFAvatar fusionne les informations issues de plusieurs images sources en une représentation gaussienne canonique unifiée via Multi-View Query-Former, laquelle est animée au moyen de paramètres FLAME prédits de bout en bout directement à partir des pixels, éliminant ainsi la surcharge de l'extraction FLAME hors ligne. Nous proposons en outre un programme d'apprentissage en trois étapes qui atteint à la fois une large généralisation et une reconstruction haute fidélité : (i) un pré-entraînement à grande échelle sur des données vidéo monoculaires étendues avec plus d'un million d'identités pour apprendre de solides a priori généralisables ; (ii) un ajustement fin multi-vues sur un petit ensemble de données de haute qualité de captures à 360 degrés pour améliorer la fidélité géométrique et la conscience des vues extrêmes ; et (iii) une personnalisation optionnelle qui s'adapte aux identités spécifiques pour une fidélité maximale en 500 étapes d'optimisation. Des expériences approfondies montrent que FFAvatar établit une nouvelle norme en matière de préservation de l'identité, de cohérence géométrique et de fidélité de l'animation. Sur le référentiel NeRSemble, il surpasse l'état de l'art LAM avec un gain substantiel de 5,5 PSNR. De plus, FFAvatar permet un déploiement en temps réel, reconstruisant des avatars en 2 secondes sans personnalisation et en 10 secondes avec personnalisation, tout en supportant une animation à 49 FPS sur un seul GPU NVIDIA A100.
Les agents basés sur de grands modèles de langage échouent souvent dans des environnements inconnus en raison d'une exploitation prématurée : une tendance à agir sur la base de connaissances préalables avant d'avoir acquis suffisamment d'informations spécifiques à l'environnement. Nous identifions l'exploration autonome comme une capacité critique mais encore sous-explorée pour construire des agents adaptatifs. Pour formaliser et quantifier cette capacité, nous introduisons l'Exploration Checkpoint Coverage (couverture de points de contrôle d'exploration), une métrique vérifiable qui mesure l'étendue avec laquelle un agent découvre des états, objets et affordances clés. Notre évaluation systématique révèle que les agents entraînés avec un apprentissage par renforcement standard orienté tâche présentent systématiquement des comportements étroits et répétitifs qui entravent les performances en aval. Pour remédier à cette limitation, nous développons une stratégie d'entraînement qui entrelace les déploiements d'exécution de tâches et les déploiements d'exploration, chaque type de déploiement étant optimisé par sa récompense vérifiable correspondante. En nous appuyant sur cette stratégie d'entraînement, nous proposons le paradigme Explore-then-Act (Explorer puis Agir), qui dissocie la collecte d'informations de l'exécution de tâches : les agents utilisent d'abord un budget d'interaction pour acquérir des connaissances environnementales incarnées, puis les exploitent pour résoudre des tâches. Nos résultats démontrent qu'apprendre à explorer systématiquement est impératif pour construire des agents généralisables et prêts pour le monde réel.
Les récents systèmes de modélisation de mondes 3D basés sur la synthèse générative de scènes, tels que Marble, permettent de créer des environnements 3D cohérents et explorables, mais leurs sorties sont généralement des actifs monolithiques statiques avec une éditabilité et une interaction physique limitées. Cela restreint leur utilisation dans la création de contenu immersif et la simulation incarnée, où les mondes générés doivent être activement modifiés et manipulés. Pour relever ce défi, nous présentons WorldAct, un cadre qui convertit les mondes 3D statiques générés en scènes éditables et prêtes à l'interaction. WorldAct utilise un agent multimodal pour guider la décomposition de la scène, identifier les objets actionnables, reconstruire des maillages au niveau des objets géométriquement alignés pour l'interaction, et restaurer l'arrière-plan résiduel via un inpaintage 3D. Les scènes résultantes prennent en charge l'édition au niveau des objets, la manipulation avec détection de collisions et l'exécution de tâches incarnées, tout en préservant la cohérence globale de la scène. Les expériences montrent que WorldAct permet des scénarios d'interaction plus riches que ceux des scènes générées originales, suggérant une voie pratique vers des modèles de mondes 3D éditables et interactifs.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme efficace pour améliorer les capacités de raisonnement des grands modèles de langage. Cependant, l'entraînement RLVR est souvent entravé par des récompenses binaires éparses et une faible attribution de crédit, ce qui génère des signaux d'optimisation ambigus et une sous-utilisation des informations utiles contenues dans les trajectoires défaillantes. Pour relever ce défi, nous proposons l'Optimisation de politique orientée correction (CIPO), une extension simple et efficace du RLVR qui transforme les trajectoires défaillantes en politique en une supervision orientée correction, sans recourir à aucun signal externe. En optimisant conjointement les échantillons de correction issus des propres tentatives échouées du modèle avec l'objectif standard du RLVR, CIPO améliore l'efficacité de l'apprentissage tout en renforçant explicitement la capacité du modèle à corriger ses propres erreurs. Des expériences approfondies sur 11 benchmarks couvrant le raisonnement mathématique et la génération de code montrent que CIPO surpasse de manière constante et significative les lignes de base solides en termes de raisonnement et de performance de correction. De plus, CIPO produit des gains pass@K plus importants, indiquant qu'il améliore la capacité de raisonnement intrinsèque du modèle plutôt que de simplement redistribuer la masse de probabilité sur les réponses correctes existantes.
Vers l'amélioration récursive autonome, nous étudions des agents basés sur des LLM qui conçoivent de manière autonome des modèles fondateurs au-delà des Transformers standard. Nous introduisons une approche duale : AIRA-Compose pour la recherche d'architectures de haut niveau, et AIRA-Design pour l'implémentation mécaniste de bas niveau. AIRA-Compose utilise 11 agents pour explorer des primitives computationnelles fondamentales dans un budget de 24 heures. Les agents évaluent des candidats de l'ordre du million de paramètres, en extrapolant les meilleures conceptions aux échelles de 350M, 1B et 3B paramètres. Cela donne naissance à 14 architectures réparties en deux familles : les AIRAformers (basées sur Transformers) et les AIRAhybrids (Transformer-Mamba). Pré-entraînées à l'échelle 1B, ces architectures surpassent systématiquement les références Llama 3.2 et les lignes de base issues de Composer. Sur des tâches en aval, AIRAformer-D et AIRAhybrid-D améliorent la précision de 2,4 % et 3,8 % par rapport à Llama 3.2. De plus, AIRA-Compose découvre des modèles aux frontières de passage à l'échelle très efficaces : AIRAformer-C s'adapte 54 % et 71 % plus rapidement que Llama 3.2 et le meilleur Transformer de Composer, tandis qu'AIRAhybrid-C dépasse Nemotron-2 de 23 % et le meilleur hybride de Composer de 37 %. AIRA-Design confie à 20 agents la tâche d'écrire de nouveaux mécanismes d'attention pour les dépendances à longue portée et des scripts d'entraînement performants. Sur le benchmark Long Range Arena, les architectures conçues par les agents atteignent respectivement 2,3 % et 2,6 % de l'état de l'art humain en correspondance de documents et en classification de textes. Sur le benchmark Autoresearch, Greedy Opus 4.5 atteint 0,968 bits par octet en validation sous un budget temporel fixe, dépassant le minimum publié. Ensemble, ces cadres montrent que des agents d'IA peuvent découvrir de manière autonome des architectures et des optimisations algorithmiques égalant ou surpassant les conceptions manuelles de référence. Cela établit un paradigme puissant pour découvrir la prochaine génération de modèles fondateurs, marquant une avancée claire vers l'amélioration récursive autonome.
Que ce soit pour naviguer dans un bâtiment, opérer un robot ou jouer à un jeu, un agent agissant efficacement dans un environnement doit d’abord apprendre un modèle interne du fonctionnement de cet environnement. Les processus décisionnels de Markov partiellement observables (POMDP) offrent une classe de modélisation flexible pour de tels modèles internes du monde, mais les apprendre à partir de seules trajectoires d’observation-action est difficile et nécessite généralement des interactions intensives avec l’environnement. Nous nous demandons si des a priori issus de modèles de langage peuvent réduire ces interactions coûteuses en exploitant des connaissances préalables, et introduisons Pinductor (inducteur de POMDP) : un LLM propose des modèles POMDP candidats à partir de quelques trajectoires observation-action et les affine itérativement pour optimiser un score de vraisemblance basé sur les croyances. Bien qu’utilisant strictement moins d’informations, Pinductor atteint des performances et une efficacité d’échantillonnage comparables à celles des méthodes d’apprentissage de POMDP basées sur un LLM qui supposent un accès privilégié à l’état caché, tout en surpassant significativement l’efficacité d’échantillonnage des bases de référence tabulaires pour les POMDP. Des résultats supplémentaires montrent que les performances augmentent avec la capacité du LLM et se dégradent progressivement lorsque les informations sémantiques sur l’environnement sont retenues. Ensemble, ces résultats positionnent les a priori de modèles de langage comme un outil pratique pour un apprentissage efficace en échantillons de modèles du monde sous observabilité partielle, et comme un pas vers des agents généralistes dans des environnements réels. Le code est disponible à l’adresse https://github.com/atomresearch/pinductor.
Les couches de mélange clairsemé d'experts (MoE) acheminent les jetons à travers une poignée d'experts, et la compression sans apprentissage de ces couches réduit le coût d'inférence sans réentraînement. Une obstruction subtile bloque tous les compresseurs existants de cette famille : trois experts peuvent chacun être compatibles deux à deux tout en formant un cycle irréductible lorsqu'ils sont fusionnés, de sorte que tout score classant les experts sur la base de signaux par paires est structurellement aveugle à la question de savoir quels triplets sont conjointement fusionnables. Nous montrons que l'obstruction est un objet mathématique précis : le noyau harmonique du Laplacien simplicial sur un 2-complexe dont les sommets sont les experts, dont les arêtes portent des barrières de fusion KL, et dont les faces portent des barrières de triplets ; la décomposition de Hodge du signal de barrière sur les arêtes isole exactement ce noyau. Nous transformons ce diagnostic en un objectif de sélection : HodgeCover couvre de manière gloutonne les arêtes critiques harmoniques et les triangles critiques de triplets, et une variante hybride de HodgeCover l'associe à un élagage standard des poids sur les survivants. Sur trois architectures de base MoE clairsemées à poids ouverts soumises à une réduction agressive d'experts, HodgeCover égalise les bases de référence sans apprentissage de pointe sur l'axe de la réduction d'experts, mène sur la frontière de la compression agressive de l'axe hybride, et équilibre de manière unique la masse retenue sur l'ensemble des quatre composantes de Hodge. Ces résultats montrent que l'exposition du noyau harmonique d'une structure MoE apprise modifie le compresseur qui l'emporte dans le régime qui importe le plus.
La génération de vidéos inter-embodiment vise à transférer des mouvements entre différents embodiments humanoïdes, tels que l'humain vers le robot et le robot vers le robot, permettant ainsi une génération de données à grande échelle pour l'intelligence incarnée. Un défi majeur dans ce contexte est que les dynamiques de mouvement sont partiellement transférables entre les embodiments, tandis que l'apparence et la morphologie restent spécifiques à chaque embodiment. Les approches existantes entremêlent souvent ces facteurs, et beaucoup nécessitent des données appariées pour chaque embodiment cible, ce qui limite l'extensibilité à de nouveaux robots. Nous présentons OmniHumanoid, un cadre qui factorise l'apprentissage du mouvement transférable et l'adaptation spécifique à l'embodiment. Notre méthode apprend un modèle de transfert de mouvement partagé à partir de vidéos appariées alignées sur le mouvement couvrant plusieurs embodiments, tout en s'adaptant à un nouvel embodiment à l'aide de vidéos non appariées via des adaptateurs légers spécifiques à l'embodiment. Pour réduire l'interférence entre le transfert de mouvement et l'adaptation à l'embodiment, nous introduisons en outre une conception d'attention à branches isolées qui sépare le conditionnement du mouvement de la modulation spécifique à l'embodiment. De plus, nous construisons un ensemble de données synthétiques inter-embodiment avec des vidéos appariées alignées sur le mouvement rendues à travers divers actifs, scènes et points de vue humanoïdes. Les expériences sur des bancs d'essai synthétiques et réels montrent qu'OmniHumanoid atteint une forte fidélité du mouvement et une cohérence de l'embodiment, tout en permettant une adaptation évolutive à des embodiments humanoïdes inconnus sans réentraîner le modèle de mouvement partagé.
La détection de changements par télédétection (RSCD) vise à localiser les changements entre deux images d'une même région géographique. En pratique, les masques de changement suivent souvent des conventions d'annotation au niveau des régions plutôt que des différences d'apparence purement locales, ce qui les rend dépendants du contexte et parfois ambigus. La plupart des méthodes de pointe utilisent une classification discriminative par pixel, qui produit une seule prédiction par entrée et ne parvient pas à modéliser explicitement la région modifiée comme un ensemble cohérent. Une alternative naturelle est la formulation générative, qui peut modéliser une distribution de masques plausibles, permettant l'échantillonnage pour capturer l'ambiguïté et encourager la cohérence globale. Cependant, les approches génératives existantes en RSCD sont généralement en retard par rapport aux références discriminatives solides en raison du coût de calcul élevé de la génération dans l'espace des pixels et de la complexité de leurs mécanismes de conditionnement. Pour remédier aux limites des méthodes discriminatives et génératives antérieures, nous proposons ChangeFlow, un cadre génératif qui reformule la détection de changement comme la synthèse d'un masque de changement dans un espace latent via un flux redressé. ChangeFlow est guidé par un signal de conditionnement structuré mais léger, et sa conception stochastique supporte naturellement l'ensemble de prédictions basé sur l'échantillonnage. À savoir, l'agrégation de plusieurs masques de changement prédits améliore la robustesse, tandis que l'accord entre échantillons fournit une estimation pratique de la confiance qui met en évidence les régions ambiguës. Sur quatre références, ChangeFlow atteint un F1 moyen de 80,4 %, améliorant de 1,3 point en moyenne par rapport à la meilleure méthode précédente, tout en maintenant une vitesse d'inférence comparable aux récentes références solides. Page du projet : https://blaz-r.github.io/changeflow_cd
Les agents LLM sont de plus en plus exécutés au sein d’infrastructures d’exécution qui distribuent des outils, allouent des ressources et acheminent des messages entre composants spécialisés. Cependant, une infrastructure peut renvoyer une réponse correcte et bénigne sur une trajectoire qui accède à des ressources non autorisées ou qui divulgue du contexte au mauvais agent. Une évaluation au niveau de la sortie ne peut pas détecter ces échecs, alors que la plupart des benchmarks de sécurité ne notent que les résultats finaux ou les états terminaux, même si de nombreuses violations surviennent en cours de trajectoire plutôt qu’à la terminaison. La question centrale est de savoir si l’infrastructure respecte l’intention de l’utilisateur, les limites d’autorisation et les contraintes de flux d’information tout au long de l’exécution. Pour combler cette lacune, nous proposons HarnessAudit, un cadre d’audit qui examine les trajectoires d’exécution complètes sous les angles de la conformité aux limites, de la fidélité d’exécution et de la stabilité du système, avec un accent sur les infrastructures multi-agents où ces risques sont les plus prononcés. Nous introduisons également HarnessAudit-Bench, un benchmark de 210 tâches couvrant huit domaines réels, instancié en configurations mono-agent et multi-agent avec des contraintes de sécurité intégrées. En évaluant dix configurations d’infrastructures à travers des modèles de pointe et trois frameworks multi-agents, nous constatons que : (i) l’achèvement des tâches est décalé par rapport à une exécution sûre, et les violations s’accumulent avec la longueur des trajectoires ; (ii) les risques de sécurité varient selon les domaines, les types de tâches et les rôles des agents ; (iii) la plupart des violations se concentrent sur l’accès aux ressources et le transfert d’informations entre agents ; (iv) la collaboration multi-agents élargit la surface de risque de sécurité, tandis que la conception de l’infrastructure fixe la borne supérieure d’un déploiement sûr.
Nous auditions le pipeline d'évaluation physique multimodale de bout en bout et documentons trois pratiques de construction non détectées qui déforment la manière dont le domaine mesure le raisonnement vision-langage : la contamination entraînement-évaluation, la dérive de traduction et la saturation des QCM. (1) Les pools d'entraînement publics (UGPhysics-Train, SciInstruct, MMK12) passent des audits Jaccard de 5-grammes à un seul stade avec zéro correspondance sur l'ensemble des six évaluations physiques publiques ; un audit en trois étapes (Jaccard -> cosinus mxbai-embed-large -> Haiku-4.5 LLM-juge) fait apparaître 134 quasi-doublons et 4 846 candidats à la paraphrase dans SciInstruct seul. (2) Un delta de 17 points de pourcentage sur Sonnet 4.5 pour 59 problèmes d'olympiades appariés estonien-anglais (30,5 % contre 13,6 % ; test des signes p=0,011, test de McNemar p=0,021, intervalle de confiance bootstrap apparié à 95 % [+5,1, +28,9] pp). (3) Un gradient de format et de nouveauté de 46 points de pourcentage sur des poids Sonnet identiques entre l'évaluation par QCM (79,7 % sur PhyX) et l'évaluation ouverte d'olympiades (33,4 % sur PhysOlym-A). Nous publions quatre artefacts pour combler ces lacunes : PhysCorp-A (corpus multimodal audité en trois étapes de 6 432 enregistrements), PhysR1Corp (pool RL à forme fermée de 2 268 enregistrements), PhysOlym-A (évaluation d'olympiades mise de côté de 500 problèmes, 99,8 % de sources nouvelles, avec étiquettes de difficulté natives et un sous-ensemble bilingue EN/ET), et Physics-R1, une recette de référence GSPO+DAPO démarrée à froid depuis Qwen3-VL-8B-Thinking. Sur 3 graines, Physics-R1 élève le corpus audité par rapport à la base 8B de +18,3 pp sur PhysOlym-A libéral (8,0 -> 26,3 +/- 1,7 ; 7,1 pp derrière Sonnet 4.5), +15,7 pp sur PhysReason (23,9 -> 39,6 +/- 6,4 ; devant Qwen3-VL-32B et Gemini 2.5 Pro), +6,9 pp sur OlympiadBench-Physics (46,2 +/- 1,5), et +4,1 pp sur QCM PhyX (77,8 +/- 0,3).
L'Attention Latente Multi-tête (MLA), l'attention utilisée dans DeepSeek-V2/V3, compresse conjointement les clés et les valeurs en un latent de faible rang et correspond presque parfaitement à la roofline du H100. Ses poids entraînés, cependant, n'exposent qu'un seul chemin de décodage – une forme MQA absorbée – ce qui lie l'inférence efficace aux ratios bande passante/calcul de classe H100, renonce au parallélisme tensoriel le long de l'axe des têtes, et ne produit aucun gain de prédiction multi-token (MTP) sur les GPU d'inférence grand public tels que le H20 soumis à des restrictions d'exportation. Nous proposons l'Attention Latente par Groupe-Requête (GQLA), une modification minimale de MLA dont les poids entraînés exposent deux chemins de décodage algébriquement équivalents sur les mêmes paramètres : un chemin absorbé MQA identique à celui de MLA, et un chemin GQA avec un cache élargi par groupe. L'exécution sélectionne le chemin qui correspond au matériel cible – sans réentraînement, sans noyaux personnalisés – de sorte qu'un seul ensemble de poids GQLA épingle les rooflines à la fois du H100 (absorbé MQA, s_q=1) et du H20 (GQA + MTP, s_q=2), tout en supportant jusqu'à 8 voies de parallélisme tensoriel sans redondance sur le chemin GQA. Pour éviter un pré-entraînement à partir de zéro, nous étendons TransMLA en TransGQLA, qui convertit un point de contrôle GQA pré-entraîné en un modèle GQLA ; sur LLaMA-3-8B, il compresse le cache KV par token à 28,125 % de la référence GQA sur le chemin absorbé MQA tout en préservant structurellement le trafic de niveau GQA sur le chemin par groupe.
Les évaluations standard de désapprentissage mesurent la suppression comportementale en pleine précision, immédiatement après l'entraînement, alors que chaque modèle de langage déployé est d'abord quantifié. Des travaux récents ont montré que la quantification post-entraînement en 4 bits peut inverser le désapprentissage automatique ; nous montrons qu'il ne s'agit pas d'un artefact de réglage mais d'une double défaillance systématique : les méthodes basées sur le gradient qui induisent un oubli significatif le perdent sous compression, tandis que les méthodes qui survivent à la quantification ne modifient quasiment pas le modèle. Les deux échecs découlent de la même cause racine : pour toutes les références, les mises à jour par paramètre sont 47 à 828 fois inférieures à la largeur du bac de quantification NF4 ; des mises à jour diffusées à travers des milliards de paramètres ne peuvent pas franchir les limites des bacs de quantification, une conséquence que nous formalisons sous la forme d'un compromis sparsité-permanence. Nous présentons MANSU (Mechanistic-Aligned Null-Space Unlearning), qui résout les deux modes en combinant l'attribution de circuits causaux pour isoler le sous-graphe minimal de l'ensemble à oublier, une projection dans l'espace nul restreint au circuit avec une borne de rétention Fisher diagonale, et un plancher de magnitude par paramètre garantissant la survie à la quantification par construction. Nous introduisons également la Divergence d'Attribution de Circuit (CAD), une métrique de vérification mécaniste qui distingue l'effacement structurel de la suppression comportementale, une distinction que les métriques existantes ne peuvent pas faire. Sur plusieurs familles de modèles et benchmarks de risques, MANSU est la première méthode à satisfaire conjointement les quatre propriétés avec une marge sur chacune (oubli significatif, préservation de la rétention, écart PTQ non positif et effacement structurel), tandis que les références basées sur le gradient récupèrent jusqu'à +0,05 de précision sous compression.
Les approches existantes pour la génération contrôlable reposent généralement sur le fine-tuning, des réseaux auxiliaires ou une recherche en phase de test. Nous montrons que le flow matching offre une interface de contrôle différente : l'adaptation par exemples. Pour des interpolants déterministes, le champ de vitesse est uniquement déterminé par une moyenne conditionnelle du point final ; déplacer cette moyenne déplace le flot lui-même. Cela donne un principe simple pour la génération contrôlable : orienter un modèle pré-entraîné en modifiant l'ensemble de référence qu'il suit. Nous concrétisons cette idée sous deux formes. Le Guidage par Moyenne de Référence (Reference-Mean Guidance) ne nécessite pas d'entraînement : il calcule une correction de la moyenne du point final sous forme fermée à partir d'une banque de référence et l'applique à un modèle FLUX.2-klein (4B) gelé, permettant de contrôler la couleur, l'identité, le style et la structure tout en maintenant le prompt, la graine et les poids fixes. Le Guidage Semi-Paramétrique (Semi-Parametric Guidance) amortit la même idée via un ancrage moyen explicite et un affineur résiduel appris, égalant la qualité du DiT-B/4 inconditionnel sur AFHQv2 tout en permettant de changer l'ensemble de référence au moment de l'inférence. Ces résultats pointent vers une direction plus large : des modèles génératifs qui s'adaptent via les données, et non par des mises à jour de paramètres.
Reconstruire une représentation graphique vectorielle structurée à partir d’une image de plan d’étage tramée constitue généralement un prérequis important pour les tâches computationnelles impliquant des plans d’étage, telles que la compréhension automatisée ou les flux de travail CAO. Cependant, les techniques existantes peinent à reproduire fidèlement la structure et la sémantique véhiculées par des plans d’étage complexes représentant de grands espaces intérieurs avec de nombreuses pièces et un nombre variable de sommets polygonaux. Pour y remédier, nous proposons Raster2Seq, qui cadre la reconstruction de plans d’étage comme une tâche séquence-à-séquence dans laquelle les éléments du plan—tels que les pièces, fenêtres et portes—sont représentés sous forme de séquences polygonales étiquetées codant conjointement la géométrie et la sémantique. Notre approche introduit un décodeur autorégressif qui apprend à prédire le sommet suivant en fonction des caractéristiques de l’image et des sommets précédemment générés, à l’aide d’ancres apprenables. Ces ancres représentent des coordonnées spatiales dans l’espace image, permettant ainsi d’orienter efficacement le mécanisme d’attention vers les régions informatives de l’image. En adoptant le mécanisme autorégressif, notre méthode offre une flexibilité dans le format de sortie, permettant de traiter efficacement des plans d’étage complexes avec de nombreuses pièces et des structures polygonales variées. Notre méthode atteint des performances de pointe sur des références standards telles que Structure3D, CubiCasa5K et Raster2Graph, tout en démontrant une forte généralisation à des ensembles de données plus exigeants comme WAFFLE, qui contiennent des structures de pièces diverses et des variations géométriques complexes.
Le Segment Anything Model 2 (SAM2) présente une forte capacité de généralisation pour la segmentation amorçable (promptable) dans les clips vidéo ; cependant, son intégration avec la modalité audio reste peu explorée. Les approches existantes convertissent soit l'audio en amorces visuelles (par exemple, des boîtes) via des modèles fondamentaux, soit injectent des adaptateurs dans l'encodeur d'image pour la fusion audio-visuelle. Ces deux directions s'avèrent toutefois insuffisantes dans les scénarios avec intervention humaine en raison d'une précision limitée des amorces et d'une augmentation des coûts d'inférence. En particulier, ces méthodes basées sur des adaptateurs souffrent souvent d'une dilution de l'amorce audio, où le signal s'affaiblit progressivement au fur et à mesure de sa propagation dans le réseau. Dans ce travail, nous proposons AuralSAM2, qui intègre l'audio dans SAM2 tout en préservant largement sa capacité de segmentation amorçable. Son module central, AuralFuser, fusionne les caractéristiques audio et visuelles pour générer des amorces denses et éparses. Guidées par l'audio et s'appuyant sur la pyramide de caractéristiques de SAM2, ces amorces propagent des indices auditifs à travers les couches visuelles, renforçant ainsi l'influence cross-modale. Pour aligner davantage les modalités, nous introduisons une perte contrastive guidée par l'audio qui met l'accent sur la pertinence auditive dans les caractéristiques visuelles dominantes. Notre méthode atteint des gains de précision notables sur des références publiques, avec un impact minimal sur l'efficacité interactive de la segmentation amorçable. Notre code est disponible à l'adresse https://github.com/yyliu01/AuralSAM2.
Nous introduisons ProofGrid, une batterie de benchmarks pour évaluer le raisonnement des LLM à l’aide de preuves vérifiables par machine plutôt que par les seules réponses finales. ProofGrid contient 15 tâches couvrant l’écriture de preuves, la vérification de preuves, le masquage de preuves et le comblement de lacunes dans les preuves. Les tâches sont exprimées dans une notation formelle minimale, notamment NDL, un langage compact de déduction naturelle qui tient dans de courts prompts et permet une vérification précise et auditable. Cela permet une évaluation mécanique, reproductible et fine, plutôt que des jugements humains ou par LLM. ProofGrid couvre un spectre de difficulté calibré, allant de tests de raisonnement fondamentaux à des tâches de défi structurellement riches qu’aucun modèle actuel ne résout, tout en minimisant le recours aux connaissances du domaine, à la délégation à un solveur et aux artefacts de contexte long. Nous développons également un cadre comparatif pour les benchmarks de raisonnement et l’utilisons pour situer ProofGrid par rapport aux travaux existants en termes de représentation, de garanties de vérification et de profondeur de raisonnement. Sur le plan méthodologique, nous introduisons un pipeline instrumenté de vérification des preuves qui tolère des écarts superficiels mineurs tout en localisant le premier échec de raisonnement substantiel, améliorant ainsi la résolution de la mesure et séparant la planification de la preuve du bruit d’exécution de bas niveau. À l’aide de ce pipeline, nous évaluons un large éventail de modèles ouverts et propriétaires. Les résultats montrent des progrès rapides mais des limites substantielles persistantes : les modèles de pointe performent bien sur plusieurs tâches fondamentales, mais les tâches difficiles, notamment celles nécessitant un raisonnement combinatoire global ou une synthèse de preuves de bas niveau, restent loin d’être résolues. Nous identifions également une instabilité épistémique, où les modèles génèrent des preuves défectueuses tout en rejetant correctement ces inférences locales isolément, et nous formalisons ce phénomène par un indice de stabilité épistémique. Enfin, nous complétons la précision par des analyses IRT à 2 paramètres, des cartes de Wright et une mesure normalisée de discrimination des tâches basée sur l’information de Fisher.
Alors que les agents basés sur des LLM naviguent de plus en plus sur le web pour le compte des utilisateurs, une question naturelle se pose : les sites web peuvent-ils identifier passivement le modèle sous-jacent qui anime un agent ? Une telle capacité représenterait un risque de sécurité majeur, permettant des attaques ciblées adaptées aux vulnérabilités connues des modèles. À travers 14 LLM de pointe et quatre environnements web couvrant des tâches de recherche d'information et d'achat, nous montrons que les actions d'un agent et les temps d'interaction, capturés via un traceur JavaScript passif, suffisent à identifier le modèle sous-jacent avec un F1 allant jusqu'à 96 %. Nous formalisons cette surface d'attaque en démontrant que les classifieurs entraînés sur les actions des agents généralisent à travers les tailles et les familles de modèles. Nous montrons en outre que des classifieurs robustes peuvent être entraînés à partir de quelques traces d'interaction et que l'identité de l'agent peut être inférée tôt dans un épisode. L'injection de délais aléatoires entre les actions dégrade considérablement les performances du classifieur, mais n'offre pas une protection robuste : un classifieur réentraîné sur des traces retardées récupère largement ses performances. Nous publions notre harnais et un corpus étiqueté de traces d'agents à l'adresse https://github.com/KabakaWilliam/known_actions{ici}.
Les modèles fondation géospatiaux (GFMs) ont été proposés comme backbones généralisables pour la réponse aux catastrophes, la cartographie de l'occupation des sols, la surveillance de la sécurité alimentaire et d'autres tâches d'observation de la Terre à enjeux élevés. Cependant, les travaux publiés sur ces modèles ne fournissent pas aux relecteurs ou aux utilisateurs suffisamment d'informations pour déterminer quel modèle convient à une tâche donnée. Nous soutenons que personne ne connaît l'état actuel de l'art en matière de modèles fondation géospatiaux. Les méthodes peuvent être utiles, mais la littérature sur les GFM ne standardise pas suffisamment les évaluations, les protocoles d'entraînement et de test, les poids publiés, ni les contrôles de pré-entraînement pour permettre de les comparer ou de les classer. Dans un audit portant sur 152 articles, nous relevons 46 désaccords entre articles d'au moins 10 points pour un même modèle, une même référence et un même protocole ; 94 articles sur 126 dont les données de pré-entraînement sont extractibles utilisent une configuration qu'aucun autre article n'emploie ; et 39 % des articles sur les GFM ne publient aucun poids de modèle. Ce manque de normes communautaires peut être résolu. Nous proposons six attentes concrètes : publication des poids avec licence nommée, évaluations centrales partagées, annotations de référence « copiées » versus « réexécutées », rapport de variance, un seul harnais d'évaluation partagé, et contrôles entre données, architecture et algorithme. Ces lacunes relèvent d'un échec de coordination, et non d'une faute d'un laboratoire en particulier ; les auteurs de cet article, comme beaucoup d'autres dans la communauté des GFM, y ont contribué. Plutôt que de simplement critiquer la communauté, nous visons à fournir des étapes concrètes vers une compréhension partagée de la manière d'innover dans les GFM.
La recherche d'information multilingue devient de plus en plus importante dans les contextes de recherche réels, où les utilisateurs formulent des requêtes sur des corpus en langues mixtes. Les évaluations existantes récompensent principalement la pertinence sémantique indépendante de la langue, traitant les passages pertinents de manière égale quelle que soit leur langue. Or, l'utilité de la recherche dépend également de la langue des passages retrouvés : les utilisateurs peuvent préférer des résultats qu'ils peuvent lire et vérifier dans la langue de la requête, et le décalage linguistique entre la requête et le passage peut compliquer l'ancrage en aval et la vérification des réponses dans les systèmes de génération augmentée par recherche (Retrieval-Augmented Generation). Pour évaluer cette dimension sensible à la langue, nous présentons MLAIRE, un protocole d'évaluation de la recherche d'information multilingue consciente de la langue (Multilingual Language-Aware Information Retrieval Evaluation protocol) qui distingue la recherche sémantique interlingue de la préférence pour la langue de la requête. MLAIRE construit des pools contrôlés avec des passages parallèles dans plusieurs langues, permettant de mesurer la précision de la recherche sémantique et la préférence pour la langue de la requête lorsque des traductions équivalentes sont disponibles. Nous proposons des métriques sensibles à la langue, notamment le Taux de Préférence de Langue (Language Preference Rate, LPR) et le Lang-nDCG, ainsi qu'une décomposition en quatre facteurs séparant les échecs sémantiques et les échecs de préférence pour la langue de la requête. En évaluant 31 réplicateurs denses, creux et à interaction tardive, nous montrons que les métriques standard masquent des comportements distincts : des réplicateurs sémantiquement forts peuvent retourner un contenu correct dans une langue autre que celle de la requête, tandis que des réplicateurs avec une plus forte préférence pour la langue de la requête peuvent retrouver des passages moins pertinents sémantiquement.