papers.description
L'apprentissage par renforcement à partir de récompenses de vérificateurs (RLVR) est devenu une approche largement utilisée pour l'affinage post-formation des grands modèles de langage sur des tâches de raisonnement, les méthodes basées sur les groupes telles que GRPO et ses variantes ayant connu une large adoption. Ces méthodes s'appuient sur l'estimation de l'avantage relatif au groupe pour éviter les critiques apprises, mais ses propriétés théoriques restent mal comprises. Dans ce travail, nous mettons en lumière un problème fondamental du RL basé sur les groupes : l'estimateur d'avantage relatif au groupe est intrinsèquement biaisé par rapport à l'avantage vrai (espéré). Nous présentons la première analyse théorique montrant qu'il sous-estime systématiquement les avantages pour les invites difficiles et les surestime pour les invites faciles, conduisant à une exploration et une exploitation déséquilibrées. Pour résoudre ce problème, nous proposons la Pondération Adaptative de Difficulté avec Mémoire (HA-DW), un schéma de repondération adaptative qui ajuste les estimations d'avantage sur la base d'une ancre de difficulté évolutive et de la dynamique d'entraînement. L'analyse théorique et les expériences menées sur cinq benchmarks de raisonnement mathématique démontrent que HA-DW améliore constamment les performances lorsqu'il est intégré à GRPO et ses variantes. Nos résultats suggèrent que la correction de l'estimation biaisée de l'avantage est cruciale pour un entraînement RLVR robuste et efficace.
L'intégration d'agents d'IA dans les marchés économiques modifie fondamentalement le paysage de l'interaction stratégique. Nous étudions les implications économiques de l'élargissement de l'ensemble des technologies disponibles dans trois cadres théoriques des jeux canoniques : la négociation (division des ressources), la tractation (échange avec information asymétrique) et la persuasion (transmission stratégique d'information). Nous constatons que le simple fait d'augmenter le choix des mandataires d'IA peut modifier radicalement les gains d'équilibre et les résultats réglementaires, créant souvent des incitations pour les régulateurs à développer et à déployer des technologies de manière proactive. Inversement, nous identifions un phénomène stratégique nommé l'effet « Pomme Empoisonnée » : un agent peut déployer une nouvelle technologie, qu'il n'utilise finalement pas lui-même et que son adversaire n'utilise pas non plus, dans le seul but de manipuler le choix du régulateur en matière de conception de marché en sa faveur. Ce déploiement stratégique améliore le bien-être de l'agent qui le met en œuvre au détriment de son adversaire et des objectifs d'équité du régulateur. Nos résultats démontrent que les cadres réglementaires statiques sont vulnérables à la manipulation via l'expansion technologique, nécessitant des conceptions de marché dynamiques qui s'adaptent à l'évolution du paysage des capacités de l'IA.
Permettre aux grands modèles de langage (LLM) d'utiliser efficacement des outils dans des interactions multi-tours est essentiel pour créer des agents autonomes performants. Cependant, l'acquisition de données réalistes et diversifiées d'utilisation d'outils en multi-tours reste un défi majeur. Dans ce travail, nous proposons un nouveau paradigme basé sur le texte. Nous observons que les corpus textuels contiennent naturellement de riches expériences de résolution de problèmes multi-étapes, qui peuvent constituer une source de données inexploitée, évolutive et authentique pour les tâches d'utilisation d'outils en multi-tours. Sur la base de cette idée, nous présentons GEM, un pipeline de synthèse de données qui permet la génération et l'extraction de trajectoires d'utilisation d'outils multi-tours à partir de corpus textuels via un processus en quatre étapes : filtrage par pertinence, extraction des workflows et outils, ancrage des trajectoires et raffinement de la complexité. Pour réduire le coût computationnel, nous affinons ensuite par apprentissage supervisé un Synthéticiseur de Trajectoires spécialisé. Ce modèle condense le pipeline de génération complexe en un générateur de trajectoires efficace de bout en bout. Les expériences démontrent que notre GEM-32B obtient une amélioration de 16,5 % sur le benchmark BFCL V3 Multi-tours. Nos modèles surpassent partiellement les performances de modèles entraînés sur des données de domaine spécifique de τ-bench (Transport aérien et Vente au détail), mettant en évidence la capacité de généralisation supérieure découlant de notre paradigme de synthèse basé sur le texte. Notamment, notre Synthéticiseur de Trajectoires atteint la qualité du pipeline complet tout en réduisant significativement la latence et les coûts d'inférence.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a permis des progrès substantiels dans les domaines nécessitant un raisonnement poussé comme les mathématiques. Cependant, l'optimisation de la génération ouverte reste difficile en raison de l'absence de vérité terrain. Bien que l'évaluation par rubrique offre un proxy structuré pour la vérification, les méthodes existantes souffrent de goulots d'étranglement d'évolutivité et de critères grossiers, entraînant un effet de plafond de supervision. Pour résoudre ce problème, nous proposons un cadre automatisé de Génération de Rubriques du Grossier au Fin. En synergisant la synthèse guidée par des principes, l'agrégation multi-modèles et l'évolution de la difficulté, notre approche produit des critères complets et hautement discriminants capables de saisir les nuances subtiles. Sur la base de ce cadre, nous présentons RubricHub, un jeu de données à grande échelle (~110k) et multi-domaines. Nous validons son utilité grâce à un pipeline de post-formation en deux étapes comprenant le Réglage Fin par Échantillonnage de Rejet basé sur les Rubriques (RuFT) et l'Apprentissage par Renforcement (RuRL). Les résultats expérimentaux démontrent que RubricHub débloque des gains de performance significatifs : notre modèle Qwen3-14B post-formé obtient des résultats à la pointe de l'état de l'art (SOTA) sur HealthBench (69.3), surpassant des modèles propriétaires de pointe tels que GPT-5. Le code et les données seront bientôt publiés.
Les modèles de langage de grande taille (LLM) personnalisés adaptent leur comportement aux utilisateurs individuels pour améliorer leur satisfaction, mais cette personnalisation peut involontairement fausser le raisonnement factuel. Nous démontrons que lorsque des LLM personnalisés sont confrontés à des requêtes factuelles, un phénomène se produit où le modèle génère des réponses alignées sur l'historique de l'utilisateur plutôt que sur la vérité objective. Cela entraîne des hallucinations induites par la personnalisation qui dégradent la fiabilité factuelle et peuvent propager des croyances incorrectes, en raison d'un enchevêtrement représentationnel entre les représentations de la personnalisation et les représentations factuelles. Pour résoudre ce problème, nous proposons le Pilotage Personnalisé Préservant la Factualité (FPPS), une approche légère au moment de l'inférence qui atténue les distorsions factuelles induites par la personnalisation tout en préservant le comportement personnalisé. Nous introduisons également PFQABench, le premier benchmark conçu pour évaluer conjointement les réponses aux questions factuelles et personnalisées sous personnalisation. Les expériences sur plusieurs architectures de LLM et méthodes de personnalisation montrent que FPPS améliore considérablement la précision factuelle tout en maintenant les performances personnalisées.
Les modèles Vision-Langage-Action (VLA) sont devenus des politiques robotiques généralistes essentielles pour diverses tâches de manipulation, reposant classiquement sur la traduction directe des entrées multimodales en actions via les plongements de modèles vision-langage (VLM). Des avancées récentes ont introduit un raisonnement intermédiaire explicite, tel que la prédiction de sous-tâches (langage) ou la synthèse d'images but (vision), pour guider la génération d'actions. Cependant, ces raisonnements intermédiaires sont souvent indirects et intrinsèquement limités dans leur capacité à transmettre l'information granulaire complète nécessaire à une exécution d'action précise. Nous postulons plutôt que la forme de raisonnement la plus efficace est celle qui délibère directement dans l'espace d'action. Nous introduisons l'Action Chain-of-Thought (ACoT), un paradigme où le processus de raisonnement lui-même est formulé comme une séquence structurée d'intentions d'action grossières qui guide la politique finale. Dans cet article, nous proposons ACoT-VLA, une nouvelle architecture qui matérialise le paradigme ACoT. Plus précisément, nous introduisons deux composants complémentaires : un Raisonneur d'Action Explicite (EAR) et un Raisonneur d'Action Implicite (IAR). Le premier propose des trajectoires de référence grossières comme étapes de raisonnement explicites au niveau de l'action, tandis que le second extrait des préalables d'action latents des représentations internes de l'entrée multimodale, co-formant un ACoT qui conditionne la tête d'action en aval pour permettre un apprentissage de politique ancré. Des expériences approfondies dans des environnements réels et de simulation démontrent la supériorité de notre méthode proposée, qui atteint respectivement 98,5 %, 84,1 % et 47,4 % sur LIBERO, LIBERO-Plus et VLABench.
La recherche agentielle basée sur l'apprentissage par renforcement (RL) permet aux grands modèles de langage (LLM) de résoudre des questions complexes via une planification dynamique et une recherche externe. Bien que cette approche améliore significativement la précision grâce à des politiques d'agent optimisées par un apprentissage par renforcement à grande échelle, nous identifions un déficit critique en matière de fiabilité : ces agents ne parviennent pas à reconnaître leurs limites de raisonnement et admettent rarement « JE NE SAIS PAS » (IDK) même lorsque les preuves sont insuffisantes ou que le raisonnement atteint sa limite. Ce manque de fiabilité conduit souvent à des réponses plausibles mais non fiables, introduisant des risques significatifs dans de nombreux scénarios réels. Pour pallier cela, nous proposons l'Optimisation de Politique Consciente des Limites (BAPO), un nouveau cadre RL conçu pour cultiver une conscience fiable des limites sans compromettre la précision. BAPO introduit deux composants clés : (i) une récompense basée sur un groupe conscient des limites qui encourage une réponse IDK uniquement lorsque le raisonnement atteint sa limite, et (ii) un modulateur de récompense adaptatif qui suspend stratégiquement cette récompense durant l'exploration initiale, empêchant le modèle d'exploiter IDK comme un raccourci. Des expériences approfondies sur quatre benchmarks démontrent que BAPO améliore substantiellement la fiabilité globale de la recherche agentielle.
La génération de mouvements humains à partir de prompts textuels a réalisé des progrès remarquables ces dernières années. Cependant, les méthodes existantes reposent principalement sur des descriptions au niveau de la séquence ou de l'action en raison de l'absence d'annotations motionnelles fines au niveau des parties du corps. Cela limite leur contrôlabilité sur les parties individuelles du corps. Dans ce travail, nous construisons un jeu de données motionnel de haute qualité avec des annotations textuelles atomiques et temporellement conscientes au niveau des parties, en exploitant les capacités de raisonnement des grands modèles de langage (LLM). Contrairement aux jeux de données antérieurs qui fournissent soit des descriptions de parties synchronisées avec des segments temporels fixes, soit reposent uniquement sur des étiquettes globales de séquence, notre jeu de données capture des mouvements de parties asynchrones et sémantiquement distincts à une résolution temporelle fine. Sur la base de ce jeu de données, nous introduisons un framework de génération de mouvement sensible aux parties basé sur la diffusion, nommé FrankenMotion, où chaque partie du corps est guidée par son propre prompt textuel temporellement structuré. À notre connaissance, il s'agit du premier travail à fournir des annotations motionnelles atomiques et temporellement conscientes au niveau des parties et à proposer un modèle permettant la génération de mouvements avec un contrôle à la fois spatial (partie du corps) et temporel (action atomique). Les expériences démontrent que FrankenMotion surpasse tous les modèles de référence antérieurs adaptés et réentraînés pour notre configuration, et notre modèle peut composer des mouvements non vus pendant l'entraînement. Notre code et notre jeu de données seront rendus publics après la publication.
Le déploiement de modèles de langage de grande taille (LLM) soulève deux défis interdépendants : (1) la surveillance - estimer les domaines où un modèle sous-performe à mesure que le trafic et les domaines d'application évoluent - et (2) l'amélioration - prioriser l'acquisition de données pour combler les plus grands écarts de performance. Nous testons si un signal au moment de l'inférence peut estimer la précision au niveau des « slices » (sous-ensembles de données) dans un contexte de changement de domaine. Pour chaque réponse, nous calculons un profil d'entropie de sortie à partir des probabilités du token suivant dans la couche finale (obtenues à partir des logprobabilités des top-k tokens) et le résumons à l'aide de onze statistiques. Un classifieur léger prédit l'exactitude de chaque instance, et la moyenne des probabilités prédites fournit une estimation de la précision au niveau du domaine. Nous évaluons cette approche sur dix benchmarks de raisonnement en STEM avec des compositions exhaustives d'entraînement et de test (k dans {1,2,3,4} ; toutes les combinaisons « 10 choix k »), en utilisant neuf LLMs issus de six familles différentes (3B-20B). Les estimations suivent souvent la précision de référence du benchmark, et plusieurs modèles présentent un ordre quasi monotone des domaines. Les profils d'entropie de sortie constituent donc un signal accessible pour une surveillance scalable et pour cibler l'acquisition de données.
Le fine-tuning supervisé (SFT) est une stratégie fondamentale d'après-entraînement pour aligner les grands modèles de langage (LLM) sur l'intention humaine. Cependant, le SFT traditionnel ignore souvent la nature un-à-plusieurs du langage en forçant l'alignement sur une seule réponse de référence, conduisant le modèle à surapprendre des expressions non essentielles. Bien que notre analyse empirique suggère que l'introduction de multiples réponses de référence puisse atténuer ce problème, les coûts prohibitifs en données et en calcul nécessitent un changement stratégique : prioriser l'atténuation du surapprentissage sur référence unique plutôt que la poursuite coûteuse de la diversité des réponses. Pour y parvenir, nous révélons le lien intrinsèque entre la probabilité token et l'importance sémantique : les tokens à haute probabilité portent le cadre logique central, tandis que les tokens à faible probabilité sont majoritairement des expressions remplaçables. Sur la base de cette intuition, nous proposons ProFit, qui masque sélectivement les tokens à faible probabilité pour prévenir le surapprentissage superficiel. Des expériences approfondies confirment que ProFit surpasse constamment les méthodes de référence SFT traditionnelles sur des benchmarks de raisonnement général et mathématique.
Les représentations du mouvement futur, telles que le flux optique, présentent une valeur immense pour les tâches de contrôle et de génération. Cependant, la prédiction de représentations motionnelles spatialement denses et généralisables reste un défi majeur, et l'apprentissage de cette prédiction à partir de données réelles bruitées reste relativement peu exploré. Nous présentons FOFPred, un nouveau modèle de prévision de flux optique conditionné par le langage, intégrant une architecture unifiée de modèle vision-langage (VLM) et de diffusion. Cette combinaison unique permet un raisonnement multimodal robuste avec une fidélité générative au niveau pixel pour la prédiction du mouvement futur. Notre modèle est entraîné sur des données d'activité humaine à l'échelle du web - une source hautement scalable mais non structurée. Pour extraire des signaux significatifs de ces données bruitées vidéo-légendes, nous employons des techniques cruciales de prétraitement ainsi que notre architecture unifiée bénéficiant d'un pré-entraînement image robuste. Le modèle ainsi entraîné est ensuite étendu pour relever deux tâches en aval distinctes dans les domaines du contrôle et de la génération. Les évaluations menées en manipulation robotique et en génération vidéo dans des cadres pilotés par le langage établissent la versatilité transdomaine de FOFPred, confirmant la valeur d'une architecture unifiée VLM-Diffusion et d'un apprentissage scalable à partir de données web variées pour la prédiction du flux optique futur.
Les progrès récents en génération de formes 3D ont produit des résultats impressionnants, mais la plupart des méthodes existantes reposent sur des entrées propres, non occluses et bien segmentées. De telles conditions sont rarement rencontrées dans les scénarios réels. Nous présentons ShapeR, une nouvelle approche pour la génération conditionnelle de formes d'objets 3D à partir de séquences capturées de manière informelle. Étant donné une séquence d'images, nous exploitons des algorithmes SLAM visio-inertiels prêts à l'emploi, des algorithmes de détection 3D et des modèles vision-langage pour extraire, pour chaque objet, un ensemble de points SLAM épars, des images multi-vues posées et des légendes générées automatiquement. Un transformeur à flux rectifié, entraîné à conditionner efficacement ces modalités, génère ensuite des formes 3D métriques de haute fidélité. Pour garantir la robustesse face aux défis des données capturées de manière informelle, nous employons diverses techniques, notamment des augmentations compositionnelles à la volée, un schéma d'entraînement progressif couvrant des jeux de données au niveau objet et scène, et des stratégies pour gérer l'encombrement de l'arrière-plan. De plus, nous introduisons un nouveau benchmark d'évaluation comprenant 178 objets en conditions réelles répartis sur 7 scènes du monde réel, avec des annotations géométriques. Les expériences montrent que ShapeR surpasse significativement les approches existantes dans ce cadre exigeant, obtenant une amélioration d'un facteur 2,7 de la distance de Chamfer par rapport à l'état de l'art.
Les grands modèles de langage ont atteint des capacités remarquables dans divers domaines, mais les mécanismes sous-jacents au raisonnement sophistiqué restent insaisissables. Les modèles de raisonnement récents surpassent les modèles à instruction comparables dans les tâches cognitives complexes, ce qui est attribué à un calcul étendu via des chaînes de pensée plus longues. Nous montrons ici que le raisonnement amélioré émerge non pas du seul calcul étendu, mais de la simulation d'interactions de type multi-agents – une société de la pensée – qui permet la diversification et le débat entre des perspectives cognitives internes caractérisées par des traits de personnalité distincts et une expertise domainaire. Par une analyse quantitative et des méthodes d'interprétabilité mécanistique appliquées aux traces de raisonnement, nous constatons que des modèles comme DeepSeek-R1 et QwQ-32B présentent une diversité de perspectives bien plus grande que les modèles à instruction, activant un conflit plus étendu entre des caractéristiques hétérogènes liées à la personnalité et à l'expertise durant le raisonnement. Cette structure multi-agents se manifeste dans les comportements conversationnels, incluant les questions-réponses, les changements de perspective et la réconciliation de points de vue conflictuels, ainsi que dans des rôles socio-émotionnels caractérisant des conversations vives et dynamiques, expliquant ensemble l'avantage en précision dans les tâches de raisonnement. Des expériences contrôlées d'apprentissage par renforcement révèlent que les modèles de base augmentent les comportements conversationnels lorsqu'ils sont récompensés uniquement pour la précision du raisonnement, et que l'affinage des modèles avec un échafaudage conversationnel accélère l'amélioration du raisonnement par rapport aux modèles de base. Ces résultats indiquent que l'organisation sociale de la pensée permet une exploration efficace des espaces de solutions. Nous suggérons que les modèles de raisonnement établissent un parallèle computationnel avec l'intelligence collective dans les groupes humains, où la diversité permet une résolution de problèmes supérieure lorsqu'elle est systématiquement structurée, ce qui ouvre de nouvelles opportunités pour que l'organisation des agents exploite la sagesse des foules.
Les principes physiques sont fondamentaux pour la simulation visuelle réaliste, mais restent une lacune significative dans la génération vidéo basée sur les transformers. Cet écart souligne une limitation critique dans le rendu du mouvement des corps rigides, principe fondamental de la mécanique classique. Alors que l'infographie et les simulateurs physiques peuvent facilement modéliser ces collisions à l'aide des formules newtoniennes, les paradigmes modernes de pré-entraînement et de réglage fin abandonnent la notion de rigidité des objets lors du débruîtage global au niveau pixel. Même les contraintes mathématiques parfaitement exactes sont traitées comme des solutions sous-optimales (c'est-à-dire des conditions) lors de l'optimisation du modèle en post-formation, limitant fondamentalement le réalisme physique des vidéos générées. Motivés par ces considérations, nous introduisons pour la première fois un paradigme d'apprentissage par renforcement conscient de la physique pour les modèles de génération vidéo, qui impose les règles de collision physique directement dans les espaces de haute dimension, garantissant que les connaissances physiques sont strictement appliquées plutôt que traitées comme des conditions. Par la suite, nous étendons ce paradigme à un cadre unifié, nommé Cycle Imitation-Découverte (MDcycle), qui permet un réglage fin substantiel tout en préservant intégralement la capacité du modèle à exploiter les retours fondés sur la physique. Pour valider notre approche, nous construisons un nouveau benchmark PhysRVGBench et réalisons des expériences qualitatives et quantitatives approfondies afin d'évaluer minutieusement son efficacité.
Si les agents d'interface graphique ont démontré de solides performances avec des instructions explicites et de complétion, leur déploiement réel nécessite un alignement sur les intentions implicites plus complexes des utilisateurs. Dans ce travail, nous mettons en lumière l'Alignement Hiérarchique des Intentions Implicites pour Agent GUI Personnalisé (PersonalAlign), une nouvelle tâche d'agent qui exige de celui-ci qu'il exploite les historiques utilisateur à long terme comme contexte persistant pour résoudre les préférences omises dans des instructions vagues et qu'il anticipe les routines latentes selon l'état de l'utilisateur pour une assistance proactive. Pour faciliter cette étude, nous présentons AndroidIntent, un benchmark conçu pour évaluer la capacité des agents à résoudre des instructions vagues et à fournir des suggestions proactives en raisonnant sur des historiques utilisateur à long terme. Nous avons annoté 775 préférences spécifiques aux utilisateurs et 215 routines à partir de 20 000 enregistrements à long terme provenant de différents utilisateurs pour l'évaluation. De plus, nous présentons le Hierarchical Intent Memory Agent (HIM-Agent), qui maintient une mémoire personnelle mise à jour continuellement et organise hiérarchiquement les préférences et routines utilisateur pour la personnalisation. Enfin, nous évaluons une série d'agents GUI sur AndroidIntent, incluant GPT-5, Qwen3-VL et UI-TARS ; les résultats montrent que HIM-Agent améliore significativement les performances d'exécution et proactives de 15,7 % et 7,3 % respectivement.
Les capacités des modèles de langage de pointe s'améliorent rapidement. Nous avons donc besoin de mesures d'atténuation plus robustes contre les mauvais acteurs qui pourraient détourner des systèmes de plus en plus puissants. Des travaux antérieurs ont montré que les sondes d'activation constituent une technique prometteuse pour atténuer les mauvais usages, mais nous identifions un défi majeur persistant : les sondes échouent à généraliser leur comportement face à d'importants décalages de distribution en conditions réelles. Nous constatons en particulier que le passage d'entrées à contexte court à des entrées à contexte long est difficile pour les architectures de sondes existantes. Nous proposons plusieurs nouvelles architectures de sondes capables de gérer ce décalage de distribution vers les contextes longs. Nous évaluons ces sondes dans le domaine cyber-offensif, en testant leur robustesse contre divers décalages pertinents pour la production, incluant les conversations multi-tours, les jailbreaks statiques et les tests d'intrusion adaptatifs. Nos résultats démontrent que si des approches comme multimax abordent la longueur du contexte, une combinaison entre le choix architectural et l'entraînement sur des distributions variées est nécessaire pour une généralisation étendue. De plus, nous montrons que l'association de sondes avec des classifieurs basés sur des prompts permet d'atteindre une précision optimale à un coût réduit, grâce à l'efficacité computationnelle des sondes. Ces résultats ont contribué au déploiement réussi de sondes d'atténuation des mauvais usages dans les instances accessibles aux utilisateurs de Gemini, le modèle de langage de pointe de Google. Enfin, nous obtenons des résultats préliminaires positifs en utilisant AlphaEvolve pour automatiser les améliorations à la fois dans la recherche d'architectures de sondes et dans les tests d'intrusion adaptatifs, montrant qu'il est déjà possible d'automatiser certaines recherches en sécurité de l'IA.
Les agents autonomes basés sur les modèles de langage de grande taille (LLM) démontrent des capacités multidimensionnelles à contribuer substantiellement à la production économique. Cependant, les benchmarks existants restent centrés sur une capacité agentique unique, échouant à capturer des scénarios réalistes à long terme. De plus, la dépendance à des retours humains pour des tâches réalistes crée un goulot d'étranglement d'évolutivité, entravant la collecte et l'évaluation automatisées. Pour combler cette lacune, nous présentons AgencyBench, un benchmark complet dérivé de l'utilisation quotidienne de l'IA, évaluant 6 capacités agentiques fondamentales à travers 32 scénarios réels, comprenant 138 tâches avec des requêtes, livrables et grilles d'évaluation spécifiques. Ces scénarios nécessitent en moyenne 90 appels d'outils, 1 million de tokens et plusieurs heures de temps d'exécution pour être résolus. Pour permettre l'évaluation automatisée, nous employons un agent de simulation utilisateur pour fournir des retours itératifs, et un bac à sable Docker pour réaliser une évaluation visuelle et fonctionnelle basée sur des grilles critériées. Les expériences révèlent que les modèles propriétaires surpassent significativement les modèles open-source (48,4% contre 32,1%). Une analyse plus poussée révèle des disparités significatives entre les modèles en termes d'efficacité des ressources, d'auto-correction pilotée par les retours et de préférences spécifiques d'utilisation d'outils. Enfin, nous étudions l'impact des échafaudages agentiques, observant que les modèles propriétaires démontrent des performances supérieures au sein de leurs écosystèmes natifs (par exemple, Claude-4.5-Opus via Claude-Agent-SDK), tandis que les modèles open-source présentent des pics de performance distincts, suggérant une optimisation potentielle pour des cadres d'exécution spécifiques. AgencyBench sert de banc d'essai critique pour les agents de nouvelle génération, soulignant la nécessité de co-optimiser l'architecture des modèles avec les cadres agentiques. Nous estimons que ce travail éclaire la direction future des agents autonomes, et nous publions l'intégralité du benchmark et la boîte à outils d'évaluation à l'adresse https://github.com/GAIR-NLP/AgencyBench.
Les grands modèles de vision et langage (LVLM) ont démontré des capacités remarquables, mais leur compétence dans la compréhension et le raisonnement sur plusieurs images reste largement inexplorée. Bien que les benchmarks existants aient initié l'évaluation des modèles multi-images, une analyse approfondie de leurs faiblesses fondamentales et de leurs causes fait encore défaut. Dans ce travail, nous présentons MIMIC (Multi-Image Model Insights and Challenges), un nouveau benchmark conçu pour évaluer rigoureusement les capacités multi-images des LVLM. En utilisant MIMIC, nous menons une série d'expériences de diagnostic qui révèlent des problèmes persistants : les LVLM échouent souvent à agréger l'information entre les images et peinent à suivre ou à traiter simultanément plusieurs concepts. Pour remédier à ces échecs, nous proposons deux solutions complémentaires novatrices. Sur le plan des données, nous présentons une stratégie procédurale de génération de données qui combine des annotations d'images individuelles en exemples d'entraînement multi-images riches et ciblés. Sur le plan de l'optimisation, nous analysons les patterns d'attention par couches et dérivons un mécanisme de masquage de l'attention adapté aux entrées multi-images. Les expériences ont considérablement amélioré l'agrégation inter-images, tout en renforçant les performances sur les benchmarks multi-images existants, surpassant l'état de l'art précédent dans diverses tâches. Les données et le code seront disponibles à l'adresse https://github.com/anurag-198/MIMIC.
Les récents progrès des modèles de langage évolués (LLM) agentiques les positionnent comme des planificateurs généralistes capables de raisonner et d'agir sur des tâches diverses. Cependant, les benchmarks existants pour agents se concentrent largement sur des environnements symboliques ou faiblement ancrés, laissant leurs performances dans des domaines réalistes contraints par la physique sous-explorées. Nous présentons AstroReason-Bench, un benchmark complet pour évaluer la planification agentique dans les Problèmes de Planification Spatiale (SPP), une famille de problèmes à haut risque comportant des objectifs hétérogènes, des contraintes physiques strictes et une prise de décision à long horizon. AstroReason-Bench intègre plusieurs régimes de planification, incluant les communications avec les stations au sol et l'observation agile de la Terre, et fournit un protocole d'interaction unifié orienté agent. L'évaluation sur une gamme de systèmes LLM agentiques open-source et propriétaires de pointe révèle que les agents actuels sont nettement moins performants que les solveurs spécialisés, mettant en lumière des limitations clés de la planification généraliste sous contraintes réalistes. AstroReason-Bench offre un banc d'essai exigeant et diagnostique pour la recherche future sur les agents.
Les modèles récents de génération vidéo par diffusion peuvent synthétiser des séquences visuellement plausibles, mais peinent souvent à satisfaire les contraintes physiques. Une raison majeure réside dans le fait que la plupart des approches existantes demeurent monolithiques : elles entremêlent la compréhension physique de haut niveau avec la synthèse visuelle de bas niveau, rendant difficile la génération de contenu nécessitant un raisonnement physique explicite. Pour pallier cette limite, nous proposons une méthode en trois étapes ne nécessitant pas d’apprentissage, PhyRPR : Phy**Reason**–Phy**Plan**–Phy**Refine**, qui découple la compréhension physique de la synthèse visuelle. Concrètement, PhyReason utilise un grand modèle multimodal pour le raisonnement sur l’état physique et un générateur d’images pour la synthèse des images clés ; PhyPlan synthétise de manière déterministe une ébauche de mouvement grossière et contrôlable ; et PhyRefine intègre cette ébauche dans l’échantillonnage par diffusion via une stratégie de fusion latente, afin de peaufiner l’apparence tout en préservant la dynamique planifiée. Cette conception modulaire permet un contrôle physique explicite durant la génération. Des expériences approfondies sous contraintes physiques montrent que notre méthode améliore systématiquement la plausibilité physique et la contrôlabilité du mouvement.
Nous étudions la curation de données pour le raisonnement multimodal à travers le défi DCVLR (Data Curation for Vision-Language Reasoning) de NeurIPS 2025, qui isole la sélection du jeu de données en fixant le modèle et le protocole d'entraînement. En utilisant un jeu de données compact, principalement dérivé de Walton Multimodal Cold Start, notre soumission s'est classée première au concours. Grâce à des ablations post-compétition, nous montrons que la sélection d'exemples basée sur la difficulté à partir d'un jeu de données de base aligné est le principal facteur d'amélioration des performances. L'augmentation de la taille du jeu de données n'améliore pas de manière fiable la précision moyenne avec la recette d'entraînement fixe, mais réduit principalement la variance entre les exécutions, tandis que les heuristiques couramment utilisées de diversification et d'augmentation synthétique n'apportent aucun bénéfice supplémentaire et dégradent souvent les performances. Ces résultats caractérisent DCVLR comme une évaluation en régime de saturation et soulignent le rôle central de l'alignement et de la difficulté dans le raisonnement multimodal économe en données.
La diversité des sorties est cruciale pour les grands modèles de langage, car elle sous-tend le pluralisme et la créativité. Dans ce travail, nous montrons que contrôler la langue utilisée pendant la réflexion du modèle – le langage de la pensée – constitue une source nouvelle et structurelle de diversité des sorties. Notre étude préliminaire révèle que différents langages de pensée occupent des régions distinctes dans l'espace de réflexion d'un modèle. Sur la base de cette observation, nous étudions deux stratégies d'échantillonnage répété dans le cadre d'une pensée multilingue – l'Échantillonnage en Langue Unique et l'Échantillonnage en Langues Mixtes – et évaluons la diversité des sorties qui sont contrôlées pour être en anglais, indépendamment du langage de pensée utilisé. À travers de nombreuses expériences, nous démontrons que le fait de passer du anglais à des langues non-anglaises comme langage de pensée augmente systématiquement la diversité des sorties, avec une corrélation positive nette et constante : les langues plus éloignées de l'anglais dans l'espace de pensée produisent des gains plus importants. Nous montrons en outre qu'agréger des échantillons provenant de multiples langages de pensée produit des améliorations supplémentaires via des effets de composition, et qu'augmenter l'échantillonnage avec de l'hétérogénéité linguistique repousse la limite de diversité du modèle. Enfin, nous montrons que ces résultats se traduisent par des avantages pratiques dans des scénarios d'alignement pluraliste, conduisant à une couverture plus large des connaissances culturelles et des orientations de valeurs dans les sorties des LLM. Notre code est disponible publiquement à l'adresse https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.