papers.description
Nous proposons FlashWorld, un modèle génératif qui produit des scènes 3D à partir d'une seule image ou d'une invite textuelle en quelques secondes, 10 à 100 fois plus rapidement que les travaux précédents tout en offrant une qualité de rendu supérieure. Notre approche s'écarte du paradigme conventionnel orienté multi-vues (MV-oriented), qui génère des images multi-vues pour une reconstruction 3D ultérieure, pour adopter une approche orientée 3D où le modèle produit directement des représentations 3D basées sur des Gaussiennes pendant la génération multi-vues. Bien que garantissant la cohérence 3D, la méthode orientée 3D souffre généralement d'une qualité visuelle médiocre. FlashWorld inclut une phase de pré-entraînement en mode double suivie d'une phase de post-entraînement inter-mode, intégrant efficacement les forces des deux paradigmes. Plus précisément, en exploitant les connaissances préalables d'un modèle de diffusion vidéo, nous pré-entraînons d'abord un modèle de diffusion multi-vues en mode double, qui supporte conjointement les modes de génération orientés MV et 3D. Pour combler l'écart de qualité dans la génération orientée 3D, nous proposons en outre une distillation post-entraînement inter-mode en alignant la distribution du mode orienté 3D cohérent vers le mode orienté MV de haute qualité. Cela améliore non seulement la qualité visuelle tout en maintenant la cohérence 3D, mais réduit également le nombre d'étapes de débruitage nécessaires pour l'inférence. De plus, nous proposons une stratégie pour exploiter un grand nombre d'images mono-vues et d'invites textuelles pendant ce processus afin d'améliorer la généralisation du modèle aux entrées hors distribution. Des expériences approfondies démontrent la supériorité et l'efficacité de notre méthode.
Les récentes avancées dans les modèles multimodaux unifiés indiquent une tendance claire vers la génération de contenu complet. Cependant, le domaine auditif reste un défi majeur, avec la musique et la parole souvent développées de manière isolée, ce qui freine les progrès vers une synthèse audio universelle. Cette séparation découle de conflits inhérents aux tâches et de déséquilibres sévères dans les données, qui entravent le développement d'un véritable modèle unifié de génération audio. Pour relever ce défi, nous proposons UniMoE-Audio, un modèle unifié de génération de parole et de musique dans un cadre novateur de Dynamic-Capacity Mixture-of-Experts (MoE). Sur le plan architectural, UniMoE-Audio introduit une stratégie de routage Top-P pour l'allocation dynamique du nombre d'experts, ainsi qu'une conception hybride d'experts comprenant des experts routés pour les connaissances spécifiques à un domaine, des experts partagés pour les caractéristiques indépendantes du domaine, et des experts nuls pour le saut adaptatif de calcul. Pour résoudre le problème de déséquilibre des données, nous proposons un curriculum d'entraînement en trois étapes : 1) L'entraînement indépendant des spécialistes exploite les jeux de données originaux pour inculquer des connaissances spécifiques à chaque "proto-expert" sans interférence ; 2) L'intégration et le préchauffage MoE incorporent ces spécialistes dans l'architecture UniMoE-Audio, en préchauffant le module de porte et l'expert partagé à l'aide d'un sous-ensemble de données équilibrées ; et 3) L'entraînement conjoint synergétique forme l'ensemble du modèle de bout en bout sur le jeu de données entièrement équilibré, favorisant une synergie inter-domaines améliorée. Des expériences approfondies montrent qu'UniMoE-Audio non seulement atteint des performances de pointe sur les principaux benchmarks de génération de parole et de musique, mais démontre également un apprentissage synergétique supérieur, atténuant la dégradation des performances typiquement observée dans un entraînement conjoint naïf. Nos résultats mettent en évidence le potentiel considérable de l'architecture MoE spécialisée et des stratégies d'entraînement soigneusement conçues pour faire progresser le domaine de la génération audio universelle. Page d'accueil : https://mukioxun.github.io/Uni-MoE-site/home.html
Le schéma de raisonnement des modèles de langage à grande échelle (LLMs) reste opaque, et l'apprentissage par renforcement (RL) applique généralement un crédit uniforme à l'ensemble d'une génération, estompant la distinction entre les étapes cruciales et routinières. Ce travail positionne l'attention comme un substrat privilégié qui rend la logique interne des LLMs lisible, non pas simplement comme un sous-produit du calcul, mais comme un plan mécanistique du raisonnement lui-même. Nous distinguons d'abord les têtes d'attention entre le traitement d'information localement et globalement focalisé, et révélons que les têtes localement focalisées produisent un motif en dents de scie près de la diagonale indiquant des segments phrastiques, tandis que les têtes globalement focalisées exposent les tokens qui exercent une influence descendante étendue sur les tokens futurs. Nous formalisons cela avec deux métriques : 1) la Distance Moyenne d'Attention Fenêtrée, qui mesure l'étendue de l'attention rétrospective dans une fenêtre tronquée ; 2) l'Influence Future de l'Attention, qui quantifie l'importance globale d'un token comme l'attention moyenne qu'il reçoit des tokens ultérieurs. Ensemble, ces signaux révèlent un mécanisme récurrent de pré-planification et d'ancrage, où le modèle effectue d'abord une référence contextuelle à long terme pour générer un token introductif, qui est immédiatement suivi ou coïncide avec un token d'ancrage sémantique qui organise le raisonnement subséquent. En exploitant ces insights, nous introduisons trois nouvelles stratégies de RL qui effectuent dynamiquement une attribution ciblée de crédit aux nœuds critiques (tokens de pré-planification, tokens d'ancrage et leur couplage temporel) et montrent des gains de performance constants à travers diverses tâches de raisonnement. En alignant l'optimisation sur le rythme de raisonnement intrinsèque du modèle, nous visons à transformer une optimisation opaque en un processus actionnable et conscient de la structure, espérant offrir une étape potentielle vers une optimisation plus transparente et efficace du raisonnement des LLMs.
Les modèles de langage multimodal (MLLM) entièrement ouverts accusent actuellement un retard par rapport à leurs homologues propriétaires, principalement en raison d'un écart significatif dans la qualité des données utilisées pour le réglage supervisé (SFT). Les ensembles de données open source existants sont souvent entachés de bruit généralisé et d'un déficit critique en données de raisonnement complexe, telles que la Chaîne de Pensée (CoT), ce qui entrave le développement de capacités avancées des modèles. Pour relever ces défis, notre travail apporte trois contributions principales. Premièrement, nous introduisons Honey-Data-15M, un nouvel ensemble de données SFT comprenant environ 15 millions de paires question-réponse, traitées à l'aide de plusieurs techniques de nettoyage et enrichies par une nouvelle stratégie d'enrichissement CoT à double niveau (court et long). Deuxièmement, nous présentons HoneyPipe, le pipeline de curation de données, ainsi que son cadre sous-jacent DataStudio, offrant à la communauté une méthodologie transparente et adaptable pour la curation de données qui va au-delà des publications statiques d'ensembles de données. Enfin, pour valider notre ensemble de données et notre pipeline, nous entraînons Bee-8B, un modèle de 8 milliards de paramètres sur Honey-Data-15M. Les expériences montrent que Bee-8B établit un nouvel état de l'art (SOTA) pour les MLLM entièrement ouverts, atteignant des performances compétitives avec, et dans certains cas surpassant, les modèles semi-ouverts récents tels qu'InternVL3.5-8B. Notre travail fournit à la communauté un ensemble de ressources fondamentales, comprenant : le corpus Honey-Data-15M ; la suite complète incluant HoneyPipe et DataStudio ; les recettes d'entraînement ; un cadre d'évaluation ; et les poids du modèle. Cet effort démontre qu'une focalisation méthodique sur la qualité des données est une voie clé pour développer des MLLM entièrement ouverts hautement compétitifs par rapport à leurs homologues semi-ouverts.
Les modèles Visuel-Langage-Action (VLA) affichent des taux de réussite impressionnants sur les benchmarks de manipulation robotique, mais ces résultats pourraient masquer des faiblesses fondamentales en matière de robustesse. Nous réalisons une analyse systématique des vulnérabilités en introduisant des perturbations contrôlées selon sept dimensions : la disposition des objets, les angles de vue de la caméra, les états initiaux du robot, les instructions langagières, les conditions d'éclairage, les textures de fond et le bruit des capteurs. Nous avons analysé de manière exhaustive plusieurs modèles de pointe et révélé une fragilité constante sous une apparente compétence. Notre analyse met en lumière des faiblesses critiques : les modèles présentent une sensibilité extrême aux facteurs de perturbation, notamment les angles de vue de la caméra et les états initiaux du robot, avec une chute de performance de 95 % à moins de 30 % sous des perturbations modérées. Étonnamment, les modèles sont largement insensibles aux variations langagières, et des expériences supplémentaires révèlent qu'ils ont tendance à ignorer complètement les instructions langagières. Nos résultats remettent en question l'hypothèse selon laquelle des scores élevés aux benchmarks équivalent à une véritable compétence et soulignent la nécessité de pratiques d'évaluation qui mesurent la fiabilité face à des variations réalistes.
Les modèles de génération de vidéos actuels sont capables de produire des vidéos visuellement réalistes, mais échouent souvent à respecter les lois physiques, limitant ainsi leur capacité à générer des vidéos physiquement plausibles et à servir de « modèles du monde ». Pour résoudre ce problème, nous proposons PhysMaster, qui capture les connaissances physiques sous forme de représentation afin de guider les modèles de génération de vidéos et d'améliorer leur conscience physique. Plus précisément, PhysMaster s'appuie sur la tâche de transformation d'image en vidéo, où le modèle est censé prédire des dynamiques physiquement plausibles à partir de l'image d'entrée. Étant donné que l'image d'entrée fournit des informations physiques préalables, telles que les positions relatives et les interactions potentielles des objets dans le scénario, nous concevons PhysEncoder pour encoder ces informations physiques comme une condition supplémentaire, afin d'injecter des connaissances physiques dans le processus de génération de vidéos. L'absence de supervision adéquate sur les performances physiques du modèle au-delà de la simple apparence motive PhysEncoder à appliquer l'apprentissage par renforcement avec un retour d'information humain à l'apprentissage de représentations physiques, en exploitant les retours des modèles de génération pour optimiser les représentations physiques avec l'Optimisation Directe des Préférences (DPO) de manière end-to-end. PhysMaster offre une solution viable pour améliorer la conscience physique de PhysEncoder et, par conséquent, de la génération de vidéos, démontrant ses capacités sur une tâche proxy simple et sa généralisabilité à un large éventail de scénarios physiques. Cela implique que notre PhysMaster, qui unifie les solutions pour divers processus physiques via l'apprentissage de représentations dans le paradigme de l'apprentissage par renforcement, peut servir de solution générique et plug-and-play pour la génération de vidéos conscientes des lois physiques et des applications plus larges.
La représentation spatio-temporelle efficace est fondamentale pour modéliser, comprendre et prédire les dynamiques dans les vidéos. L'unité atomique d'une vidéo, le pixel, trace une trajectoire 3D continue dans le temps, servant d'élément primitif des dynamiques. Sur la base de ce principe, nous proposons de représenter toute vidéo comme un Champ de Trajectoire : une cartographie dense qui assigne une fonction de trajectoire 3D continue dans le temps à chaque pixel de chaque image. Avec cette représentation, nous introduisons Trace Anything, un réseau de neurones qui prédit l'intégralité du champ de trajectoire en une seule passe avant. Plus précisément, pour chaque pixel de chaque image, notre modèle prédit un ensemble de points de contrôle qui paramétrisent une trajectoire (c'est-à-dire une B-spline), donnant sa position 3D à des instants de requête arbitraires. Nous avons entraîné le modèle Trace Anything sur des données 4D à grande échelle, y compris des données provenant de notre nouvelle plateforme, et nos expériences démontrent que : (i) Trace Anything atteint des performances de pointe sur notre nouveau benchmark pour l'estimation des champs de trajectoire et se comporte de manière compétitive sur les benchmarks établis de suivi de points ; (ii) il offre des gains d'efficacité significatifs grâce à son paradigme en une passe, sans nécessiter d'optimisation itérative ou d'estimateurs auxiliaires ; et (iii) il présente des capacités émergentes, incluant la manipulation conditionnée par un objectif, la prévision de mouvement et la fusion spatio-temporelle. Page du projet : https://trace-anything.github.io/.
Nous présentons InteractiveOmni, un modèle de langage large omni-modal unifié et open-source pour l'interaction audio-visuelle multi-tours, allant de 4 à 8 milliards de paramètres, conçu pour mener le domaine des modèles légers en offrant une compréhension omni-modale complète et des capacités de génération de parole. Pour y parvenir, nous intégrons l'encodeur visuel, l'encodeur audio, le modèle de langage large et le décodeur de parole dans un modèle unifié pour les tâches de compréhension et de génération. Nous concevons une stratégie d'entraînement multi-étapes pour garantir des capacités intermodales robustes, incluant un pré-entraînement pour la compréhension omni-modale, suivi d'un post-entraînement avec des conversations vocales et des interactions audio-visuelles. Pour permettre une capacité conversationnelle à long terme semblable à celle des humains, nous soigneusement élaborons un jeu de données d'entraînement multi-tours qui améliore la capacité du modèle à gérer des interactions complexes et multi-tours. Pour évaluer efficacement les capacités de mémoire multi-tours et d'interaction vocale, nous construisons le benchmark de mémoire multi-tours multi-modale et le benchmark d'interaction vocale multi-tours. Les expériences démontrent qu'InteractiveOmni surpasse significativement les modèles open-source leaders et offre une expérience audio-visuelle multi-tours plus intelligente, en particulier dans ses capacités de mémoire à long terme. Notamment, InteractiveOmni-4B est comparable à des modèles beaucoup plus grands comme Qwen2.5-Omni-7B sur des benchmarks généraux, et il peut conserver 97% des performances d'InteractiveOmni-8B tout en utilisant seulement 50% de la taille du modèle. Obtenant des résultats de pointe contre des modèles de taille similaire dans les tâches de compréhension d'images, d'audio, de vidéo et de génération de parole, InteractiveOmni est une base accessible et open-source pour les systèmes interactifs intelligents de nouvelle génération.
L'apprentissage par renforcement (RL) est devenu central pour l'entraînement des grands modèles de langage (LLM), mais le domaine manque de méthodologies de prédiction d'échelle comparables à celles établies pour le pré-entraînement. Malgré l'augmentation rapide des budgets de calcul, il n'existe pas de compréhension systématique de la manière d'évaluer les améliorations algorithmiques pour l'échelle de calcul en RL. Nous présentons la première étude systématique à grande échelle, représentant plus de 400 000 heures GPU, qui définit un cadre méthodologique pour analyser et prédire l'échelle de RL dans les LLM. Nous ajustons des courbes sigmoïdes de performance en fonction du calcul pour l'entraînement en RL et éliminons un large éventail de choix de conception courants pour analyser leurs effets sur la performance asymptotique et l'efficacité de calcul. Nous observons : (1) Toutes les recettes ne produisent pas une performance asymptotique similaire, (2) Les détails tels que l'agrégation des pertes, la normalisation, le curriculum et les algorithmes hors politique modulent principalement l'efficacité de calcul sans modifier significativement l'asymptote, et (3) Les recettes stables et évolutives suivent des trajectoires d'échelle prévisibles, permettant l'extrapolation à partir d'exécutions à plus petite échelle. En combinant ces observations, nous proposons une recette de meilleures pratiques, ScaleRL, et démontrons son efficacité en prédisant avec succès la performance de validation sur une seule exécution de RL étendue à 100 000 heures GPU. Notre travail fournit à la fois un cadre scientifique pour analyser l'échelle en RL et une recette pratique qui rapproche l'entraînement en RL de la prévisibilité longtemps atteinte dans le pré-entraînement.
Alors que la plupart des LLM autorégressifs sont contraints à un décodage séquentiel, les LLM à diffusion (dLLM) suscitent un intérêt croissant pour leur potentiel à accélérer considérablement l'inférence grâce au décodage parallèle. Malgré cette promesse, l'hypothèse d'indépendance conditionnelle dans les dLLM fait que le décodage parallèle ignore les dépendances entre les tokens, dégradant inévitablement la qualité de génération lorsque ces dépendances sont fortes. Cependant, les travaux existants négligent largement ces défis inhérents, et les évaluations sur des benchmarks standards (par exemple, en mathématiques et en codage) ne suffisent pas à capturer la dégradation de qualité causée par le décodage parallèle. Pour combler cette lacune, nous proposons d'abord une analyse informationnelle du décodage parallèle. Nous menons ensuite des études de cas sur des opérations de listes synthétiques analytiquement traitables, en examinant à la fois la distribution des données et les stratégies de décodage, offrant ainsi des insights quantitatifs qui mettent en lumière les limitations fondamentales du décodage parallèle. Sur la base de ces insights, nous proposons ParallelBench, le premier benchmark spécifiquement conçu pour les dLLM, comprenant des tâches réalistes qui sont triviales pour les humains et les LLM autorégressifs mais exceptionnellement difficiles pour les dLLM sous décodage parallèle. En utilisant ParallelBench, nous analysons systématiquement à la fois les dLLM et les LLM autorégressifs, révélant que : (i) les dLLM sous décodage parallèle peuvent subir une dégradation dramatique de la qualité dans des scénarios réels, et (ii) les stratégies actuelles de décodage parallèle peinent à adapter leur degré de parallélisme en fonction de la difficulté de la tâche, échouant ainsi à obtenir une accélération significative sans compromettre la qualité. Nos résultats soulignent le besoin pressant de méthodes de décodage innovantes capables de surmonter le compromis actuel entre vitesse et qualité. Nous publions notre benchmark pour contribuer à accélérer le développement de dLLM véritablement efficaces.
Les systèmes multi-agents (SMA) et l'apprentissage par renforcement (RL) sont largement utilisés pour améliorer les capacités agentiques des grands modèles de langage (LLM). Les SMA améliorent la performance des tâches grâce à une orchestration basée sur les rôles, tandis que le RL utilise les récompenses environnementales pour apprendre des politiques plus robustes, telles que l'optimisation de style GRPO. Cependant, l'application du RL on-policy aux SMA reste peu explorée et présente des défis uniques. Sur le plan algorithmique, les hypothèses de regroupement standard de GRPO s'effondrent car les prompts varient selon le rôle et le tour. Sur le plan systémique, la pile d'entraînement doit supporter les déploiements de workflows SMA et les mises à jour on-policy pour les modèles à politique unique et à politiques multiples. Nous proposons AT-GRPO, qui inclut (i) un algorithme de RL regroupé par agent et par tour, adapté aux SMA, et (ii) un système d'entraînement supportant à la fois les régimes à politique unique et à politiques multiples. Sur des tâches de jeu, de planification, de codage et de mathématiques, AT-GRPO apporte des gains substantiels. Sur la planification à long terme, il augmente la précision d'un baseline de RL à agent unique de 14,0 à 47,0 pour cent à 96,0 à 99,5 pour cent. Il améliore également la performance en raisonnement, avec des gains moyens de 3,87 à 7,62 pour cent sur les tâches de codage et de 9,0 à 17,93 pour cent sur les mathématiques. Le code et les environnements sont disponibles à l'adresse : https://github.com/pettingllms-ai/PettingLLMs.
Nous présentons Generative Universal Verifier, un concept et un plugin novateurs conçus pour le raisonnement multimodal de nouvelle génération dans les modèles vision-langage et les modèles multimodaux unifiés, offrant la capacité fondamentale de réflexion et d'affinement des résultats visuels durant le processus de raisonnement et de génération. Ce travail apporte trois contributions principales : (1) Nous construisons ViVerBench, un benchmark complet couvrant 16 catégories de tâches critiques pour évaluer les résultats visuels dans le raisonnement multimodal. Les résultats montrent que les modèles vision-langage existants sous-performent systématiquement sur ces tâches, révélant un écart significatif par rapport aux capacités humaines en matière de vérification visuelle fiable. (2) Nous concevons deux pipelines automatisés pour construire des données de vérification visuelle à grande échelle et entraîner OmniVerifier-7B, le premier vérificateur génératif omni-capable formé pour la vérification visuelle universelle, qui obtient des gains notables sur ViVerBench (+8,3). À travers l'entraînement, nous identifions trois capacités atomiques dans la vérification visuelle et démontrons comment elles se généralisent et interagissent de manière synergique. (3) Nous proposons OmniVerifier-TTS, un paradigme de mise à l'échelle séquentielle au moment du test qui exploite le vérificateur universel pour relier la génération et l'édition d'images au sein de modèles unifiés, améliorant la limite supérieure des capacités génératives grâce à une optimisation itérative fine. Au-delà de la génération, nous étendons le vérificateur universel à des scénarios de raisonnement imbriqués plus larges dans la modélisation du monde. Empiriquement, OmniVerifier-TTS réalise des améliorations sur T2I-ReasonBench (+3,7) et GenEval++ (+4,3), surpassant les méthodes de mise à l'échelle parallèles au moment du test, comme Best-of-N. En dotant le raisonnement multimodal d'une vérification visuelle fiable, OmniVerifier fait progresser à la fois la réflexion fiable durant la génération et l'affinement scalable au moment du test, marquant une étape vers des systèmes de raisonnement de nouvelle génération plus fiables et contrôlables.
Les modèles génératifs ont été largement appliqués à la modélisation du monde pour la simulation d'environnements et la prédiction d'états futurs. Avec les avancées dans le domaine de la conduite autonome, il existe une demande croissante non seulement pour la génération de vidéos haute fidélité sous divers contrôles, mais aussi pour la production d'informations diversifiées et significatives telles que l'estimation de profondeur. Pour répondre à cela, nous proposons CVD-STORM, un modèle de diffusion vidéo multi-vues utilisant un autoencodeur variationnel (VAE) de reconstruction spatio-temporelle, capable de générer des vidéos à long terme et multi-vues avec des capacités de reconstruction 4D sous diverses entrées de contrôle. Notre approche commence par affiner le VAE avec une tâche de reconstruction 4D auxiliaire, améliorant ainsi sa capacité à encoder les structures 3D et la dynamique temporelle. Ensuite, nous intégrons ce VAE dans le processus de diffusion vidéo pour améliorer significativement la qualité de la génération. Les résultats expérimentaux démontrent que notre modèle obtient des améliorations substantielles dans les métriques FID et FVD. De plus, le décodeur de splatting gaussien entraîné conjointement reconstruit efficacement les scènes dynamiques, fournissant des informations géométriques précieuses pour une compréhension complète de la scène.
Nous présentons InternVLA-M1, un cadre unifié pour l'ancrage spatial et le contrôle robotique qui fait progresser les robots obéissant aux instructions vers une intelligence généraliste et évolutive. Son idée centrale repose sur un entraînement vision-langue-action guidé spatialement, où l'ancrage spatial sert de lien critique entre les instructions et les actions du robot. InternVLA-M1 utilise un pipeline en deux étapes : (i) un pré-entraînement d'ancrage spatial sur plus de 2,3 millions de données de raisonnement spatial pour déterminer « où agir » en alignant les instructions avec des positions visuelles indépendantes de l'incarnation, et (ii) un post-entraînement d'action guidé spatialement pour décider « comment agir » en générant des actions adaptées à l'incarnation via des invites spatiales plug-and-play. Cette recette d'entraînement guidé spatialement apporte des gains constants : InternVLA-M1 surpasse sa variante sans guidage spatial de +14,6 % sur SimplerEnv Google Robot, +17 % sur WidowX et +4,3 % sur LIBERO Franka, tout en démontrant une capacité de raisonnement spatial plus forte dans les prédictions de boîtes, de points et de tracés. Pour étendre davantage l'obéissance aux instructions, nous avons construit un moteur de simulation pour collecter 244 000 épisodes généralisables de prise et dépose, permettant une amélioration moyenne de 6,2 % sur 200 tâches et plus de 3 000 objets. Dans des scénarios réels de prise et dépose en environnement encombré, InternVLA-M1 a progressé de 7,3 %, et avec un co-entraînement synthétique, a atteint +20,6 % sur des objets inconnus et des configurations nouvelles. De plus, dans des scénarios à long terme intensifs en raisonnement, il a surpassé les travaux existants de plus de 10 %. Ces résultats mettent en évidence l'entraînement guidé spatialement comme un principe unificateur pour des robots généralistes évolutifs et résilients. Le code et les modèles sont disponibles à l'adresse https://github.com/InternRobotics/InternVLA-M1.
La recherche de pointe en intelligence artificielle (IA) nécessite des ressources considérables, notamment des unités de traitement graphique (GPU), des données et des ressources humaines. Dans cet article, nous évaluons la relation entre ces ressources et l'avancée scientifique des modèles de base (Foundation Models, FM). Nous avons examiné 6517 articles sur les FM publiés entre 2022 et 2024 et interrogé 229 premiers auteurs sur l'impact des ressources de calcul sur la production scientifique. Nous constatons qu'une augmentation des ressources de calcul est corrélée aux allocations de financement nationales et aux citations, mais nos résultats ne montrent pas de corrélations fortes avec l'environnement de recherche (académique ou industriel), le domaine ou la méthodologie d'étude. Nous recommandons aux individus et aux institutions de se concentrer sur la création d'opportunités de calcul partagées et abordables afin de réduire les barrières à l'entrée pour les chercheurs disposant de ressources limitées. Ces mesures peuvent contribuer à élargir la participation à la recherche sur les FM, favoriser la diversité des idées et des contributeurs, et soutenir l'innovation et le progrès en IA. Les données seront disponibles à l'adresse suivante : https://mit-calc.csail.mit.edu/
Dans cet article, nous affirmons que l'ancrage visuel 3D constitue la pierre angulaire du raisonnement spatial et introduisons le Grounded-Spatial Reasoner (GS-Reasoner) pour explorer les représentations spatiales efficaces qui comblent le fossé entre ces deux domaines. Les modèles de langage 3D existants souffrent de l'absence d'une représentation 3D unifiée capable de capturer conjointement les informations sémantiques et géométriques. Cette lacune se manifeste soit par de mauvaises performances en matière d'ancrage, soit par une dépendance excessive à des modules externes, entravant ainsi l'intégration fluide de l'ancrage et du raisonnement spatial. Pour remédier à cela, nous proposons un mécanisme de pooling à double voie simple mais efficace qui aligne étroitement les caractéristiques géométriques avec les indices sémantiques et positionnels, construisant ainsi une représentation 3D unifiée basée sur des patches d'image qui encapsule toutes les informations essentielles sans augmenter le nombre de tokens d'entrée. En s'appuyant sur cette représentation holistique, GS-Reasoner est le premier modèle de langage 3D à réaliser un ancrage autorégressif entièrement sans modules externes tout en offrant des performances comparables aux modèles de pointe, établissant ainsi un cadre unifié et autonome pour le raisonnement spatial 3D. Pour combler davantage le fossé entre l'ancrage et le raisonnement spatial, nous introduisons le jeu de données Grounded Chain-of-Thought (GCoT). Ce jeu de données est méticuleusement conçu pour inclure à la fois des annotations de boîtes englobantes 3D pour les objets référencés dans les questions de raisonnement et des chemins de raisonnement étape par étape qui intègrent l'ancrage comme composant central du processus de résolution de problèmes. Des expériences approfondies démontrent que GS-Reasoner obtient des résultats impressionnants en matière d'ancrage visuel 3D, ce qui améliore significativement ses capacités de raisonnement spatial, conduisant à des performances de pointe.
Les modèles généralistes réussis de Vision-Langage-Action (VLA) reposent sur un entraînement efficace à travers diverses plateformes robotiques avec des ensembles de données hétérogènes, à grande échelle et inter-embodiment. Pour faciliter et exploiter l'hétérogénéité des sources de données robotiques riches et variées, nous proposons une nouvelle approche de Soft Prompt avec un nombre minimal de paramètres ajoutés, en intégrant les concepts d'apprentissage par prompt dans l'apprentissage robotique inter-embodiment et en introduisant des ensembles distincts d'embeddings apprenables pour chaque source de données distincte. Ces embeddings servent de prompts spécifiques à l'embodiment, qui, ensemble, permettent aux modèles VLA d'exploiter efficacement les caractéristiques variées inter-embodiment. Notre nouveau X-VLA, une architecture VLA basée sur le flow-matching, repose exclusivement sur des encodeurs Transformer standard avec soft-prompt, bénéficiant à la fois de l'évolutivité et de la simplicité. Évalué sur 6 simulations ainsi que 3 robots réels, notre instanciation de 0.9B, X-VLA-0.9B, atteint simultanément des performances de pointe sur une série de benchmarks, démontrant des résultats supérieurs sur un large éventail de capacités, de la dextérité flexible à l'adaptation rapide entre embodiments, environnements et tâches. Site web : https://thu-air-dream.github.io/X-VLA/
Les modèles universels d'incorporation multimodale sont fondamentaux pour diverses tâches. Les approches existantes utilisent généralement l'exploitation de négatifs intra-lot en mesurant la similarité des paires requête-candidat. Cependant, ces méthodes peinent souvent à capturer les différences sémantiques subtiles entre les candidats et manquent de diversité dans les échantillons négatifs. De plus, les incorporations présentent une capacité discriminative limitée à distinguer les faux négatifs et les négatifs difficiles. Dans cet article, nous exploitons les capacités de compréhension avancées des MLLM (Modèles de Langage Multimodaux) pour améliorer l'apprentissage de représentations et présentons un nouveau modèle d'Incorporation Multimodale Universelle (UniME-V2). Notre approche construit d'abord un ensemble potentiel de négatifs difficiles par le biais d'une recherche globale. Nous introduisons ensuite le mécanisme MLLM-as-a-Judge, qui utilise les MLLM pour évaluer l'alignement sémantique des paires requête-candidat et générer des scores de correspondance sémantique doux. Ces scores servent de base pour l'exploitation de négatifs difficiles, atténuant l'impact des faux négatifs et permettant l'identification de négatifs difficiles diversifiés et de haute qualité. De plus, les scores de correspondance sémantique sont utilisés comme étiquettes douces pour atténuer la contrainte rigide de correspondance un-à-un. En alignant la matrice de similarité avec la matrice de scores de correspondance sémantique doux, le modèle apprend les distinctions sémantiques entre les candidats, améliorant significativement sa capacité discriminative. Pour améliorer encore les performances, nous proposons UniME-V2-Reranker, un modèle de reclassement entraîné sur nos négatifs difficiles extraits grâce à une approche d'optimisation conjointe par paires et par liste. Nous menons des expériences complètes sur le benchmark MMEB et plusieurs tâches de recherche, démontrant que notre méthode atteint des performances de pointe en moyenne sur toutes les tâches.
Cette étude présente une méthode de pré-entraînement par classification de dégradation masquée (MaskDCPT), conçue pour faciliter la classification des types de dégradation dans les images d'entrée, conduisant à un pré-entraînement complet en restauration d'images. Contrairement aux méthodes de pré-entraînement conventionnelles, MaskDCPT utilise le type de dégradation de l'image comme une supervision extrêmement faible, tout en exploitant simultanément la reconstruction de l'image pour améliorer les performances et la robustesse. MaskDCPT comprend un encodeur et deux décodeurs : l'encodeur extrait les caractéristiques de l'image d'entrée de faible qualité masquée. Le décodeur de classification utilise ces caractéristiques pour identifier le type de dégradation, tandis que le décodeur de reconstruction vise à reconstruire une image de haute qualité correspondante. Cette conception permet au pré-entraînement de bénéficier à la fois de la modélisation d'images masquées et de l'apprentissage contrastif, aboutissant à une représentation généralisée adaptée aux tâches de restauration. Grâce à la simplicité et à la puissance de MaskDCPT, l'encodeur pré-entraîné peut être utilisé pour aborder la restauration universelle d'images et obtenir des performances exceptionnelles. La mise en œuvre de MaskDCPT améliore significativement les performances des réseaux de neurones convolutifs (CNN) et des Transformers, avec une augmentation minimale du PSNR de 3,77 dB dans la tâche de restauration tout-en-un 5D et une réduction de 34,8 % du PIQE par rapport à la référence dans des scénarios de dégradation du monde réel. Elle montre également une forte généralisation à des types et niveaux de dégradation précédemment inconnus. En outre, nous avons constitué et publié le jeu de données UIR-2.5M, qui comprend 2,5 millions d'échantillons de restauration appariés couvrant 19 types de dégradation et plus de 200 niveaux de dégradation, intégrant à la fois des données synthétiques et réelles. Le jeu de données, le code source et les modèles sont disponibles à l'adresse https://github.com/MILab-PKU/MaskDCPT.
En utilisant des modèles de langage de grande taille (LLMs) pour récupérer des documents et générer des réponses en langage naturel, les moteurs génératifs, tels que Google AI Overview et ChatGPT, offrent une expérience utilisateur considérablement améliorée et sont rapidement devenus la nouvelle forme de recherche. Leur adoption rapide stimule également les besoins en optimisation des moteurs génératifs (Generative Engine Optimization, GEO), car les fournisseurs de contenu cherchent à obtenir une plus grande visibilité grâce à eux. Dans cet article, nous présentons AutoGEO, un cadre permettant d'apprendre automatiquement les préférences des moteurs génératifs lors de l'utilisation de contenus récupérés pour la génération de réponses, et de réécrire les contenus web pour accroître cette visibilité. AutoGEO commence par solliciter des LLMs de pointe pour expliquer les préférences des moteurs génératifs et extraire des règles de préférence significatives à partir de ces explications. Ensuite, il utilise ces règles de préférence comme ingénierie contextuelle pour AutoGEO_API, un système GEO basé sur des prompts, et comme récompenses basées sur des règles pour entraîner AutoGEO_Mini, un modèle GEO économique. Des expériences sur le benchmark standard GEO-Bench et deux nouveaux benchmarks construits à partir de requêtes réelles d'utilisateurs démontrent l'efficacité d'AutoGEO à améliorer la visibilité des contenus tout en préservant l'utilité de la recherche. Les analyses confirment la robustesse des règles apprises et leur capacité à capturer des préférences uniques dans divers domaines, ainsi que la capacité des systèmes AutoGEO à les intégrer dans l'optimisation des contenus. Le code est disponible à l'adresse https://github.com/cxcscmu/AutoGEO.
Les modèles multimodaux unifiés visent à permettre conjointement la compréhension et la génération visuelles, mais les benchmarks actuels examinent rarement leur véritable intégration. Les évaluations existantes traitent ces deux capacités de manière isolée ou négligent les tâches qui les couplent intrinsèquement. Pour combler cette lacune, nous présentons Uni-MMMU, un benchmark complet et conscient des disciplines qui déploie systématiquement la synergie bidirectionnelle entre génération et compréhension à travers huit domaines centrés sur le raisonnement, incluant les sciences, le codage, les mathématiques et les énigmes. Chaque tâche est couplée de manière bidirectionnelle, exigeant des modèles qu'ils (i) exploitent la compréhension conceptuelle pour guider une synthèse visuelle précise, ou (ii) utilisent la génération comme échafaudage cognitif pour un raisonnement analytique. Uni-MMMU intègre des étapes de raisonnement intermédiaires vérifiables, des vérités terrain uniques et un protocole de notation reproductible pour les sorties textuelles et visuelles. À travers une évaluation approfondie des modèles unifiés, de génération uniquement et de compréhension uniquement de pointe, nous révélons des disparités de performance substantielles et des dépendances intermodales, offrant de nouvelles perspectives sur quand et comment ces capacités se renforcent mutuellement, et établissant une base fiable pour faire progresser les modèles unifiés.
La compréhension fine entre vision et langage nécessite un alignement précis entre le contenu visuel et les descriptions linguistiques, une capacité qui reste limitée dans les modèles actuels, en particulier dans des contextes non anglophones. Bien que des modèles comme CLIP performent bien sur l'alignement global, ils peinent souvent à capturer des détails fins dans les attributs d'objets, les relations spatiales et les expressions linguistiques, avec un support limité pour la compréhension bilingue. Pour relever ces défis, nous introduisons FG-CLIP 2, un modèle bilingue vision-langage conçu pour améliorer l'alignement fin à la fois pour l'anglais et le chinois. Notre approche exploite une supervision fine riche, incluant l'appariement région-texte et la modélisation de longues descriptions, ainsi que plusieurs objectifs discriminatifs. Nous introduisons également la perte de contraste intra-modal textuel (TIC) pour mieux distinguer les descriptions sémantiquement similaires. Entraîné sur un mélange soigneusement sélectionné de données à grande échelle en anglais et en chinois, FG-CLIP 2 atteint des performances bilingues puissantes. Pour permettre une évaluation rigoureuse, nous présentons un nouveau benchmark pour la compréhension multimodale en chinois, incluant la récupération de longues descriptions et la classification par boîtes englobantes. Des expériences approfondies sur 29 jeux de données couvrant 8 tâches montrent que FG-CLIP 2 surpasse les méthodes existantes, obtenant des résultats de pointe dans les deux langues. Nous mettons à disposition le modèle, le code et le benchmark pour faciliter les recherches futures sur l'alignement fin bilingue.
La fusion de modèles, généralement appliquée aux modèles Instruct et Thinking, a démontré des performances remarquables pour un raisonnement efficace. Dans cet article, nous revisitons systématiquement la méthode de fusion la plus simple qui consiste à interpoler directement deux ensembles de poids. En particulier, nous observons que l'interpolation de modèles suit un paradigme évolutif en trois étapes avec des comportements distincts sur la trajectoire de raisonnement. Ces dynamiques fournissent un guide fondamental pour naviguer le compromis entre performance et coût. Les résultats empiriques montrent qu'un modèle stratégiquement interpolé surpasse de manière surprenante les bases de référence sophistiquées de fusion de modèles, tant en termes d'efficacité que d'efficience. Nous validons en outre nos conclusions par des études d'ablation approfondies sur les couches, modules et stratégies de décodage des modèles. En fin de compte, ce travail démystifie l'interpolation de modèles et propose un cadre pratique pour concevoir des modèles avec des capacités de raisonnement précisément ciblées. Le code est disponible à l'adresse suivante : https://github.com/wutaiqiang/MI{Github}.
Les progrès récents dans les grands modèles de langage (LLMs) se sont concentrés sur la mise à l'échelle au moment du test pour améliorer le raisonnement via une augmentation du calcul d'inférence, mais souvent au détriment de l'efficacité. Nous revisitons le comportement au moment du test et découvrons un phénomène simple mais peu exploré : l'incertitude du raisonnement est fortement localisée—seul un petit sous-ensemble de tokens à haute entropie influence de manière dominante la justesse de la sortie. Motivés par cela, nous proposons l'Intervention Minimale au Moment du Test (MTI), un cadre sans entraînement qui améliore la précision et la stabilité du raisonnement avec un surcoût minimal. MTI comprend : (i) une intervention sélective CFG, appliquant le guidage sans classificateur uniquement aux positions incertaines ; et (ii) un guidage léger par prompt négatif, réutilisant le cache KV du modèle principal pour approximer efficacement le décodage inconditionnel. MTI apporte des gains constants dans les tâches générales, de codage et STEM—par exemple, une amélioration moyenne de +1,35 % sur huit benchmarks pour Qwen3-8B-Base et de +5 % sur AIME2024 avec Qwen3-32B-Reasoning—tout en restant très efficace.
Les transformers à décodeur uniquement sont devenus l'architecture standard pour les grands modèles de langage (LLM) en raison de leurs performances élevées. Des études récentes suggèrent que, dans les LLM pré-entraînés, les couches précoces, intermédiaires et tardives pourraient jouer des rôles distincts : les couches précoces se concentrent sur la compréhension du contexte d'entrée, les couches intermédiaires gèrent le traitement spécifique à la tâche, et les couches tardives convertissent les représentations abstraites en tokens de sortie. Nous émettons l'hypothèse qu'une fois que les représentations ont été traitées par les couches précoces et intermédiaires, les états cachés résultants pourraient encapsuler suffisamment d'informations pour supporter la génération de plusieurs tokens en utilisant uniquement les couches tardives, éliminant ainsi la nécessité de parcourir à plusieurs reprises les couches précoces et intermédiaires. Nous désignons ce paradigme d'inférence par le terme de Décodage Direct Multi-Token (DMTD). Contrairement au décodage spéculatif, notre méthode n'introduit aucun paramètre supplémentaire, routine auxiliaire ou vérification post-génération. Bien qu'entraîné sur un ensemble de données limité, un modèle Qwen3-4B affiné avec DMTD a déjà montré des résultats prometteurs, atteignant jusqu'à un doublement de la vitesse avec seulement une légère perte de performance. De plus, comme le montre notre analyse de mise à l'échelle, ses performances devraient encore s'améliorer avec des ensembles de données d'entraînement plus vastes.
L'attention creuse entraînable est apparue comme une solution prometteuse pour résoudre le goulot d'étranglement de l'efficacité de décodage des modèles de langage de grande taille (LLMs) dans le traitement de contextes longs, permettant d'économiser de manière significative les accès mémoire tout en impactant minimalement les performances des tâches. Cependant, les méthodes d'attention creuse existantes laissent une limitation cruciale non résolue : la taille du cache clé-valeur (KV) reste inchangée, ce qui limite les tailles de lots sur GPU et réduit le débit de décodage, en particulier dans le cadre d'inférences massives par lots. Dans cet article, nous montrons que l'attention creuse entraînable présente naturellement une forte localité dans la sélection de tokens à travers les étapes de décodage adjacentes, permettant ainsi le déchargement du cache KV sans altérer le calcul sous-jacent de l'attention. Cependant, la localité inhérente reste insuffisante pour parvenir à un déchargement efficace, car le transfert des paires KV sélectionnées entre le CPU et le GPU continue de dominer le coût global du décodage. Sur la base de cette observation, nous présentons NOSA, un cadre d'attention creuse entraînable conçu pour supporter nativement le déchargement du cache KV. NOSA introduit des contraintes explicites de localité en décomposant la sélection de tokens en composantes dépendantes et indépendantes de la requête, réduisant ainsi les transferts KV tout en préservant le même calcul d'attention utilisé lors de l'entraînement. Nous pré-entraînons un modèle de 1 milliard de paramètres avec NOSA et menons des benchmarks approfondis, montrant qu'il préserve des performances quasi sans perte tout en atteignant une amélioration allant jusqu'à 2,3 fois du débit de décodage par rapport à la base de référence d'attention creuse entraînable standard (InfLLM-V2).
Les politiques de manipulation robotique peinent souvent à généraliser leur application à des objets nouveaux, limitant ainsi leur utilité dans le monde réel. En revanche, les sciences cognitives suggèrent que les enfants développent des compétences de manipulation habile et généralisables en maîtrisant un petit ensemble de jouets simples, puis en appliquant ces connaissances à des objets plus complexes. Inspirés par cela, nous étudions si des capacités de généralisation similaires peuvent également être atteintes par des robots. Nos résultats indiquent que les robots peuvent apprendre à saisir de manière généralisable en utilisant des objets assemblés aléatoirement à partir de seulement quatre primitives de forme : des sphères, des cuboïdes, des cylindres et des anneaux. Nous montrons que l'entraînement sur ces "jouets" permet une généralisation robuste à des objets réels, offrant ainsi des performances solides en zéro-shot. De manière cruciale, nous constatons que la clé de cette généralisation réside dans une représentation visuelle centrée sur l'objet, induite par notre mécanisme de détection par regroupement proposé. Évalué à la fois en simulation et sur des robots physiques, notre modèle atteint un taux de réussite de 67 % pour la saisie dans le monde réel sur le jeu de données YCB, surpassant les approches de pointe qui reposent sur des données intra-domaines nettement plus importantes. Nous étudions également comment les performances de généralisation en zéro-shot évoluent en fonction du nombre et de la diversité des jouets d'entraînement, ainsi que du nombre de démonstrations par jouet. Nous pensons que ce travail ouvre une voie prometteuse vers un apprentissage scalable et généralisable en manipulation robotique. Les vidéos de démonstration, le code, les points de contrôle et notre jeu de données sont disponibles sur notre page de projet : https://lego-grasp.github.io/.
Les modèles de conduite autonome de bout en bout entraînés uniquement par apprentissage par imitation (IL) souffrent souvent d'une mauvaise généralisation. En revanche, l'apprentissage par renforcement (RL) favorise l'exploration grâce à la maximisation des récompenses, mais se heurte à des défis tels que l'inefficacité en termes d'échantillons et une convergence instable. Une solution naturelle consiste à combiner IL et RL. Allant au-delà du paradigme conventionnel en deux étapes (pré-entraînement par IL suivi d'un affinage par RL), nous proposons CoIRL-AD, un cadre compétitif à double politique qui permet aux agents IL et RL d'interagir pendant l'entraînement. CoIRL-AD introduit un mécanisme basé sur la compétition qui facilite l'échange de connaissances tout en évitant les conflits de gradients. Les expériences sur le jeu de données nuScenes montrent une réduction de 18 % du taux de collision par rapport aux méthodes de référence, ainsi qu'une meilleure généralisation et des performances améliorées dans les scénarios à longue traîne. Le code est disponible à l'adresse : https://github.com/SEU-zxj/CoIRL-AD.
Les récentes avancées dans les systèmes multi-agents alimentés par des modèles de langage de grande taille ont démontré une intelligence collective remarquable grâce à une communication efficace. Cependant, les approches existantes sont confrontées à deux défis majeurs : (i) une modélisation inefficace de la collaboration de groupe, car elles reposent sur des représentations par paires d'arêtes dans des structures de graphes, limitant leur capacité à capturer les relations entre plusieurs agents ; et (ii) une adaptabilité limitée des topologies de communication aux tâches, entraînant des coûts de communication excessifs pour des tâches simples et une coordination insuffisante pour des scénarios complexes. Ces problèmes restreignent l'évolutivité et le déploiement pratique des cadres de collaboration adaptatifs. Pour relever ces défis, nous proposons HyperAgent, un cadre basé sur les hypergraphes qui optimise les topologies de communication et capture efficacement les modèles de collaboration de groupe en utilisant des représentations directes d'hyperarêtes. Contrairement aux approches basées sur les arêtes, HyperAgent utilise des hyperarêtes pour relier plusieurs agents au sein d'une même sous-tâche et emploie des couches de convolution d'hypergraphes pour réaliser une agrégation d'informations en une étape dans les groupes de collaboration. De plus, il intègre un cadre d'autoencodeur variationnel avec régularisation de parcimonie pour ajuster dynamiquement les topologies d'hypergraphes en fonction de la complexité des tâches. Les expériences mettent en évidence la supériorité d'HyperAgent en termes de performance et d'efficacité. Par exemple, sur GSM8K, HyperAgent atteint une précision de 95,07 % tout en réduisant la consommation de tokens de 25,33 %, démontrant le potentiel de l'optimisation basée sur les hypergraphes pour la communication multi-agents.
Les systèmes de raisonnement basés sur des modèles de langage de grande taille (LLM) ont récemment atteint des performances de niveau médaille d'or lors de la compétition IMO 2025, en rédigeant des preuves mathématiques où, pour obtenir la note maximale, chaque étape doit non seulement être correcte mais également suffisamment justifiée. Pour entraîner des raisonneurs basés sur LLM dans des contextes aussi exigeants et ouverts, des vérificateurs robustes capables de détecter les erreurs au niveau des étapes sont des prérequis indispensables. Nous présentons Hard2Verify, un benchmark de vérification au niveau des étapes, annoté manuellement et produit avec plus de 500 heures de travail humain. Hard2Verify est conçu pour évaluer rigoureusement les vérificateurs au niveau des étapes à la pointe de la technologie : les vérificateurs doivent fournir des annotations au niveau des étapes ou identifier la première erreur dans les réponses générées par des LLM de pointe pour des questions mathématiques récentes, complexes et ouvertes. Nous évaluons 29 critiques génératifs et modèles de récompense par processus, démontrant qu'au-delà de quelques exceptions, les vérificateurs open source sont à la traîne par rapport aux modèles propriétaires. Nous analysons ensuite les facteurs qui entraînent de faibles performances dans la vérification au niveau des étapes, les impacts de la mise à l'échelle des ressources de calcul des vérificateurs, ainsi que des questions fondamentales telles que l'auto-vérification et la dynamique entre vérification et génération.
Le Text-to-SQL multi-tours vise à traduire les énoncés conversationnels d'un utilisateur en requêtes SQL exécutables tout en préservant la cohérence du dialogue et l'ancrage au schéma cible. Cependant, la plupart des systèmes existants considèrent cette tâche comme une simple traduction de texte et suivent un paradigme à court terme, générant une requête par tour sans exécution, vérification explicite ou raffinement, ce qui conduit à des résultats non exécutables ou incohérents. Nous présentons MTSQL-R1, un cadre d'entraînement agentique pour le Text-to-SQL multi-tours à long terme. Nous modélisons la tâche comme un Processus de Décision Markovien (MDP) dans lequel un agent interagit avec (i) une base de données pour obtenir un retour d'exécution et (ii) une mémoire de dialogue persistante pour la vérification de la cohérence, effectuant un cycle itératif de proposition -> exécution -> vérification -> raffinement jusqu'à ce que tous les contrôles soient validés. Les expériences sur COSQL et SPARC démontrent que MTSQL-R1 surpasse systématiquement les bases de référence solides, soulignant l'importance de la vérification pilotée par l'environnement et du raffinement guidé par la mémoire pour l'analyse sémantique conversationnelle. Les recettes complètes (y compris le code, les modèles entraînés, les journaux, les trajectoires de raisonnement, etc.) seront publiées après la revue interne pour contribuer à la recherche communautaire.
Les systèmes multi-agents basés sur des modèles de langage à grande échelle (LLM) sont de plus en plus adoptés pour des tâches complexes de traitement du langage nécessitant communication et coordination entre agents. Cependant, ces systèmes subissent souvent une surcharge importante due au retraitement répété de contextes qui se chevauchent entre les agents. Dans les pipelines typiques, lorsqu'un agent reçoit un message de son prédécesseur, le contexte complet - y compris les tours précédents - doit être retraité depuis le début, ce qui entraîne une inefficacité de traitement. Bien que la mise en cache clé-valeur (KV) soit une solution efficace pour éviter les calculs redondants dans des configurations mono-agent où les préfixes restent inchangés, elle ne peut pas être directement réutilisée dans des scénarios multi-agents en raison de préfixes divergents introduits par des extensions de contexte spécifiques à chaque agent. Nous identifions que le défi central réside dans la variance des décalages des caches KV entre les agents. Pour y remédier, nous proposons KVCOMM, un cadre sans entraînement qui permet un préremplissage efficace dans l'inférence multi-agent en réutilisant les caches KV et en alignant les décalages des caches pour les contextes qui se chevauchent sous divers préfixes. KVCOMM estime et ajuste les caches KV pour le contenu partagé en se référant à un pool d'exemples mis en cache - appelés ancres - qui stockent les écarts de cache observés sous différents préfixes. Le pool d'ancres est maintenu et mis à jour en ligne, permettant une adaptation dynamique à des requêtes utilisateur et des structures de contexte distinctes. KVCOMM atteint un taux de réutilisation de plus de 70% sur diverses charges de travail multi-agents, y compris la génération augmentée par récupération, le raisonnement mathématique et les tâches de codage collaboratif, sans dégradation de la qualité. En particulier, lorsque chaque agent entièrement connecté reçoit 1K tokens d'entrée avec 512 tokens de préfixe et 512 tokens de sortie dans un cadre à cinq agents, KVCOMM atteint une accélération allant jusqu'à 7,8x par rapport au pipeline de préremplissage standard, réduisant le TTFT de ~430 ms à ~55 ms.
Les trackers et les générateurs de vidéos résolvent des problèmes étroitement liés : les premiers analysent le mouvement, tandis que les seconds le synthétisent. Nous montrons que cette connexion permet à des modèles de diffusion vidéo pré-entraînés d'effectuer un suivi de points en zero-shot simplement en les incitant à marquer visuellement les points au fur et à mesure de leur déplacement dans le temps. Nous plaçons un marqueur de couleur distinctive au point de requête, puis régénérons le reste de la vidéo à partir d'un niveau de bruit intermédiaire. Cela propage le marqueur à travers les images, traçant ainsi la trajectoire du point. Pour garantir que le marqueur reste visible dans cette génération contrefactuelle, malgré le fait que de tels marqueurs soient improbables dans des vidéos naturelles, nous utilisons l'image initiale non modifiée comme prompt négatif. À travers des expériences avec plusieurs modèles de diffusion vidéo conditionnés par des images, nous constatons que ces trajectoires "émergentes" surpassent celles des méthodes zero-shot précédentes et persistent à travers les occlusions, obtenant souvent des performances comparables à celles de modèles auto-supervisés spécialisés.
L'entraînement à l'alignement présente des compromis : il aide les modèles de langage (LMs) à améliorer leur raisonnement et leur capacité à suivre des instructions, mais peut entraîner une perte de compétences telles que la créativité et la calibration, domaines où les modèles de base non alignés sont plus performants. Notre objectif est de tirer le meilleur des deux mondes grâce à la collaboration entre modèles, où différents modèles dans le pipeline d'entraînement collaborent et se complètent. Étant donné que les réponses des LMs intègrent des compétences entrelacées qui favorisent différents modèles, nous proposons la **Génération par Commutation** (Switch Generation), où des versions pré-entraînées et alignées des modèles prennent tour à tour la parole dans une séquence de réponses. Plus précisément, nous entraînons un modèle de commutation (switcher LM) en apprenant des résultats du choix de différents modèles pour générer le segment suivant à travers diverses requêtes et contextes. Au moment de l'inférence, le switcher LM guide différents points de contrôle de modèles pour générer dynamiquement le segment suivant là où leurs forces sont les plus nécessaires. Des expériences approfondies avec 8 bases de référence de collaboration de modèles et 18 ensembles de données montrent que 1) la collaboration entre modèles surpasse systématiquement les modèles individuels sur 16 des 18 tâches, et 2) la Génération par Commutation surpasse encore les bases de référence de 12,9 % en moyenne. Une analyse plus poussée révèle que la Génération par Commutation découvre des compétences compositionnelles pour résoudre des problèmes où les modèles individuels échouent, et généralise à des modèles et tâches non vus, réutilisant et réaffectant les sous-produits des pipelines d'entraînement de modèles coûteux qui seraient autrement jetés.
Les systèmes multi-agents alimentés par des modèles de langage de grande taille excellent dans les tâches complexes grâce à une collaboration coordonnée, mais ils rencontrent des taux d'échec élevés dans les scénarios de recherche approfondie à tours multiples. Les méthodes existantes d'attribution temporelle peinent à diagnostiquer avec précision les causes racines, en particulier lorsque les erreurs se propagent à travers plusieurs agents. Les tentatives d'automatisation de l'attribution des échecs par l'analyse des séquences d'actions restent inefficaces en raison de leur incapacité à prendre en compte les dépendances informationnelles qui s'étendent sur plusieurs agents. Cet article identifie deux défis majeurs : (i) distinguer les symptômes des causes racines dans la propagation d'erreurs multi-agents, et (ii) retracer les dépendances informationnelles au-delà de l'ordre temporel. Pour résoudre ces problèmes, nous introduisons GraphTracer, un cadre qui redéfinit l'attribution des échecs par l'analyse des flux d'information. GraphTracer construit des graphes de dépendance informationnelle (IDG) pour capturer explicitement comment les agents se réfèrent et s'appuient sur les sorties précédentes. Il localise les causes racines en retraçant ces structures de dépendance plutôt qu'en s'appuyant sur des séquences temporelles. GraphTracer utilise également une génération synthétique de données basée sur les graphes pour cibler les nœuds critiques, créant ainsi des scénarios d'échec réalistes. Les évaluations sur le benchmark Who\&When et l'intégration dans des systèmes de production démontrent que GraphTracer-8B atteint une précision d'attribution jusqu'à 18,18 % supérieure par rapport aux modèles de pointe et permet des améliorations de performance de 4,8 % à 14,2 % dans les cadres multi-agents déployés, établissant ainsi une solution robuste pour le débogage des systèmes multi-agents.
Avec l'essor des modèles de langage à raisonnement et des méthodes de mise à l'échelle au moment du test comme paradigme pour améliorer les performances des modèles, une quantité substantielle de calcul est souvent nécessaire pour générer plusieurs séquences candidates à partir de la même instruction. Cela permet d'explorer différents chemins de raisonnement vers la solution correcte, mais alloue le même budget de calcul pour chaque instruction. En partant de l'hypothèse que différentes instructions présentent des degrés de complexité variables, et donc des besoins de calcul différents, nous proposons EAGer, une méthode de génération sans apprentissage qui exploite l'incertitude du modèle à travers la distribution d'entropie par token pour réduire les calculs redondants et améliorer simultanément les performances globales. EAGer permet de bifurquer vers plusieurs chemins de raisonnement uniquement en présence de tokens à haute entropie, puis réalloue le budget de calcul économisé aux instances où l'exploration de chemins alternatifs est la plus nécessaire. Nous constatons que, sur plusieurs modèles open-source dans des benchmarks de raisonnement complexe tels que AIME 2025, EAGer peut réallouer le budget sans accéder aux étiquettes cibles, atteignant le meilleur compromis efficacité-performance en termes de longueur de raisonnement et Pass@k. Lorsque les étiquettes cibles sont accessibles, EAGer génère jusqu'à 65 % de tokens en moins (économisant ainsi des calculs) et améliore jusqu'à 37 % le Pass@k par rapport à l'échantillonnage parallèle complet.
Les modèles de langage à grand contexte (LLM) modernes obtiennent de bons résultats sur des benchmarks synthétiques de type "aiguille dans une botte de foin" (NIAH), mais ces tests négligent la manière dont les contextes bruyants émergent de la récupération biaisée et des workflows agentiques. Nous soutenons que l'ingénierie de la botte de foin est nécessaire pour construire des contextes longs et bruyants qui capturent fidèlement des facteurs clés du monde réel — la distraction causée par des récupérateurs hétérogènes biaisés et les erreurs en cascade dans les workflows agentiques — afin de tester la robustesse des modèles face à des contextes longs. Nous matérialisons cette idée à travers HaystackCraft, un nouveau benchmark NIAH construit sur le réseau complet de liens hypertextes de Wikipédia en anglais avec des questions à sauts multiples. HaystackCraft évalue comment les stratégies de récupération hétérogènes (par exemple, sparse, dense, hybrides et basées sur des graphes) affectent la composition des distracteurs, l'ordonnancement de la botte de foin et les performances des LLM en aval. HaystackCraft étend également NIAH à des configurations dynamiques dépendantes des LLM qui simulent des opérations agentiques, où les modèles affinent les requêtes, réfléchissent à leurs raisonnements passés et décident quand s'arrêter. Les expériences menées avec 15 modèles à grand contexte montrent que (1) bien que des récupérateurs denses plus performants puissent introduire des distracteurs plus difficiles, le réordonnancement basé sur des graphes améliore simultanément l'efficacité de la récupération et atténue les distracteurs les plus nuisibles ; (2) dans les tests agentiques, même des modèles avancés comme Gemini 2.5 Pro et GPT-5 subissent des échecs en cascade dus à des distracteurs auto-générés ou peinent à effectuer des arrêts précoces. Ces résultats mettent en lumière des défis persistants dans le raisonnement agentique à grand contexte et établissent HaystackCraft comme un banc d'essai précieux pour les progrès futurs.
Les modèles de langage à grande échelle (LLMs) démontrent des capacités linguistiques comparables, voire supérieures, à celles des humains, modélisant efficacement les structures syntaxiques, bien que les modules computationnels spécifiques responsables restent flous. Une question clé est de savoir si les capacités comportementales des LLMs découlent de mécanismes similaires à ceux du cerveau humain. Pour aborder ces questions, nous introduisons la Sonde d'Étiquetage Hiérarchique en Fréquence (HFTP), un outil qui utilise l'analyse dans le domaine fréquentiel pour identifier les composants neuronaux des LLMs (par exemple, les neurones individuels des Perceptrons Multicouches (MLP)) et les régions corticales (via des enregistrements intracrâniens) encodant les structures syntaxiques. Nos résultats montrent que des modèles tels que GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 et GLM-4 traitent la syntaxe dans des couches analogues, tandis que le cerveau humain s'appuie sur des régions corticales distinctes pour différents niveaux syntaxiques. L'analyse de similarité représentationnelle révèle un alignement plus fort entre les représentations des LLMs et l'hémisphère gauche du cerveau (dominant dans le traitement du langage). Notamment, les modèles améliorés présentent des tendances divergentes : Gemma 2 montre une plus grande similarité avec le cerveau que Gemma, tandis que Llama 3.1 montre un alignement moindre avec le cerveau par rapport à Llama 2. Ces résultats offrent de nouvelles perspectives sur l'interprétabilité des améliorations comportementales des LLMs, soulevant des questions sur la nature humaine ou non humaine des mécanismes sous-jacents, et établissent la HFTP comme un outil précieux reliant la linguistique computationnelle et les neurosciences cognitives. Ce projet est disponible à l'adresse https://github.com/LilTiger/HFTP.
Avec l'avènement de DeepSeek-R1, une nouvelle vague de méthodes d'apprentissage par renforcement (RL) a émergé, semblant débloquer des capacités de raisonnement mathématique plus robustes. Cependant, un examen plus approfondi de l'écosystème open source révèle une limitation critique : avec un nombre suffisant de tirages (par exemple, pass@1024), de nombreux modèles de base existants résolvent déjà presque toutes les questions des benchmarks mathématiques largement utilisés, tels que MATH-500 et AIME 2024. Cela suggère que les méthodes de fine-tuning par RL prédominantes dans la littérature sur le raisonnement des LLM affinent principalement les modes de solution existants plutôt que d'en découvrir de nouveaux. Un tel affinement contraste avec la promesse plus large du RL : favoriser l'exploration et acquérir de nouvelles compétences. Pour dépasser ce plateau, nous introduisons MATH-Beyond (MATH-B), un benchmark délibérément conçu pour déjouer les modèles open source courants de jusqu'à 8 milliards de paramètres, même avec des budgets d'échantillonnage importants. Améliorer les performances sur notre benchmark via le RL nécessite des méthodes qui apprennent à raisonner de manière à dépasser les capacités des modèles de base dans un échantillonnage répété. Les problèmes étant tirés de sous-ensembles des jeux de données DAPO-Math-17K et DeepScaleR, ils restent thématiquement équivalents aux mathématiques standards du lycée. Validant notre prémisse, les modèles fine-tunés par RL tels que Nemotron-Research-Reasoning-Qwen-1.5B et DeepScaleR-1.5B-Preview obtiennent de faibles performances sur MATH-B à pass@1024, montrant comment les approches existantes échouent à traiter des instances plus difficiles. Nous espérons que MATH-B catalysera des approches de RL axées sur l'exploration, suscitant des capacités de raisonnement plus profondes. Nous publions MATH-B à l'adresse suivante : https://huggingface.co/datasets/brendel-group/MATH-Beyond.
L'inférence à distance permet aux appareils légers de tirer parti de modèles cloud puissants. Cependant, la latence du réseau de communication rend les prédictions obsolètes et inadaptées aux tâches en temps réel. Pour résoudre ce problème, nous introduisons Dedelayed, une méthode corrective de délai qui atténue les retards arbitraires de l'inférence à distance, permettant à l'appareil local de produire des sorties à faible latence en temps réel. Notre méthode utilise un modèle local léger qui traite l'image actuelle et fusionne des caractéristiques calculées par un modèle distant plus lourd à partir d'images passées. Sur des vidéos du jeu de données de conduite BDD100K, Dedelayed améliore la précision de la segmentation sémantique par rapport à la meilleure des approches locales ou distantes pour tous les délais réalistes du réseau de communication dépassant 33 ms. Sans induire de délai supplémentaire, il améliore la précision de 6,4 mIoU par rapport à une inférence entièrement locale et de 9,8 mIoU par rapport à l'inférence distante, pour un délai aller-retour de 100 ms. L'avantage s'accroît avec des délais plus longs et des scènes à mouvement plus rapide, car l'inférence fractionnée avec atténuation des délais maintient la précision plus efficacement, offrant des avantages clairs pour les tâches en temps réel qui doivent rester alignées avec l'état actuel du monde.
Les modèles de raisonnement améliorent leur capacité à résoudre des problèmes grâce à une mise à l'échelle au moment de l'inférence, en allouant davantage de ressources de calcul via des budgets de tokens plus longs. Identifier quelles traces de raisonnement sont susceptibles de réussir reste une opportunité clé : prédire de manière fiable les chemins productifs peut considérablement réduire le gaspillage de calcul et améliorer l'efficacité globale. Nous introduisons des signaux de Trajectoire Latente qui caractérisent l'évolution temporelle des représentations internes d'un modèle lors de la génération de tokens de raisonnement intermédiaires. En mesurant le changement global des représentations latentes entre le début et la fin du raisonnement, le changement accumulé à travers les étapes intermédiaires, et la mesure dans laquelle ces changements progressent vers l'état final, nous montrons que ces signaux prédisent la précision des solutions de manière plus fiable que les métriques inter-couches et les mesures de confiance basées sur la sortie. Lorsqu'ils sont utilisés pour guider la sélection des réponses parmi plusieurs générations échantillonnées, les signaux de Trajectoire Latente rendent la mise à l'échelle au moment du test plus efficace et efficiente que le vote majoritaire, réduisant l'utilisation de tokens jusqu'à 70 % tout en préservant et même en améliorant la précision de 2,6 % en moyenne. De plus, ces signaux prédictifs apparaissent souvent tôt dans la trace de raisonnement, permettant une sélection précoce et une allocation des ressources de calcul aux candidats les plus prometteurs. Nos résultats contribuent non seulement à des stratégies pratiques pour l'efficacité au moment de l'inférence, mais aussi à une perspective d'interprétabilité plus approfondie sur la manière dont les processus de raisonnement sont représentés et différenciés dans l'espace latent.
L'émergence des grands modèles de langage (LLMs) a ouvert de nouvelles opportunités pour créer des personnages non-joueurs (NPCs) dynamiques dans les environnements de jeu, permettant à la fois l'exécution de tâches fonctionnelles et la génération de dialogues cohérents avec la personnalité des personnages. Dans cet article, nous (Tu_Character_lab) rapportons notre participation au Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, qui évalue les agents selon trois axes : le dialogue orienté tâche, le dialogue contextuel, et leur intégration. Notre approche combine deux stratégies complémentaires : (i) des techniques de prompting légères dans la piste API, incluant une méthode de prompting de "Déflanderisation" pour supprimer le jeu de rôle excessif et améliorer la fidélité à la tâche, et (ii) des modèles de grande taille affinés dans la piste GPU, exploitant Qwen3-14B avec un affinage supervisé (SFT) et une adaptation de bas rang (LoRA). Nos meilleures soumissions se sont classées 2ème sur la Tâche 1, 2ème sur la Tâche 3 (piste API), et 4ème sur la Tâche 3 (piste GPU).
Le raisonnement ne se limite pas à la résolution de problèmes — il consiste également à évaluer quels problèmes méritent d'être résolus. Les évaluations des systèmes d'intelligence artificielle (IA) se sont historiquement concentrées sur la résolution de problèmes, notamment en étudiant comment les modèles jouent à des jeux tels que les échecs et le Go. Dans cet article, nous plaidons pour un nouveau paradigme qui évalue la manière dont les systèmes d'IA évaluent les jeux. Tout d'abord, nous introduisons un formalisme pour évaluer de telles évaluations. Nous exploitons ensuite un ensemble de données à grande échelle comprenant plus de 100 nouveaux jeux de société et plus de 450 jugements humains pour comparer les évaluations produites par des modèles modernes de langage et de raisonnement à celles des humains et des agents computationnels symboliques. Nous considérons deux types de requêtes évaluatives : l'évaluation du gain (ou de l'équité) et du caractère amusant des jeux. Ces requêtes couvrent deux dimensions pertinentes pour la conception des évaluations des IA : la complexité de calcul d'une requête et la difficulté de quantification d'une requête. Nos résultats montrent que les modèles de raisonnement sont généralement plus alignés sur les jugements humains dans leurs évaluations des jeux que les modèles de langage non raisonnants. Cependant, nous observons une relation non monotone : plus les modèles se rapprochent de l'optimalité théorique des jeux, moins leurs évaluations correspondent aux données humaines. Nous observons également une plus grande "irrégularité" entre les modèles pour l'évaluation du caractère amusant, en accord avec la plus grande difficulté de quantification de cette requête. Pour toutes les requêtes et tous les jeux, les modèles de raisonnement montrent une utilisation des ressources très variable et imprévisible lors de l'évaluation des requêtes, soulignant l'importance d'intégrer une méta-raison plus rationnelle en termes de ressources dans les modèles de langage et de raisonnement.