HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

43 papers found

FlashWorld : Génération de scènes 3D de haute qualité en quelques secondes
FlashWorld: High-quality 3D Scene Generation within Seconds

Oct 15

ByXinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao

Nous proposons FlashWorld, un modèle génératif qui produit des scènes 3D à partir d'une seule image ou d'une invite textuelle en quelques secondes, 10 à 100 fois plus rapidement que les travaux précédents tout en offrant une qualité de rendu supérieure. Notre approche s'écarte du paradigme conventionnel orienté multi-vues (MV-oriented), qui génère des images multi-vues pour une reconstruction 3D ultérieure, pour adopter une approche orientée 3D où le modèle produit directement des représentations 3D basées sur des Gaussiennes pendant la génération multi-vues. Bien que garantissant la cohérence 3D, la méthode orientée 3D souffre généralement d'une qualité visuelle médiocre. FlashWorld inclut une phase de pré-entraînement en mode double suivie d'une phase de post-entraînement inter-mode, intégrant efficacement les forces des deux paradigmes. Plus précisément, en exploitant les connaissances préalables d'un modèle de diffusion vidéo, nous pré-entraînons d'abord un modèle de diffusion multi-vues en mode double, qui supporte conjointement les modes de génération orientés MV et 3D. Pour combler l'écart de qualité dans la génération orientée 3D, nous proposons en outre une distillation post-entraînement inter-mode en alignant la distribution du mode orienté 3D cohérent vers le mode orienté MV de haute qualité. Cela améliore non seulement la qualité visuelle tout en maintenant la cohérence 3D, mais réduit également le nombre d'étapes de débruitage nécessaires pour l'inférence. De plus, nous proposons une stratégie pour exploiter un grand nombre d'images mono-vues et d'invites textuelles pendant ce processus afin d'améliorer la généralisation du modèle aux entrées hors distribution. Des expériences approfondies démontrent la supériorité et l'efficacité de notre méthode.

UniMoE-Audio : Génération unifiée de parole et de musique avec une capacité dynamique de MoE
UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

Oct 15

ByZhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang

Les récentes avancées dans les modèles multimodaux unifiés indiquent une tendance claire vers la génération de contenu complet. Cependant, le domaine auditif reste un défi majeur, avec la musique et la parole souvent développées de manière isolée, ce qui freine les progrès vers une synthèse audio universelle. Cette séparation découle de conflits inhérents aux tâches et de déséquilibres sévères dans les données, qui entravent le développement d'un véritable modèle unifié de génération audio. Pour relever ce défi, nous proposons UniMoE-Audio, un modèle unifié de génération de parole et de musique dans un cadre novateur de Dynamic-Capacity Mixture-of-Experts (MoE). Sur le plan architectural, UniMoE-Audio introduit une stratégie de routage Top-P pour l'allocation dynamique du nombre d'experts, ainsi qu'une conception hybride d'experts comprenant des experts routés pour les connaissances spécifiques à un domaine, des experts partagés pour les caractéristiques indépendantes du domaine, et des experts nuls pour le saut adaptatif de calcul. Pour résoudre le problème de déséquilibre des données, nous proposons un curriculum d'entraînement en trois étapes : 1) L'entraînement indépendant des spécialistes exploite les jeux de données originaux pour inculquer des connaissances spécifiques à chaque "proto-expert" sans interférence ; 2) L'intégration et le préchauffage MoE incorporent ces spécialistes dans l'architecture UniMoE-Audio, en préchauffant le module de porte et l'expert partagé à l'aide d'un sous-ensemble de données équilibrées ; et 3) L'entraînement conjoint synergétique forme l'ensemble du modèle de bout en bout sur le jeu de données entièrement équilibré, favorisant une synergie inter-domaines améliorée. Des expériences approfondies montrent qu'UniMoE-Audio non seulement atteint des performances de pointe sur les principaux benchmarks de génération de parole et de musique, mais démontre également un apprentissage synergétique supérieur, atténuant la dégradation des performances typiquement observée dans un entraînement conjoint naïf. Nos résultats mettent en évidence le potentiel considérable de l'architecture MoE spécialisée et des stratégies d'entraînement soigneusement conçues pour faire progresser le domaine de la génération audio universelle. Page d'accueil : https://mukioxun.github.io/Uni-MoE-site/home.html

L'attention illumine le raisonnement des LLM : Le rythme de préplanification et d'ancrage permet une optimisation fine des politiques
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

Oct 15

ByYang Li, Zhichen Dong, Yuhan Sun, Weixun Wang, Shaopan Xiong, Yijia Luo, Jiashun Liu, Han Lu, Jiamang Wang, Wenbo Su, Bo Zheng, Junchi Yan

Le schéma de raisonnement des modèles de langage à grande échelle (LLMs) reste opaque, et l'apprentissage par renforcement (RL) applique généralement un crédit uniforme à l'ensemble d'une génération, estompant la distinction entre les étapes cruciales et routinières. Ce travail positionne l'attention comme un substrat privilégié qui rend la logique interne des LLMs lisible, non pas simplement comme un sous-produit du calcul, mais comme un plan mécanistique du raisonnement lui-même. Nous distinguons d'abord les têtes d'attention entre le traitement d'information localement et globalement focalisé, et révélons que les têtes localement focalisées produisent un motif en dents de scie près de la diagonale indiquant des segments phrastiques, tandis que les têtes globalement focalisées exposent les tokens qui exercent une influence descendante étendue sur les tokens futurs. Nous formalisons cela avec deux métriques : 1) la Distance Moyenne d'Attention Fenêtrée, qui mesure l'étendue de l'attention rétrospective dans une fenêtre tronquée ; 2) l'Influence Future de l'Attention, qui quantifie l'importance globale d'un token comme l'attention moyenne qu'il reçoit des tokens ultérieurs. Ensemble, ces signaux révèlent un mécanisme récurrent de pré-planification et d'ancrage, où le modèle effectue d'abord une référence contextuelle à long terme pour générer un token introductif, qui est immédiatement suivi ou coïncide avec un token d'ancrage sémantique qui organise le raisonnement subséquent. En exploitant ces insights, nous introduisons trois nouvelles stratégies de RL qui effectuent dynamiquement une attribution ciblée de crédit aux nœuds critiques (tokens de pré-planification, tokens d'ancrage et leur couplage temporel) et montrent des gains de performance constants à travers diverses tâches de raisonnement. En alignant l'optimisation sur le rythme de raisonnement intrinsèque du modèle, nous visons à transformer une optimisation opaque en un processus actionnable et conscient de la structure, espérant offrir une étape potentielle vers une optimisation plus transparente et efficace du raisonnement des LLMs.

Bee : Un corpus de haute qualité et une suite complète pour débloquer des modèles de langage multilingues entièrement ouverts de pointe
Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

Oct 15

ByYi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu

Les modèles de langage multimodal (MLLM) entièrement ouverts accusent actuellement un retard par rapport à leurs homologues propriétaires, principalement en raison d'un écart significatif dans la qualité des données utilisées pour le réglage supervisé (SFT). Les ensembles de données open source existants sont souvent entachés de bruit généralisé et d'un déficit critique en données de raisonnement complexe, telles que la Chaîne de Pensée (CoT), ce qui entrave le développement de capacités avancées des modèles. Pour relever ces défis, notre travail apporte trois contributions principales. Premièrement, nous introduisons Honey-Data-15M, un nouvel ensemble de données SFT comprenant environ 15 millions de paires question-réponse, traitées à l'aide de plusieurs techniques de nettoyage et enrichies par une nouvelle stratégie d'enrichissement CoT à double niveau (court et long). Deuxièmement, nous présentons HoneyPipe, le pipeline de curation de données, ainsi que son cadre sous-jacent DataStudio, offrant à la communauté une méthodologie transparente et adaptable pour la curation de données qui va au-delà des publications statiques d'ensembles de données. Enfin, pour valider notre ensemble de données et notre pipeline, nous entraînons Bee-8B, un modèle de 8 milliards de paramètres sur Honey-Data-15M. Les expériences montrent que Bee-8B établit un nouvel état de l'art (SOTA) pour les MLLM entièrement ouverts, atteignant des performances compétitives avec, et dans certains cas surpassant, les modèles semi-ouverts récents tels qu'InternVL3.5-8B. Notre travail fournit à la communauté un ensemble de ressources fondamentales, comprenant : le corpus Honey-Data-15M ; la suite complète incluant HoneyPipe et DataStudio ; les recettes d'entraînement ; un cadre d'évaluation ; et les poids du modèle. Cet effort démontre qu'une focalisation méthodique sur la qualité des données est une voie clé pour développer des MLLM entièrement ouverts hautement compétitifs par rapport à leurs homologues semi-ouverts.

LIBERO-Plus : Analyse approfondie de la robustesse des modèles vision-langage-action
LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

Oct 15

BySenyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu

Les modèles Visuel-Langage-Action (VLA) affichent des taux de réussite impressionnants sur les benchmarks de manipulation robotique, mais ces résultats pourraient masquer des faiblesses fondamentales en matière de robustesse. Nous réalisons une analyse systématique des vulnérabilités en introduisant des perturbations contrôlées selon sept dimensions : la disposition des objets, les angles de vue de la caméra, les états initiaux du robot, les instructions langagières, les conditions d'éclairage, les textures de fond et le bruit des capteurs. Nous avons analysé de manière exhaustive plusieurs modèles de pointe et révélé une fragilité constante sous une apparente compétence. Notre analyse met en lumière des faiblesses critiques : les modèles présentent une sensibilité extrême aux facteurs de perturbation, notamment les angles de vue de la caméra et les états initiaux du robot, avec une chute de performance de 95 % à moins de 30 % sous des perturbations modérées. Étonnamment, les modèles sont largement insensibles aux variations langagières, et des expériences supplémentaires révèlent qu'ils ont tendance à ignorer complètement les instructions langagières. Nos résultats remettent en question l'hypothèse selon laquelle des scores élevés aux benchmarks équivalent à une véritable compétence et soulignent la nécessité de pratiques d'évaluation qui mesurent la fiabilité face à des variations réalistes.

PhysMaster : Maîtrise de la représentation physique pour la génération de vidéos via l'apprentissage par renforcement
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

Oct 15

BySihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao

Les modèles de génération de vidéos actuels sont capables de produire des vidéos visuellement réalistes, mais échouent souvent à respecter les lois physiques, limitant ainsi leur capacité à générer des vidéos physiquement plausibles et à servir de « modèles du monde ». Pour résoudre ce problème, nous proposons PhysMaster, qui capture les connaissances physiques sous forme de représentation afin de guider les modèles de génération de vidéos et d'améliorer leur conscience physique. Plus précisément, PhysMaster s'appuie sur la tâche de transformation d'image en vidéo, où le modèle est censé prédire des dynamiques physiquement plausibles à partir de l'image d'entrée. Étant donné que l'image d'entrée fournit des informations physiques préalables, telles que les positions relatives et les interactions potentielles des objets dans le scénario, nous concevons PhysEncoder pour encoder ces informations physiques comme une condition supplémentaire, afin d'injecter des connaissances physiques dans le processus de génération de vidéos. L'absence de supervision adéquate sur les performances physiques du modèle au-delà de la simple apparence motive PhysEncoder à appliquer l'apprentissage par renforcement avec un retour d'information humain à l'apprentissage de représentations physiques, en exploitant les retours des modèles de génération pour optimiser les représentations physiques avec l'Optimisation Directe des Préférences (DPO) de manière end-to-end. PhysMaster offre une solution viable pour améliorer la conscience physique de PhysEncoder et, par conséquent, de la génération de vidéos, démontrant ses capacités sur une tâche proxy simple et sa généralisabilité à un large éventail de scénarios physiques. Cela implique que notre PhysMaster, qui unifie les solutions pour divers processus physiques via l'apprentissage de représentations dans le paradigme de l'apprentissage par renforcement, peut servir de solution générique et plug-and-play pour la génération de vidéos conscientes des lois physiques et des applications plus larges.

Trace Anything : Représenter n'importe quelle vidéo en 4D via des champs de trajectoire
Trace Anything: Representing Any Video in 4D via Trajectory Fields

Oct 15

ByXinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang

La représentation spatio-temporelle efficace est fondamentale pour modéliser, comprendre et prédire les dynamiques dans les vidéos. L'unité atomique d'une vidéo, le pixel, trace une trajectoire 3D continue dans le temps, servant d'élément primitif des dynamiques. Sur la base de ce principe, nous proposons de représenter toute vidéo comme un Champ de Trajectoire : une cartographie dense qui assigne une fonction de trajectoire 3D continue dans le temps à chaque pixel de chaque image. Avec cette représentation, nous introduisons Trace Anything, un réseau de neurones qui prédit l'intégralité du champ de trajectoire en une seule passe avant. Plus précisément, pour chaque pixel de chaque image, notre modèle prédit un ensemble de points de contrôle qui paramétrisent une trajectoire (c'est-à-dire une B-spline), donnant sa position 3D à des instants de requête arbitraires. Nous avons entraîné le modèle Trace Anything sur des données 4D à grande échelle, y compris des données provenant de notre nouvelle plateforme, et nos expériences démontrent que : (i) Trace Anything atteint des performances de pointe sur notre nouveau benchmark pour l'estimation des champs de trajectoire et se comporte de manière compétitive sur les benchmarks établis de suivi de points ; (ii) il offre des gains d'efficacité significatifs grâce à son paradigme en une passe, sans nécessiter d'optimisation itérative ou d'estimateurs auxiliaires ; et (iii) il présente des capacités émergentes, incluant la manipulation conditionnée par un objectif, la prévision de mouvement et la fusion spatio-temporelle. Page du projet : https://trace-anything.github.io/.

InteractiveOmni : Un modèle unifié omni-modal pour les dialogues multi-tours audio-visuels
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

Oct 15

ByWenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu

Nous présentons InteractiveOmni, un modèle de langage large omni-modal unifié et open-source pour l'interaction audio-visuelle multi-tours, allant de 4 à 8 milliards de paramètres, conçu pour mener le domaine des modèles légers en offrant une compréhension omni-modale complète et des capacités de génération de parole. Pour y parvenir, nous intégrons l'encodeur visuel, l'encodeur audio, le modèle de langage large et le décodeur de parole dans un modèle unifié pour les tâches de compréhension et de génération. Nous concevons une stratégie d'entraînement multi-étapes pour garantir des capacités intermodales robustes, incluant un pré-entraînement pour la compréhension omni-modale, suivi d'un post-entraînement avec des conversations vocales et des interactions audio-visuelles. Pour permettre une capacité conversationnelle à long terme semblable à celle des humains, nous soigneusement élaborons un jeu de données d'entraînement multi-tours qui améliore la capacité du modèle à gérer des interactions complexes et multi-tours. Pour évaluer efficacement les capacités de mémoire multi-tours et d'interaction vocale, nous construisons le benchmark de mémoire multi-tours multi-modale et le benchmark d'interaction vocale multi-tours. Les expériences démontrent qu'InteractiveOmni surpasse significativement les modèles open-source leaders et offre une expérience audio-visuelle multi-tours plus intelligente, en particulier dans ses capacités de mémoire à long terme. Notamment, InteractiveOmni-4B est comparable à des modèles beaucoup plus grands comme Qwen2.5-Omni-7B sur des benchmarks généraux, et il peut conserver 97% des performances d'InteractiveOmni-8B tout en utilisant seulement 50% de la taille du modèle. Obtenant des résultats de pointe contre des modèles de taille similaire dans les tâches de compréhension d'images, d'audio, de vidéo et de génération de parole, InteractiveOmni est une base accessible et open-source pour les systèmes interactifs intelligents de nouvelle génération.

L'Art de la Mise à l'Échelle des Ressources de Calcul pour l'Apprentissage par Renforcement dans les Modèles de Langage de Grande Taille
The Art of Scaling Reinforcement Learning Compute for LLMs

Oct 15

ByDevvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal

L'apprentissage par renforcement (RL) est devenu central pour l'entraînement des grands modèles de langage (LLM), mais le domaine manque de méthodologies de prédiction d'échelle comparables à celles établies pour le pré-entraînement. Malgré l'augmentation rapide des budgets de calcul, il n'existe pas de compréhension systématique de la manière d'évaluer les améliorations algorithmiques pour l'échelle de calcul en RL. Nous présentons la première étude systématique à grande échelle, représentant plus de 400 000 heures GPU, qui définit un cadre méthodologique pour analyser et prédire l'échelle de RL dans les LLM. Nous ajustons des courbes sigmoïdes de performance en fonction du calcul pour l'entraînement en RL et éliminons un large éventail de choix de conception courants pour analyser leurs effets sur la performance asymptotique et l'efficacité de calcul. Nous observons : (1) Toutes les recettes ne produisent pas une performance asymptotique similaire, (2) Les détails tels que l'agrégation des pertes, la normalisation, le curriculum et les algorithmes hors politique modulent principalement l'efficacité de calcul sans modifier significativement l'asymptote, et (3) Les recettes stables et évolutives suivent des trajectoires d'échelle prévisibles, permettant l'extrapolation à partir d'exécutions à plus petite échelle. En combinant ces observations, nous proposons une recette de meilleures pratiques, ScaleRL, et démontrons son efficacité en prédisant avec succès la performance de validation sur une seule exécution de RL étendue à 100 000 heures GPU. Notre travail fournit à la fois un cadre scientifique pour analyser l'échelle en RL et une recette pratique qui rapproche l'entraînement en RL de la prévisibilité longtemps atteinte dans le pré-entraînement.

ParallelBench : Comprendre les compromis du décodage parallèle dans les modèles de langage à diffusion
ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs

Oct 6

ByWonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee

Alors que la plupart des LLM autorégressifs sont contraints à un décodage séquentiel, les LLM à diffusion (dLLM) suscitent un intérêt croissant pour leur potentiel à accélérer considérablement l'inférence grâce au décodage parallèle. Malgré cette promesse, l'hypothèse d'indépendance conditionnelle dans les dLLM fait que le décodage parallèle ignore les dépendances entre les tokens, dégradant inévitablement la qualité de génération lorsque ces dépendances sont fortes. Cependant, les travaux existants négligent largement ces défis inhérents, et les évaluations sur des benchmarks standards (par exemple, en mathématiques et en codage) ne suffisent pas à capturer la dégradation de qualité causée par le décodage parallèle. Pour combler cette lacune, nous proposons d'abord une analyse informationnelle du décodage parallèle. Nous menons ensuite des études de cas sur des opérations de listes synthétiques analytiquement traitables, en examinant à la fois la distribution des données et les stratégies de décodage, offrant ainsi des insights quantitatifs qui mettent en lumière les limitations fondamentales du décodage parallèle. Sur la base de ces insights, nous proposons ParallelBench, le premier benchmark spécifiquement conçu pour les dLLM, comprenant des tâches réalistes qui sont triviales pour les humains et les LLM autorégressifs mais exceptionnellement difficiles pour les dLLM sous décodage parallèle. En utilisant ParallelBench, nous analysons systématiquement à la fois les dLLM et les LLM autorégressifs, révélant que : (i) les dLLM sous décodage parallèle peuvent subir une dégradation dramatique de la qualité dans des scénarios réels, et (ii) les stratégies actuelles de décodage parallèle peinent à adapter leur degré de parallélisme en fonction de la difficulté de la tâche, échouant ainsi à obtenir une accélération significative sans compromettre la qualité. Nos résultats soulignent le besoin pressant de méthodes de décodage innovantes capables de surmonter le compromis actuel entre vitesse et qualité. Nous publions notre benchmark pour contribuer à accélérer le développement de dLLM véritablement efficaces.

Plus forts ensemble : Apprentissage par renforcement en politique pour des LLM collaboratifs
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

Oct 13

ByYujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao

Les systèmes multi-agents (SMA) et l'apprentissage par renforcement (RL) sont largement utilisés pour améliorer les capacités agentiques des grands modèles de langage (LLM). Les SMA améliorent la performance des tâches grâce à une orchestration basée sur les rôles, tandis que le RL utilise les récompenses environnementales pour apprendre des politiques plus robustes, telles que l'optimisation de style GRPO. Cependant, l'application du RL on-policy aux SMA reste peu explorée et présente des défis uniques. Sur le plan algorithmique, les hypothèses de regroupement standard de GRPO s'effondrent car les prompts varient selon le rôle et le tour. Sur le plan systémique, la pile d'entraînement doit supporter les déploiements de workflows SMA et les mises à jour on-policy pour les modèles à politique unique et à politiques multiples. Nous proposons AT-GRPO, qui inclut (i) un algorithme de RL regroupé par agent et par tour, adapté aux SMA, et (ii) un système d'entraînement supportant à la fois les régimes à politique unique et à politiques multiples. Sur des tâches de jeu, de planification, de codage et de mathématiques, AT-GRPO apporte des gains substantiels. Sur la planification à long terme, il augmente la précision d'un baseline de RL à agent unique de 14,0 à 47,0 pour cent à 96,0 à 99,5 pour cent. Il améliore également la performance en raisonnement, avec des gains moyens de 3,87 à 7,62 pour cent sur les tâches de codage et de 9,0 à 17,93 pour cent sur les mathématiques. Le code et les environnements sont disponibles à l'adresse : https://github.com/pettingllms-ai/PettingLLMs.

Vérificateur Universel Génératif en tant que Méta-Raisonneur Multimodal
Generative Universal Verifier as Multimodal Meta-Reasoner

Oct 15

ByXinchen Zhang, Xiaoying Zhang, Youbin Wu, Yanbin Cao, Renrui Zhang, Ruihang Chu, Ling Yang, Yujiu Yang

Nous présentons Generative Universal Verifier, un concept et un plugin novateurs conçus pour le raisonnement multimodal de nouvelle génération dans les modèles vision-langage et les modèles multimodaux unifiés, offrant la capacité fondamentale de réflexion et d'affinement des résultats visuels durant le processus de raisonnement et de génération. Ce travail apporte trois contributions principales : (1) Nous construisons ViVerBench, un benchmark complet couvrant 16 catégories de tâches critiques pour évaluer les résultats visuels dans le raisonnement multimodal. Les résultats montrent que les modèles vision-langage existants sous-performent systématiquement sur ces tâches, révélant un écart significatif par rapport aux capacités humaines en matière de vérification visuelle fiable. (2) Nous concevons deux pipelines automatisés pour construire des données de vérification visuelle à grande échelle et entraîner OmniVerifier-7B, le premier vérificateur génératif omni-capable formé pour la vérification visuelle universelle, qui obtient des gains notables sur ViVerBench (+8,3). À travers l'entraînement, nous identifions trois capacités atomiques dans la vérification visuelle et démontrons comment elles se généralisent et interagissent de manière synergique. (3) Nous proposons OmniVerifier-TTS, un paradigme de mise à l'échelle séquentielle au moment du test qui exploite le vérificateur universel pour relier la génération et l'édition d'images au sein de modèles unifiés, améliorant la limite supérieure des capacités génératives grâce à une optimisation itérative fine. Au-delà de la génération, nous étendons le vérificateur universel à des scénarios de raisonnement imbriqués plus larges dans la modélisation du monde. Empiriquement, OmniVerifier-TTS réalise des améliorations sur T2I-ReasonBench (+3,7) et GenEval++ (+4,3), surpassant les méthodes de mise à l'échelle parallèles au moment du test, comme Best-of-N. En dotant le raisonnement multimodal d'une vérification visuelle fiable, OmniVerifier fait progresser à la fois la réflexion fiable durant la génération et l'affinement scalable au moment du test, marquant une étape vers des systèmes de raisonnement de nouvelle génération plus fiables et contrôlables.

CVD-STORM : Diffusion vidéo inter-vues avec modèle de reconstruction spatio-temporelle pour la conduite autonome
CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

Oct 9

ByTianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu, Zehuan Wu

Les modèles génératifs ont été largement appliqués à la modélisation du monde pour la simulation d'environnements et la prédiction d'états futurs. Avec les avancées dans le domaine de la conduite autonome, il existe une demande croissante non seulement pour la génération de vidéos haute fidélité sous divers contrôles, mais aussi pour la production d'informations diversifiées et significatives telles que l'estimation de profondeur. Pour répondre à cela, nous proposons CVD-STORM, un modèle de diffusion vidéo multi-vues utilisant un autoencodeur variationnel (VAE) de reconstruction spatio-temporelle, capable de générer des vidéos à long terme et multi-vues avec des capacités de reconstruction 4D sous diverses entrées de contrôle. Notre approche commence par affiner le VAE avec une tâche de reconstruction 4D auxiliaire, améliorant ainsi sa capacité à encoder les structures 3D et la dynamique temporelle. Ensuite, nous intégrons ce VAE dans le processus de diffusion vidéo pour améliorer significativement la qualité de la génération. Les résultats expérimentaux démontrent que notre modèle obtient des améliorations substantielles dans les métriques FID et FVD. De plus, le décodeur de splatting gaussien entraîné conjointement reconstruit efficacement les scènes dynamiques, fournissant des informations géométriques précieuses pour une compréhension complète de la scène.

InternVLA-M1 : Un cadre vision-langage-action guidé spatialement pour une politique robotique généraliste
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

Oct 15

ByXinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu

Nous présentons InternVLA-M1, un cadre unifié pour l'ancrage spatial et le contrôle robotique qui fait progresser les robots obéissant aux instructions vers une intelligence généraliste et évolutive. Son idée centrale repose sur un entraînement vision-langue-action guidé spatialement, où l'ancrage spatial sert de lien critique entre les instructions et les actions du robot. InternVLA-M1 utilise un pipeline en deux étapes : (i) un pré-entraînement d'ancrage spatial sur plus de 2,3 millions de données de raisonnement spatial pour déterminer « où agir » en alignant les instructions avec des positions visuelles indépendantes de l'incarnation, et (ii) un post-entraînement d'action guidé spatialement pour décider « comment agir » en générant des actions adaptées à l'incarnation via des invites spatiales plug-and-play. Cette recette d'entraînement guidé spatialement apporte des gains constants : InternVLA-M1 surpasse sa variante sans guidage spatial de +14,6 % sur SimplerEnv Google Robot, +17 % sur WidowX et +4,3 % sur LIBERO Franka, tout en démontrant une capacité de raisonnement spatial plus forte dans les prédictions de boîtes, de points et de tracés. Pour étendre davantage l'obéissance aux instructions, nous avons construit un moteur de simulation pour collecter 244 000 épisodes généralisables de prise et dépose, permettant une amélioration moyenne de 6,2 % sur 200 tâches et plus de 3 000 objets. Dans des scénarios réels de prise et dépose en environnement encombré, InternVLA-M1 a progressé de 7,3 %, et avec un co-entraînement synthétique, a atteint +20,6 % sur des objets inconnus et des configurations nouvelles. De plus, dans des scénarios à long terme intensifs en raisonnement, il a surpassé les travaux existants de plus de 10 %. Ces résultats mettent en évidence l'entraînement guidé spatialement comme un principe unificateur pour des robots généralistes évolutifs et résilients. Le code et les modèles sont disponibles à l'adresse https://github.com/InternRobotics/InternVLA-M1.

Le Rôle des Ressources Informatiques dans la Publication de Recherches sur les Modèles Fondamentaux
The Role of Computing Resources in Publishing Foundation Model Research

Oct 15

ByYuexing Hao, Yue Huang, Haoran Zhang, Chenyang Zhao, Zhenwen Liang, Paul Pu Liang, Yue Zhao, Lichao Sun, Saleh Kalantari, Xiangliang Zhang, Marzyeh Ghassemi

La recherche de pointe en intelligence artificielle (IA) nécessite des ressources considérables, notamment des unités de traitement graphique (GPU), des données et des ressources humaines. Dans cet article, nous évaluons la relation entre ces ressources et l'avancée scientifique des modèles de base (Foundation Models, FM). Nous avons examiné 6517 articles sur les FM publiés entre 2022 et 2024 et interrogé 229 premiers auteurs sur l'impact des ressources de calcul sur la production scientifique. Nous constatons qu'une augmentation des ressources de calcul est corrélée aux allocations de financement nationales et aux citations, mais nos résultats ne montrent pas de corrélations fortes avec l'environnement de recherche (académique ou industriel), le domaine ou la méthodologie d'étude. Nous recommandons aux individus et aux institutions de se concentrer sur la création d'opportunités de calcul partagées et abordables afin de réduire les barrières à l'entrée pour les chercheurs disposant de ressources limitées. Ces mesures peuvent contribuer à élargir la participation à la recherche sur les FM, favoriser la diversité des idées et des contributeurs, et soutenir l'innovation et le progrès en IA. Les données seront disponibles à l'adresse suivante : https://mit-calc.csail.mit.edu/

Raisonner dans l'espace par ancrage dans le monde
Reasoning in Space via Grounding in the World

Oct 15

ByYiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu

Dans cet article, nous affirmons que l'ancrage visuel 3D constitue la pierre angulaire du raisonnement spatial et introduisons le Grounded-Spatial Reasoner (GS-Reasoner) pour explorer les représentations spatiales efficaces qui comblent le fossé entre ces deux domaines. Les modèles de langage 3D existants souffrent de l'absence d'une représentation 3D unifiée capable de capturer conjointement les informations sémantiques et géométriques. Cette lacune se manifeste soit par de mauvaises performances en matière d'ancrage, soit par une dépendance excessive à des modules externes, entravant ainsi l'intégration fluide de l'ancrage et du raisonnement spatial. Pour remédier à cela, nous proposons un mécanisme de pooling à double voie simple mais efficace qui aligne étroitement les caractéristiques géométriques avec les indices sémantiques et positionnels, construisant ainsi une représentation 3D unifiée basée sur des patches d'image qui encapsule toutes les informations essentielles sans augmenter le nombre de tokens d'entrée. En s'appuyant sur cette représentation holistique, GS-Reasoner est le premier modèle de langage 3D à réaliser un ancrage autorégressif entièrement sans modules externes tout en offrant des performances comparables aux modèles de pointe, établissant ainsi un cadre unifié et autonome pour le raisonnement spatial 3D. Pour combler davantage le fossé entre l'ancrage et le raisonnement spatial, nous introduisons le jeu de données Grounded Chain-of-Thought (GCoT). Ce jeu de données est méticuleusement conçu pour inclure à la fois des annotations de boîtes englobantes 3D pour les objets référencés dans les questions de raisonnement et des chemins de raisonnement étape par étape qui intègrent l'ancrage comme composant central du processus de résolution de problèmes. Des expériences approfondies démontrent que GS-Reasoner obtient des résultats impressionnants en matière d'ancrage visuel 3D, ce qui améliore significativement ses capacités de raisonnement spatial, conduisant à des performances de pointe.

X-VLA : Transformer à amorçage doux comme modèle vision-langage-action évolutif et trans-embodiment
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Oct 11

ByJinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan

Les modèles généralistes réussis de Vision-Langage-Action (VLA) reposent sur un entraînement efficace à travers diverses plateformes robotiques avec des ensembles de données hétérogènes, à grande échelle et inter-embodiment. Pour faciliter et exploiter l'hétérogénéité des sources de données robotiques riches et variées, nous proposons une nouvelle approche de Soft Prompt avec un nombre minimal de paramètres ajoutés, en intégrant les concepts d'apprentissage par prompt dans l'apprentissage robotique inter-embodiment et en introduisant des ensembles distincts d'embeddings apprenables pour chaque source de données distincte. Ces embeddings servent de prompts spécifiques à l'embodiment, qui, ensemble, permettent aux modèles VLA d'exploiter efficacement les caractéristiques variées inter-embodiment. Notre nouveau X-VLA, une architecture VLA basée sur le flow-matching, repose exclusivement sur des encodeurs Transformer standard avec soft-prompt, bénéficiant à la fois de l'évolutivité et de la simplicité. Évalué sur 6 simulations ainsi que 3 robots réels, notre instanciation de 0.9B, X-VLA-0.9B, atteint simultanément des performances de pointe sur une série de benchmarks, démontrant des résultats supérieurs sur un large éventail de capacités, de la dextérité flexible à l'adaptation rapide entre embodiments, environnements et tâches. Site web : https://thu-air-dream.github.io/X-VLA/

UniME-V2 : MLLM-comme-juge pour l'apprentissage d'embeddings multimodaux universels
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

Oct 15

ByTiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing

Les modèles universels d'incorporation multimodale sont fondamentaux pour diverses tâches. Les approches existantes utilisent généralement l'exploitation de négatifs intra-lot en mesurant la similarité des paires requête-candidat. Cependant, ces méthodes peinent souvent à capturer les différences sémantiques subtiles entre les candidats et manquent de diversité dans les échantillons négatifs. De plus, les incorporations présentent une capacité discriminative limitée à distinguer les faux négatifs et les négatifs difficiles. Dans cet article, nous exploitons les capacités de compréhension avancées des MLLM (Modèles de Langage Multimodaux) pour améliorer l'apprentissage de représentations et présentons un nouveau modèle d'Incorporation Multimodale Universelle (UniME-V2). Notre approche construit d'abord un ensemble potentiel de négatifs difficiles par le biais d'une recherche globale. Nous introduisons ensuite le mécanisme MLLM-as-a-Judge, qui utilise les MLLM pour évaluer l'alignement sémantique des paires requête-candidat et générer des scores de correspondance sémantique doux. Ces scores servent de base pour l'exploitation de négatifs difficiles, atténuant l'impact des faux négatifs et permettant l'identification de négatifs difficiles diversifiés et de haute qualité. De plus, les scores de correspondance sémantique sont utilisés comme étiquettes douces pour atténuer la contrainte rigide de correspondance un-à-un. En alignant la matrice de similarité avec la matrice de scores de correspondance sémantique doux, le modèle apprend les distinctions sémantiques entre les candidats, améliorant significativement sa capacité discriminative. Pour améliorer encore les performances, nous proposons UniME-V2-Reranker, un modèle de reclassement entraîné sur nos négatifs difficiles extraits grâce à une approche d'optimisation conjointe par paires et par liste. Nous menons des expériences complètes sur le benchmark MMEB et plusieurs tâches de recherche, démontrant que notre méthode atteint des performances de pointe en moyenne sur toutes les tâches.

Pré-entraînement universel pour la restauration d'images via la classification de dégradations masquées
Universal Image Restoration Pre-training via Masked Degradation Classification

Oct 15

ByJiaKui Hu, Zhengjian Yao, Lujia Jin, Yinghao Chen, Yanye Lu

Cette étude présente une méthode de pré-entraînement par classification de dégradation masquée (MaskDCPT), conçue pour faciliter la classification des types de dégradation dans les images d'entrée, conduisant à un pré-entraînement complet en restauration d'images. Contrairement aux méthodes de pré-entraînement conventionnelles, MaskDCPT utilise le type de dégradation de l'image comme une supervision extrêmement faible, tout en exploitant simultanément la reconstruction de l'image pour améliorer les performances et la robustesse. MaskDCPT comprend un encodeur et deux décodeurs : l'encodeur extrait les caractéristiques de l'image d'entrée de faible qualité masquée. Le décodeur de classification utilise ces caractéristiques pour identifier le type de dégradation, tandis que le décodeur de reconstruction vise à reconstruire une image de haute qualité correspondante. Cette conception permet au pré-entraînement de bénéficier à la fois de la modélisation d'images masquées et de l'apprentissage contrastif, aboutissant à une représentation généralisée adaptée aux tâches de restauration. Grâce à la simplicité et à la puissance de MaskDCPT, l'encodeur pré-entraîné peut être utilisé pour aborder la restauration universelle d'images et obtenir des performances exceptionnelles. La mise en œuvre de MaskDCPT améliore significativement les performances des réseaux de neurones convolutifs (CNN) et des Transformers, avec une augmentation minimale du PSNR de 3,77 dB dans la tâche de restauration tout-en-un 5D et une réduction de 34,8 % du PIQE par rapport à la référence dans des scénarios de dégradation du monde réel. Elle montre également une forte généralisation à des types et niveaux de dégradation précédemment inconnus. En outre, nous avons constitué et publié le jeu de données UIR-2.5M, qui comprend 2,5 millions d'échantillons de restauration appariés couvrant 19 types de dégradation et plus de 200 niveaux de dégradation, intégrant à la fois des données synthétiques et réelles. Le jeu de données, le code source et les modèles sont disponibles à l'adresse https://github.com/MILab-PKU/MaskDCPT.

Ce que les moteurs de recherche génératifs apprécient et comment optimiser le contenu web de manière collaborative
What Generative Search Engines Like and How to Optimize Web Content Cooperatively

Oct 13

ByYujiang Wu, Shanshan Zhong, Yubin Kim, Chenyan Xiong

En utilisant des modèles de langage de grande taille (LLMs) pour récupérer des documents et générer des réponses en langage naturel, les moteurs génératifs, tels que Google AI Overview et ChatGPT, offrent une expérience utilisateur considérablement améliorée et sont rapidement devenus la nouvelle forme de recherche. Leur adoption rapide stimule également les besoins en optimisation des moteurs génératifs (Generative Engine Optimization, GEO), car les fournisseurs de contenu cherchent à obtenir une plus grande visibilité grâce à eux. Dans cet article, nous présentons AutoGEO, un cadre permettant d'apprendre automatiquement les préférences des moteurs génératifs lors de l'utilisation de contenus récupérés pour la génération de réponses, et de réécrire les contenus web pour accroître cette visibilité. AutoGEO commence par solliciter des LLMs de pointe pour expliquer les préférences des moteurs génératifs et extraire des règles de préférence significatives à partir de ces explications. Ensuite, il utilise ces règles de préférence comme ingénierie contextuelle pour AutoGEO_API, un système GEO basé sur des prompts, et comme récompenses basées sur des règles pour entraîner AutoGEO_Mini, un modèle GEO économique. Des expériences sur le benchmark standard GEO-Bench et deux nouveaux benchmarks construits à partir de requêtes réelles d'utilisateurs démontrent l'efficacité d'AutoGEO à améliorer la visibilité des contenus tout en préservant l'utilité de la recherche. Les analyses confirment la robustesse des règles apprises et leur capacité à capturer des préférences uniques dans divers domaines, ainsi que la capacité des systèmes AutoGEO à les intégrer dans l'optimisation des contenus. Le code est disponible à l'adresse https://github.com/cxcscmu/AutoGEO.

Uni-MMMU : Un benchmark massif unifié multimodal et multidisciplinaire
Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

Oct 15

ByKai Zou, Ziqi Huang, Yuhao Dong, Shulin Tian, Dian Zheng, Hongbo Liu, Jingwen He, Bin Liu, Yu Qiao, Ziwei Liu

Les modèles multimodaux unifiés visent à permettre conjointement la compréhension et la génération visuelles, mais les benchmarks actuels examinent rarement leur véritable intégration. Les évaluations existantes traitent ces deux capacités de manière isolée ou négligent les tâches qui les couplent intrinsèquement. Pour combler cette lacune, nous présentons Uni-MMMU, un benchmark complet et conscient des disciplines qui déploie systématiquement la synergie bidirectionnelle entre génération et compréhension à travers huit domaines centrés sur le raisonnement, incluant les sciences, le codage, les mathématiques et les énigmes. Chaque tâche est couplée de manière bidirectionnelle, exigeant des modèles qu'ils (i) exploitent la compréhension conceptuelle pour guider une synthèse visuelle précise, ou (ii) utilisent la génération comme échafaudage cognitif pour un raisonnement analytique. Uni-MMMU intègre des étapes de raisonnement intermédiaires vérifiables, des vérités terrain uniques et un protocole de notation reproductible pour les sorties textuelles et visuelles. À travers une évaluation approfondie des modèles unifiés, de génération uniquement et de compréhension uniquement de pointe, nous révélons des disparités de performance substantielles et des dépendances intermodales, offrant de nouvelles perspectives sur quand et comment ces capacités se renforcent mutuellement, et établissant une base fiable pour faire progresser les modèles unifiés.

FG-CLIP 2 : Un modèle bilingue d'alignement vision-langage à granularité fine
FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

Oct 13

ByChunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin

La compréhension fine entre vision et langage nécessite un alignement précis entre le contenu visuel et les descriptions linguistiques, une capacité qui reste limitée dans les modèles actuels, en particulier dans des contextes non anglophones. Bien que des modèles comme CLIP performent bien sur l'alignement global, ils peinent souvent à capturer des détails fins dans les attributs d'objets, les relations spatiales et les expressions linguistiques, avec un support limité pour la compréhension bilingue. Pour relever ces défis, nous introduisons FG-CLIP 2, un modèle bilingue vision-langage conçu pour améliorer l'alignement fin à la fois pour l'anglais et le chinois. Notre approche exploite une supervision fine riche, incluant l'appariement région-texte et la modélisation de longues descriptions, ainsi que plusieurs objectifs discriminatifs. Nous introduisons également la perte de contraste intra-modal textuel (TIC) pour mieux distinguer les descriptions sémantiquement similaires. Entraîné sur un mélange soigneusement sélectionné de données à grande échelle en anglais et en chinois, FG-CLIP 2 atteint des performances bilingues puissantes. Pour permettre une évaluation rigoureuse, nous présentons un nouveau benchmark pour la compréhension multimodale en chinois, incluant la récupération de longues descriptions et la classification par boîtes englobantes. Des expériences approfondies sur 29 jeux de données couvrant 8 tâches montrent que FG-CLIP 2 surpasse les méthodes existantes, obtenant des résultats de pointe dans les deux langues. Nous mettons à disposition le modèle, le code et le benchmark pour faciliter les recherches futures sur l'alignement fin bilingue.

Réexamen de l'interpolation de modèles pour un raisonnement efficace
Revisiting Model Interpolation for Efficient Reasoning

Oct 13

ByTaiqiang Wu, Runming Yang, Tao Liu, Jiahao Wang, Ngai Wong

La fusion de modèles, généralement appliquée aux modèles Instruct et Thinking, a démontré des performances remarquables pour un raisonnement efficace. Dans cet article, nous revisitons systématiquement la méthode de fusion la plus simple qui consiste à interpoler directement deux ensembles de poids. En particulier, nous observons que l'interpolation de modèles suit un paradigme évolutif en trois étapes avec des comportements distincts sur la trajectoire de raisonnement. Ces dynamiques fournissent un guide fondamental pour naviguer le compromis entre performance et coût. Les résultats empiriques montrent qu'un modèle stratégiquement interpolé surpasse de manière surprenante les bases de référence sophistiquées de fusion de modèles, tant en termes d'efficacité que d'efficience. Nous validons en outre nos conclusions par des études d'ablation approfondies sur les couches, modules et stratégies de décodage des modèles. En fin de compte, ce travail démystifie l'interpolation de modèles et propose un cadre pratique pour concevoir des modèles avec des capacités de raisonnement précisément ciblées. Le code est disponible à l'adresse suivante : https://github.com/wutaiqiang/MI{Github}.

Moins, c'est plus : Améliorer le raisonnement des LLM avec une intervention minimale au moment du test
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Oct 15

ByZhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen

Les progrès récents dans les grands modèles de langage (LLMs) se sont concentrés sur la mise à l'échelle au moment du test pour améliorer le raisonnement via une augmentation du calcul d'inférence, mais souvent au détriment de l'efficacité. Nous revisitons le comportement au moment du test et découvrons un phénomène simple mais peu exploré : l'incertitude du raisonnement est fortement localisée—seul un petit sous-ensemble de tokens à haute entropie influence de manière dominante la justesse de la sortie. Motivés par cela, nous proposons l'Intervention Minimale au Moment du Test (MTI), un cadre sans entraînement qui améliore la précision et la stabilité du raisonnement avec un surcoût minimal. MTI comprend : (i) une intervention sélective CFG, appliquant le guidage sans classificateur uniquement aux positions incertaines ; et (ii) un guidage léger par prompt négatif, réutilisant le cache KV du modèle principal pour approximer efficacement le décodage inconditionnel. MTI apporte des gains constants dans les tâches générales, de codage et STEM—par exemple, une amélioration moyenne de +1,35 % sur huit benchmarks pour Qwen3-8B-Base et de +5 % sur AIME2024 avec Qwen3-32B-Reasoning—tout en restant très efficace.

Décodage Direct Multi-Jetons
Direct Multi-Token Decoding

Oct 13

ByXuan Luo, Weizhi Wang, Xifeng Yan

Les transformers à décodeur uniquement sont devenus l'architecture standard pour les grands modèles de langage (LLM) en raison de leurs performances élevées. Des études récentes suggèrent que, dans les LLM pré-entraînés, les couches précoces, intermédiaires et tardives pourraient jouer des rôles distincts : les couches précoces se concentrent sur la compréhension du contexte d'entrée, les couches intermédiaires gèrent le traitement spécifique à la tâche, et les couches tardives convertissent les représentations abstraites en tokens de sortie. Nous émettons l'hypothèse qu'une fois que les représentations ont été traitées par les couches précoces et intermédiaires, les états cachés résultants pourraient encapsuler suffisamment d'informations pour supporter la génération de plusieurs tokens en utilisant uniquement les couches tardives, éliminant ainsi la nécessité de parcourir à plusieurs reprises les couches précoces et intermédiaires. Nous désignons ce paradigme d'inférence par le terme de Décodage Direct Multi-Token (DMTD). Contrairement au décodage spéculatif, notre méthode n'introduit aucun paramètre supplémentaire, routine auxiliaire ou vérification post-génération. Bien qu'entraîné sur un ensemble de données limité, un modèle Qwen3-4B affiné avec DMTD a déjà montré des résultats prometteurs, atteignant jusqu'à un doublement de la vitesse avec seulement une légère perte de performance. De plus, comme le montre notre analyse de mise à l'échelle, ses performances devraient encore s'améliorer avec des ensembles de données d'entraînement plus vastes.

NOSA : Attention Sparse Native et Déchargeable
NOSA: Native and Offloadable Sparse Attention

Oct 15

ByYuxiang Huang, Chaojun Xiao, Xu Han, Zhiyuan Liu

L'attention creuse entraînable est apparue comme une solution prometteuse pour résoudre le goulot d'étranglement de l'efficacité de décodage des modèles de langage de grande taille (LLMs) dans le traitement de contextes longs, permettant d'économiser de manière significative les accès mémoire tout en impactant minimalement les performances des tâches. Cependant, les méthodes d'attention creuse existantes laissent une limitation cruciale non résolue : la taille du cache clé-valeur (KV) reste inchangée, ce qui limite les tailles de lots sur GPU et réduit le débit de décodage, en particulier dans le cadre d'inférences massives par lots. Dans cet article, nous montrons que l'attention creuse entraînable présente naturellement une forte localité dans la sélection de tokens à travers les étapes de décodage adjacentes, permettant ainsi le déchargement du cache KV sans altérer le calcul sous-jacent de l'attention. Cependant, la localité inhérente reste insuffisante pour parvenir à un déchargement efficace, car le transfert des paires KV sélectionnées entre le CPU et le GPU continue de dominer le coût global du décodage. Sur la base de cette observation, nous présentons NOSA, un cadre d'attention creuse entraînable conçu pour supporter nativement le déchargement du cache KV. NOSA introduit des contraintes explicites de localité en décomposant la sélection de tokens en composantes dépendantes et indépendantes de la requête, réduisant ainsi les transferts KV tout en préservant le même calcul d'attention utilisé lors de l'entraînement. Nous pré-entraînons un modèle de 1 milliard de paramètres avec NOSA et menons des benchmarks approfondis, montrant qu'il préserve des performances quasi sans perte tout en atteignant une amélioration allant jusqu'à 2,3 fois du débit de décodage par rapport à la base de référence d'attention creuse entraînable standard (InfLLM-V2).

Apprendre à saisir n'importe quoi en jouant avec des jouets aléatoires
Learning to Grasp Anything by Playing with Random Toys

Oct 14

ByDantong Niu, Yuvan Sharma, Baifeng Shi, Rachel Ding, Matteo Gioia, Haoru Xue, Henry Tsai, Konstantinos Kallidromitis, Anirudh Pai, Shankar Shastry, Trevor Darrell, Jitendra Malik, Roei Herzig

Les politiques de manipulation robotique peinent souvent à généraliser leur application à des objets nouveaux, limitant ainsi leur utilité dans le monde réel. En revanche, les sciences cognitives suggèrent que les enfants développent des compétences de manipulation habile et généralisables en maîtrisant un petit ensemble de jouets simples, puis en appliquant ces connaissances à des objets plus complexes. Inspirés par cela, nous étudions si des capacités de généralisation similaires peuvent également être atteintes par des robots. Nos résultats indiquent que les robots peuvent apprendre à saisir de manière généralisable en utilisant des objets assemblés aléatoirement à partir de seulement quatre primitives de forme : des sphères, des cuboïdes, des cylindres et des anneaux. Nous montrons que l'entraînement sur ces "jouets" permet une généralisation robuste à des objets réels, offrant ainsi des performances solides en zéro-shot. De manière cruciale, nous constatons que la clé de cette généralisation réside dans une représentation visuelle centrée sur l'objet, induite par notre mécanisme de détection par regroupement proposé. Évalué à la fois en simulation et sur des robots physiques, notre modèle atteint un taux de réussite de 67 % pour la saisie dans le monde réel sur le jeu de données YCB, surpassant les approches de pointe qui reposent sur des données intra-domaines nettement plus importantes. Nous étudions également comment les performances de généralisation en zéro-shot évoluent en fonction du nombre et de la diversité des jouets d'entraînement, ainsi que du nombre de démonstrations par jouet. Nous pensons que ce travail ouvre une voie prometteuse vers un apprentissage scalable et généralisable en manipulation robotique. Les vidéos de démonstration, le code, les points de contrôle et notre jeu de données sont disponibles sur notre page de projet : https://lego-grasp.github.io/.

CoIRL-AD : Apprentissage par Imitation-Renforcement Collaboratif-Concurrentiel dans des Modèles de Monde Latents pour la Conduite Autonome
CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

Oct 14

ByXiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong

Les modèles de conduite autonome de bout en bout entraînés uniquement par apprentissage par imitation (IL) souffrent souvent d'une mauvaise généralisation. En revanche, l'apprentissage par renforcement (RL) favorise l'exploration grâce à la maximisation des récompenses, mais se heurte à des défis tels que l'inefficacité en termes d'échantillons et une convergence instable. Une solution naturelle consiste à combiner IL et RL. Allant au-delà du paradigme conventionnel en deux étapes (pré-entraînement par IL suivi d'un affinage par RL), nous proposons CoIRL-AD, un cadre compétitif à double politique qui permet aux agents IL et RL d'interagir pendant l'entraînement. CoIRL-AD introduit un mécanisme basé sur la compétition qui facilite l'échange de connaissances tout en évitant les conflits de gradients. Les expériences sur le jeu de données nuScenes montrent une réduction de 18 % du taux de collision par rapport aux méthodes de référence, ainsi qu'une meilleure généralisation et des performances améliorées dans les scénarios à longue traîne. Le code est disponible à l'adresse : https://github.com/SEU-zxj/CoIRL-AD.

HyperAgent : Exploitation des hypergraphes pour l'optimisation topologique dans la communication multi-agents
HyperAgent: Leveraging Hypergraphs for Topology Optimization in Multi-Agent Communication

Oct 12

ByHeng Zhang, Yuling Shi, Xiaodong Gu, Zijian Zhang, Haochen You, Lubin Gan, Yilei Yuan, Jin Huang

Les récentes avancées dans les systèmes multi-agents alimentés par des modèles de langage de grande taille ont démontré une intelligence collective remarquable grâce à une communication efficace. Cependant, les approches existantes sont confrontées à deux défis majeurs : (i) une modélisation inefficace de la collaboration de groupe, car elles reposent sur des représentations par paires d'arêtes dans des structures de graphes, limitant leur capacité à capturer les relations entre plusieurs agents ; et (ii) une adaptabilité limitée des topologies de communication aux tâches, entraînant des coûts de communication excessifs pour des tâches simples et une coordination insuffisante pour des scénarios complexes. Ces problèmes restreignent l'évolutivité et le déploiement pratique des cadres de collaboration adaptatifs. Pour relever ces défis, nous proposons HyperAgent, un cadre basé sur les hypergraphes qui optimise les topologies de communication et capture efficacement les modèles de collaboration de groupe en utilisant des représentations directes d'hyperarêtes. Contrairement aux approches basées sur les arêtes, HyperAgent utilise des hyperarêtes pour relier plusieurs agents au sein d'une même sous-tâche et emploie des couches de convolution d'hypergraphes pour réaliser une agrégation d'informations en une étape dans les groupes de collaboration. De plus, il intègre un cadre d'autoencodeur variationnel avec régularisation de parcimonie pour ajuster dynamiquement les topologies d'hypergraphes en fonction de la complexité des tâches. Les expériences mettent en évidence la supériorité d'HyperAgent en termes de performance et d'efficacité. Par exemple, sur GSM8K, HyperAgent atteint une précision de 95,07 % tout en réduisant la consommation de tokens de 25,33 %, démontrant le potentiel de l'optimisation basée sur les hypergraphes pour la communication multi-agents.

Hard2Verify : Un benchmark de vérification étape par étape pour les mathématiques ouvertes de pointe
Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math

Oct 15

ByShrey Pandit, Austin Xu, Xuan-Phi Nguyen, Yifei Ming, Caiming Xiong, Shafiq Joty

Les systèmes de raisonnement basés sur des modèles de langage de grande taille (LLM) ont récemment atteint des performances de niveau médaille d'or lors de la compétition IMO 2025, en rédigeant des preuves mathématiques où, pour obtenir la note maximale, chaque étape doit non seulement être correcte mais également suffisamment justifiée. Pour entraîner des raisonneurs basés sur LLM dans des contextes aussi exigeants et ouverts, des vérificateurs robustes capables de détecter les erreurs au niveau des étapes sont des prérequis indispensables. Nous présentons Hard2Verify, un benchmark de vérification au niveau des étapes, annoté manuellement et produit avec plus de 500 heures de travail humain. Hard2Verify est conçu pour évaluer rigoureusement les vérificateurs au niveau des étapes à la pointe de la technologie : les vérificateurs doivent fournir des annotations au niveau des étapes ou identifier la première erreur dans les réponses générées par des LLM de pointe pour des questions mathématiques récentes, complexes et ouvertes. Nous évaluons 29 critiques génératifs et modèles de récompense par processus, démontrant qu'au-delà de quelques exceptions, les vérificateurs open source sont à la traîne par rapport aux modèles propriétaires. Nous analysons ensuite les facteurs qui entraînent de faibles performances dans la vérification au niveau des étapes, les impacts de la mise à l'échelle des ressources de calcul des vérificateurs, ainsi que des questions fondamentales telles que l'auto-vérification et la dynamique entre vérification et génération.

MTSQL-R1 : Vers un Text-to-SQL multi-tours à long horizon via un entraînement agentique
MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

Oct 12

ByTaicheng Guo, Hai Wang, ChaoChun Liu, Mohsen Golalikhani, Xin Chen, Xiangliang Zhang, Chandan K. Reddy

Le Text-to-SQL multi-tours vise à traduire les énoncés conversationnels d'un utilisateur en requêtes SQL exécutables tout en préservant la cohérence du dialogue et l'ancrage au schéma cible. Cependant, la plupart des systèmes existants considèrent cette tâche comme une simple traduction de texte et suivent un paradigme à court terme, générant une requête par tour sans exécution, vérification explicite ou raffinement, ce qui conduit à des résultats non exécutables ou incohérents. Nous présentons MTSQL-R1, un cadre d'entraînement agentique pour le Text-to-SQL multi-tours à long terme. Nous modélisons la tâche comme un Processus de Décision Markovien (MDP) dans lequel un agent interagit avec (i) une base de données pour obtenir un retour d'exécution et (ii) une mémoire de dialogue persistante pour la vérification de la cohérence, effectuant un cycle itératif de proposition -> exécution -> vérification -> raffinement jusqu'à ce que tous les contrôles soient validés. Les expériences sur COSQL et SPARC démontrent que MTSQL-R1 surpasse systématiquement les bases de référence solides, soulignant l'importance de la vérification pilotée par l'environnement et du raffinement guidé par la mémoire pour l'analyse sémantique conversationnelle. Les recettes complètes (y compris le code, les modèles entraînés, les journaux, les trajectoires de raisonnement, etc.) seront publiées après la revue interne pour contribuer à la recherche communautaire.

KVCOMM : Communication en ligne du cache KV entre contextes pour des systèmes multi-agents basés sur LLM efficaces
KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems

Oct 14

ByHancheng Ye, Zhengqi Gao, Mingyuan Ma, Qinsi Wang, Yuzhe Fu, Ming-Yu Chung, Yueqian Lin, Zhijian Liu, Jianyi Zhang, Danyang Zhuo, Yiran Chen

Les systèmes multi-agents basés sur des modèles de langage à grande échelle (LLM) sont de plus en plus adoptés pour des tâches complexes de traitement du langage nécessitant communication et coordination entre agents. Cependant, ces systèmes subissent souvent une surcharge importante due au retraitement répété de contextes qui se chevauchent entre les agents. Dans les pipelines typiques, lorsqu'un agent reçoit un message de son prédécesseur, le contexte complet - y compris les tours précédents - doit être retraité depuis le début, ce qui entraîne une inefficacité de traitement. Bien que la mise en cache clé-valeur (KV) soit une solution efficace pour éviter les calculs redondants dans des configurations mono-agent où les préfixes restent inchangés, elle ne peut pas être directement réutilisée dans des scénarios multi-agents en raison de préfixes divergents introduits par des extensions de contexte spécifiques à chaque agent. Nous identifions que le défi central réside dans la variance des décalages des caches KV entre les agents. Pour y remédier, nous proposons KVCOMM, un cadre sans entraînement qui permet un préremplissage efficace dans l'inférence multi-agent en réutilisant les caches KV et en alignant les décalages des caches pour les contextes qui se chevauchent sous divers préfixes. KVCOMM estime et ajuste les caches KV pour le contenu partagé en se référant à un pool d'exemples mis en cache - appelés ancres - qui stockent les écarts de cache observés sous différents préfixes. Le pool d'ancres est maintenu et mis à jour en ligne, permettant une adaptation dynamique à des requêtes utilisateur et des structures de contexte distinctes. KVCOMM atteint un taux de réutilisation de plus de 70% sur diverses charges de travail multi-agents, y compris la génération augmentée par récupération, le raisonnement mathématique et les tâches de codage collaboratif, sans dégradation de la qualité. En particulier, lorsque chaque agent entièrement connecté reçoit 1K tokens d'entrée avec 512 tokens de préfixe et 512 tokens de sortie dans un cadre à cinq agents, KVCOMM atteint une accélération allant jusqu'à 7,8x par rapport au pipeline de préremplissage standard, réduisant le TTFT de ~430 ms à ~55 ms.

Point Prompting : Suivi contrefactuel avec des modèles de diffusion vidéo
Point Prompting: Counterfactual Tracking with Video Diffusion Models

Oct 13

ByAyush Shrivastava, Sanyam Mehta, Daniel Geng, Andrew Owens

Les trackers et les générateurs de vidéos résolvent des problèmes étroitement liés : les premiers analysent le mouvement, tandis que les seconds le synthétisent. Nous montrons que cette connexion permet à des modèles de diffusion vidéo pré-entraînés d'effectuer un suivi de points en zero-shot simplement en les incitant à marquer visuellement les points au fur et à mesure de leur déplacement dans le temps. Nous plaçons un marqueur de couleur distinctive au point de requête, puis régénérons le reste de la vidéo à partir d'un niveau de bruit intermédiaire. Cela propage le marqueur à travers les images, traçant ainsi la trajectoire du point. Pour garantir que le marqueur reste visible dans cette génération contrefactuelle, malgré le fait que de tels marqueurs soient improbables dans des vidéos naturelles, nous utilisons l'image initiale non modifiée comme prompt négatif. À travers des expériences avec plusieurs modèles de diffusion vidéo conditionnés par des images, nous constatons que ces trajectoires "émergentes" surpassent celles des méthodes zero-shot précédentes et persistent à travers les occlusions, obtenant souvent des performances comparables à celles de modèles auto-supervisés spécialisés.

Ne Jetez Pas Votre Modèle Préentraîné
Don't Throw Away Your Pretrained Model

Oct 10

ByShangbin Feng, Wenhao Yu, Yike Wang, Hongming Zhang, Yulia Tsvetkov, Dong Yu

L'entraînement à l'alignement présente des compromis : il aide les modèles de langage (LMs) à améliorer leur raisonnement et leur capacité à suivre des instructions, mais peut entraîner une perte de compétences telles que la créativité et la calibration, domaines où les modèles de base non alignés sont plus performants. Notre objectif est de tirer le meilleur des deux mondes grâce à la collaboration entre modèles, où différents modèles dans le pipeline d'entraînement collaborent et se complètent. Étant donné que les réponses des LMs intègrent des compétences entrelacées qui favorisent différents modèles, nous proposons la **Génération par Commutation** (Switch Generation), où des versions pré-entraînées et alignées des modèles prennent tour à tour la parole dans une séquence de réponses. Plus précisément, nous entraînons un modèle de commutation (switcher LM) en apprenant des résultats du choix de différents modèles pour générer le segment suivant à travers diverses requêtes et contextes. Au moment de l'inférence, le switcher LM guide différents points de contrôle de modèles pour générer dynamiquement le segment suivant là où leurs forces sont les plus nécessaires. Des expériences approfondies avec 8 bases de référence de collaboration de modèles et 18 ensembles de données montrent que 1) la collaboration entre modèles surpasse systématiquement les modèles individuels sur 16 des 18 tâches, et 2) la Génération par Commutation surpasse encore les bases de référence de 12,9 % en moyenne. Une analyse plus poussée révèle que la Génération par Commutation découvre des compétences compositionnelles pour résoudre des problèmes où les modèles individuels échouent, et généralise à des modèles et tâches non vus, réutilisant et réaffectant les sous-produits des pipelines d'entraînement de modèles coûteux qui seraient autrement jetés.

GraphTracer : Traçage des échecs guidé par graphe dans les agents LLM pour une recherche approfondie robuste en tours multiples
GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search

Oct 12

ByHeng Zhang, Yuling Shi, Xiaodong Gu, Haochen You, Zijian Zhang, Lubin Gan, Yilei Yuan, Jin Huang

Les systèmes multi-agents alimentés par des modèles de langage de grande taille excellent dans les tâches complexes grâce à une collaboration coordonnée, mais ils rencontrent des taux d'échec élevés dans les scénarios de recherche approfondie à tours multiples. Les méthodes existantes d'attribution temporelle peinent à diagnostiquer avec précision les causes racines, en particulier lorsque les erreurs se propagent à travers plusieurs agents. Les tentatives d'automatisation de l'attribution des échecs par l'analyse des séquences d'actions restent inefficaces en raison de leur incapacité à prendre en compte les dépendances informationnelles qui s'étendent sur plusieurs agents. Cet article identifie deux défis majeurs : (i) distinguer les symptômes des causes racines dans la propagation d'erreurs multi-agents, et (ii) retracer les dépendances informationnelles au-delà de l'ordre temporel. Pour résoudre ces problèmes, nous introduisons GraphTracer, un cadre qui redéfinit l'attribution des échecs par l'analyse des flux d'information. GraphTracer construit des graphes de dépendance informationnelle (IDG) pour capturer explicitement comment les agents se réfèrent et s'appuient sur les sorties précédentes. Il localise les causes racines en retraçant ces structures de dépendance plutôt qu'en s'appuyant sur des séquences temporelles. GraphTracer utilise également une génération synthétique de données basée sur les graphes pour cibler les nœuds critiques, créant ainsi des scénarios d'échec réalistes. Les évaluations sur le benchmark Who\&When et l'intégration dans des systèmes de production démontrent que GraphTracer-8B atteint une précision d'attribution jusqu'à 18,18 % supérieure par rapport aux modèles de pointe et permet des améliorations de performance de 4,8 % à 14,2 % dans les cadres multi-agents déployés, établissant ainsi une solution robuste pour le débogage des systèmes multi-agents.

EAGER : Génération Consciente de l'Entropie pour une Mise à l'Échelle Adaptative au Moment de l'Inférence
EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

Oct 13

ByDaniel Scalena, Leonidas Zotos, Elisabetta Fersini, Malvina Nissim, Ahmet Üstün

Avec l'essor des modèles de langage à raisonnement et des méthodes de mise à l'échelle au moment du test comme paradigme pour améliorer les performances des modèles, une quantité substantielle de calcul est souvent nécessaire pour générer plusieurs séquences candidates à partir de la même instruction. Cela permet d'explorer différents chemins de raisonnement vers la solution correcte, mais alloue le même budget de calcul pour chaque instruction. En partant de l'hypothèse que différentes instructions présentent des degrés de complexité variables, et donc des besoins de calcul différents, nous proposons EAGer, une méthode de génération sans apprentissage qui exploite l'incertitude du modèle à travers la distribution d'entropie par token pour réduire les calculs redondants et améliorer simultanément les performances globales. EAGer permet de bifurquer vers plusieurs chemins de raisonnement uniquement en présence de tokens à haute entropie, puis réalloue le budget de calcul économisé aux instances où l'exploration de chemins alternatifs est la plus nécessaire. Nous constatons que, sur plusieurs modèles open-source dans des benchmarks de raisonnement complexe tels que AIME 2025, EAGer peut réallouer le budget sans accéder aux étiquettes cibles, atteignant le meilleur compromis efficacité-performance en termes de longueur de raisonnement et Pass@k. Lorsque les étiquettes cibles sont accessibles, EAGer génère jusqu'à 65 % de tokens en moins (économisant ainsi des calculs) et améliore jusqu'à 37 % le Pass@k par rapport à l'échantillonnage parallèle complet.

Ingénierie Haystack : Ingénierie contextuelle pour l'évaluation hétérogène et agentique des contextes longs
Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Oct 8

ByMufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li

Les modèles de langage à grand contexte (LLM) modernes obtiennent de bons résultats sur des benchmarks synthétiques de type "aiguille dans une botte de foin" (NIAH), mais ces tests négligent la manière dont les contextes bruyants émergent de la récupération biaisée et des workflows agentiques. Nous soutenons que l'ingénierie de la botte de foin est nécessaire pour construire des contextes longs et bruyants qui capturent fidèlement des facteurs clés du monde réel — la distraction causée par des récupérateurs hétérogènes biaisés et les erreurs en cascade dans les workflows agentiques — afin de tester la robustesse des modèles face à des contextes longs. Nous matérialisons cette idée à travers HaystackCraft, un nouveau benchmark NIAH construit sur le réseau complet de liens hypertextes de Wikipédia en anglais avec des questions à sauts multiples. HaystackCraft évalue comment les stratégies de récupération hétérogènes (par exemple, sparse, dense, hybrides et basées sur des graphes) affectent la composition des distracteurs, l'ordonnancement de la botte de foin et les performances des LLM en aval. HaystackCraft étend également NIAH à des configurations dynamiques dépendantes des LLM qui simulent des opérations agentiques, où les modèles affinent les requêtes, réfléchissent à leurs raisonnements passés et décident quand s'arrêter. Les expériences menées avec 15 modèles à grand contexte montrent que (1) bien que des récupérateurs denses plus performants puissent introduire des distracteurs plus difficiles, le réordonnancement basé sur des graphes améliore simultanément l'efficacité de la récupération et atténue les distracteurs les plus nuisibles ; (2) dans les tests agentiques, même des modèles avancés comme Gemini 2.5 Pro et GPT-5 subissent des échecs en cascade dus à des distracteurs auto-générés ou peinent à effectuer des arrêts précoces. Ces résultats mettent en lumière des défis persistants dans le raisonnement agentique à grand contexte et établissent HaystackCraft comme un banc d'essai précieux pour les progrès futurs.

Sonde d'Étiquetage Hiérarchique des Fréquences (SEHF) : Une Approche Unifiée pour Étudier les Représentations de la Structure Syntaxique dans les Grands Modèles de Langage et le Cerveau Humain
Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain

Oct 15

ByJingmin An, Yilong Song, Ruolin Yang, Nai Ding, Lingxi Lu, Yuxuan Wang, Wei Wang, Chu Zhuang, Qian Wang, Fang Fang

Les modèles de langage à grande échelle (LLMs) démontrent des capacités linguistiques comparables, voire supérieures, à celles des humains, modélisant efficacement les structures syntaxiques, bien que les modules computationnels spécifiques responsables restent flous. Une question clé est de savoir si les capacités comportementales des LLMs découlent de mécanismes similaires à ceux du cerveau humain. Pour aborder ces questions, nous introduisons la Sonde d'Étiquetage Hiérarchique en Fréquence (HFTP), un outil qui utilise l'analyse dans le domaine fréquentiel pour identifier les composants neuronaux des LLMs (par exemple, les neurones individuels des Perceptrons Multicouches (MLP)) et les régions corticales (via des enregistrements intracrâniens) encodant les structures syntaxiques. Nos résultats montrent que des modèles tels que GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 et GLM-4 traitent la syntaxe dans des couches analogues, tandis que le cerveau humain s'appuie sur des régions corticales distinctes pour différents niveaux syntaxiques. L'analyse de similarité représentationnelle révèle un alignement plus fort entre les représentations des LLMs et l'hémisphère gauche du cerveau (dominant dans le traitement du langage). Notamment, les modèles améliorés présentent des tendances divergentes : Gemma 2 montre une plus grande similarité avec le cerveau que Gemma, tandis que Llama 3.1 montre un alignement moindre avec le cerveau par rapport à Llama 2. Ces résultats offrent de nouvelles perspectives sur l'interprétabilité des améliorations comportementales des LLMs, soulevant des questions sur la nature humaine ou non humaine des mécanismes sous-jacents, et établissent la HFTP comme un outil précieux reliant la linguistique computationnelle et les neurosciences cognitives. Ce projet est disponible à l'adresse https://github.com/LilTiger/HFTP.

MATH-Beyond : Un benchmark pour l'apprentissage par renforcement visant à dépasser le modèle de base
MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

Oct 13

ByPrasanna Mayilvahanan, Ricardo Dominguez-Olmedo, Thaddäus Wiedemer, Wieland Brendel

Avec l'avènement de DeepSeek-R1, une nouvelle vague de méthodes d'apprentissage par renforcement (RL) a émergé, semblant débloquer des capacités de raisonnement mathématique plus robustes. Cependant, un examen plus approfondi de l'écosystème open source révèle une limitation critique : avec un nombre suffisant de tirages (par exemple, pass@1024), de nombreux modèles de base existants résolvent déjà presque toutes les questions des benchmarks mathématiques largement utilisés, tels que MATH-500 et AIME 2024. Cela suggère que les méthodes de fine-tuning par RL prédominantes dans la littérature sur le raisonnement des LLM affinent principalement les modes de solution existants plutôt que d'en découvrir de nouveaux. Un tel affinement contraste avec la promesse plus large du RL : favoriser l'exploration et acquérir de nouvelles compétences. Pour dépasser ce plateau, nous introduisons MATH-Beyond (MATH-B), un benchmark délibérément conçu pour déjouer les modèles open source courants de jusqu'à 8 milliards de paramètres, même avec des budgets d'échantillonnage importants. Améliorer les performances sur notre benchmark via le RL nécessite des méthodes qui apprennent à raisonner de manière à dépasser les capacités des modèles de base dans un échantillonnage répété. Les problèmes étant tirés de sous-ensembles des jeux de données DAPO-Math-17K et DeepScaleR, ils restent thématiquement équivalents aux mathématiques standards du lycée. Validant notre prémisse, les modèles fine-tunés par RL tels que Nemotron-Research-Reasoning-Qwen-1.5B et DeepScaleR-1.5B-Preview obtiennent de faibles performances sur MATH-B à pass@1024, montrant comment les approches existantes échouent à traiter des instances plus difficiles. Nous espérons que MATH-B catalysera des approches de RL axées sur l'exploration, suscitant des capacités de raisonnement plus profondes. Nous publions MATH-B à l'adresse suivante : https://huggingface.co/datasets/brendel-group/MATH-Beyond.

Dedelayed : Suppression du délai d'inférence à distance via une correction sur l'appareil
Dedelayed: Deleting remote inference delay via on-device correction

Oct 15

ByDan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar

L'inférence à distance permet aux appareils légers de tirer parti de modèles cloud puissants. Cependant, la latence du réseau de communication rend les prédictions obsolètes et inadaptées aux tâches en temps réel. Pour résoudre ce problème, nous introduisons Dedelayed, une méthode corrective de délai qui atténue les retards arbitraires de l'inférence à distance, permettant à l'appareil local de produire des sorties à faible latence en temps réel. Notre méthode utilise un modèle local léger qui traite l'image actuelle et fusionne des caractéristiques calculées par un modèle distant plus lourd à partir d'images passées. Sur des vidéos du jeu de données de conduite BDD100K, Dedelayed améliore la précision de la segmentation sémantique par rapport à la meilleure des approches locales ou distantes pour tous les délais réalistes du réseau de communication dépassant 33 ms. Sans induire de délai supplémentaire, il améliore la précision de 6,4 mIoU par rapport à une inférence entièrement locale et de 9,8 mIoU par rapport à l'inférence distante, pour un délai aller-retour de 100 ms. L'avantage s'accroît avec des délais plus longs et des scènes à mouvement plus rapide, car l'inférence fractionnée avec atténuation des délais maintient la précision plus efficacement, offrant des avantages clairs pour les tâches en temps réel qui doivent rester alignées avec l'état actuel du monde.

Retracer les traces : Signaux temporels latents pour un raisonnement efficace et précis
Tracing the Traces: Latent Temporal Signals for Efficient and Accurate Reasoning

Oct 12

ByMartina G. Vilas, Safoora Yousefi, Besmira Nushi, Eric Horvitz, Vidhisha Balachandran

Les modèles de raisonnement améliorent leur capacité à résoudre des problèmes grâce à une mise à l'échelle au moment de l'inférence, en allouant davantage de ressources de calcul via des budgets de tokens plus longs. Identifier quelles traces de raisonnement sont susceptibles de réussir reste une opportunité clé : prédire de manière fiable les chemins productifs peut considérablement réduire le gaspillage de calcul et améliorer l'efficacité globale. Nous introduisons des signaux de Trajectoire Latente qui caractérisent l'évolution temporelle des représentations internes d'un modèle lors de la génération de tokens de raisonnement intermédiaires. En mesurant le changement global des représentations latentes entre le début et la fin du raisonnement, le changement accumulé à travers les étapes intermédiaires, et la mesure dans laquelle ces changements progressent vers l'état final, nous montrons que ces signaux prédisent la précision des solutions de manière plus fiable que les métriques inter-couches et les mesures de confiance basées sur la sortie. Lorsqu'ils sont utilisés pour guider la sélection des réponses parmi plusieurs générations échantillonnées, les signaux de Trajectoire Latente rendent la mise à l'échelle au moment du test plus efficace et efficiente que le vote majoritaire, réduisant l'utilisation de tokens jusqu'à 70 % tout en préservant et même en améliorant la précision de 2,6 % en moyenne. De plus, ces signaux prédictifs apparaissent souvent tôt dans la trace de raisonnement, permettant une sélection précoce et une allocation des ressources de calcul aux candidats les plus prometteurs. Nos résultats contribuent non seulement à des stratégies pratiques pour l'efficacité au moment de l'inférence, mais aussi à une perspective d'interprétabilité plus approfondie sur la manière dont les processus de raisonnement sont représentés et différenciés dans l'espace latent.

Déflanderisation des dialogues de jeu : Équilibre entre authenticité des personnages et exécution des tâches dans les PNJ basés sur des modèles de langage
Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Oct 15

ByPasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot

L'émergence des grands modèles de langage (LLMs) a ouvert de nouvelles opportunités pour créer des personnages non-joueurs (NPCs) dynamiques dans les environnements de jeu, permettant à la fois l'exécution de tâches fonctionnelles et la génération de dialogues cohérents avec la personnalité des personnages. Dans cet article, nous (Tu_Character_lab) rapportons notre participation au Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, qui évalue les agents selon trois axes : le dialogue orienté tâche, le dialogue contextuel, et leur intégration. Notre approche combine deux stratégies complémentaires : (i) des techniques de prompting légères dans la piste API, incluant une méthode de prompting de "Déflanderisation" pour supprimer le jeu de rôle excessif et améliorer la fidélité à la tâche, et (ii) des modèles de grande taille affinés dans la piste GPU, exploitant Qwen3-14B avec un affinage supervisé (SFT) et une adaptation de bas rang (LoRA). Nos meilleures soumissions se sont classées 2ème sur la Tâche 1, 2ème sur la Tâche 3 (piste API), et 4ème sur la Tâche 3 (piste GPU).

Évaluation des évaluations des modèles de langage sur les jeux
Evaluating Language Models' Evaluations of Games

Oct 13

ByKatherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths

Le raisonnement ne se limite pas à la résolution de problèmes — il consiste également à évaluer quels problèmes méritent d'être résolus. Les évaluations des systèmes d'intelligence artificielle (IA) se sont historiquement concentrées sur la résolution de problèmes, notamment en étudiant comment les modèles jouent à des jeux tels que les échecs et le Go. Dans cet article, nous plaidons pour un nouveau paradigme qui évalue la manière dont les systèmes d'IA évaluent les jeux. Tout d'abord, nous introduisons un formalisme pour évaluer de telles évaluations. Nous exploitons ensuite un ensemble de données à grande échelle comprenant plus de 100 nouveaux jeux de société et plus de 450 jugements humains pour comparer les évaluations produites par des modèles modernes de langage et de raisonnement à celles des humains et des agents computationnels symboliques. Nous considérons deux types de requêtes évaluatives : l'évaluation du gain (ou de l'équité) et du caractère amusant des jeux. Ces requêtes couvrent deux dimensions pertinentes pour la conception des évaluations des IA : la complexité de calcul d'une requête et la difficulté de quantification d'une requête. Nos résultats montrent que les modèles de raisonnement sont généralement plus alignés sur les jugements humains dans leurs évaluations des jeux que les modèles de langage non raisonnants. Cependant, nous observons une relation non monotone : plus les modèles se rapprochent de l'optimalité théorique des jeux, moins leurs évaluations correspondent aux données humaines. Nous observons également une plus grande "irrégularité" entre les modèles pour l'évaluation du caractère amusant, en accord avec la plus grande difficulté de quantification de cette requête. Pour toutes les requêtes et tous les jeux, les modèles de raisonnement montrent une utilisation des ressources très variable et imprévisible lors de l'évaluation des requêtes, soulignant l'importance d'intégrer une méta-raison plus rationnelle en termes de ressources dans les modèles de langage et de raisonnement.