HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

48 papers found

Code en tant que harnais d'agent
Code as Agent Harness

May 18

ByXuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

172

Les récents grands modèles de langage (LLMs) ont démontré de solides capacités à comprendre et générer du code, allant de la programmation compétitive à l'ingénierie logicielle au niveau du dépôt. Dans les systèmes agentiques émergents, le code n'est plus seulement une sortie cible. Il sert de plus en plus de substrat opérationnel pour le raisonnement, l'action, la modélisation de l'environnement et la vérification par exécution. Nous encadrons ce changement à travers le prisme des harnais d'agent et introduisons le code comme harnais d'agent : une vue unifiée qui place le code au centre de l'infrastructure agentique. Pour étudier systématiquement cette perspective, nous organisons cette revue autour de trois couches connectées. Premièrement, nous étudions l'interface du harnais, où le code connecte les agents au raisonnement, à l'action et à la modélisation de l'environnement. Deuxièmement, nous examinons les mécanismes du harnais : la planification, la mémoire et l'utilisation d'outils pour une exécution à long terme, ainsi que le contrôle et l'optimisation basés sur le retour d'information qui rendent le harnais fiable et adaptatif. Troisièmement, nous discutons de la mise à l'échelle du harnais, des systèmes mono-agent aux configurations multi-agents, où des artefacts de code partagés soutiennent la coordination, la révision et la vérification multi-agents. À travers ces couches, nous résumons les méthodes représentatives et les applications pratiques du code comme harnais d'agent, couvrant les assistants de codage, l'automatisation GUI/OS, les agents incarnés, la découverte scientifique, la personnalisation et la recommandation, le DevOps et les flux de travail d'entreprise. Nous décrivons en outre les défis ouverts pour l'ingénierie du harnais, notamment l'évaluation au-delà du succès final de la tâche, la vérification sous retour d'information incomplet, l'amélioration du harnais sans régression, un état partagé cohérent entre plusieurs agents, la supervision humaine pour les actions critiques pour la sécurité, et les extensions aux environnements multimodaux. En plaçant le code au cœur du harnais de l'IA agentique, cette revue fournit une feuille de route unifiée vers des systèmes d'agents IA exécutables, vérifiables et avec état.

SkillsVote : Gouvernance du cycle de vie des compétences des agents, de la collecte à la recommandation et à l'évolution
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

May 18

ByHongyi Liu, Haoyan Yang, Tao Jiang, Bo Tang, Feiyu Xiong, Zhiyu Li

117

Les agents LLM à long horizon laissent des traces qui pourraient devenir une expérience réutilisable, mais les trajectoires brutes sont bruyantes et difficiles à gérer. Nous traitons les compétences agent comme un schéma d'expérience qui couple des scripts exécutables avec des consignes non exécutables sur les procédures. Pourtant, les écosystèmes ouverts de compétences contiennent des artefacts redondants, inégaux et sensibles à l'environnement, et des mises à jour indiscriminées peuvent polluer le contexte futur. Nous présentons SkillsVote, un cadre de gouvernance du cycle de vie pour les compétences agent, de la collecte et de la recommandation à l'évolution. SkillsVote profile un corpus open-source à l'échelle du million pour les exigences environnementales, la qualité et la vérifiabilité, puis synthétise des tâches pour des compétences vérifiables. Avant l'exécution, SkillsVote effectue une recherche agentique dans une bibliothèque de compétences structurée pour exposer le contexte instructif des compétences. Après l'exécution, il décompose les trajectoires en sous-tâches liées aux compétences, attribue les résultats à l'utilisation des compétences, à l'exploration de l'agent, à l'environnement et aux signaux de résultat, et n'admet que les découvertes réussies et réutilisables dans des mises à jour contrôlées par les preuves. Dans notre évaluation, l'évolution hors ligne améliore GPT-5.2 sur Terminal-Bench 2.0 jusqu'à 7,9 points de pourcentage, tandis que l'évolution en ligne améliore SWE-Bench Pro jusqu'à 2,6 points de pourcentage. Dans l'ensemble, les bibliothèques de compétences externes gouvernées peuvent améliorer des agents figés sans mises à jour du modèle lorsque les systèmes contrôlent l'exposition, le crédit et la préservation.

LongLive-2.0 : Une infrastructure parallèle NVFP4 pour la génération de vidéos longues
LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

May 18

ByYukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han

101

Nous présentons LongLive-2.0, une infrastructure parallèle basée sur NVFP4 pour l’ensemble du workflow d’entraînement et d’inférence de la génération de vidéos longues, permettant de résoudre les goulots d’étranglement liés à la vitesse et à la mémoire. Pour l’entraînement, nous introduisons l’entraînement autorégressif parallélisé en séquence (AR), instancié sous le nom de Balanced SP, qui conçoit conjointement une disposition efficace de *teacher-forcing* avec l’exécution SP en appariant des blocs temporels d’historique propre et de cible bruitée sur chaque rang, permettant ainsi un masque de *teacher-forcing* naturel avec un encodage VAE par blocs adapté à SP. Combinée à la précision NVFP4, cette approche réduit le coût mémoire GPU et accélère les calculs GEMM pendant l’entraînement, dont la proportion augmente avec la longueur de la vidéo. De plus, nous montrons qu’une infrastructure et un jeu de données de haute qualité permettent un pipeline d’entraînement remarquablement propre. Contrairement aux méthodes existantes de la série Self-Forcing, qui reposent sur une initialisation ODE et une distillation par appariement de distributions (DMD), LongLive-2.0 ajuste directement un modèle de diffusion en un modèle de diffusion autorégressif long, multi-plan et interactif. Il peut être converti ultérieurement en génération en temps réel (4 à 2 étapes de débruitage) avec des poids LoRA indépendants. Pour l’inférence sur GPU Blackwell, nous activons l’inférence NVFP4 en W4A4, quantifions le cache KV en NVFP4 pour économiser la mémoire, et augmentons le débit de bout en bout grâce à un décodage VAE en continu asynchrone. Sur les architectures GPU non Blackwell, nous déployons l’inférence SP pour égaler la vitesse des GPU Blackwell, tandis que le cache KV quantifié peut réduire la communication inter-GPU de SP. Les expériences montrent une accélération allant jusqu’à 2,15x en entraînement et 1,84x en inférence. LongLive-2.0-5B atteint 45,7 FPS en inférence tout en obtenant des performances solides sur les benchmarks. À notre connaissance, LongLive-2.0 est le premier système d’entraînement et d’inférence basé sur NVFP4 pour la génération de vidéos longues.

Lance : Modélisation multimodale unifiée par synergie multi-tâches
Lance: Unified Multimodal Modeling by Multi-Task Synergy

May 18

ByFengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

Nous présentons Lance, un modèle unifié natif et léger prenant en charge la compréhension, la génération et l'édition multimodales pour les images et les vidéos. Plutôt que de reposer sur une augmentation de la capacité du modèle ou des conceptions dominées par le texte-image, Lance explore un paradigme pratique pour la modélisation multimodale unifiée via un apprentissage collaboratif multi-tâches. Il repose sur deux principes fondamentaux : la modélisation unifiée du contexte et les voies de capacité découplées. Spécifiquement, Lance est entraîné à partir de zéro et utilise une architecture dual-stream mixture-of-experts sur des séquences multimodales entrelacées partagées, permettant un apprentissage conjoint du contexte tout en découplant les voies pour la compréhension et la génération. Nous introduisons en outre un encodage positionnel rotatif sensible à la modalité pour atténuer les interférences entre les tokens visuels hétérogènes et améliorer l'alignement inter-tâches. Pendant l'entraînement, Lance adopte un paradigme d'entraînement multi-tâches par étapes avec des objectifs orientés capacités et un ordonnancement adaptatif des données pour renforcer à la fois la compréhension sémantique et les performances de génération visuelle. Les résultats expérimentaux montrent que Lance surpasse substantiellement les modèles unifiés open-source existants en génération d'images et de vidéos, tout en conservant de fortes capacités de compréhension multimodale. La page d'accueil est disponible à l'adresse https://lance-project.github.io.

IA pour la Recherche Automatique : Feuille de route et Guide de l'utilisateur
AI for Auto-Research: Roadmap & User Guide

May 18

ByLingdong Kong, Xian Sun, Wei Chow, Linfeng Li, Kevin Qinghong Lin, Xuan Billy Zhang, Song Wang, Rong Li, Qing Wu, Wei Gao, Yingshuo Wang, Shaoyuan Xie, Jiachen Liu, Leigang Qu, Shijie Li, Lai Xing Ng, Benoit R. Cottereau, Ziwei Liu, Tat-Seng Chua, Wei Tsang Ooi

La recherche assistée par l'IA franchit un seuil : des systèmes entièrement automatisés peuvent désormais générer des articles de recherche pour aussi peu que 15 dollars, tandis que des agents à long horizon exécutent des expériences, rédigent des manuscrits et simulent des critiques avec un apport humain minimal. Pourtant, cette frontière de productivité révèle un problème d'intégrité plus profond : sous la pression scientifique, même les LLMs de pointe fabriquent encore des résultats, passent à côté d'erreurs cachées et échouent à juger de la nouveauté de manière fiable. En étudiant les développements jusqu'en avril 2026, nous présentons une analyse de bout en bout de l'IA sur l'ensemble du cycle de vie de la recherche, organisée en quatre phases épistémologiques : Création (génération d'idées, revue de littérature, codage & expériences, tableaux & figures), Rédaction (rédaction d'articles), Validation (évaluation par les pairs, réponse & révision) et Dissemination (posters, diapositives, vidéos, médias sociaux, pages de projet et agents interactifs). Nous identifions une frontière nette et dépendante de l'étape entre assistance fiable et autonomie non fiable : l'IA excelle dans les tâches structurées, ancrées dans la récupération d'informations et médiatisées par des outils, mais reste fragile pour les idées véritablement nouvelles, les expériences de niveau recherche et le jugement scientifique. Les idées générées se dégradent souvent après implémentation, le code de recherche est loin derrière les références de correspondance de motifs, et les systèmes autonomes de bout en bout n'ont pas encore atteint de manière cohérente les normes d'acceptation des grandes revues. Nous montrons en outre qu'une automatisation accrue peut obscurcir plutôt qu'éliminer les modes de défaillance, faisant de la collaboration gouvernée par l'humain le paradigme de déploiement le plus crédible. Enfin, nous fournissons une taxonomie structurée, une suite de référence et un inventaire d'outils, des principes de conception inter-étapes, et un manuel pratique destiné aux praticiens, avec des ressources maintenues sur notre page de projet.

CHI-Bench : Les agents IA peuvent-ils automatiser des workflows de santé de bout en bout, à long horizon et riches en politiques ?
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15

ByHaolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao

L'automatisation de bout en bout d'opérations réalistes en santé exige trois capacités sous-représentées dans les référentiels actuels : la densité réglementaire, où les décisions doivent s'appuyer sur une vaste bibliothèque de règles médicales, d'assurance et opérationnelles ; la composition multi-rôles, où une tâche unique impose à l'agent d'incarner plusieurs rôles avec des passations ; et l'interaction multilatérale, où les étapes intermédiaires du flux de travail sont des dialogues multi-tours, tels que les examens par les pairs et la sensibilisation des patients. Nous présentons χ-Bench, un référentiel de flux de travail longs en santé couvrant trois domaines : l'autorisation préalable du prestataire, la gestion de l'utilisation du payeur et la gestion des soins. Chaque tâche confie à l'agent un cas clinique dans un simulateur haute fidélité de 20 applications de santé exposées via 87 outils MCP, qu'il doit mener à un état terminal par des appels d'outils et la rédaction des documents du rôle, guidé par un manuel de gestion des soins gérés de plus de 1 290 documents. Sur 30 configurations d'agent (cadres logiciels et modèles), le meilleur agent ne résout que 28,0 % des tâches, aucun agent n'atteint 20 % avec le critère strict pass³, et l'exécution de toutes les tâches en une seule session fait chuter la performance à 3,8 %. Ces résultats soulèvent l'hypothèse que des lacunes similaires sont susceptibles d'apparaître dans d'autres domaines d'entreprise à forte densité réglementaire, composés de rôles multiples et irréversibles.

Code-as-Room : Génération de pièces 3D à partir d'images en vue de dessus par synthèse de code agentique
Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

May 18

ByYixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu

Concevoir des pièces 3D intérieures réalistes et fonctionnelles est essentiel pour un large éventail d'applications, notamment le design d'intérieur, la réalité virtuelle, les jeux vidéo et l'IA incarnée. Alors que les approches récentes basées sur les MLLM (modèles de langage multimodaux de grande taille) ont montré un fort potentiel pour la synthèse de pièces 3D à partir de descriptions textuelles ou d'images de référence, les méthodes textuelles peinent à capturer des informations spatiales précises, et les agents existants conditionnés par une image souffrent d'instabilité et de boucles infinies lorsqu'ils sont chargés de générer une pièce entière à partir de vues de dessus. Pour remédier à ces limitations, nous proposons Code-as-Room, un cadre agentique basé sur MLLM équipé d'un harnais d'exécution structuré, qui représente les pièces 3D à l'aide de codes Blender. À partir d'une image de pièce vue de dessus, le cadre analyse l'image de référence pour extraire les éléments de la scène et leurs relations spatiales, et synthétise un code Blender exécutable pour la géométrie, les matériaux et l'éclairage dans un pipeline multi-étapes structuré. Un module de mémoire inter-étapes est maintenu tout au long du processus pour atténuer l'oubli contextuel inhérent aux cadres agentiques existants. Nous introduisons également un benchmark dédié à la synthèse de pièces 3D basée sur du code, englobant divers protocoles d'évaluation. À l'aide de ce benchmark, des comparaisons exhaustives avec les méthodes agentiques existantes sont menées pour valider l'efficacité du harnais d'exécution proposé.

KVPO : GRPO natif ODE pour l'alignement vidéo autorégressif via l'exploration sémantique KV
KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

May 14

ByRuicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li

L’alignement des générateurs vidéo autorégressifs (AR) en continu avec les préférences humaines constitue un défi. Les méthodes d’apprentissage par renforcement existantes reposent principalement sur une exploration basée sur le bruit et des politiques de substitution fondées sur des équations différentielles stochastiques (EDS) qui ne correspondent pas à la dynamique ODE déterministe des modèles AR distillés, et tendent à perturber l’apparence de bas niveau plutôt que la progression sémantique narrative de haut niveau, cruciale pour la cohérence à long horizon. Pour remédier à ces limitations, nous présentons KVPO, un cadre d’optimisation relative de politique de groupe (GRPO) natif ODE pour l’alignement des générateurs vidéo en continu. Pour l’exploration de la diversité, KVPO introduit un paradigme d’exploration causale-sémantique qui déplace la source de variation du bruit stochastique vers le cache KV historique. En routant stochastiquement les entrées KV historiques, il construit des branches de génération sémantiquement diverses qui restent strictement sur la variété des données. Pour la modélisation des politiques, KVPO introduit une politique de substitution basée sur un champ de vélocité utilisant l’énergie de vélocité de trajectoire (TVE), qui quantifie la vraisemblance des branches dans l’espace de vélocité par appariement de flux et donne un objectif contrastif pondéré par la récompense, pleinement cohérent avec la formulation ODE native. Les expériences sur plusieurs générateurs vidéo AR distillés montrent des gains constants en qualité visuelle, qualité de mouvement et alignement texte-vidéo, aussi bien dans les contextes de vidéos courtes à invite unique que de vidéos longues à invites multiples.

OProver : Un cadre unifié pour la preuve formelle de théorèmes par agents
OProver: A Unified Framework for Agentic Formal Theorem Proving

May 17

ByDavid Ma, Kaijing Ma, Shawn Guo, Yunfeng Shi, Enduo Zhao, Jiajun Shi, Zhaoxiang Zhang, Gavin Cheung, Jiaheng Liu, Zili Wang

Les progrès récents en matière de démonstration formelle de théorèmes ont bénéficié de la génération de preuves à grande échelle et de l’entraînement sensible au vérificateur, mais la démonstration agentique est rarement intégrée à l’entraînement du prouveur, n’apparaissant qu’au moment de l’inférence. Nous présentons OProver, un cadre unifié pour la démonstration formelle agentique de théorèmes dans Lean 4, dans lequel les tentatives de preuve infructueuses sont révisées de manière itérative à l’aide de preuves vérifiées par compilateur et des retours du compilateur Lean. OProver est entraîné par pré-entraînement continu suivi d’un post-entraînement itératif : chaque itération exécute la démonstration agentique, indexe les preuves nouvellement vérifiées dans OProofs et la mémoire de récupération, utilise les trajectoires de réparation comme données SFT, et exploite les cas difficiles non résolus pour l’apprentissage par renforcement. OProofs est construit à partir de ressources Lean publiques, de synthèse de preuves à grande échelle et de traces de démonstration agentique, contenant 1,77 million d’énoncés Lean, 6,86 millions de preuves vérifiées par compilateur et des trajectoires sérialisées avec contexte récupéré, tentatives échouées, retours d’information et réparations. Sur cinq bancs d’essai, OProver-32B obtient le meilleur Pass@32 sur MiniF2F (93,3 %), ProverBench (58,2 %) et PutnamBench (11,3 %), et se classe deuxième sur MathOlympiad (22,8 %) et ProofNet (33,2 %), obtenant plus de premières places que tout autre prouveur de preuves complètes à poids ouverts antérieur.

Le MoE post-entraîné peut ignorer la moitié des experts via l'auto-distillation
Post-Trained MoE Can Skip Half Experts via Self-Distillation

May 18

ByXingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou

Le MoE (Mixture-of-Experts) permet de passer à l'échelle les modèles de langage de manière efficace grâce à une activation sparse des experts, et sa variante dynamique réduit encore davantage le calcul en ajustant les experts activés en fonction de l'entrée. Les méthodes dynamiques MoE existantes reposent généralement sur un pré-entraînement à partir de zéro ou une adaptation spécifique à une tâche, laissant inexploitée la conversion pratique de MoE entièrement entraînés. Permettre une telle adaptation allégerait directement les coûts d'inférence en permettant aux tokens faciles de contourner les experts inutiles lors du déploiement. Cet article introduit ZEDA (Zero-Expert Self-Distillation Adaptation), un cadre à faible coût qui transforme les modèles MoE statiques post-entraînés en modèles dynamiques efficaces. Pour stabiliser cette conversion architecturale, ZEDA injecte des experts à sortie nulle sans paramètre dans chaque couche MoE et adapte le modèle augmenté via une auto-distillation en deux étapes, en utilisant le MoE original comme enseignant figé et en appliquant une perte d'équilibrage au niveau des groupes. Sur Qwen3-30B-A3B et GLM-4.7-Flash, évalués sur 11 bancs d'essai couvrant les mathématiques, le code et le suivi d'instructions, ZEDA élimine plus de 50 % des FLOPS liés aux experts avec une perte de précision marginale. Il surpasse la meilleure ligne de base dynamique MoE de 6,1 et 4,0 points sur les deux modèles, et offre une accélération d'inférence de bout en bout d'environ 1,20 fois.

VideoSeeker : Incitation à la compréhension vidéo au niveau des instances via l'invocation native d'outils agentiques
VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

May 15

ByYiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao

Les Grands Modèles Vision-Langage (LVLMs) ont montré des progrès significatifs dans la compréhension vidéo, mais ils sont confrontés à des défis majeurs dans les tâches nécessitant une localisation spatiotemporelle précise au niveau des instances. Les méthodes existantes reposent principalement sur des invites textuelles pour l'interaction homme-modèle, mais ces invites peinent à fournir des références spatiales et temporelles précises, ce qui entraîne une mauvaise expérience utilisateur. De plus, les approches actuelles découplent généralement la perception visuelle du raisonnement langagier, centrant le raisonnement autour du langage plutôt que du contenu visuel, ce qui limite la capacité du modèle à percevoir de manière proactive des preuves visuelles fines. Pour relever ces défis, nous proposons VideoSeeker, un nouveau paradigme pour la compréhension vidéo au niveau des instances via des invites visuelles. VideoSeeker intègre de manière transparente le raisonnement agentique aux tâches de compréhension vidéo au niveau des instances, permettant au modèle de percevoir et de récupérer de manière proactive les segments vidéo pertinents à la demande. Nous construisons un pipeline de synthèse de données entièrement automatisé en quatre étapes pour générer efficacement des données vidéo au niveau des instances à grande échelle et de haute qualité. Nous internalisons les capacités d'appel d'outils et de perception proactive dans le modèle via une supervision à froid et un entraînement par RL, construisant ainsi un modèle puissant de compréhension vidéo. Les expériences montrent que notre modèle atteint une amélioration moyenne de +13,7 % par rapport aux bases de référence sur les tâches de compréhension vidéo au niveau des instances, surpassant des modèles propriétaires puissants tels que GPT-4o et Gemini-2.5-Pro, tout en démontrant également une transferabilité efficace sur les benchmarks généraux de compréhension vidéo. Les ensembles de données et le code correspondants seront rendus publics.

LiteFrame : Des encodeurs visuels efficaces permettent la mise à l'échelle des trames dans les LLMs vidéo
LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

May 17

ByJihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong

Le défi fondamental du passage à l'échelle des grands modèles de langage vidéo (Video LLMs) pour les vidéos longues réside dans la gestion de l'explosion de la longueur du contexte des jetons visuels. Les stratégies existantes se concentrent principalement sur la réduction « *a posteriori* » des jetons — c'est-à-dire réduire les jetons visuels après l'extraction des caractéristiques afin d'alléger la charge de calcul du LLM. Bien que ces méthodes réduisent efficacement le nombre de jetons visuels, nous observons que le principal goulot d'étranglement de latence se déplace alors du LLM vers le traitement coûteux par image de l'encodeur visuel. Pour y remédier, nous présentons LiteFrame, un backbone d'encodeur vidéo robuste mais très efficace pour les Video LLMs. Pour entraîner LiteFrame, nous proposons la distillation de jetons compressés (CTD), un nouveau cadre d'apprentissage qui enseigne à un encodeur visuel étudiant compact à prédire directement des représentations spatio-temporellement compressées et denses en informations, produites par un grand modèle visuel enseignant, contournant ainsi efficacement les calculs redondants. Couplée à une adaptation ultérieure du modèle de langage (LMA), cette approche établit une nouvelle frontière de Pareto entre latence et précision — comparé à InternVL3-8B, LiteFrame offre une réduction de 35 % de la latence de bout en bout tout en traitant 8 fois plus d'images, et améliore la précision moyenne de compréhension vidéo sur plusieurs références. Nos résultats démontrent une nouvelle voie potentielle pour débloquer la compréhension de vidéos plus longues sous des budgets de calcul fixes.

Arrêt lorsque le raisonnement converge : sortie anticipée préservant la sémantique pour les modèles de raisonnement
Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

May 17

ByDehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng

Les Grands Modèles de Raisonnement (LRM) obtiennent des performances élevées en générant de longues chaînes de pensée (CoT), mais ils réfléchissent souvent trop, poursuivant le raisonnement après qu'une solution s'est déjà stabilisée, gaspillant ainsi des tokens et augmentant la latence. Les méthodes existantes de sortie anticipée au moment de l'inférence reposent principalement sur des signaux au niveau de la réponse, tels que la confiance ou la cohérence des réponses d'essai, pour décider quand s'arrêter. Cependant, ces signaux reflètent principalement la disponibilité de la réponse plutôt que la convergence du raisonnement : ils peuvent se déclencher avant que le modèle ait fini d'explorer ou de s'auto-corriger, provoquant des sorties prématurées qui peuvent dégrader la précision de la réponse finale et laisser la chaîne de raisonnement retenue sémantiquement incomplète. Nous identifions la redondance sémantique au niveau du raisonnement comme un signal complémentaire pour une sortie anticipée préservant la sémantique : lorsque les étapes successives n'apportent plus de progrès nouveau et revisitent des conclusions déjà établies, la trajectoire de raisonnement a probablement convergé. En nous appuyant sur cette observation, nous proposons PUMA, un cadre plug-and-play qui combine un Détecteur de Redondance léger avec une vérification au niveau de la réponse. Le détecteur signale les sorties candidates sémantiquement redondantes, tandis que la vérification confirme si l'arrêt est sûr, permettant à PUMA de supprimer la continuation redondante tout en préservant à la fois la précision de la réponse et un préfixe de raisonnement cohérent. Sur cinq LRM et cinq benchmarks de raisonnement exigeants, PUMA atteint une réduction moyenne de 26,2 % des tokens tout en préservant la précision et la qualité de la CoT retenue. Des expériences supplémentaires sur la génération de code, le raisonnement zéro-shot vision-langage et l'internalisation d'une politique d'arrêt apprise démontrent en outre que la redondance au niveau du raisonnement est un signal robuste, transférable et apprenable pour un raisonnement efficace. Notre code est disponible à l'adresse https://github.com/giovanni-vaccarino/PUMA.

Mesure des activations maximales dans les grands modèles de langage ouverts
Measuring Maximum Activations in Open Large Language Models

May 15

ByLuxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

La plage dynamique des activations est une contrainte de premier ordre pour la quantification faible précision, la mise à l'échelle des activations et une inférence stable des LLM. Les travaux antérieurs ont caractérisé les caractéristiques aberrantes et les activations massives sur les modèles de type LLaMA antérieurs à 2024, et la chaîne de quantification des activations en aval hérite de cette représentation sans la réexaminer pour le boom des modèles ouverts post-LLaMA. Nous posons la question orientée déploiement : quelle est l'ampleur maximale des activations dans les LLM ouverts modernes, et comment cette ampleur varie-t-elle selon les familles, les générations et les étapes d'entraînement ? Sous un pipeline unifié (corpus multi-domaines de 5 000 échantillons, tokenisation spécifique à la famille, points d'insertion identiques sur les plongements, les états cachés, l'attention, les MLP/MoE, les portes SwiGLU et la normalisation finale), nous mesurons les maxima globaux et par couche sur 27 points de contrôle provenant de 8 familles ouvertes, couvrant des variantes denses, MoE, vision-langage, d'entraînement intermédiaire et ajustées par instructions. Nous constatons que (i) les maxima globaux s'étendent sur près de quatre ordres de grandeur pour des nombres de paramètres comparables, les points de contrôle Qwen3.5 et MoE se situant dans la plage 10² à 10³ et Gemma3-27B-it atteignant ~7 × 10⁵ ; (ii) les comparaisons inter-familles et inter-générations brisent une simple mise à l'échelle monotone ; et (iii) les points de contrôle MoE présentent des pics 14,0 à 23,4 fois inférieurs à ceux des homologues denses à échelle comparable, tandis que le flux résiduel porte le maximum global dans 22 des 24 points de contrôle. Un test de cohérence léger en INT-8 montre que les maxima mesurés covarient avec l'erreur de reconstruction faible précision via la sélection d'échelle d'activation. Nous concluons que l'ampleur maximale des activations est une propriété du modèle liée à la famille, à l'architecture et à l'étape d'entraînement — et non un simple sous-produit de la taille — et qu'elle devrait être mesurée et rapportée lors de toute publication de poids ouverts avant un déploiement faible précision. Le code est disponible publiquement à l'adresse https://github.com/clx1415926/Max_act_llm.

StableVLA : Vers des modèles vision-langage-action robustes sans données supplémentaires
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

May 18

ByYiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou

Il est impossible d'englober toutes les perturbations possibles dans l'ensemble de données d'entraînement. Cela soulève une question cruciale concernant la robustesse des modèles Vision-Langage-Action (VLA) face à des perturbations visuelles réelles non rencontrées, en particulier dans des conditions visuelles imparfaites. Dans ce travail, nous menons une étude systématique basée sur les modèles VLA de pointe récents et révélons une baisse significative des performances lorsque des perturbations visuelles absentes des données d'entraînement sont introduites. Pour atténuer ce problème, nous proposons un module adaptateur léger fondé sur la théorie de l'information, appelé Adaptateur de Goulot d'Information (IB-Adapter), qui filtre sélectivement le bruit potentiel des entrées visuelles. Sans nécessiter de données supplémentaires ni de stratégies d'augmentation, IB-Adapter améliore constamment la référence de 30 % en moyenne, tout en ajoutant moins de 10 millions de paramètres, démontrant une efficacité et une efficience notables. De plus, même avec un backbone 14 fois plus petit (0,5 milliard de paramètres) et sans pré-entraînement sur l'ensemble de données Open X-Embodiment, notre modèle StableVLA atteint une robustesse compétitive avec les VLA de pointe à l'échelle de 7 milliards de paramètres. Avec un surcoût paramétrique négligeable (<10M), notre approche maintient la précision sur des tâches à long horizon et dépasse OpenPi sous des corruptions visuelles synthétiques et physiques.

EndPrompt : Extension efficace de long contexte via ancrage terminal
EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

May 14

ByHan Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

Étendre la fenêtre de contexte des grands modèles de langage nécessite généralement un entraînement sur des séquences de la longueur cible, ce qui entraîne des coûts quadratiques de mémoire et de calcul rendant l'adaptation au long contexte coûteuse et difficile à reproduire. Nous proposons EndPrompt, une méthode qui permet une extension efficace du contexte en utilisant uniquement des séquences d'entraînement courtes. L'idée centrale est qu'exposer un modèle à des distances positionnelles relatives longues ne nécessite pas de construire des entrées de pleine longueur : nous conservons le contexte court original comme un premier segment intact et ajoutons une brève invite terminale comme second segment, en lui attribuant des indices positionnels proches de la longueur cible du contexte. Cette construction à deux segments introduit à la fois des distances relatives locales et longues au sein d'une séquence physique courte, tout en maintenant la continuité sémantique du texte d'entraînement — une propriété absente dans les approches de simulation par blocs qui divisent le contexte contigu. Nous fournissons une analyse théorique fondée sur le Rotary Position Embedding et l'inégalité de Bernstein, montrant que l'interpolation de position induit une contrainte de régularité rigoureuse sur la fonction d'attention, et que les paramètres partagés du Transformer suppriment davantage l'extrapolation instable vers des distances intermédiaires non observées. Appliquée aux modèles de la famille LLaMA pour étendre la fenêtre de contexte de 8K à 64K, EndPrompt atteint un score RULER moyen de 76,03 et la moyenne la plus élevée sur LongBench, surpassant LCEG (72,24), LongLoRA (72,95) et le fine-tuning sur séquence complète (69,23) tout en nécessitant nettement moins de calculs. Ces résultats démontrent que la généralisation au long contexte peut être induite à partir d'une supervision positionnelle éparse, remettant en question l'hypothèse courante selon laquelle un entraînement dense sur séquences longues est nécessaire pour une extension fiable de la fenêtre de contexte. Le code est disponible à l'adresse https://github.com/clx1415926/EndPrompt.

La nécessité d'outils adaptative au modèle révèle le fossé entre le savoir et l'action dans l'utilisation d'outils par les LLM.
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

May 13

ByYize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz

Les grands modèles de langage (LLM) agissent de plus en plus comme des agents autonomes qui doivent décider quand répondre directement et quand recourir à des outils externes. Les travaux antérieurs sur l'utilisation adaptative d'outils ont généralement traité la nécessité d'un outil comme une propriété indépendante du modèle, annotée par un humain ou un juge LLM, et couvrent principalement des cas où la réponse est évidente (par exemple, obtenir la météo plutôt que paraphraser du texte). Cependant, dans la pratique, la nécessité d'un outil est plus nuancée en raison de la divergence des limites de capacité entre les modèles : un problème qu'un modèle puissant peut résoudre seul peut encore nécessiter des outils pour un modèle plus faible. Dans ce travail, nous introduisons une définition de la nécessité d'outil adaptée au modèle, fondée sur la performance empirique de chaque modèle. Suivant cette définition, nous comparons la nécessité avec le comportement observé d'appel d'outils sur quatre modèles, sur des ensembles de données arithmétiques et de questions-réponses factuelles, et constatons des écarts substantiels de 26,5 à 54,0 % et de 30,8 à 41,8 %, respectivement. Pour diagnostiquer l'échec, nous décomposons l'utilisation d'outils en deux étapes : une étape cognitive interne qui reflète si un modèle estime qu'un outil est nécessaire, et une étape d'exécution qui détermine si le modèle entreprend effectivement une action d'appel d'outil. En sondant les états cachés du LLM, nous constatons que ces deux signaux sont souvent linéairement décodables, mais que leurs directions de sondage deviennent presque orthogonales dans le régime du dernier jeton des couches tardives, qui régit l'action du jeton suivant. En traçant la trajectoire des échantillons dans le processus en deux étapes, nous découvrons en outre que la majorité des écarts se concentre dans la transition entre la cognition et l'action, et non dans la cognition elle-même. Ces résultats révèlent un fossé entre le savoir et le faire dans l'utilisation d'outils par les LLM : améliorer la fiabilité de l'utilisation d'outils nécessite non seulement une meilleure reconnaissance du moment où les outils sont nécessaires, mais aussi une meilleure traduction de cette reconnaissance en action.

AstraFlow : Apprentissage par renforcement orienté flux de données pour les LLM agentiques
AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

May 15

ByHaizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen

L'apprentissage par renforcement (RL) est de plus en plus utilisé pour améliorer les capacités de raisonnement, de codage et d'utilisation d'outils des grands modèles de langage, mais le RL agentique reste prohibitivement coûteux. Passer le RL à l'échelle des LLM agentiques nécessite de prendre en charge des charges de travail complexes, notamment l'entraînement collaboratif multi-politique, tout en utilisant efficacement des ressources de calcul élastiques, hétérogènes et multi-régions. Les systèmes RL existants pour LLM prennent en charge certaines de ces capacités, mais chaque nouvelle extension exige souvent un travail d'ingénierie système dédié. Cette charge découle des architectures de contrôle centrées sur l'entraîneur et de l'absence d'abstractions structurées pour les composants du système RL. Pour remédier à ces limitations, nous proposons AstraFlow, un système RL orienté flux de données qui remplace le contrôle centré sur l'entraîneur conventionnel par des abstractions de composants structurées. Dans AstraFlow, les services de déploiement, la gestion des flux de données et l'entraînement sont découplés en composants autonomes, permettant au système de prendre en charge nativement des charges de travail RL agentiques multi-politiques complexes et d'exploiter efficacement diverses ressources de calcul. Nous évaluons AstraFlow sur des charges de travail de mathématiques, code, recherche et AgentBench, démontrant que le même système prend en charge l'entraînement multi-politique, la mise à l'échelle élastique, l'exécution hétérogène multi-régions et les algorithmes de données composables sans modification du code système. Dans l'entraînement collaboratif multi-politique, AstraFlow atteint une précision comparable ou supérieure à celle des systèmes RL existants, tout en accélérant le temps d'entraînement d'un facteur 2,7.

Où la diffusion devrait-elle entrer dans un modèle de langage ? Remplacement d'états cachés guidé par la géométrie
Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

May 14

ByInjin Kong, Hyoungjoon Lee, Yohan Jo

Les modèles de langage à diffusion continue accusent un retard par rapport aux transformeurs autorégressifs, en partie parce que la diffusion est appliquée dans des espaces peu adaptés au débruitage linguistique et à la récupération de tokens. Nous proposons DiHAL, un hybride transformeur-diffusion guidé par la géométrie, qui cherche à déterminer où la diffusion doit intervenir dans un transformeur pré-entraîné. DiHAL évalue les couches à l'aide de proxies géométriques, sélectionne une interface d'état caché favorable à la diffusion, et remplace le préfixe inférieur du transformeur par un pont de diffusion tout en conservant les couches supérieures et la tête LM d'origine. En reconstruisant l'état caché de la couche sélectionnée plutôt que les tokens, DiHAL évite une récupération directe du continu au discret. Les expériences menées sur des backbones à l'échelle 8B montrent que le score géométrique prédit des couches d'insertion superficielles efficaces sous un protocole d'entraînement fixe du pont, et que la récupération de l'état caché améliore les bases de référence de diffusion continue dans une comparaison diagnostique assortie au budget d'entraînement diffusion/récupération. Ces résultats suggèrent que la géométrie des états cachés aide à identifier où un remplacement par diffusion est réalisable à l'intérieur de modèles de langage pré-entraînés.

Modulation neuronale ciblée via recherche de paires contrastives
Targeted Neuron Modulation via Contrastive Pair Search

May 12

BySam Herring, Jake Naviasky, Karan Malhotra

Les modèles de langage sont ajustés par instructions pour refuser les demandes nuisibles, mais les mécanismes sous-jacents à ce comportement restent mal compris. Les méthodes de guidage courantes opèrent sur le flux résiduel et dégradent la cohérence des sorties à des intensités d'intervention élevées, limitant leur utilisation pratique. Nous introduisons l'attribution neuronale contrastive (CNA), qui identifie les 0,1 % des neurones MLP dont les activations distinguent le plus les invites nuisibles des invites bénignes, ne nécessitant que des passages avant, sans gradients ni entraînement auxiliaire. Dans les modèles d'instruction, l'ablation du circuit découvert réduit les taux de refus de plus de 50 % sur un benchmark standard de jailbreak tout en préservant la fluidité et la non-dégénérescence à toutes les intensités de guidage. En appliquant la CNA à des modèles de base et d'instruction appariés, sur les architectures Llama et Qwen (de 1 à 72 milliards de paramètres), nous constatons que les modèles de base contiennent des structures de discrimination tardives similaires, mais que le guidage de ces neurones ne produit que des changements de contenu, et non des changements comportementaux. Ces résultats démontrent que l'intervention au niveau neuronal permet un guidage comportemental fiable sans les compromis de qualité des méthodes basées sur le flux résiduel. Plus largement, nos résultats suggèrent que le réglage fin par alignement transforme une structure de discrimination préexistante en une porte de refus éparse et ciblable.

CompactAttention : Accélération du préremplissage par blocs avec la sélection KV par union de blocs
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

May 16

ByJiwon Song, Dongwon Jo, Beomseok Kang, Jae-Joon Kim

Le préremplissage par blocs est devenu une stratégie de service largement adoptée pour les grands modèles de langage à contexte long, mais le calcul efficace de l'attention dans ce régime reste difficile. Les méthodes d'attention sparse existantes sont principalement conçues pour le préremplissage en une seule fois et ne se traduisent pas efficacement en préremplissage par blocs : les noyaux blocs-sparses perdent en efficacité lorsque la longueur des requêtes est limitée par la taille du bloc, tandis que la recherche de motifs à grain fin devient coûteuse lorsqu'elle est répétée sur le cache KV accumulé à chaque bloc. QUOKA, une méthode récente ciblant directement le préremplissage par blocs, évite le surcoût des noyaux sparses mais repose sur une sélection KV au niveau des tokens sous-échantillonnée par requête, ce qui peut omettre des entrées KV spécifiques aux requêtes et introduire un surcoût explicite de copie KV. Pour remédier à ces limitations, nous proposons CompactAttention, un mécanisme d'attention pour préremplissage par blocs basé sur la Sélection KV par Union de Blocs. CompactAttention traite les masques sparses 2D par blocs comme des signaux de sélection KV plutôt que comme des plans d'exécution directs de noyaux sparses, et les convertit en tables de blocs KV par groupe tenant compte de GQA via une union de blocs Q et une union intra-groupe. Cette construction produit les tables de blocs minimales qui préservent tous les blocs KV sélectionnés par les masques d'entrée sous contraintes d'exécution paginée, permettant d'accéder aux blocs KV sélectionnés sur place sans compaction KV explicite. Sur LLaMA-3.1-8B-Instruct, CompactAttention maintient une précision proche de celle de l'attention dense sur le benchmark RULER tout en offrant une accélération de l'attention allant jusqu'à 2,72 fois pour une longueur de contexte de 128K en préremplissage par blocs.

De l'exécutable au livrable : Développement piloté par les tests multi-agents pour la génération d'applications web full-stack à partir des exigences.
From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

May 17

ByYuxuan Wan, Tingshuo Liang, Jiakai Xu, Jingyu Xiao, Yintong Huo, Michael R Lyu

Les agents de codage peuvent générer des applications web à partir de descriptions en langage naturel, mais une étude comparative récente montre que les applications générées ne satisfont pas aux exigences fonctionnelles dans plus de 70 % des cas. La difficulté centrale réside dans le fait que la correction du web ne peut être évaluée à partir des fichiers sources ou des sorties du terminal : l’application doit être déployée, testée par des interactions simulées dans un navigateur, et les échecs doivent être traduits en signaux de réparation exploitables — des étapes que les agents actuels ne peuvent accomplir sans médiation humaine. Nous présentons TDDev, un cadre qui automatise cette boucle fermée en trois étapes : (1) convertir les exigences de haut niveau en tests d’acceptation structurés avant toute écriture de code, (2) déployer l’application et la valider par simulation d’interactions basée sur le navigateur, et (3) traduire les échecs observés dans le navigateur en rapports de réparation structurés pour l’agent de codage. Grâce à TDDev, nous menons la première étude empirique contrôlée des stratégies de développement piloté par les tests (TDD) pour la génération d’applications web, en comparant quatre protocoles de développement sur deux agents de codage, deux modèles de base et deux référentiels. L’infrastructure TDD améliore systématiquement la qualité de génération de 34 à 48 points de pourcentage par rapport à une base sans TDD. Le résultat central est que le protocole optimal dépend du style de génération du modèle : les modèles qui construisent des applications de manière holistique bénéficient le plus d’une mise en œuvre agentique, tandis que les modèles qui étendent le code de manière conservatrice bénéficient d’une mise en œuvre incrémentale. Une inadéquation entre le protocole et le style de génération annule totalement le bénéfice du TDD tout en multipliant le coût en tokens jusqu’à 25 fois. Une étude utilisateur confirme que TDDev réduit à zéro l’intervention manuelle du développeur, déplaçant la charge de travail de l’ingénierie de prompt continue vers un affinage autonome et piloté par les retours.

NGM : un module de mémoire plug-and-play sans entraînement pour les grands modèles de langage
NGM: A Plug-and-Play Training-Free Memory Module for LLMs

May 16

ByYuwen Qu, Wenhui Dong, Chenyang Si, Caifeng Shan

Des études récentes introduisent des modules de mémoire conditionnelle qui découplent le stockage des connaissances du calcul neuronal, permettant un accès plus direct aux connaissances. Comparé au MoE, qui repose sur des chemins de calcul dynamiques, la recherche explicite offre un mécanisme de récupération de connaissances plus efficace. Cependant, ces approches dépendent toujours d'embeddings de mémoire appris, ce qui nécessite un entraînement supplémentaire et limite la flexibilité. Pour y remédier, nous proposons N-gram Memory (NGM), un module plug-and-play sans entraînement, composé d'un Encodeur Causal N-Gram et d'un Injecteur de Mémoire à Porte Cosinus. L'Encodeur Causal N-Gram moyenne directement les embeddings de tokens pré-entraînés du modèle de base pour construire des représentations de N-grammes, éliminant ainsi la nécessité d'entraîner des embeddings de N-grammes distincts à partir de zéro. Cette conception ne nécessite ni table de mémoire supplémentaire ni pipeline de récupération. L'Injecteur de Mémoire à Porte Cosinus utilise ensuite une porte cosinus non paramétrique avec ReLU pour moduler les embeddings récupérés dans les représentations contextuelles. Nous évaluons NGM sur la série Qwen3 de 0,6B à 14B sur huit benchmarks. NGM améliore la performance moyenne de 0,5 à 1,2 points, avec des gains particulièrement nets sur la génération de code et les tâches intensives en connaissances (par exemple, +3,0 sur LiveCodeBench et +3,03 sur GPQA pour Qwen3-14B). De plus, NGM améliore également les performances sur les benchmarks multimodaux (par exemple, +1,53 sur MMStar pour Qwen3-VL-2B).

WavFlow : Génération audio dans l'espace des formes d'onde
WavFlow: Audio Generation in Waveform Space

May 18

ByFeiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu, Yuren Cong, Xiaohui Zhang, Fanny Yang, Belinda Zeng

La génération audio moderne repose principalement sur la compression dans l’espace latent, ce qui introduit une complexité supplémentaire et une perte d’information potentielle. Dans ce travail, nous remettons en cause ce paradigme avec WavFlow, un framework qui génère de l’audio haute-fidélité directement dans l’espace des formes d’onde brutes, sans représentations intermédiaires. Pour surmonter les difficultés inhérentes à la modélisation de signaux de grande dimension et de faible énergie, nous remodelons l’audio en grilles de jetons 2D par patchification des formes d’onde et introduisons un rehaussement d’amplitude pour aligner les échelles de signal, permettant une optimisation stable via la prédiction directe de x dans le flow matching. Afin de capturer un alignement sémantique complexe et une synchronisation temporelle, nous exploitons un pipeline de données automatisé pour constituer 5 millions de triplets vidéo-texte-audio de haute qualité, permettant au modèle d’apprendre des motifs acoustiques fins à partir de zéro. Les résultats expérimentaux montrent que WavFlow atteint des performances compétitives sur le benchmark vidéo-vers-audio VGGSound (FD_PaSST : 59,98, IS_PANNs : 17,40, DeSync : 0,44) et sur le benchmark texte-vers-audio AudioCaps (FD_PANNs : 10,63, IS_PANNs : 12,62), égalant ou dépassant les performances des méthodes à base latente établies. Notre travail démontre que la compression intermédiaire n’est pas une condition préalable à une synthèse de haute qualité, offrant une alternative plus simple et plus évolutive pour la génération audio multimodale.

TOBench : Un benchmark omni-modal orienté tâche pour les agents utilisant des outils dans le monde réel
TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

May 16

ByZhiqiang Liu, Wenhui Dong, Yilang Tan, Yuwen Qu, Haochen Yin, Chenyang Si

Les agents utilisant des outils sont de plus en plus appelés à opérer dans des environnements professionnels réalistes, où ils doivent interpréter des entrées multimodales, coordonner des outils externes, inspecter des artefacts intermédiaires et réviser leurs actions avant de produire un résultat final. Les référentiels existants, cependant, évaluent souvent l'utilisation d'outils, l'utilisation d'ordinateurs et le raisonnement multimodal de manière isolée, creusant un fossé entre les configurations de référence et l'utilisation réelle d'outils omni-modaux de bout en bout. Pour combler cette lacune, nous présentons MM-ToolBench, un référentiel et un dispositif d'évaluation pour l'utilisation d'outils omni-modaux orientée tâche. MM-ToolBench contient 100 tâches exécutables issues de deux macro-familles de tâches, Service Client et Création Intelligente, couvrant 20 sous-catégories et soutenues par 27 serveurs MCP avec 324 outils. La conception centrale de MM-ToolBench est la vérification multimodale en boucle fermée : les agents doivent exécuter des outils, inspecter des artefacts rendus ou transformés, et s'autocorriger lorsque les résultats ne satisfont pas aux exigences spécifiques de la tâche. Pour rendre une telle évaluation évolutive et vérifiable, MM-ToolBench couple une exécution basée sur MCP avec des évaluateurs ancrés spécifiques aux tâches et un pipeline de construction semi-automatisé pour la découverte de scénarios, l'instanciation de tâches, la synthèse d'évaluateurs et l'audit humain. Des expériences menées sur 15 modèles agents contemporains montrent que MM-ToolBench reste très exigeant : Claude Opus 4.6, généralement considéré comme l'un des modèles agents de codage les plus performants, n'atteint qu'un taux de réussite de 32,0 %, bien en deçà de la référence humaine de 94,0 %. Nous envisageons MM-ToolBench comme une base pratique pour évaluer et faire progresser les agents omni-modaux de nouvelle génération utilisant des outils, grâce à une vérification multimodale en boucle fermée.

AtlasVA : Mémoire de compétences visuelles auto-évolutive pour agents VLM sans enseignant
AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

May 18

ByPan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen

Les agents de modèles vision-langage (VLM) s'appuient de plus en plus sur l'apprentissage par renforcement augmenté de mémoire pour réutiliser l'expérience acquise dans des tâches à long horizon. Pourtant, la plupart des frameworks existants stockent la mémoire sous forme de texte et dépendent de modèles enseignants propriétaires pour la résumer ou l'affiner. Cette conception est mal adaptée à la prise de décision spatiale : les a priori géométriques sont compressés dans un langage appauvrissant, et les interactions rares sont souvent supervisées par un retour textuel différé plutôt que par des signaux denses visuellement ancrés. Nous soutenons que l'expérience réutilisable pour les agents VLM doit rester ancrée visuellement. Partant de cette idée, nous proposons AtlasVA, un framework de mémoire de compétences visuelles sans enseignant, qui organise la mémoire en trois couches complémentaires : les heatmaps spatiales, les exemplaires visuels et les compétences textuelles symboliques. AtlasVA fait en outre évoluer des atlas de danger et d'affinité directement à partir des statistiques de trajectoire et d'heuristiques de grille légères, et réutilise ces atlas auto-évolutifs comme récompenses de mise en forme basées sur le potentiel pour l'apprentissage par renforcement. Cela unifie perception, mémoire et optimisation sans supervision externe par LLM. Les expériences menées sur les benchmarks Sokoban, FrozenLake, navigation incarnée 3D et manipulation robotique 3D montrent qu'AtlasVA surpasse systématiquement les mémoires textuelles de base et les agents VLM concurrents, avec des gains particulièrement marqués sur les tâches spatialement intensives. Site web : https://wangpan-ustc.github.io/AtlasvaWeb

MixSD : Auto-distillation contextuelle mixte pour l'injection de connaissances
MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

May 16

ByJiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab

L’ajustement supervisé fin (SFT) est largement utilisé pour injecter de nouvelles connaissances dans les modèles de langage, mais il dégrade souvent les capacités pré-entraînées, telles que le raisonnement et la performance dans les domaines généraux. Nous avançons que cet oubli provient du fait que les cibles d’ajustement issues d’humains ou de systèmes externes divergent de la distribution autorégressive du modèle, forçant l’optimiseur à imiter des séquences de tokens à faible probabilité. Pour résoudre ce problème, nous proposons MixSD, une méthode simple sans enseignant externe pour l’injection de connaissances alignée sur la distribution. Au lieu de s’entraîner sur des cibles fixes, MixSD construit dynamiquement une supervision en mélangeant des tokens issus de deux conditionnelles du modèle de base lui-même : une conditionnelle experte qui observe le fait injecté en contexte, et une conditionnelle naïve qui reflète l’a priori original du modèle. Les séquences de supervision résultantes préservent le signal d’apprentissage factuel tout en restant nettement plus proches de la distribution du modèle de base. Nous évaluons MixSD sur deux corpus synthétiques que nous construisons pour étudier le rappel factuel et l’acquisition de fonctions arithmétiques dans un cadre contrôlé, ainsi que sur des références établies pour la réponse à des questions factuelles en domaine ouvert et l’édition de connaissances. À plusieurs échelles de modèle et configurations, MixSD atteint constamment un meilleur compromis mémorisation-rétention par rapport aux références SFT et à la distillation sur politique propre, conservant jusqu’à 100 % de la capacité hors distribution du modèle de base tout en maintenant une précision d’entraînement quasi parfaite, alors que le SFT standard en conserve aussi peu que 1 %. Nous montrons en outre que MixSD produit des cibles de supervision de bien moindre log-vraisemblance négative sous le modèle de base et réduit les mouvements nuisibles le long de directions paramétriques sensibles à la métrique de Fisher. Ces résultats suggèrent qu’aligner la supervision avec la distribution générative native du modèle est un principe simple et efficace pour l’injection de connaissances qui atténue l’oubli catastrophique.

MementoGUI : Apprentissage du contrôle agentique de mémoire multimodale pour agents GUI à long horizon
MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

May 18

ByZiyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo

Les agents d'interface graphique récents ont réalisé des progrès substantiels en matière d'ancrage visuel et de prédiction d'actions, mais restent fragiles dans les tâches à long horizon nécessitant le maintien de l'état de la tâche à travers de nombreuses transitions d'interface. Les agents existants s'appuient généralement sur un rejeu brut de l'historique ou une mémoire textuelle seule, ce qui soit submerge le modèle de captures d'écran redondantes, soit écarte les preuves visuelles localisées nécessaires aux décisions futures. Pour remédier à ces limitations, nous introduisons MementoGUI, un cadre de mémoire agentique enfichable qui dote les agents GUI basés sur MLLM de MementoCore, un contrôleur appris pour la sélection, la compression et la récupération de mémoire en ligne. Plutôt que de traiter l'historique des interactions comme un contexte fixe, MementoGUI formule le contrôle GUI à long horizon comme un problème de contrôle de mémoire en ligne : la mémoire de travail préserve de manière sélective les événements d'interface pertinents pour la tâche avec des résumés textuels et des preuves visuelles au niveau des régions d'intérêt, tandis que la mémoire épisodique récupère des trajectoires passées réutilisables via une sélection de pertinence apprise. MementoCore modularise le contrôle de la mémoire en opérateurs spécialisés pour le traitement par étape, la compression de mémoire, l'écriture épisodique et la sélection épisodique, permettant une augmentation de mémoire enfichable sans ajuster le noyau de l'agent GUI. Nous développons en outre un pipeline de curation de données passant à l'échelle qui convertit les trajectoires d'utilisation informatique en données d'entraînement du contrôleur de mémoire, introduisons MementoGUI-Bench pour évaluer la prise de décision à long horizon dans les agents GUI, et concevons des métriques basées sur MLLM pour l'appariement sémantique d'actions, la progression de tâche et la cohérence de mémoire. Les expériences sur GUI-Odyssey, MM-Mind2Web et MementoGUI-Bench montrent que MementoGUI améliore systématiquement les agents GUI par rapport aux bases de référence sans historique, avec rejeu d'historique et avec mémoire textuelle seule, les noyaux MementoCore plus grands renforçant davantage le contrôle GUI augmenté par la mémoire.

FINESSE-Bench : une suite de benchmarks hiérarchique pour les connaissances du domaine financier et l'analyse technique dans les grands modèles de langage
FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

May 14

ByDmitry Stanishevskii, Nini Kamkia, Alexey Khoroshilov, Dmitry Zmitrovich, Denis Kokosinskii, Zhirayr Hayrapetyan, Andrei Kalmykov

Les grands modèles de langage (LLMs) sont de plus en plus appliqués à l'analyse financière, au reporting, au soutien aux décisions d'investissement, à la gestion des risques, à la conformité et à la formation professionnelle. Cependant, une évaluation robuste de leur compétence dans le domaine financier reste incomplète. Des benchmarks ouverts largement utilisés, tels que FinQA, ConvFinQA et TAT-QA, ont joué un rôle important dans l'avancement du question-réponse financier et du raisonnement numérique, mais ils se concentrent principalement sur le question-réponse sur les rapports financiers et ne fournissent pas une hiérarchie explicite de difficulté professionnelle. Des ressources plus larges, notamment FinanceBench, PIXIU, FinBen et FLaME, élargissent la couverture des tâches financières, mais le problème de l'évaluation de la transition entre les connaissances fondamentales et le raisonnement financier de niveau expert reste ouvert. Dans ce travail, nous présentons FINESSE-Bench, un ensemble de huit benchmarks spécialisés comprenant 3 399 questions pour une évaluation hiérarchique des compétences financières des LLMs. FINESSE-Bench combine des ensembles de données orientés examens inspirés des certifications professionnelles (niveaux 1 à 3 de type CFA, niveau 2 de type CMT et niveau 1 de type CFTe), des collections de tâches de trading appliquées et un benchmark d'olympiade en langue russe. Cette conception permet d'évaluer l'étendue du domaine, la dégradation des performances à mesure que la difficulté augmente, la capacité à résoudre des tâches computationnelles et le comportement des modèles dans des domaines financiers spécialisés. Nous décrivons également un protocole d'évaluation unifié couvrant les questions à choix multiples, les réponses numériques et les réponses courtes ouvertes, ainsi qu'un système de notation automatique pour les réponses libres basé sur le paradigme LLM-en-tant-que-juge. FINESSE-Bench est conçu à la fois comme un complément aux benchmarks financiers ouverts existants et comme un outil pour une évaluation plus substantielle des compétences financières professionnellement pertinentes dans les grands modèles de langage.

Agent Bazaar : Permettre l'alignement économique dans les marchés multi-agents
Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

May 17

BySeth Karten, Cameron Crow, Chi Jin

Le déploiement de grands modèles de langage (LLM) en tant qu'agents économiques autonomes introduit des risques systémiques qui dépassent les simples défaillances de capacité individuelle. Lorsque ces agents interagissent directement avec des marchés, leur comportement collectif peut amplifier la volatilité et masquer la tromperie à grande échelle. Nous présentons l'Agent Bazaar, un cadre de simulation multi-agents conçu pour évaluer l'alignement économique, c'est-à-dire la capacité des systèmes agentiques à préserver la stabilité et l'intégrité des marchés. Nous identifions deux modes de défaillance : (1) l'instabilité algorithmique sur un marché B2C (« Le Krach »), où des entreprises amplifient la volatilité des prix jusqu'à l'effondrement du marché, et (2) la tromperie Sybil sur un marché C2C (« Le Marché des Citrons »), où un seul agent trompeur contrôlant plusieurs identités de vendeurs coordonnées inonde le marché d'annonces frauduleuses, érodant la confiance et le bien-être des consommateurs. Nous évaluons des modèles de pointe et open-weight dans les deux scénarios et constatons que les modèles échouent largement à s'autoréguler, la gravité des défaillances variant selon le modèle plutôt que selon sa taille. Nous proposons des harnais alignés économiquement, les Firmes Stabilisatrices et les Gardiens Sceptiques, qui améliorent les résultats mais restent fragiles dans des conditions de marché plus difficiles. Pour combler cette lacune, nous entraînons des agents avec REINFORCE++ en utilisant un curriculum adaptatif, produisant un modèle de 9B qui surpasse tous les modèles de pointe et open-weight évalués. Nous proposons le Score d'Alignement Économique (SAÉ), une métrique scalaire à quatre composantes regroupant stabilité, intégrité, bien-être et rentabilité, permettant une comparaison directe entre modèles. Nos résultats montrent que l'alignement économique est orthogonal aux capacités générales et peut être directement entraîné via un apprentissage par renforcement ciblé.

DexHoldem : Jouer au Texas Hold'em avec un système incarné dextre
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

May 18

ByFeng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

Évaluer des systèmes incarnés sur du matériel dextre réel nécessite plus que des compétences primitives isolées : un agent doit percevoir une scène de table dynamique, choisir une action adaptée au contexte, l'exécuter avec une main dextre, et laisser la scène exploitable pour les décisions ultérieures. Nous présentons DexHoldem, un benchmark système au niveau réel construit autour de la manipulation dextre du Texas Hold'em avec une ShadowHand. DexHoldem fournit 1 470 démonstrations téléopérées couvrant 14 primitives de manipulation du Texas Hold'em, un benchmark physique standardisé pour les politiques, et un benchmark de perception agentique qui teste la capacité des agents à reconstruire l'état de jeu structuré nécessaire à la prise de décision incarnée. Sur l'exécution des primitives, π₀,₅ obtient le taux d'achèvement de tâche le plus élevé (61,2 %), tandis que π₀,₅ et π₀ sont à égalité sur le taux de succès de préservation de la scène (47,5 %). En perception agentique, Opus 4.7 atteint la meilleure précision stricte au niveau problème (34,3 %), tandis que GPT 5.5 obtient la meilleure précision moyenne par champ (66,8 %), révélant un écart entre les sous-capacités visuelles isolées et la reconstruction complète de l'état pertinent pour le routage. Enfin, nous instancions la boucle complète agent incarné dans trois études de cas, où l'attente, les répartitions de récupération, les demandes d'aide humaine et l'exécution répétée de primitives montrent comment les erreurs de perception et de politique s'accumulent lors du déploiement en boucle fermée. DexHoldem évalue donc l'exécution dextre sur table, la perception agentique et le routage de décision incarné dans un cadre physique partagé. Page du projet : https://dexholdem.github.io/Dexholdem/.

Incantation : le langage naturel comme interface d'action pour les modèles de mondes vidéo multi-entités
Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models

May 18

ByShangwen Zhu, Qianyu Peng, Zhao Pu, Zhilei Shu, Xiangrui Ke, Zhaohu Xing, Zizhao Tong, Zeqing Wang, Xinyu Cui, Huangji Wang, Jian Zhao, Yeying Jin, Fan Cheng, Ruili Feng

Les modèles de monde vidéo interactifs modernes ont atteint une fidélité visuelle impressionnante, mais manquent d'un contrôle multi-entités fin et d'une généralisation inter-entités et inter-mondes. Nous attribuons cette lacune à l'interface d'action : les protocoles de contrôle standards (par exemple, les identifiants d'animation, les entrées de périphériques, les légendes au niveau de la scène) lient la sémantique des actions à des entités ou moteurs spécifiques lors de la conception. Nous proposons le langage naturel comme interface pour débloquer une expressivité qu'aucune interface antérieure ne peut atteindre, et nous présentons Incantation, le premier modèle de monde vidéo interactif avec un conditionnement en langage naturel par trame latente (0,25 s) prenant en charge le contrôle multi-entités simultané et le transfert inter-entités au niveau conceptuel au-delà de tout pipeline de rendu fixe. Nous associons un squelette vidéo bidirectionnel pré-entraîné à une attention croisée texte locale par trame, et permettons un streaming en temps réel à long horizon grâce à une distillation Self-Forcing initialisée par ODE avec un cache KV coulissant à découplage RoPE. Nous surpassons la ligne de base Action-Index sur le transfert inter-entités (89 % contre 43 %) et les invites hors vocabulaire (90 % contre 0 %), et notre étudiant en 2 étapes maintient 19,7 FPS en 480p avec un FVD stable sur des rouleaux de 2 heures. Nous appliquons également la même architecture et la même recette d'entraînement à The King of Fighters, en modifiant uniquement les emplacements de vocabulaire d'action par entité. Nous avons publié un sous-ensemble d'aperçu du jeu de données Incantation à l'adresse https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, contenant des clips de combat joueur-boss d'Elden Ring collectés manuellement avec des métadonnées structurées orientées actions. Des données à plus grande échelle d'Elden Ring et de KOF seront publiées avec le projet complet.

Évaluation de l'alignement de l'âge cognitif chez les agents d'IA interactifs
Evaluating Cognitive Age Alignment in Interactive AI Agents

May 18

ByYifan Shen, Jiawen Zhang, Jian Xu, Junho Kim, Ismini Lourentzou, Xu Cao, Meihuan Huang

Bien que l'IA agentique et ses modèles de langage multimodaux de grande taille (MLLMs) aient démontré un potentiel remarquable en matière de raisonnement linguistique et visuel dans des domaines allant de la vie quotidienne à la recherche scientifique avancée, un fossé profond persiste entre l'intelligence artificielle et l'intelligence humaine. Malgré l'intégration d'outils puissants et de MLLMs avancés, les agents d'IA de pointe échouent fréquemment dans des tâches fondamentales et apparemment simples qu'un enfant peut résoudre avec aisance. Inspiré par l'Échelle d'intelligence de Wechsler pour enfants (WISC), nous introduisons ChildAgentEval, le premier benchmark interactif fondé sur la psychométrie pour évaluer l'alignement de l'âge cognitif dans les agents basés sur les MLLMs. ChildAgentEval compare systématiquement les performances de raisonnement de divers agents interactifs basés sur les MLLMs avec les stades de développement humain spécifiques à l'âge, révélant où les systèmes d'IA agentique actuels peuvent ou non simuler un comportement cognitif propre à un âge donné.

Représentation actionnable du monde
Actionable World Representation

May 18

ByKunqi Xu, Jitao Li, Jianglong Ye, Tianshu Tang, Isabella Liu, Sifei Liu, Xueyan Zou

Inspirés par les comportements émergents dans les grands modèles de langage qui généralisent l'intelligence humaine, la communauté de recherche poursuit des capacités émergentes similaires au sein des modèles du monde, en mettant l'accent sur la modélisation du monde physique. Dans le cadre d'un modèle du monde physique, les objets sont les primitives fondamentales qui constituent la réalité physique. Des humains aux ordinateurs, presque tout ce avec quoi nous interagissons est un objet. Ces objets sont rarement statiques ; ce sont des entités actionnables avec des états variables déterminés par leurs propriétés intrinsèques. Alors que les méthodes actuelles abordent les états d'action des objets soit par la génération vidéo, soit par la reconstruction dynamique de scènes, aucune ne modélise explicitement cet élément de base de manière unifiée et fondée pour construire une représentation actionnable d'objet. Nous proposons WorldString, une architecture neuronale capable de modéliser la variété d'états d'objets réels en apprenant directement à partir de nuages de points ou de flux vidéo RGB-D. Servant de jumeau numérique polyvalent, il agit comme un bloc de construction fondamental pour les modèles du monde physique ; ainsi, nous le nommons WorldString. Avantageusement, sa structure entièrement différentiable permet une intégration sans couture future avec l'apprentissage de politiques et la dynamique neuronale.

SafeDiffusion-R1 : Guidage en ligne par récompense pour un post-entraînement sécurisé de diffusion
SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

May 18

ByKomal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar

Les modèles de diffusion ont été largement étudiés pour supprimer les contenus indésirables appris lors du pré-entraînement. Les méthodes existantes nécessitent des données supervisées coûteuses, que ce soit des paires de texte non sûr avec une image sûre de référence ou des paires d'images négatives/positives, ce qui les rend difficilement passibles à l'échelle. De plus, les approches d'apprentissage par renforcement hors ligne et de fine-tuning supervisé qui génèrent des données synthétiques hors ligne souffrent d'oubli catastrophique, dégradant la qualité de génération. Nous proposons un nouveau cadre d'apprentissage par renforcement en ligne qui résout à la fois la pénurie de données et la dégradation du modèle grâce à un post-entraînement avec l'Optimisation Relative des Politiques par Groupe (GRPO) sur des prompts textuels à la fois négatifs et positifs. Pour éliminer le besoin de fine-tuner des modèles de récompense spécialisés sûrs/dangereux, nous introduisons un mécanisme de récompense d'orientation qui exploite une propriété inhérente des plongements CLIP : orienter les représentations textuelles vers des directions de sécurité positives et les éloigner des directions négatives dans l'espace de plongement. Notre approche en ligne permet au modèle d'apprendre à partir de prompts divers, y compris des contenus explicitement non sûrs, sans oubli catastrophique. Des expériences approfondies montrent que notre méthode réduit les contenus inappropriés à 18,07 % (contre 48,9 % pour SD v1.4) et les détections de nudité à 15 (contre 646 pour la référence) tout en améliorant la qualité de génération compositionnelle de 42,08 % à 47,83 % sur GenEval. Remarquablement, ces gains de sécurité se généralisent à des prompts non sûrs hors domaine dans sept catégories de préjudice, atteignant des performances de pointe sans données supervisées appariées ni réglage de récompense. GitHub : https://github.com/MAXNORM8650/SafeDiffusion-R1.

A2RBench : Un paradigme automatique pour la génération de benchmarks de raisonnement abstrait formellement vérifiables
A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

May 17

ByQingchuan Ma, Yuexiao Ma, Yongkang Xie, Tianyu Xie, Xiawu Zheng, Rongrong Ji

La capacité de raisonnement abstrait reflète l'intelligence et la capacité de généralisation des LLM à extraire et appliquer des règles abstraites. Cependant, mesurer précisément cette capacité reste un défi : les référentiels existants reposent soit sur une annotation manuelle coûteuse, ce qui limite leur échelle, soit risquent de mesurer la mémorisation plutôt qu'un raisonnement authentique. Pour y remédier, nous introduisons un pipeline automatisé nommé A2RBench, comprenant les phases de génération, d'expansion, d'évaluation et d'analyse. Plus précisément, lors de la phase de génération, les LLM créent des tâches diversifiées exigeant un raisonnement authentique ; lors de la phase d'expansion, les LLM réutilisent des règles validées et étendent de nouveaux espaces d'entrée pour générer des variantes de tâches, permettant ainsi une montée en échelle. Cependant, un tel processus peut provoquer des hallucinations. Pour les éliminer, nous établissons en outre un cadre théorique et prouvons que la vérification programmatique — consistant à tester si l'opération inverse inverse parfaitement l'opération directe (cohérence cyclique) — garantit une solution unique. À travers des évaluations approfondies sur des LLM courants, nous constatons : (1) Les LLM actuels présentent des lacunes fondamentales en matière de raisonnement abstrait, les meilleurs modèles étant nettement moins performants que les humains sur un sous-ensemble représentatif (39,8 % contre 68,5 %). (2) Les LLM actuels sont loin d'atteindre les niveaux 2D et 1D dans la complexité des tâches 3D générées, révélant leur manque de compréhension des tâches à haute dimension. (3) De manière contre-intuitive, des entrées présentant une complexité informationnelle plus élevée peuvent simplifier le processus de raisonnement.

OSCAR : Rotation hors ligne consciente de la covariance spectrale pour la quantification du cache KV sur 2 bits
OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

May 18

ByZhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

L'INT2 KV-cache quantization est attrayante pour le service de LLM à long contexte, mais il reste difficile de la rendre à la fois précise et déployable. Les rotations simples comme les transformées de Hadamard réduisent les valeurs aberrantes, mais se dégradent encore à INT2 car elles ne sont pas alignées sur l'attention en aval. Nous proposons OSCAR, une méthode de quantification du cache KV à ultra-faible précision qui estime les structures de covariance sensibles à l'attention hors ligne et les utilise pour dériver des rotations fixes et des seuils d'écrêtage pour la quantification. Ainsi, elle aligne la quantification KV avec les structures de covariance que l'attention consomme réellement. Plus important encore, nous ne fournissons pas seulement une justification théorique, mais développons également un système OSCAR entièrement déployable avec un noyau d'attention INT2 personnalisé qui reste compatible avec le service de cache KV paginé et les pipelines de noyaux fusionnés, permettant une intégration transparente dans les frameworks modernes de service LLM tels que SGLang et vLLM. Nous évaluons nos méthodes sur des modèles de raisonnement récents avec des traces de raisonnement allant jusqu'à 32k tokens sur 5 tâches. Sur Qwen3-4B-Thinking-2507 et Qwen3-8B, OSCAR réduit l'écart de précision BF16 à respectivement 3,78 et 1,42 points, tandis que la rotation INT2 naïve s'effondre à presque zéro. Nous étendons en outre OSCAR à Qwen3-32B et GLM-4.7 (358B paramètres), où il reste efficacement au même niveau que le BF16. Sur le contexte long - RULER-NIAH jusqu'à 128K, OSCAR reste robuste sur les deux modèles Qwen3, tandis que la rotation INT2 naïve s'effondre. Du point de vue système, OSCAR réduit la mémoire du cache KV d'environ 8x, améliore le débit jusqu'à 7x pour les grandes tailles de lots sous la même contrainte mémoire et accélère le décodage à taille de lot 1 jusqu'à 3x par rapport au BF16 grâce à une réduction de la surcharge de bande passante mémoire.

AgentKernelArena : Évaluation comparative consciente de la généralisation des agents d'optimisation de noyaux GPU
AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

May 16

BySharareh Younesian, Wenwen Ouyang, Sina Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Ji Liu, Yue Liu, Yuchen Yang, Hao Li, Ziqiong Liu, Dong Li, Vikram Appia, Zhenyu Gu, Emad Barsoum

L'optimisation des noyaux GPU devient de plus en plus cruciale pour les systèmes d'apprentissage profond performants, mais l'écriture de noyaux haute performance nécessite encore une expertise de bas niveau substantielle. Les récents agents de codage IA peuvent lire du code de manière itérative, invoquer des compilateurs et des profileurs, et affiner les implémentations. Cependant, les benchmarks existants pour les noyaux évaluent des appels uniques à un LLM plutôt que des workflows complets d'agents, et aucun n'inclut à la fois l'optimisation de noyau à noyau et les tests de généralisation à des configurations non observées. Nous présentons AgentKernelArena, un benchmark open-source pour mesurer les agents de codage IA sur l'optimisation de noyaux GPU. Le benchmark contient 196 tâches couvrant l'optimisation HIP vers HIP, l'optimisation Triton vers Triton, et la traduction PyTorch vers HIP. Il évalue les workflows complets des agents dans des espaces de travail isolés en utilisant la compilation conditionnelle, des vérifications de justesse et de performance, un système de notation centralisé, et un protocole de généralisation à des configurations non observées qui teste si les optimisations se transfèrent à des configurations d'entrée que l'agent n'a jamais vues. Sur des agents de production incluant Cursor Agent, Claude Code et Codex Agent, nous constatons une compilation quasi parfaite et des taux de justesse élevés sur la plupart des catégories de tâches, les configurations les plus performantes atteignant des accélérations moyennes allant jusqu'à 6,89× pour PyTorch vers HIP, 6,69× pour HIP vers HIP et 2,13× pour Triton vers Triton. Notre évaluation sur configurations non observées montre que les optimisations HIP vers HIP et Triton vers Triton se transfèrent largement à des formes d'entrée non vues, tandis que la traduction PyTorch vers HIP présente des baisses substantielles de justesse, indiquant que les agents générant des noyaux à partir de zéro codent fréquemment des hypothèses spécifiques à la forme. AgentKernelArena est conçu comme un cadre modulaire et extensible pour l'évaluation rigoureuse de l'optimisation agentique de noyaux GPU à travers différents agents, tâches et cibles matérielles.

SNLP : Inférence parallèle par couches via des corrections de Newton structurées
SNLP: Layer-Parallel Inference via Structured Newton Corrections

May 18

ByLigong Han, Kai Xu, Hao Wang, Akash Srivastava

Les modèles de langage autorégressifs exécutent les couches Transformer séquentiellement, créant un goulot d'étranglement de latence que le parallélisme tensoriel ou pipeline conventionnel ne supprime pas. Nous étudions si cette dépendance inter-couche peut être assouplie en traitant la trace des états cachés à travers les couches comme la solution d'une équation résiduelle non linéaire et en la résolvant avec des mises à jour parallèles de type Newton. Bien que cette vision soit fondée, les corrections de Newton exactes nécessitent des produits jacobien-vecteur coûteux et les itérations naïves de point fixe sont instables sur les Transformers entraînés. Nous introduisons le Parallélisme de Couche Newton Structuré (SNLP), un cadre d'entraînement et d'inférence qui remplace les jacobiens de couche exacts par une dynamique surrogate peu coûteuse induite par l'architecture. Dans les Transformers résiduels, cela donne l'Identity Newton (IDN), où la correction se réduit à une mise à jour de type somme préfixe ; dans les architectures de type mHC, le HC Newton (HCN) utilise la matrice de mélange résiduelle du modèle. Nous introduisons également une régularisation consciente du SNLP, qui entraîne les modèles à effectuer une ou quelques itérations de Newton structurées pour approximer précisément le passage avant séquentiel. Les expériences sur des Transformers à l'échelle nanochat montrent que la régularisation SNLP améliore la compatibilité du parallélisme de couche et peut également améliorer la perplexité séquentielle standard, réduisant la perplexité de référence de 4,7 % à 23,4 %. En temps d'inférence, le SNLP combiné à la fusion de couches et à la décomposition par morceaux atteint des accélérations pratiques en temps réel : sur un modèle Nanochat de 0,5B, il atteint un facteur d'accélération de 2,3x tout en améliorant la perplexité de 6,1 %. Ces résultats suggèrent que l'inférence parallèle inter-couche n'est pas simplement une approximation numérique de l'exécution séquentielle, mais peut agir comme un biais d'inférence utile induit par le solveur. Nous caractérisons également les limitations : les modèles pré-entraînés prêts à l'emploi sont moins adaptés à cette procédure, et la convergence exacte retrouve le calcul séquentiel plutôt que de fournir un passage à l'échelle monotone en temps d'inférence.

La transition de phase géométrique permet une capacité de mémoire hippocampique extrême
Geometric Phase Transition Enables Extreme Hippocampal Memory Capacity

May 16

ByPrashant C. Raju

Les systèmes de mémoire peuvent stocker des quantités d'information très différentes malgré des contraintes matérielles similaires. Nous montrons ici que la mémoire spatiale supérieure émerge d'un durcissement discret de la géométrie de la population hippocampique — une transition d'un codage collectif désorganisé à un codage cristallin. En comparant des mésanges à tête noire (pratiquant le stockage de nourriture) à des diamants mandarins (non stockeurs), nous avons constaté que l'hippocampe des stockeurs maintient une géométrie topologiquement rigide, « cristalline », avec une stabilité géométrique significativement plus élevée (Shesha 0,245 contre 0,166) et une cohérence temporelle près de deux fois supérieure (Shesha 0,393 contre 0,209), tandis que l'hippocampe des non-stockeurs ressemble à un « brouillard » désorganisé. Cette stabilité est activement construite par une dynamique de circuit synergique : les neurones excitateurs forment l'échafaudage spatial tandis que les populations inhibitrices contribuent à une décorrélation orthogonale, un motif de circuit dans lequel les populations excitatrices et inhibitrices occupent des sous-espaces représentationnels largement non chevauchants. Une double dissociation avec l'Allocateur de Mémoire Stable de Valiant — un modèle prédisant que des ensembles de neurones dédiés sous-tendent chaque mémoire — confirme que cet avantage reflète une organisation topologique continue plutôt qu'une allocation neuronale discrète : les réseaux de stockage présentent une fiabilité d'allocation split-half quasi nulle malgré leur supériorité géométrique. La modélisation computationnelle sur 10 000 configurations révèle la rigidité topologique comme condition mathématique préalable à l'échelle : les codes cristallins maintiennent une lecture à haute fidélité au-delà de M = 1 000 localisations, tandis que les codes brouillard échouent en dessous de M = 10, soit un avantage de capacité supérieur à 100 fois. Cette capacité nécessite une redondance représentationnelle d'un facteur 169 : une « taxe géométrique » stabilisant la variété contre le bruit biologique. Ces résultats établissent la stabilité géométrique comme principe d'organisation candidat de la mémoire biologique : l'évolution atteint une mémoire à haute capacité non pas en proliférant les neurones, mais en modifiant la géométrie même du code neuronal.

Principe compatible avec la symétrie pour la conception d'optimiseurs : plongements, têtes LM, MLP SwiGLU et routeurs MoE
Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

May 18

ByTim Tsz-Kit Lau, Weijie Su

Une disparité géométrique frappante persiste depuis longtemps dans la pratique de l'apprentissage profond. Alors que les architectures modernes de réseaux de neurones présentent naturellement de riches propriétés de symétrie et d'équivariance, les optimiseurs populaires tels que Adam et ses variantes fonctionnent intrinsèquement par coordonnées, ce qui les empêche de respecter les structures d'équivariance de l'espace des paramètres. Nous abordons cette disparité en introduisant un principe compatible avec la symétrie pour la conception d'optimiseurs : la règle de mise à jour du gradient doit être équivariante sous l'action du groupe de symétrie agissant sur le bloc de poids correspondant. Suivant ce principe, nous proposons d'abord une perspective unifiée sur les mises à jour bi-orthogonalement équivariantes pour les couches matricielles générales, telles qu'employées par la descente spectrale stochastique, Muon, Scion et les méthodes de gradient polaire. Plus important encore, en passant des groupes orthogonaux aux symétries de permutation et de décalage partagé, nous dérivons des optimiseurs compatibles avec la symétrie pour les blocs de paramètres dont les symétries diffèrent de celles des couches matricielles générales : les matrices d'embedding et de tête LM, les projections SwiGLU du MLP et les matrices de routeur MoE. Ces constructions incluent des mises à jour spectrales unilatérales, de norme par ligne, hybrides norme par ligne/spectral, conscientes de la ligne, conscientes de la colonne, de norme par ligne centrée et spectrales à gauche. Elles produisent une pile d'optimiseurs couche par couche de bout en bout dans laquelle chaque classe majeure de paramètres matriciels se voit attribuer une mise à jour dont l'équivariance correspond à son groupe de symétrie. Nous corroborons ce principe par des expériences de pré-entraînement sur des modèles de langage denses et MoE parcimonieux, incluant les architectures Qwen3-0.6B-style, Gemma 3 1B-style, OLMoE-1B-7B-style et gpt-oss réduite. Dans ces expériences, les mises à jour compatibles avec la symétrie améliorent systématiquement la perte de validation finale, et dans plusieurs cas la stabilité de l'entraînement, par rapport aux mises à jour AdamW correspondantes.

E-PMQ : Quantification post-fusion guidée par expert avec ancrage des poids fusionnés
E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

May 16

ByWenjun Wang, Yanggan Gu, Shuo Cai, Yuanyi Wang, Pengkai Wang, Jianmin Wu, Hongxia Yang

Les contraintes de déploiement à faible ressource ont rendu la quantification de modèles essentielle pour déployer des réseaux de neurones tout en préservant leurs performances. Parallèlement, la fusion de modèles est devenue une stratégie pratique de plus en plus courante pour intégrer plusieurs experts spécialisés par tâche ou par domaine en un seul modèle, sans nécessiter d’entraînement conjoint ni de service multi-modèle. Ensemble, la quantification et la fusion de modèles permettent une chaîne de déploiement efficace à faible ressource en intégrant plusieurs experts dans un modèle unique à faible précision. Nous formalisons ce cadre comme la Quantification Après Fusion (Post-Merge Quantization, PMQ). Nous montrons qu’appliquer directement la quantification post-entraînement (PTQ) à un modèle fusionné est peu fiable, car deux déviations distinctes sont couplées : la déviation de quantification introduite par la reconstruction en faible précision et la déviation relative aux experts héritée de la fusion de modèles. Pour atténuer ces déviations, nous proposons E-PMQ, un cadre PMQ guidé par les experts, qui utilise les poids des experts sources pour fournir des cibles de sortie guidées par les experts lors de la calibration par couche, ainsi qu’un ancrage des poids fusionnés pour stabiliser la calibration et préserver le comportement intégré du modèle fusionné. Sur la fusion huit tâches de CLIP-ViT-B/32, E-PMQ améliore GPTQ 4 bits de 65,0 % à 73,6 % sous Arithmetic des Tâches et de 69,1 % à 74,8 % sous TIES-Merging. Sur des configurations plus difficiles, E-PMQ améliore GPTQ de 34,8 % à 76,7 % sur CLIP-ViT-L/14 avec 20 tâches et de 78,26 % à 83,34 % sur FLAN-T5-base GLUE. Ces résultats démontrent qu’E-PMQ permet une quantification efficace après fusion et un déploiement à faible précision.

Audit des évaluateurs LLM multimodaux : biais de tendance centrale dans le scoring ordinal clinique
Auditing Multimodal LLM Raters: Central Tendency Bias in Clinical Ordinal Scoring

May 11

ByJiaqing Zhang, Sandeep Elluri, Bhanu Cherukuvada, Yonah Joffe, Jessica Sena, Miguel Contreras, Scott Siegel, Subhash Nerella, Catherine Price, Parisa Rashidi

Les modèles de langage de grande taille multimodaux (LLM) sont de plus en plus explorés comme évaluateurs automatisés en contexte clinique, mais leur comportement de notation sur des échelles cliniques ordinales reste mal compris. Nous comparons trois familles de LLM de pointe à des modèles d'apprentissage profond supervisé pour la notation d'images du test de l'horloge (CDT) sur deux ensembles de données publics, en utilisant la grille de Shulman. Alors que les Vision Transformers entièrement affinés obtiennent la meilleure calibration (MAE 0,52, précision à 1 près 91 %), les LLM en mode zéro-shot restent compétitifs en termes d'accord basé sur la tolérance (MAE 0,67 pour GPT-5, précision à 1 près 92 %) malgré une erreur absolue plus élevée. Cependant, l'analyse par score révèle que les trois familles de LLM présentent un effet marqué de tendance centrale (compression systématique des extrémités) : les prédictions sont systématiquement comprimées vers le milieu de l'échelle, avec une surestimation à l'extrémité inférieure (score 0 à 1) et une sous-estimation à l'extrémité supérieure (score 5 à 4). Cet effet affecte de manière disproportionnée les extrêmes cliniquement critiques, où une notation précise a le plus d'impact sur les décisions de dépistage des troubles cognitifs. Des ablations ciblées montrent que ni l'utilisation d'exemples en quelques prises couvrant toute l'étendue des scores, ni la suppression de la terminologie clinique de l'invite n'éliminent cet effet. Nos résultats étendent la littérature sur le biais du LLM en tant que juge, de l'évaluation en traitement du langage naturel à l'évaluation clinique, et soulignent la nécessité d'une évaluation tenant compte de la calibration et d'un étalonnage a posteriori avant de déployer des évaluateurs basés sur des LLM dans des flux de travail de dépistage à enjeux élevés.

Suivi du monologue intérieur : les trajectoires de sonde révèlent les dynamiques du raisonnement
Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

May 18

ByMaciej Chrabąszcz, Aleksander Szymczyk, Marcin Sendera, Tomasz Trzciński, Sebastian Cygert

Les grands modèles de raisonnement (LRM) offrent de nouvelles opportunités pour la surveillance de la sécurité grâce à leur raisonnement par chaîne de pensée (CoT). Cependant, le CoT n'est pas toujours fidèle à la sortie finale du modèle, ce qui compromet sa fiabilité en tant qu'outil de surveillance. Pour y remédier, nous étudions les représentations cachées des LRM afin de déterminer si le comportement futur peut être prédit à partir des représentations de la question et du CoT. En évaluant un probe à chaque jeton généré, nous construisons une trajectoire de probe, c'est-à-dire l'évolution continue de la probabilité d'un concept tout au long du processus de raisonnement. Nous constatons que le comportement futur du modèle est plus distinctif lorsqu'il est examiné sur l'ensemble de la trajectoire plutôt qu'à partir d'une seule prédiction statique. Pour caractériser ces dynamiques temporelles, nous extrayons des caractéristiques de traitement du signal qui capturent la volatilité, la tendance et le comportement en régime permanent, améliorant ainsi significativement la séparation des états futurs du modèle. Nous présentons également deux aperçus méthodologiques. Premièrement, les données d'entraînement basées sur des templates atteignent une quasi-parité avec les réponses générées dynamiquement par le modèle, éliminant ainsi le besoin d'une inférence initiale coûteuse et d'un étiquetage. Deuxièmement, le choix de l'opération de pooling est crucial : les méthodes de moyenne-pooling et de dernier-jeton se réduisent à des performances quasi aléatoires, tandis que le max-pooling atteint jusqu'à 95 % d'AUROC et produit des trajectoires de probe stables. En utilisant quatre ensembles de données et quatre modèles de raisonnement dans les domaines de la sécurité et des mathématiques, nous démontrons que les caractéristiques de trajectoire encodent des dynamiques spécifiques aux tâches qui améliorent la séparabilité des résultats. Ces résultats établissent les trajectoires de probe comme un cadre complémentaire pour surveiller le comportement des LRM. Attention : cet article contient du contenu potentiellement dangereux.

SCICONVBENCH : Évaluation comparative des LLMs sur la clarification multi-tour pour la formulation de tâches en science computationnelle
SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

May 18

ByNithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan

Les grands modèles de langue (LLM) sont de plus en plus déployés en tant qu'assistants scientifiques en IA, et un nombre croissant de bancs d'essai évalue leurs capacités dans des domaines tels que la recherche de connaissances, le raisonnement, la génération de code et l'utilisation d'outils. Ces évaluations supposent cependant généralement que le problème scientifique est déjà bien posé, alors qu'en pratique, l'assistance scientifique commence souvent par une demande utilisateur mal définie qui doit être affinée par un dialogue avant que tout calcul, analyse ou expérience puisse être mené de manière fiable. Nous présentons SCICONVBENCH, un banc d'essai pour la clarification multi-tours dans la formulation de tâches scientifiques, couvrant quatre domaines de problèmes en science computationnelle : la mécanique des fluides, la mécanique des solides, la science des matériaux et les équations aux dérivées partielles (EDP). SCICONVBENCH cible deux capacités complémentaires : l'obtention d'informations manquantes (désambiguation) et la détection et correction de demandes erronées contenant des informations intérieurement contradictoires (résolution d'incohérence). Notre banc d'essai associe une ontologie de tâche structurée à un cadre d'évaluation basé sur une grille de notation, permettant une mesure systématique des performances du LLM selon trois dimensions : le comportement de clarification, l'ancrage conversationnel et la fidélité de la spécification finale. Les modèles de pointe actuels obtiennent des résultats relativement bons sur la résolution d'incohérence, mais même le meilleur modèle ne résout que 52,7 % des cas de désambiguation en mécanique des fluides. Nous constatons en outre que les LLM de pointe font fréquemment des hypothèses silencieuses et effectuent des réparations implicites de spécifications qui ne sont pas ancrées dans la conversation avec les utilisateurs. SCICONVBENCH établit une base pour l'évaluation du raisonnement conversationnel préalable dont un assistant fiable en science computationnelle a besoin. Le code et les données sont disponibles à l'adresse https://github.com/csml-rpi/SciConvBench.

AR-VLA : Véritable Expert d'Action Autorégressif pour les Modèles Vision-Langage-Action
AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

May 11

ByYutong Hu, Jan-Nico Zaech, Nikolay Nikolov, Yuanqi Yao, Sombit Dey, Giuliano Albanese, Renaud Detry, Luc Van Gool, Danda Paudel

Nous proposons un Expert d'Action autorégressif (AR) autonome qui génère des actions sous forme de séquence causale continue tout en se conditionnant sur des préfixes vision-langage actualisables. Contrairement aux modèles Vision-Langage-Action (VLA) existants et aux politiques de diffusion qui réinitialisent le contexte temporel à chaque nouvelle observation et prédisent les actions de manière réactive, notre Expert d'Action maintient son propre historique grâce à une mémoire à long terme et est intrinsèquement sensible au contexte. Cette structure résout le décalage de fréquence entre le contrôle rapide et le raisonnement lent, permettant un pré-entraînement indépendant efficace de la syntaxe cinématique et une intégration modulaire avec des architectures de perception lourdes, garantissant naturellement une génération d'actions cohérente spatio-temporellement à travers les images. Pour synchroniser ces modalités hybrides V-L-A asynchrones, nous utilisons un mécanisme de réancrage qui tient mathématiquement compte du décalage de perception pendant l'entraînement et l'inférence. Des expériences sur des tâches de manipulation simulées et avec des robots réels montrent que la méthode proposée peut remplacer efficacement les têtes d'action traditionnelles basées sur des chunks pour les politiques spécialistes et généralistes. AR-VLA présente une conscience supérieure de l'historique et des trajectoires d'action considérablement plus lisses tout en maintenant ou dépassant les taux de réussite des tâches des VLA réactifs de pointe. Dans l'ensemble, notre travail introduit un schéma de génération d'actions scalable et sensible au contexte qui fournit une base structurelle robuste pour l'entraînement de politiques robotiques efficaces. Code et vidéos disponibles sur https://arvla.insait.ai

GRASP : Apprendre à ancrer le raisonnement social dans les interactions non verbales multi-personnes
GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

May 15

ByJunho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg

Comprendre les interactions sociales nécessite de raisonner sur des indices non verbaux subtils, pourtant les modèles de langage multimodaux actuels (MLLMs) échouent souvent à identifier qui interagit avec qui dans des vidéos mettant en scène plusieurs personnes. Nous présentons GRASP, un jeu de données de raisonnement social à grande échelle qui relie des questions-réponses sociales de haut niveau à des événements fins de regard et de gestes déictiques. GRASP contient 290 000 paires question-réponse portant sur 46 000 vidéos totalisant 749 heures, organisées selon une taxonomie de 16 catégories couvrant le raisonnement sur le regard, le geste et le regard-geste conjoint, ainsi que GRASP-Bench pour l'évaluation. Contrairement aux ressources antérieures qui se concentrent soit sur des indices isolés soit sur des questions-réponses sociales de haut niveau, GRASP construit des questions à partir de trajectoires de regard cohérentes avec l'identité, de gestes déictiques et de leurs compositions conjointes en événements sociaux. De plus, nous proposons la Récompense d'Ancrage Social (SGR), un signal d'apprentissage qui utilise ces événements sociaux pour encourager les modèles à raisonner sur les participants impliqués dans chaque interaction. Les expériences montrent que SGR améliore les performances sur GRASP-Bench tout en maintenant les performances en zero-shot sur les benchmarks connexes de questions-réponses vidéo sociales.

TopoPrimer : Le contexte topologique manquant dans les modèles de prévision
TopoPrimer: The Missing Topological Context in Forecasting Models

May 14

ByZara Zetlin, Kayhan Moharreri, Maria Safi

Nous présentons TopoPrimer, un framework qui fait de la structure topologique globale de la population de séries une entrée explicite pour tout modèle de prévision. TopoPrimer améliore la précision dans divers domaines, stabilise les prévisions lors des pics saisonniers de demande et comble le fossé du démarrage à froid. Précalculé une fois par domaine via l'homologie persistante et les coordonnées spectrales de faisceau, TopoPrimer se déploie par token pour les modèles entièrement entraînés et comme adaptateur léger pour les backbones pré-entraînés. Parmi ces deux composants, les coordonnées de faisceau constituent le principal moteur de précision. Sur quatre benchmarks publics utilisant Chronos et TimesFM, TopoPrimer améliore systématiquement la précision des prévisions, avec des gains allant jusqu'à 7,3 % en MSE sur ECL. L'avantage topologique persiste avec une ampleur quasi identique à travers les backbones zero-shot et fine-tunés, ce qui suggère que la topologie et l'entraînement par série capturent des signaux complémentaires. Les gains sont les plus prononcés dans les régimes difficiles. Lors des pics saisonniers de demande, les modèles classiques et zero-shot se dégradent jusqu'à 50 %, tandis que TopoPrimer reste dans une marge de 10 %. En démarrage à froid sans historique d'article, TopoPrimer réduit l'MAE de 27 % par rapport à une ligne de base sans topologie.