HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

30 papers found

LoopCoder-v2 : Une seule boucle pour un passage à l'échelle efficace des calculs en phase de test
LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling

Jun 16

ByJian Yang, Shawn Guo, Wei Zhang, Tianyu Zheng, Yaxin Du, Haau-Sing Li, Jiajun Wu, Yue Song, Yan Xing, Qingsong Cai, Zelong Huang, Chuan Hao, Ran Tao, Xianglong Liu, Wayne Xin Zhao, Mingjie Tang, Weifeng Lv, Ming Zhou, Bryan Dai

113

Les Transformers en boucle étendent le calcul latent en appliquant de manière répétée des blocs partagés, mais l'itération séquentielle augmente la latence et la mémoire du cache KV proportionnellement au nombre de boucles. Les Transformers en boucle parallèle (PLT) atténuent ce coût grâce à des décalages de position inter-boucles (CLP) et à une attention à fenêtre glissante avec KV partagé et portail, faisant du nombre de boucles un choix pratique de conception. Nous étudions donc la sélection du nombre de boucles des PLT sous un angle coût-bénéfice : une boucle supplémentaire peut affiner les représentations, mais le CLP introduit également un décalage positionnel à chaque frontière de boucle. Nous concrétisons cette étude en entraînant LoopCoder-v2, une famille de codeurs PLT de 7B avec différents nombres de boucles, à partir de zéro sur 18T tokens, suivis d'un ajustement instructionnel et d'une évaluation appariés. Empiriquement, la variante à deux boucles offre des gains étendus par rapport à la référence sans boucle sur des bancs de génération de code, de raisonnement sur le code, de génie logiciel agentique et d'utilisation d'outils, améliorant SWE-bench Verified de 43,0 à 64,4 points et Multi-SWE de 14,0 à 31,0 points. En revanche, les variantes avec trois boucles ou plus régressent, révélant un effet fortement non monotone du nombre de boucles. Nos diagnostics montrent que la deuxième boucle fournit le principal raffinement productif, tandis que les boucles ultérieures produisent des mises à jour décroissantes et oscillatoires ainsi qu'une diversité représentationnelle réduite. Comme le décalage induit par le CLP reste à peu près fixe alors que les gains de raffinement diminuent, le coût du décalage devient de plus en plus dominant. Ce compromis coût-bénéfice explique la saturation du PLT à deux boucles et fournit des diagnostics pour la sélection du nombre de boucles.

ACE-Ego-0 : Unification des données humaines et robotiques égocentriques pour le pré-entraînement VLA
ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

Jun 15

ByHao Li, Ganlong Zhao, Yufei Liu, Haotian Hou, Guoquan Ye, Tongyan Fang, Chunxiao Liu, Siyuan Huang, Jianbo Liu, Xiaogang Wang, Hongsheng Li

Les modèles Vision-Langage-Action (VLA) bénéficient de données incarnées à grande échelle et diversifiées, mais la collecte de trajectoires robotiques est coûteuse et exigeante en main-d'œuvre. Des avancées récentes montrent que les vidéos humaines égocentriques à grande échelle offrent une supervision complémentaire issue du monde réel pour le pré-entraînement. Cependant, l'entraînement conjoint sur des données humaines et robotiques reste difficile en raison des divergences dans les espaces d'action, les structures d'incarnation, les dynamiques temporelles et la qualité de la supervision. Nous présentons ACE-EGO-0, un cadre unifié de pré-entraînement VLA exploitant conjointement des sources de données hétérogènes. Pour extraire une supervision de pré-entraînement à grande échelle à partir de vidéos humaines égocentriques, nous construisons un pipeline scalable de conversion vidéo égocentrique en action, qui transforme les vidéos humaines brutes en trajectoires d'actions pseudo-robotiques au format robotique. Afin de rendre ces étiquettes comparables aux démonstrations robotiques, ACE-EGO-0 utilise une représentation d'action unifiée basée sur des actions dans l'espace caméra, un conditionnement morphologique et un découpage d'actions aligné temporellement. Pour exploiter robustement la supervision par pseudo-actions bruitées provenant de vidéos humaines égocentriques, nous formulons un objectif d'entraînement tenant compte de la fiabilité, avec une perte auxiliaire humaine qui concentre la supervision sur les signaux fiables. Nous instancions ACE-EGO-0 sur 4,53 milliers d'heures de données robotiques et de simulation, ainsi que sur 1,48 milliers d'heures de données humaines égocentriques étiquetées par pseudo-actions. Les expériences montrent que l'intégration d'une supervision humaine à grande échelle avec une pondération tenant compte de la fiabilité améliore de manière cohérente à la fois le pré-entraînement conjoint unifié et l'ajustement supervisé. ACE-EGO-0 atteint des performances de pointe sur RoboCasa GR1 TableTop et RoboTwin 2.0, tout en démontrant une forte transférabilité à la manipulation bimanuelle réelle.

Zone d'optimisation de la politique proximale : l'enseignant dans les prompts, pas dans les gradients
Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

Jun 16

ByByung-Kwan Lee, Ximing Lu, Shizhe Diao, Minki Kang, Saurav Muralidharan, Karan Sapra, Andrew Tao, Pavlo Molchanov, Yejin Choi, Yu-Chiang Frank Wang, Ryo Hachiuma

La distillation de connaissances transfère la compétence d'un enseignant à un petit élève, mais elle est fragile dans le régime des petits élèves : forcer l'élève à imiter les logits d'un enseignant beaucoup plus grand le concentre sur les modes les plus marqués de l'enseignant, ce qui nuit à la généralisation sur des familles de références au-delà du corpus d'entraînement. L'apprentissage par renforcement (RL) évite l'imitation des logits en s'entraînant sur les propres trajectoires de l'élève. Cependant, sur les questions où chaque trajectoire échoue — produisant un avantage nul et étant silencieusement écartée — injecter la réponse d'un enseignant plus fort dans le gradient de politique rompt l'hypothèse on-policy et induit une dérive. Nous introduisons l'Optimisation de la Politique par Zone Proximale (ZPPO), inspirée de la zone proximale de développement de Vygotsky, qui maintient l'enseignant dans le prompt plutôt que dans le gradient de politique. Sur les questions difficiles, ZPPO construit deux prompts reformulés : une Question avec Candidat Binaire (BCQ) associe une réponse correcte de l'enseignant à une réponse incorrecte de l'élève sous forme de candidats anonymisés que l'élève doit discriminer, et une Question avec Candidat Négatif (NCQ) agrège les mauvaises trajectoires de l'élève en un seul prompt pour exposer leurs modes d'échec communs. Un tampon de rejeu des prompts remet en circulation chaque question difficile jusqu'à ce qu'elle soit soit diplômée — la précision moyenne des trajectoires de l'élève atteint la moitié — soit évincée selon la politique FIFO sous capacité finie, amplifiant BCQ et NCQ dans la zone proximale de développement actuelle de l'élève. Sur la famille Qwen3.5 à quatre échelles d'élève (0,8B-9B) avec un enseignant de 27B, post-entraînés en tant que modèles vision-langage et évalués sur une suite de 31 références (16 VLM, 10 LLM, 5 Vidéo), ZPPO surpasse la distillation on/off-policy et GRPO, avec les gains les plus importants à la plus petite échelle.

GameCraft-Bench : Les agents peuvent-ils construire des jeux jouables de bout en bout dans un véritable moteur de jeu ?
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

Jun 16

ByTongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu, Zhengyang Tang, Jianlong Chen, Juhao Liang, Ke Ji, Shuqi Guo, Yuhao Du, Fan Bu, Wenyu Du, Xiaotong Zhang, Kyle Li, Shaobo Wang, Linfeng Zhang, Yuxuan Liu, Xin Lai, Chenxin Li, Yiduo Guo, Zhexin Zhang, Xinyuan Wang, Tianyi Bai, Ziniu Li, Benyou Wang

La génération de jeux est une application émergente des agents de codage, exigeant que les modèles transforment des spécifications en langage naturel en systèmes interactifs jouables. Contrairement aux tâches de codage traditionnelles, la génération de jeux se déroule au sein d'un moteur de jeu, où scripts, scènes, assets, rendu et interactions d'exécution doivent conjointement produire un gameplay cohérent. Nous formalisons la génération de jeux de bout en bout comme le problème de production d'un artéfact de jeu complet qui réalise une spécification via des interactions observables joueur-jeu dans un environnement cible. Nous soutenons que l'évaluation de ce cadre nécessite trois desiderata : ancrage moteur (Engine Grounding), complétude de l'artéfact (Artifact Completeness) et vérification interactive (Interactive Verification). Nous proposons un cadre d'évaluation ancré dans l'interaction qui évalue le gameplay exécutable via des démonstrations rejouées et un jugement multimodal guidé par une rubrique. Nous instancions ce cadre sous la forme de GameCraft-Bench, un banc d'essai comprenant 140 tâches Godot réparties dans 15 familles de jeux. Les évaluations des agents de codage de pointe montrent que la génération de jeux de bout en bout reste très difficile : l'agent le plus performant n'atteint que 41,46 % et la plupart des agents obtiennent un score inférieur à 40 %. Des analyses supplémentaires révèlent que si les agents mettent souvent en œuvre des mécanismes reconnaissables, ils peinent à fournir des jeux complets avec un contenu suffisant, un retour visuel fonctionnel et une présentation cohérente. Voir https://tongxuluo.github.io/gamecraft-bench-website pour les démos, le code et les données.

LectūraAgents : Un cadre multi-agents pour l'apprentissage adaptatif personnalisé assisté par IA et l'enseignement incarné
LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

Jun 15

ByJaward Sesay, Yue Yu, Siwei Dong, Yemin Shi, Guangyao Chen, Börje F. Karlsson

Un apprentissage efficace et personnalisé assisté par IA nécessite des systèmes capables non seulement de générer des contenus pédagogiques précis et adaptés à chaque apprenant, mais aussi d’adapter dynamiquement leur enseignement à des apprenants diversifiés. Cependant, les agents éducatifs existants se sont principalement concentrés sur l’automatisation du contenu des cours et les simulations, ce qui ne permet souvent pas de modéliser des méthodes pédagogiques multimodales et incarnées adaptées à l’apprenant individuel. À cette fin, nous proposons LectūraAgents – un cadre multi-agents qui permet un apprentissage personnalisé grâce à un enseignement incarné adaptatif de bout en bout. Au cœur de LectūraAgents se trouve une relation professeur-étudiant, dans laquelle un AgentProfesseur dirige une équipe collaborative d’agents subordonnés spécialisés à travers la recherche, la planification, la révision et la présentation incarnée de contenus de cours qui s’adaptent aux besoins de l’apprenant. Le cadre offre trois contributions principales : (1) une architecture hiérarchique multi-agents pour un apprentissage personnalisé de bout en bout ; (2) un mécanisme d’enseignement incarné adaptatif, dans lequel l’AgentProfesseur exécute des actions pédagogiques visibles et motivées pédagogiquement (par exemple, écrire à la main, surligner, souligner, etc.) sur le contenu dans un environnement d’enseignement ; et (3) un algorithme d’Alignement Action Parole d’Enseignement (TASA) qui utilise des heuristiques basées sur la saillance et une segmentation sémantique temporelle pour générer des séquences d’actions pédagogiques cohérentes alignées sur les profils des apprenants. Nous évaluons LectūraAgents sur divers cours de niveau lycée, licence et master à l’aide d’une analyse basée sur des grilles d’évaluation spécifiques à l’échantillon ; les supports de cours générés et les actions pédagogiques sont évalués et validés par des éducateurs experts. Les résultats expérimentaux montrent des gains constants en termes de qualité du contenu des cours, de qualité de l’enseignement incarné, d’évaluation et de personnalisation par rapport aux approches existantes, positionnant LectūraAgents comme un cadre pédagogiquement bien fondé pour un apprentissage personnalisé à grande échelle.

TRIAGE : Raisonnement dialectique pour la prédiction de risque explicable sur des séries temporelles médicales échantillonnées irrégulièrement avec des LLMs
TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs

Jun 8

ByHyeongwon Jang, Gyouk Chu, Changhun Kim, Joonhyung Park, Hangyul Yoon, Eunho Yang

Les systèmes d'alerte précoce cliniques basés sur les dossiers de santé électroniques, dans lesquels les observations cliniques sont enregistrées sous forme de séries temporelles médicales échantillonnées de manière irrégulière (STMÉI), doivent fournir à la fois des scores de risque calibrés pour le triage des patients et des justifications interprétables que les cliniciens peuvent vérifier. Les grands modèles de langage (LLM) ont été explorés pour cette tâche, mais ils réduisent le risque clinique gradué en prédictions binaires trop confiantes. Cette polarisation du risque compromet à la fois la calibration et la comparabilité entre patients. Pour y remédier, nous proposons TRIAGE, un cadre qui entraîne un LLM à générer un raisonnement dialectique sur des issues cliniques concurrentes en suscitant des justifications spécifiques à chaque issue. Cette formulation dialectique atténue la polarisation du risque, permettant à un seul LLM de produire des scores de risque continus ancrés dans un raisonnement clinique explicite. Évalué sur trois benchmarks STMÉI, TRIAGE atteint une amélioration moyenne de l'AUPRC de 3,3 % et réduit l'erreur de calibration de 81 % par rapport aux bases de référence concurrentes. Une évaluation par LLM comme juge montre en outre que nos justifications surpassent de 20 % les explications a posteriori issues de la base de référence en termes de qualité du raisonnement clinique. Le code source est disponible à l'adresse https://github.com/HyeongWon-Jang/TRIAGE.

Apprendre du soi-futur : Auto-distillation sur politique pour les dLLMs
Learning from the Self-future: On-policy Self-distillation for dLLMs

Jun 16

ByYifu Luo, Zeyu Chen, Haoyu Wang, Xinhao Hu, Yuxuan Zhang, Zhizhou Sha, Shiwei Liu

L'auto-distillation sur politique (OPSD) s'est avérée efficace pour le post-entraînement des grands modèles de langage (LLMs), mais son application aux LLMs à diffusion (dLLMs) reste inexplorée. Les méthodes OPSD existantes sont intrinsèquement centrées sur l'autorégressif. Elles injectent des informations privilégiées via un conditionnement par préfixe de gauche à droite avec une supervision de divergence au niveau des tokens, une conception qui entre fondamentalement en conflit avec la génération d'ordre arbitraire des dLLMs. Nous introduisons d-OPSD, le premier cadre OPSD adapté aux dLLMs. Notre approche apporte deux contributions essentielles. Premièrement, nous reformulons la construction de l'enseignant interne en utilisant les réponses auto-générées comme conditionnement par suffixe, permettant au modèle étudiant d'apprendre à partir de sa « propre expérience future » plutôt que de préfixes privilégiés. Deuxièmement, nous faisons passer la supervision du niveau des tokens au niveau des étapes, alignant ainsi l'entraînement sur le processus de débruitage itératif des dLLMs. Des expériences sur quatre benchmarks de raisonnement montrent que d-OPSD surpasse systématiquement les bases RLVR et SFT avec une efficacité d'échantillonnage supérieure, ne nécessitant qu'environ 10 % des étapes d'optimisation de RLVR, ouvrant ainsi une voie prometteuse pour le post-entraînement des dLLMs. Le code est disponible à l'adresse https://github.com/xingzhejun/d-OPSD.

OPD-Evolver : cultiver un évolueur holistique d'agent via la distillation sur politique
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

Jun 16

ByGuibin Zhang, Xun Xu, Yanwei Yue, Zikun Su, Wangchunshu Zhou, Xiaobin Hu, Shuicheng Yan

La mémoire est devenue un substrat standard pour les agents auto-évolutifs, mais retenir l'expérience n'est pas la même chose qu'apprendre à évoluer à travers elle. Les agents à mémoire existants peuvent stocker des trajectoires, récupérer des réflexions ou accumuler des compétences, mais manquent souvent de la compétence holistique pour sélectionner l'expérience utile, agir en conséquence, écrire des connaissances réutilisables et maintenir un référentiel croissant. Nous présentons OPD-Evolver, un cadre de co-évolution lente-rapide qui cultive un tel évoluteur d'agent via l'auto-distillation sur politique. Dans la boucle rapide, OPD-Evolver interagit avec une hiérarchie de mémoire à quatre niveaux pour lire, utiliser, écrire et maintenir l'expérience en vue d'une évolution rapide au moment du test. Dans la boucle lente, l'attribution de mémoire calibrée par les résultats et la rétrospective privilégiée distillent ces quatre capacités dans la politique déployable. Sur des benchmarks multi-domaines, OPD-Evolver dépasse des systèmes de mémoire tels que ReasoningBank jusqu'à 11,5 %, et des méthodes basées sur l'entraînement telles que Skill0 d'environ 5,8 %. Une analyse plus poussée montre que OPD-Evolver internalise l'expérience de haute valeur et la gestion de la mémoire, permettant à OPD-Evolver-9B de défier des homologues géants tels que Qwen3.5-397B-A17B et Step-3.5-Flash, pointant au-delà des agents augmentés par la mémoire vers des évoluteurs d'agent véritablement qualifiés.

Montrer le signal, cacher le bruit : Forçage spectral pour la diffusion dans l'espace des pixels
Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

Jun 16

ByWeichen Fan, Haiwen Diao, Penghao Wu, Ziwei Liu

Les modèles de diffusion dans l'espace des pixels sont entraînés sur des images bruitées à pleine bande passante, mais le signal utile accessible au débruitant dépend fortement de la fréquence. Dans le cadre de la diffusion à flux rectifié et des spectres en loi de puissance des images naturelles, le contour données-bruit par bande \( k^{*}(t) = (1-t)^{-2/\alpha} \) sépare, à chaque instant \( t \), une région basse fréquence porteuse de signal d'une région haute fréquence dominée par le bruit. Nous montrons que cette structure implicite du grossier au fin n'est pas simplement descriptive : elle engendre un problème d'allocation de capacité. Un débruitant standard opérant dans l'espace des pixels doit découvrir intérieurement la limite de bande passante mobile et peut consacrer du calcul à des régions fréquence-temps où la prédiction optimale se réduit à des lignes de base déterministes plutôt qu'à la modélisation de la distribution des données. Pour rendre cette limite explicite, nous introduisons le Forçage Spectral, un opérateur passe-bas 2D-DCT conditionné par le temps, sans paramètre, appliqué à l'entrée bruitée avant l'intégrateur de patchs. Sa fréquence de coupure augmente de façon monotone avec le temps de diffusion et devient l'identité au point de données final. Grâce à des expériences synthétiques contrôlées, nous identifions le régime dans lequel l'opérateur est bénéfique : une tokenisation grossière des patchs et des données dont le contenu haute fréquence est principalement du bruit plutôt qu'un signal essentiel. Sur ImageNet-256 avec JiT-700M/32, le Forçage Spectral améliore systématiquement à la fois le FID et le Score Inception à différentes époques d'entraînement, montrant des gains robustes tout au long de l'apprentissage ; avec une tokenisation plus fine, le forçage spectral reste compétitif. Nous insérons en outre l'opérateur inchangé dans SenseNova-U1, un modèle unifié texte-vers-image, où il améliore les performances sur DPG-Bench et GenEval, démontrant que le prior spectral côté entrée se transfère au-delà de la génération conditionnée par classe. Ces résultats suggèrent une voie vers une diffusion dans l'espace des pixels efficace en capacité en révélant le signal et en masquant le bruit.

Édition d'images co-instruite par texte et vision
Text-Vision Co-Instructed Image Editing

Jun 15

ByChenxi Xie, Yuhui Wu, Qiaosi Yi, Lei Zhang

Les méthodes existantes de retouche d'image peuvent être généralement classées en deux catégories : celles basées sur des instructions textuelles et celles basées sur des indices visuels. Les instructions textuelles sont expressives sur le plan sémantique, mais sont limitées par la granularité grossière du contrôle spatial des résultats de retouche. En revanche, les indices visuels tels que le glissement et le pointage fournissent un guidage spatial précis, mais sont limités par l'ambiguïté inhérente de l'intention sémantique. Pour unifier les forces des instructions textuelles et des indices visuels, nous présentons l'édition d'image co-instruite par texte et vision (Text-Vision Co-Instructed Image Editing), qui modélise conjointement les instructions textuelles comme intention sémantique et les instructions visuelles éparses comme guidage spatial, visant à obtenir une manipulation d'image précise et fidèle à l'intention. À cette fin, nous construisons d'abord un ensemble de données appariées d'instructions textuelles et visuelles avec plus de 23 000 échantillons provenant de vidéos dynamiques, permettant une supervision alignée pour les instructions inter-modales. Nous proposons ensuite TV-Edit, un cadre d'édition unifié d'instructions textuelles et visuelles (Textual-Visual instruction unified Editing framework) pour contextualiser les instructions visuelles basées sur le glissement ou le pointage avec la sémantique image-texte et les transformer en représentations de contrôle conscientes de la sémantique pour les architectures de retouche pré-entraînées. En intégrant l'intention sémantique et les contraintes spatiales, TV-Edit conduit à un contrôle spatial plus précis, moins d'ambiguïté d'instruction et une meilleure cohérence structurelle que les alternatives basées uniquement sur le texte ou le glissement. Enfin, nous établissons TV-Edit-Bench, un benchmark délibérément conçu pour évaluer la fidélité sémantique, l'alignement spatial et la cohérence visuelle avec des références de vérité terrain et des variations textuelles-visuelles contrôlées pour une évaluation fiable. Nos expériences sur plusieurs architectures de retouche démontrent que TV-Edit produit systématiquement des retouches plus précises et fidèles à l'intention, surpassant significativement les références de pointe basées sur des instructions ou sur le glissement.

Repenser le rôle de l'attention efficace dans les architectures hybrides
Rethinking the Role of Efficient Attention in Hybrid Architectures

Jun 13

ByZiqing Qiao, Yinuo Xu, Chaojun Xiao, Zhou Su, Zihan Zhou, Yingfa Chen, Xiaoyue Xu, Xu Han, Zhiyuan Liu

Les modèles de langage modernes adoptent de plus en plus des architectures hybrides qui combinent une attention complète avec des modules d'attention efficaces, tels que l'attention à fenêtre glissante (AFG) et les mélangeurs de séquences récurrents. Cependant, la manière dont ces modules efficaces façonnent les capacités des modèles reste mal comprise. Pour combler cette lacune, nous menons une analyse systématique des architectures hybrides sous trois angles : le comportement de passage à l'échelle, l'analyse des mécanismes et la conception architecturale. Premièrement, du point de vue du passage à l'échelle, nous constatons que la conception de l'attention efficace influence principalement la rapidité d'émergence de la capacité à traiter de longs contextes, tandis que différentes architectures hybrides convergent finalement vers des performances comparables pour les longs contextes sous un entraînement suffisant. Deuxièmement, sur le plan mécanistique, nous montrons que la récupération à longue portée est principalement assurée par l'attention complète, tandis que l'attention efficace façonne sa trajectoire d'optimisation. Cela explique un phénomène contre-intuitif que nous appelons la Paresse des Grandes Fenêtres : des fenêtres glissantes plus grandes peuvent retarder la formation de têtes de récupération dans les couches d'attention complète. Troisièmement, guidés par ce mécanisme, nous montrons que l'application de NoPE uniquement aux couches d'attention complète d'une hybride AFG à petite fenêtre améliore considérablement les performances sur les longs contextes, avec un impact négligeable sur les performances sur les courts contextes.

Questionneur Visuel Auto-évolutif
Self-Evolving Visual Questioner

Jun 11

ByYijun Liang, Hengguang Zhou, Ming Li, Lichen Li, Cho-Jui Hsieh, Tianyi Zhou

Les modèles vision-langage (VLMs) sont généralement entraînés comme des répondeurs passifs, tandis que leur capacité à poser activement des questions diverses, non triviales, centrées sur le visuel et ancrées dans l'image reste sous-explorée. La performance des questionneurs visuels existants est limitée par la disponibilité de données d'entraînement de haute qualité ou par le coût de leur curation. Nous montrons qu'un VLM peut s'améliorer continuellement en tant que questionneur visuel sans aucune supervision externe. Nous proposons un cadre auto-évolutif qui utilise un VLM lui-même à la fois comme proposeur et comme filtre pour produire des questions plus difficiles, plus informatives et centrées sur le visuel, tout en maintenant leur diversité d'exploration afin d'éviter un effondrement de l'entraînement. Ces questions sont ensuite utilisées pour entraîner le VLM à la fois en mode questionneur et en mode répondeur. Pour évaluer le questionneur, nous introduisons un protocole agentique qui évalue les questions selon les dimensions de perception, de raisonnement et de diversité. Des expériences menées sur divers VLMs de base montrent que notre méthode améliore considérablement la qualité et élargit substantiellement la frontière de difficulté de la génération autonome de questions. Sous le même budget, notre auto-supervision est plus efficace qu'un entraînement sur des données sources statiques. De plus, le questionneur auto-évolutif reste un répondeur compétitif, voire meilleur.

EgoCS-400K : un ensemble de données de gameplay égocentrique pour les modèles du monde
EgoCS-400K: An Egocentric Gameplay Dataset for World Models

Jun 16

ByRongjin Guo, Dong Liang, Yuhao Liu, Fang Liu, Tianyu Huang, Gerhard P. Hancke, Rynson W. H. Lau

Le passage de la génération vidéo à la modélisation interactive du monde impose de nouvelles exigences en matière de données : au-delà des vidéos légendées, les modèles du monde nécessitent des trajectoires vidéo-action-langage temporellement alignées, ancrées dans les actions, les mouvements de caméra, les états et les événements qui provoquent les changements de scène futurs. Cependant, ces données sont difficiles à obtenir à grande échelle. Les ensembles de données vidéo issues du web offrent une large couverture visuelle, mais manquent d'actions exécutables et d'états fiables ; les ensembles de données robotiques fournissent une supervision sur les actions et les états, mais sont coûteux et limités en diversité de scènes ; et les simulateurs existants manquent souvent de trajectoires d'interaction à grande échelle pilotées par des humains. Dans cet article, nous présentons EgoCS-400K, un vaste ensemble de données égocentriques de Counter-Strike ancrées dans des rejeux pour les modèles du monde, construit à partir de démos professionnelles de matchs CS et CS2 qui préservent les trajectoires de jeu humaines et permettent l'analyse, le rejeu, le rendu et l'alignement temporel. Nous extrayons les états des joueurs, les directions de vue, les mouvements, les entrées clavier/souris, les changements d'angle de vue, l'utilisation des armes, les événements de jeu et le contexte au niveau des manches, et nous rendons des vidéos propres à la première personne à partir des mêmes trajectoires. EgoCS-400K contient plus de 400 000 vidéos à la première personne et 10 000 heures de jeu provenant de plus de 1 000 matchs et 40 000 manches, couvrant 13 cartes et 10 points de vue de joueurs par manche. Il prend en charge une gamme de tâches de modélisation visuelle interactive, notamment la prédiction future conditionnée par l'action, le déroulement de scène conscient des états et des événements, le sous-titrage ancré dans le rejeu, et la compréhension des actions égocentriques des agents. En reliant les observations visuelles aux actions humaines, aux mouvements de caméra, aux états de jeu et aux événements à grande échelle, EgoCS-400K sert de pont pratique entre les vidéos web passives, la simulation de jeu contrôlable et les données coûteuses du monde réel incarné.

Modèles du monde en boucle
Looped World Models

Jun 16

ByHongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam

Les modèles du monde actuels sont confrontés à une tension fondamentale : une simulation fidèle sur de longs horizons exige un calcul profond, mais les modèles plus profonds sont coûteux à déployer et sujets à des erreurs cumulatives. Nous résolvons ce problème en introduisant les Looped World Models (LoopWM), les premières architectures en boucle pour la modélisation du monde. Notre méthode affine de manière itérative les états latents de l'environnement via un bloc transformer à paramètres partagés. Cela permet d'obtenir jusqu'à 100 fois plus d'efficacité paramétrique par rapport aux approches conventionnelles, avec un calcul adaptatif qui ajuste automatiquement la profondeur en fonction de la complexité de chaque étape de prédiction. Orthogonal à la mise à l'échelle de la taille du modèle et des données d'entraînement, LoopWM établit la profondeur latente itérative comme un nouvel axe de mise à l'échelle pour la simulation du monde, ce qui pourrait faire progresser significativement la communauté.

La modélisation autorégressive multimodale unifiée avec un tokenizer contexte-visuel partagé est la clé de l'unification.
Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

Jun 16

ByWujian Peng, Lingchen Meng, Yuxuan Cai, Xianwei Zhuang, Yuhuan Yang, Rongyao Fang, Chenfei Wu, Junyang Lin, Zuxuan Wu, Shuai Bai

La modélisation multimodale unifiée vise à intégrer la compréhension visuelle et la génération au sein d'un seul système. Cependant, les approches existantes reposent généralement sur deux tokeniseurs visuels disparates, ce qui divise l'espace de représentation et entrave une modélisation véritablement unifiée. Nous proposons UniAR, un cadre autorégressif unifié dans lequel un unique tokeniseur visuel discret sert de pont clé entre la compréhension et la génération, permettant un contexte partagé dans lequel le modèle peut interpréter directement ses propres tokens visuels générés sans réencodage supplémentaire. UniAR adapte un encodeur de vision pré-entraîné avec une fusion de caractéristiques multi-niveaux et un schéma de quantification binaire sans table de correspondance, préservant à la fois la sémantique de haut niveau et les détails de bas niveau tout en augmentant le vocabulaire visuel effectif à un coût minimal. Sur cette base, le modèle autorégressif unifié adopte la prédiction binaire parallèle pour prédire conjointement des codes visuels multi-niveaux regroupés spatialement, réduisant considérablement la longueur de la séquence visuelle et accélérant la génération. Enfin, un décodeur visuel basé sur la diffusion opère sur les tokens visuels discrets pour décoder des images haute fidélité. Grâce à un pré-entraînement à grande échelle, suivi d'un fine-tuning supervisé et d'un apprentissage par renforcement, UniAR atteint des performances de pointe en génération d'images et édition d'images tout en restant compétitif sur les benchmarks de compréhension multimodale. La page du projet est disponible à l'adresse https://sharelab-sii.github.io/uniar-web.

Dr-DCI : Mise à l’échelle de l’interaction directe avec le corpus via l’expansion dynamique de l’espace de travail
Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

Jun 12

ByYi Lu, Zhuofeng Li, Ping Nie, Haoxiang Zhang, Yuyu Zhang, Kai Zou, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang

La recherche agentique sur de grands corpus repose sur des interfaces médiées par un récupérateur (par exemple BM25 ou ColBERT) pour une découverte de candidats à grande échelle. Bien qu'efficaces pour classer les documents pertinents, ces interfaces ne présentent les preuves que sous forme de résultats classés ou de vues documentaires restreintes, limitant la capacité des agents à réorganiser le matériel et à vérifier les contraintes entre documents. L'interaction directe avec le corpus (DCI) répond à cette limitation en exposant des opérations exécutables en ligne de commande sur le corpus pour une recherche, un filtrage, une comparaison et une vérification flexibles. Cependant, les commandes terminales sur l'intégralité du corpus deviennent lentes et instables à mesure que le corpus s'agrandit, dégradant les performances et l'efficacité. Nous introduisons DR-DCI, un cadre DCI guidé par un récupérateur, qui traite la récupération comme une action appelable par l'agent pour étendre un espace de travail local. Plutôt que d'opérer directement sur l'intégralité du corpus, l'agent extrait dynamiquement les documents pertinents vers un espace de travail en évolution et y effectue des opérations DCI. Cette conception combine le rappel au niveau du récupérateur avec la précision du style DCI : la récupération maintient l'exploration à grande échelle, tandis que la DCI préserve les opérations locales nécessaires à une résolution efficace des preuves. Les expériences montrent que DR-DCI est à la fois efficace et efficient à différentes échelles. Sur Browsecomp-Plus, DR-DCI atteint une précision de 71,2 %, améliorant la DCI brute et les variantes d'ablation jusqu'à 8,3 points tout en réduisant l'utilisation d'outils, le temps d'exécution et le coût estimé. Avec une réinitialisation du contexte préservant l'espace de travail, la précision s'améliore encore pour atteindre 73,3 %. Dans les expériences de mise à l'échelle du corpus, DR-DCI reste efficace de 100 000 à 10 millions de documents, tandis que la DCI brute devient instable et que BM25 obtient des résultats nettement inférieurs. DR-DCI s'adapte également à un cadre Wiki-18 QA à 20 millions d'échelles où chaque document est un fichier, atteignant un score moyen de 63,0 sur six benchmarks et surpassant les références basées sur la récupération et les agents de recherche entraînés. L'analyse d'ablation montre en outre que les aperçus classés et la DCI inter-documents sont essentiels à la performance.

ChLogic : Évaluation de la Robustesse du Raisonnement Logique dans les Expressions Chinoises
ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

Jun 16

ByPeixian Zhou, Yuxu Chen, Chaorui Zhang, Wei Han, Bo Bai, Xueyan Niu

Les grands modèles de langage obtiennent des performances de plus en plus élevées sur les benchmarks standardisés de raisonnement logique, mais il n'est pas clair si cette capacité reste robuste au-delà de l'anglais. Nous présentons ChLogic, un benchmark aligné anglais-chinois qui teste si les modèles conservent leurs performances en raisonnement logique lorsque la même structure logique latente est exprimée en anglais et dans diverses réalisations de surface chinoises. Construit à partir de patrons logiques formels, ce benchmark comprend trois ensembles de données : (i) l'ensemble aligné général, dérivé de 60 propositions générales réparties en neuf familles de patrons ; (ii) l'ensemble aligné difficile, dérivé de 40 problèmes difficiles ; et (iii) l'ensemble exclusivement chinois, couvrant 15 types de phénomènes spécifiques à la langue. Chaque élément aligné associe une expression de référence en anglais à cinq réalisations en chinois. Des expériences menées sur les modèles Qwen3, Ministral et GLM révèlent un écart de performance persistant entre l'anglais et le chinois. La rétro-traduction du chinois standard vers l'anglais améliore souvent les performances sur l'ensemble aligné général, mais produit des effets mitigés sur l'ensemble aligné difficile, où Qwen3-32B et GLM-5.1 obtiennent des résultats inférieurs après traduction. Ces résultats indiquent que la réalisation de surface en chinois, les artefacts de traduction et le comportement spécifique aux modèles influencent conjointement le raisonnement logique multilingue. Dans l'ensemble, ChLogic constitue un test de résistance utile pour évaluer la robustesse du raisonnement multilingue.

Une perspective de gradient sur la stabilité de RLVR et l'optimisation de politique par avantage du gagnant
A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Jun 15

ByPrasanth YSS, Zhichen Ren, Rasa Hosseinzadeh, Ilan Gofman, Yuqi Chen, Zhaoyan Liu, Guangwei Yu, Jesse C. Cresswell, Satya Krishna Gorti

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore le raisonnement des modèles de langage, mais l'optimisation de type GRPO reste sujette à l'effondrement. Nous analysons cette instabilité à travers la dynamique des gradients au niveau des jetons, en dérivant une taxonomie qui prédit comment les mises à jour affectent les probabilités des jetons suivants et l'entropie. La taxonomie montre que la stabilité dépend conjointement du signe de l'avantage et de la distribution des jetons sous la politique courante. Motivés par cette découverte, nous proposons Winner Advantage Policy Optimization (WAPO), un objectif simple en ligne d'optimisation de gradient de politique avec écrêtage, qui ne met à jour que les complétions à avantage positif. Sur des bancs d'essai de raisonnement mathématique et de questions-réponses à plusieurs sauts, WAPO améliore la stabilité de l'entraînement et égalise ou surpasse les bases de référence sur plusieurs familles de modèles. Le code complet est disponible à l'adresse https://github.com/layer6ai-labs/wapo.

Transformers à largeur variable
Variable-Width Transformers

Jun 16

ByZhaofeng Wu, Oliver Sieberling, Shawn Tan, Rameswar Panda, Yury Polyanskiy, Yoon Kim

L'augmentation de la taille des modèles, notamment en termes de profondeur et de largeur, a permis des progrès significatifs dans les modèles de langage basés sur les transformeurs. Cependant, la plupart des architectures conservent une largeur constante à travers toutes les couches, allouant un budget fixe de paramètres et de calcul de manière uniforme, bien que différentes couches puissent jouer des rôles computationnels distincts. Dans ce travail, nous étudions empiriquement l'allocation non uniforme des capacités sur la profondeur du réseau en proposant une architecture > <former en forme de sablier. Cette conception maintient des couches plus larges au début et à la fin tout en rétrécissant les couches intermédiaires, en utilisant un mécanisme de redimensionnement résiduel sans paramètre. Sur des modèles de langage à simple décodeur allant de 200 millions à 2 milliards de paramètres (denses) et 3 milliards de paramètres (MoE), notre > <former surpasse systématiquement les bases de référence uniformes appariées en paramètres en termes de perte de modélisation du langage. En réduisant la largeur moyenne des couches, cette architecture nécessite également moins de FLOPs globaux (réduction de 22 % sous des courbes d'échelle ajustées à perte équivalente) et une empreinte mémoire et un coût d'entrée-sortie de cache KV plus faibles (réduction de 15 %). Dans l'analyse, nous montrons que cette structure en goulot d'étranglement produit des représentations qualitativement différentes dans les flux résiduels. Dans l'ensemble, nos résultats démontrent qu'une allocation non uniforme de la largeur peut conduire à une mise à l'échelle plus optimale en termes de ressources des modèles de langage.

ActWorld : De l'explorable au modèle de monde interactif via une mémoire sensible aux actions
ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Jun 16

ByZhexiao Xiong, Yizhi Song, Hao Kang, Qing Yan, Liming Jiang, Jenson Yang, Zhoujie Fu, Stathi Fotiadis, Angtian Wang, Zichuan Liu, Bo Liu, Yiding Yang, Xin Lu, Nathan Jacobs

Les modèles de monde interactifs visent à simuler la dynamique de l'environnement sous l'effet d'actions utilisateur en temps réel. Cependant, leur vocabulaire d'actions est largement confiné à la navigation : la plupart des actions correspondent à des mouvements (par exemple, marcher, tourner, regarder autour), tandis que l'interaction avec les objets de la scène (par exemple, ramasser des assiettes, ouvrir des portes ou déclencher des réponses physiques) est soit absente, soit restreinte aux domaines de jeu, soit reléguée à des scénarios de type "prompt vers vidéo intégrale". Les mondes qui en résultent sont visuellement explorables mais pas véritablement actionnables. Dans ce travail, nous présentons ActWorld, un modèle de monde interactif qui étend les générateurs précédemment centrés sur la navigation pour prendre en charge l'interaction avec les objets en cours de déroulement, dans un cadre auto-régressif par segments. Nous soutenons que le fossé entre navigation et interaction provient de deux goulets d'étranglement. Premièrement, un goulet d'étranglement lié aux données : l'absence de données d'interaction humain-objet avec des annotations précises et denses. Deuxièmement, un goulet d'étranglement lié à la mémoire : la compression de l'historique biaisée par la récence dans les modèles de monde existants écarte les images de transition d'événements qui déterminent causalement les états ultérieurs des objets, conduisant à une pathologie d'oubli d'actions. Côté données, nous construisons un ensemble de données de 100 000 vidéos d'interaction, chacune annotée de légendes par segments via un raisonnement en chaîne de pensée. Côté modèle, nous introduisons une conception de mémoire hiérarchique sensible aux actions, qui achemine la compression de l'historique en fonction de l'importance de l'interaction, complétée par une banque de mémoire persistante qui maintient des jetons de mise à jour d'événements et d'identité d'objets sur de longs déroulements. Les expériences montrent qu'ActWorld prend en charge à la fois une navigation flexible et une interaction riche avec les objets au sein d'un seul modèle, améliorant considérablement la fidélité d'interaction par rapport aux modèles de base uniquement de navigation, sans sacrifier le contrôle du point de vue. La page du projet est disponible à l'adresse https://interactwm.github.io/ActWorld.

Rapport technique ProCUA-SFT
ProCUA-SFT Technical Report

Jun 15

ByJaehun Jung, Ximing Lu, Brandon Cui, Muhammad Khalifa, Shaokun Zhang, Hao Zhang, Jin Xu, Amala Sanjay Deshmukh, Karan Sapra, Andrew Tao, Yejin Choi, Jan Kautz, Mingjie Liu, Yi Dong

La formation d’agents d’utilisation d’ordinateur (CUA) — des modèles qui interagissent avec des bureaux graphiques via des captures d’écran et des actions clavier/souris — nécessite des données de trajectoire à grande échelle et diversifiées, collectées dans des environnements de bureau complets. La plus grande ressource publique, AgentNet (22,5 K trajectoires humaines), entraîne un transfert négatif lorsqu’elle est utilisée pour l’ajustement fin supervisé (SFT) : la poursuite de l’entraînement d’UI-TARS 7B sur AgentNet fait chuter le taux de réussite sur OSWorld de 26,3 % à 8‑10 %. Nous présentons ProCUA-SFT, un ensemble de données de 3,1 M échantillons SFT au niveau des étapes, distillé à partir de 93 K trajectoires synthétiques couvrant 2 484 combinaisons d’applications. L’ensemble est produit par un pipeline entièrement automatisé qui (i) synthétise des tâches ancrées sur des bureaux en direct amorcés avec du contenu réel — 912 feuilles de calcul de SpreadsheetBench, environ 10 K présentations sous licence permissive de Zenodo10K, et des configurations multi‑applications d’OSWorld — et (ii) vérifie la faisabilité de chaque tâche par un contrôle binaire des préconditions avant le déploiement. Un seul VLM (Kimi‑K2.5) sert de générateur d’objectifs, de juge des préconditions et d’exécuteur de trajectoire, éliminant les écarts de capacité entre planificateur et acteur. Chaque trajectoire est développée en échantillons de préfixe d’étape qui reproduisent exactement la disposition du contexte vue au moment de l’inférence. L’ajustement fin d’UI-TARS 7B sur ProCUA-SFT pendant une époque donne 45,0 % sur OSWorld — une amélioration de 18,7 points de pourcentage par rapport au modèle de base et de plus de 35 % par rapport aux homologues entraînés sur AgentNet. Un sous-ensemble de ProCUA a été intégré aux données d’entraînement du modèle Nemotron 3 Nano Omni, contribuant à ses capacités d’utilisation d’ordinateur.

Au-delà de la recherche approfondie monolingue : évaluation des agents et des modules de récupération avec le BrowseComp-Plus cross-lingue
Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

Jun 13

ByYuheng Lu, Qingcheng Zeng, Heli Qi, Puxuan Yu, Fuheng Zhao, Rui Yang, Hitomi Yanaka, Naoto Yokoya, Weihao Xuan

Les agents de recherche approfondie sont de plus en plus évalués sur leur capacité à rechercher des preuves, à raisonner sur les sources récupérées et à produire des réponses fondées. Cependant, les benchmarks de navigation existants supposent en grande partie que la requête de l'utilisateur et les preuves à l'appui sont rédigées dans la même langue, laissant ouverte la question de savoir si les systèmes de recherche agentive peuvent fonctionner lorsque des preuves pertinentes apparaissent dans une autre langue. Nous présentons XBCP (Cross-lingual BrowseComp-Plus), un benchmark contrôlé qui préserve l'espace de questions-réponses en anglais de BrowseComp-Plus mais fait varier les langues des documents justificatifs. XBCP instancie deux cadres complémentaires : dans le cadre cross-lingue, chaque requête est associée à des preuves dans une seule langue assignée. Dans le cadre multilingue, l'ensemble du corpus de preuves est réparti de manière égale et aléatoire sur 12 langues couvrant des régimes à hautes et faibles ressources. Nous évaluons quatre agents de recherche approfondie utilisant des récupérateurs multilingues creux et denses, en mesurant la précision des réponses, le rappel des preuves, le comportement de recherche, la calibration, la fidélité des citations et la récupération oracle. Les résultats révèlent une dégradation substantielle lorsque les preuves sont traduites. Même les récupérateurs denses et performants perdent en rappel de preuves, et les agents deviennent moins calibrés et citent les preuves de manière moins fiable. Notamment, la précision reste inférieure même lorsque toutes les preuves de référence sont fournies directement. Ces résultats suggèrent que la recherche approfondie cross-lingue expose à la fois des échecs de récupération et une difficulté indépendante du côté de l'agent à intégrer des preuves en décalage linguistique.

Visual-Seeker : Vers une recherche agentive multimodale native visuelle via le raisonnement visuel actif
Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

Jun 13

ByZhengbo Zhang, Changtao Miao, Jinbo Su, Zhaowen Zhou, Chunxia Zhang, Xukai Wang, Ruiqi Liu, Kaiyuan Zheng, Jiansheng Cai, Bo Zhang, Zhe Li, Shiming Xiang, Ying Yan

Les grands modèles de langage multimodaux (MLLMs) ont démontré des capacités impressionnantes dans de nombreuses tâches visuelles, mais peinent souvent à établir un ancrage factuel face à des scénarios complexes et ouverts. Alors que des agents de recherche profonde multimodaux récents tentent de résoudre ce problème en exploitant des outils externes, le paradigme de recherche native visuelle reste sous-exploré. Les méthodes existantes reposent principalement sur des images simples au sémantisme explicite et sur des trajectoires de preuves textuelles uniquement, limitant la capacité des agents à effectuer un raisonnement et une recherche multi-sauts et cross-modaux. Pour pallier ces limitations, nous proposons Visual-Seeker, un agent de recherche profonde multimodale native visuelle via raisonnement visuel actif. Plutôt que de considérer la vision comme une entrée statique, notre agent prête activement attention aux détails visuels fins, collectant dynamiquement des preuves visuelles tout au long du processus de recherche. Afin de libérer son potentiel natif visuel, nous concevons un pipeline de données de raisonnement visuel actif et synthétisons 5 000 trajectoires multimodales de haute qualité pour l'entraînement du modèle. Des expériences approfondies démontrent des performances de pointe sur cinq benchmarks de recherche multimodale exigeants, surpassant même plusieurs modèles propriétaires, validant ainsi un raisonnement et une recherche native visuelle robustes dans des environnements web réels. Le code et les données sont accessibles à l'adresse suivante : https://github.com/ZhengboZhang/Visual-Seeker.

RepSelect : Désapprentissage robuste des LLM via la sélectivité des représentations
RepSelect: Robust LLM Unlearning via Representation Selectivity

Jun 15

ByFilip Sondej, Yushi Yang, Adam Mahdi

Faire oublier profondément aux grands modèles de langage (LLMs) des connaissances et valeurs spécifiques sans sacrifier les capacités générales reste un défi central dans le désapprentissage. Cependant, les méthodes actuelles sont facilement inversées par le fine-tuning ou le few-shot prompting, ce qui suggère que leur oubli n'est que superficiel. Nous en identifions la cause profonde. Les méthodes existantes ciblent des représentations partagées à la fois avec l'ensemble conservé et le sous-espace récupéré par un attaquant par fine-tuning, ce qui rend le désapprentissage à la fois perturbateur pour les capacités générales et facile à inverser. Nous proposons RepSelect (Representation Selectivity), qui isole les représentations spécifiques à l'ensemble à oublier en aplatissant les composantes principales supérieures des gradients de poids avant chaque mise à jour, laissant les capacités générales intactes tout en limitant ce que le fine-tuning peut récupérer. Nous évaluons sur deux catégories d'oubli, les connaissances liées aux risques biologiques et les tendances abusives, et quatre familles de modèles couvrant les architectures denses et Mixture-of-Experts (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Comparé à cinq références populaires (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect obtient une réduction 4 à 50 fois plus importante de la précision des réponses après réapprentissage que la référence la plus forte, et est presque parfaitement robuste aux attaques de few-shot prompting. Cibler des représentations sélectives constitue donc une étape importante vers un oubli profond et robuste des LLM.

Alignement des opérateurs quantiques avec les grands modèles de langage
Aligning Quantum Operators with Large Language Models

Jun 11

ByRogerio Feris, Yunchao Liu, Pengyuan Li, Hang Hua, David Kremer

Les grands modèles de langage (LLM) peuvent-ils comprendre et raisonner sur les opérateurs quantiques ? Malgré leurs capacités remarquables en mathématiques et en raisonnement symbolique, les LLM restent intrinsèquement aveugles aux représentations quantiques telles que les matrices unitaires. Dans ce travail, nous faisons un pas vers la réduction de cet écart en introduisant une approche qui projette les opérateurs unitaires dans l'espace latent d'un LLM, permettant une modélisation unifiée des entrées quantiques et linguistiques. Nous instancions cette idée sur la synthèse de circuits Clifford+T avec un ensemble de portes de rotation de Pauli, où notre modèle obtient des résultats compétitifs avec les méthodes de pointe et évolue de manière cohérente avec les données d'entraînement, sans signe de saturation. Notre approche permet en outre une synthèse conditionnée par le langage, permettant de spécifier en langage naturel des contraintes de portes non rencontrées lors de l'entraînement. Ce travail suggère une voie vers des modèles fondamentaux conscients du quantique, capables d'interpréter et de raisonner de manière native sur les opérations quantiques, ce qui pourrait avoir des implications plus larges dans les domaines de la compilation quantique et de la découverte d'algorithmes.

Au-delà des distances scalaires : gradients d'attributs sémantiques issus de MLLMs figés pour les plongements visuels
Beyond Scalar Distances: Semantic Attribute Gradients from Frozen MLLMs for Visual Embeddings

Jun 13

ByShubhang Bhatnagar, Dheeraj Baiju, Narendra Ahuja

Les encodeurs visuels pour la recherche sont généralement entraînés avec une supervision par étiquettes de classe : chaque paire d'entraînement se réduit à un scalaire qui éloigne ou rapproche uniformément le plongement, comme si chaque attribut visuel différait ou correspondait. Un modèle de langue multimodal de grande taille (MLLM), confronté à la même paire, peut articuler ces attributs et les utiliser pour prédire si les images partagent une classe. Nous proposons SAGA, un cadre qui transforme cette perception ancrée dans le langage et sensible aux attributs en un signal d'entraînement pour l'encodeur lui-même. Plus précisément, nous utilisons l'Optimisation de Politique Relative par Groupe (GRPO) pour récompenser le MLLM pour des prédictions correctes sur les tokens de l'encodeur visuel. Étant donné que des prédictions correctes nécessitent que ces tokens exposent les attributs spécifiques qui diffèrent ou correspondent entre la paire, le gradient pousse l'encodeur à les encoder, remplaçant le scalaire uniforme au niveau de la paire par une supervision résolue par attribut. Une perte auxiliaire de distillation d'attention ancre le plongement de l'encodeur sur les tokens auxquels le MLLM a prêté attention, et une perte standard d'apprentissage métrique façonne la géométrie du plongement pour la recherche par plus proche voisin. Le MLLM est gelé tout au long du processus et ignoré lors de l'inférence, égalant ainsi le coût de déploiement d'une référence d'apprentissage métrique. SAGA améliore le Recall@1 de 3 à 6 points par rapport aux références de pointe sur CUB-200-2011, Cars-196, FGVC-Aircraft et iNaturalist Aves pour la recherche d'images en zéro-shot.

RefGC-SR^2 : Super-résolution et affinement de contenu généré guidés par référence
RefGC-SR^2: Reference-guided Generated Content Super-Resolution and Refinement

Jun 13

ByJeahun Sung, Dahyeon Kye, Soo Ye Kim, Jihyong Oh

La génération guidée par référence (par exemple, composition d’objets, personnalisation) a progressé rapidement, mais les pipelines actuels partagent une limitation fondamentale : l’image de référence haute résolution (HRRI) centrée sur l’objet fournie par l’utilisateur est sous-échantillonnée à une basse résolution fixe (LR) avant d’être injectée dans le modèle, de sorte que les détails fins sont écartés avant même que la sortie ne soit produite. De plus, l’étape de génération introduit ensuite ses propres artefacts (par exemple, distorsion d’identité) par-dessus cette perte. Les méthodes existantes de raffinement de contenu généré guidé par référence (RefGCR) peuvent corriger certains de ces artefacts mais opèrent toujours dans le domaine LR ; les méthodes de super-résolution guidée par référence (RefSR) récupèrent la résolution mais supposent des dégradations d’image naturelles et ignorent la distribution des artefacts des pipelines génératifs. Pour combler ces deux lacunes dans une formulation unique, nous introduisons une nouvelle tâche : la super-résolution-raffinement de contenu généré guidé par référence (RefGC-SR²), où la HRRI originale est réutilisée à l’étape de post-traitement pour récupérer les détails perdus, raffiner les artefacts génératifs et sur-échantillonner la sortie simultanément. Nous construisons le premier pipeline de génération de données en triplets du monde réel pour cette tâche RefGC-SR², en entraînant un générateur conditionné par diptyque à synthétiser des ancres de faible qualité appariées que les modèles pré-entraînés publics ne peuvent pas fournir. Nous présentons également un transformateur de diffusion sensible aux fréquences pour RefGC-SR², qui injecte sélectivement les détails fins de la HRRI tout en supprimant les artefacts génératifs. Des expériences approfondies démontrent que notre modèle RefGC-SR² réussit à (i) raffiner l’identité de l’objet de manière fidèle par rapport à la référence, et (ii) récupérer les détails haute résolution, de sorte que le résultat final soit d’une qualité significativement supérieure et pratiquement plus utilisable par rapport aux références RefGCR et RefSR existantes.

MotionVLA : Modèle Vision-Langage-Action pour le mouvement humanoïde
MotionVLA: Vision-Language-Action Model for Humanoid Motion

Jun 13

ByNonghai Zhang, Siyu Zhai, Yanjun Li, Zeyu Zhang, Zhihan Yin, Yandong Guo, Boxin Shi, Hao Tang

La génération de mouvements humanoïdes réalistes à partir d'images de scène et de texte implique à la fois des sémantiques de pose à basse fréquence et des dynamiques physiques à haute fréquence. Cependant, de nombreuses méthodes existantes tokenisent le mouvement à l'aide d'un seul codebook partagé, forçant des signaux de mouvement hétérogènes dans le même espace de quantification. Notre analyse dans le domaine fréquentiel des données de mouvement humain révèle un décalage clair entre la quantification à codebook unique et les statistiques du mouvement : cinq coefficients DCT capturent 93 % de l'énergie des positions articulaires mais seulement 37 % de l'énergie des vitesses articulaires, ce qui peut biaiser la quantification vers les statistiques de pose et sous-représenter les composantes de vitesse à haute fréquence. Un deuxième défi consiste à adapter un modèle autorégressif standard pour modéliser efficacement les signaux physiques à haute fréquence dans les séquences de mouvement. Par conséquent, nous proposons DSFT, un tokeniseur fréquentiel à double flux qui sépare le mouvement en flux de base et flux physique et les compresse indépendamment à l'aide d'une troncature DCT et de BPE. De plus, nous présentons MotionVLA, un modèle basé sur Qwen3.5 qui dispose les tokens de base et physiques dans une séquence unifiée, où les tokens Phys sont prédits après les tokens de base. Les expériences sur HumanML3D et MBench montrent que, malgré l'utilisation d'un backbone léger de 2B, MotionVLA réduit de plus de 50 % l'écart de diversité avec les données réelles sur HumanML3D et améliore la cohérence condition-mouvement de 3,8 % sur MBench, confirmant que le découplage à double flux sensible aux fréquences constitue une formulation efficace pour la génération autorégressive de mouvement. Code : https://github.com/AIGeeksGroup/MotionVLA. Site web : https://aigeeksgroup.github.io/MotionVLA.

Le prix de l'anarchie dans l'inférence désagrégée
The Price of Anarchy in Disaggregated Inference

Jun 11

ByAthos Georgiou

Les architectures d'inférence désagrégées séparent physiquement les phases de préremplissage et de décodage sur des pools de GPU distincts, créant des « agents » concurrents qui partagent un budget matériel fixe. Nous fournissons, à notre connaissance, la première analyse théorique des jeux formelle de cette architecture, en utilisant NVIDIA Dynamo comme étude de cas concrète. Nous modélisons le service désagrégé comme trois jeux couplés : un jeu de ressources à deux joueurs entre les pools de préremplissage et de décodage, un jeu de mise en cache égoïste sur le cache KV hiérarchique, et un jeu de congestion avec externalités positives pour le routage des requêtes. Nous validons empiriquement les deux derniers ; le jeu de ressources P/D est traité analytiquement (Section 9.2). Nous caractérisons comment la saturation des GPU induit des transitions de régime qui modifient la structure des gains du jeu : en dessous de la saturation, le comportement égoïste a un Prix de l'Anarchie (PoA) borné ; à saturation, la latence superlinéaire et les externalités de cache font monter notre estimateur empirique PoA-hat (défini dans la Section 6.4). Sur la base de cette analyse, nous concevons un contrôleur adaptatif qui détecte les transitions de saturation en temps réel et ajuste les paramètres de routage en conséquence, passant de l'exploitation de l'affinité de cache à l'évitement de congestion par équilibrage de charge. Nous instancions notre framework sur un cluster NVIDIA B200 à 3 nœuds exécutant Dynamo avec deux modèles, Nemotron-4-340B (TP=8, workers sur nœud complet avec transferts KV inter-InfiniBand) et Llama-3.1-70B (TP=4), et trouvons la même structure PoA-hat à trois régimes avec le même premier point de grille après le coude (C=128) sur les deux modèles. Le routage adaptatif déplace chaque modèle vers un meilleur point de fonctionnement. Notre résultat le plus fort concerne la topologie 70B 1P/5D, où le PoA-hat chute de 3,1x (de 66,4 à 21,5) dans la phase saturée, avec un coût en débit de 13 %. Sur la topologie 70B 1P/2D, le PoA-hat chute de 2,2x et le TTFT P99 chute de 7,6x (voir Section 8.5).

Détection et prévention vérifiées des anomalies de concurrence dans les systèmes multi-agents de grands modèles de langage
Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent Large Language Model Systems

Jun 15

BySajjad Khan

Les systèmes multi-agents basés sur des LLM partagent leur état via des mémoires persistantes, des index vectoriels et des registres d'outils. Nous modélisons ce partage comme des opérations de lecture-génération-écriture de longue durée sous une sémantique de génération déterministe – le régime imposé par les moteurs d'exécution durables via le rejeu déterministe – et formalisons quatre anomalies de concurrence en TLA+ : génération obsolète, outil fantôme, cascade causale et réordonnancement d'effets d'outils, analogues structurels des anomalies d'isolation classiques, chacune accompagnée d'un contre-exemple TLC. Le treillis d'exclusion sur ces anomalies est trivial ; la contribution réside dans la réalisabilité vérifiée mécaniquement et la séparation stricte d'une chaîne maximale à l'intérieur de celui-ci, L_0 subsetneq cdots subsetneq L_4, à notre connaissance la première hiérarchie de cohérence vérifiée par machine pour de tels environnements d'exécution. Un développement de 274 obligations Verus (zéro assume, zéro admit ; base de confiance : deux axiomes structurels et une correspondance de mutex) prouve que les détecteurs sont corrects et complets par rapport aux spécifications, et que chaque environnement d'exécution évite son ensemble d'anomalies. Trois environnements d'exécution Rust déployés réalisent L0-L1 (verrouillage pessimiste, isolation par instantané sérialisable, SI par défaut), chacun vérifié contre la génération obsolète et raffiné jusqu'à sa machine d'état ; L2-L4 sont vérifiés en mode d'exécution avec des jumeaux de prévention sans dépendance (A3, A6, A2 : 0/1000 contre 1000/1000), et L2 est exécuté en direct sur trois familles de modèles (A3 empêché dans les 120 sessions rétractées). Nous reproduisons une perte silencieuse de mise à jour dans deer-flow de ByteDance, formalisant sa correction comme un raffinement vérifié de L_0 à L_1, et mettons en évidence un réordonnancement d'effets d'outils dans le ToolNode de LangGraph sur une sortie non modifiée, supprimé par un séquenceur d'ordre de validation L3. Les artéfacts de détection vérifiée, les raffinements et la réalisabilité constituent la contribution ; les phénomènes et le treillis sont classiques.