HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

46 papers found

OmniDirector : Clonage général de caméra multi-shot sans données appariées croisées
OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Jun 11

ByJiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan

Le clonage du mouvement de caméra à partir de vidéos de référence est une tâche importante en génération vidéo, car les vidéos offrent un contrôle intuitif et précis. Les méthodes existantes utilisent soit directement des représentations paramétriques qui échouent à gérer la génération multi-plans, soit synthétisent des données appariées de manière croisée, souffrant d'une rareté des données qui entraîne de mauvaises performances pour le clonage de mouvements de caméra complexes. Pour résoudre ces problèmes, nous introduisons une représentation générale du mouvement de caméra qui encode les caméras sous forme de vidéos de mouvement en grille. Cette grille de caméra représente visuellement les paramètres de la caméra et permet d'intégrer diverses trajectoires pour la génération vidéo multi-plans. Sur cette base, nous proposons OmniDirector, un cadre unifié entraîné sur des paires grille de caméra-vidéo à l'échelle du million, qui coordonne personnages, actions et caméras pour offrir un contrôle de niveau réalisateur aux transformers de diffusion multimodaux. De plus, nous concevons un nouvel agent d'expansion hiérarchique de prompt qui intègre harmonieusement différents signaux de contrôle en décrivant systématiquement le mouvement de la caméra et le contenu visuel via la compréhension des relations entre signaux. Des expériences approfondies démontrent les performances supérieures et la contrôlabilité exceptionnelle de notre cadre. Page du projet : https://ymlinfeng.github.io/OmniDirector.github.io/

APPO : Optimisation de politique procédurale agentique
APPO: Agentic Procedural Policy Optimization

Jun 10

ByXucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu

Les récentes avancées en apprentissage par renforcement agentique (RL) ont considérablement amélioré les capacités d'utilisation d'outils en plusieurs tours des agents basés sur de grands modèles de langage. Cependant, la plupart des méthodes existantes attribuent le crédit sur des unités heuristiques grossières, telles que les limites d'appels d'outils ou les workflows fixes, ce qui rend difficile l'identification des décisions intermédiaires influençant les résultats ultérieurs. Dans ce travail, nous étudions le RL agentique sous deux angles : où se ramifier et comment attribuer le crédit après la ramification. Notre analyse préliminaire montre que les points de décision influents sont largement répartis dans la séquence générée plutôt que concentrés au niveau des appels d'outils, tandis que l'entropie des jetons seule ne reflète pas de manière fiable leur impact sur les résultats finaux. Motivés par ces observations, nous proposons l'Optimisation Procédurale de Politique Agentique (APPO), qui déplace la ramification et l'attribution de crédit des unités d'interaction grossières vers des points de décision fins dans la séquence. APPO sélectionne les emplacements de ramification à l'aide d'un Score de Ramification qui combine l'incertitude des jetons avec les gains de vraisemblance induits par la politique dans les continuations ultérieures, permettant une exploration plus ciblée tout en filtrant les positions à haute entropie trompeuses. Il introduit en outre une mise à l'échelle des avantages au niveau de la procédure pour mieux répartir le crédit entre les déploiements ramifiés. Des expériences sur 13 benchmarks montrent qu'APPO améliore systématiquement les bases solides en RL agentique de près de 4 points, tout en maintenant des appels d'outils efficaces et une interprétabilité comportementale.

La mémoire est reconstruite, pas récupérée : Mémoire en graphe pour les agents LLM
Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

Jun 4

ByShuo Ji, Yibo Li, Bryan Hooi

Malgré les progrès récents, les agents LLM peinent encore à raisonner sur de longues histoires d'interaction. Alors que les agents actuels à mémoire augmentée reposent sur un paradigme statique de récupération puis raisonnement, cette conception rigide en pipeline les empêche d'adapter dynamiquement l'accès à la mémoire en fonction des indices intermédiaires découverts durant l'inférence. Pour combler cette lacune, nous proposons MRAgent, un cadre qui combine un graphe de mémoire associative avec un mécanisme de reconstruction active. Nous représentons la mémoire sous la forme d'un graphe Indice-Étiquette-Contenu, où des étiquettes associatives servent de ponts sémantiques reliant des indices fins aux contenus mémoire. Opérant sur cette structure, notre mécanisme de reconstruction active intègre directement le raisonnement du LLM dans l'accès à la mémoire, permettant à l'agent d'explorer et d'élaguer itérativement les chemins de récupération en fonction des preuves accumulées. Cela garantit que la récupération en mémoire est dynamiquement adaptée au contexte de raisonnement tout en évitant l'explosion combinatoire due à une expansion non contrainte. Les expériences sur le benchmark LoCoMo et le benchmark LongMemEval montrent des améliorations significatives par rapport aux bases de référence solides (jusqu'à 23 %), tout en réduisant considérablement les coûts en tokens et en temps d'exécution, soulignant l'efficacité de la reconstruction active et associative pour le raisonnement mémoire à long horizon.

Du chatbot au collègue numérique : le changement de paradigme vers une IA autonome persistante
From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

Jun 12

ByYongheng Zhang, Ziang Liu, Jiaxuan Zhu, Shuai Wang, Xiangqi Chen, Haojing Huang, Jiayi Kuang, Siyu Chen, Ao Shen, Hao Wu, Qiufeng Wang, Qian-Wen Zhang, Junnan Dong, Wenhao Jiang, Ying Shen, Hai-Tao Zheng, Yinghui Li, Di Yin, Xing Sun, Philip S. Yu

Les grands modèles de langage (LLM) connaissent une transformation fondamentale, passant de générateurs conversationnels à des systèmes d’IA intégrés capables de raisonnement, d’action, de mémoire et d’auto-amélioration. Nous conceptualisons cette transition comme un passage du Chatbot au Collègue numérique : des réponses conversationnelles au travail persistant. Nous organisons cette transition selon deux dimensions étroitement liées. Premièrement, au niveau du noyau cognitif, les LLM évoluent des systèmes de « pensée rapide » de l’ère Chatbot, pilotés par la prédiction du prochain jeton, vers des LLM pensants qui exploitent le calcul inférentiel, le raisonnement en chaîne de pensée, la réflexion, la supervision des processus et l’apprentissage par renforcement pour soutenir une cognition plus délibérée et fiable. Deuxièmement, au niveau de l’exécution des tâches augmentée par des outils, les LLM progressent d’Agents appelant des outils, qui invoquent des ressources externes de manière ponctuelle, vers des systèmes de poste de travail de style OpenClaw, équipés d’espaces de travail persistants, de compétences, de boucles de vérification et de gouvernance. Le paradigme « Espace de travail + Compétence » rend l’utilisation épisodique des outils comparable à celle d’un collègue, via la persistance des états, des procédures réutilisables, la clôture des tâches et la réutilisation de l’expérience. Nous examinons les évolutions de la construction des données, des paires instruction-réponse vers les trajectoires État-Action-Observation, et de l’évaluation, des bancs d’essai statiques vers des écosystèmes d’IA en bac à sable, auditable et auto-évolutifs.

Orchestra-o1 : Orchestration d'agents omnimodale
Orchestra-o1: Omnimodal Agent Orchestration

Jun 10

ByFan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng

Le récent succès des essaims d'agents a déplacé le paradigme des agents basés sur les grands modèles de langage (LLM) des workflows mono-agent vers les systèmes multi-agents, soulignant l'importance de l'orchestration des agents pour la décomposition et la collaboration des tâches. Cependant, les cadres d'orchestration existants se limitent à un ensemble restreint de modalités et peinent à se généraliser à des contextes plus complexes où des modalités hétérogènes coexistent et interagissent. Cette limitation devient particulièrement prononcée dans les scénarios omnimodaux, où les tâches nécessitent une compréhension et une coordination unifiées d'entrées diverses telles que le texte, l'image, l'audio et la vidéo. Dans ce travail, nous proposons Orchestra-o1, un cadre d'orchestration omnimodal d'agents conçu pour favoriser une collaboration efficace entre agents à travers plusieurs modalités. Orchestra-o1 introduit un mécanisme d'orchestration unifié permettant une décomposition de tâches tenant compte des modalités, une spécialisation en ligne des sous-agents, et une exécution parallèle des sous-tâches. Cette conception évolutive permet aux systèmes d'agents de traiter efficacement des tâches complexes du monde réel impliquant des sources d'information hétérogènes, surpassant la deuxième meilleure approche de 10,3 % en précision sur le benchmark OmniGAIA. De plus, nous introduisons l'optimisation de politique relative alignée sur les décisions (DA-GRPO), une approche d'apprentissage par renforcement agentique efficace pour entraîner Orchestra-o1-8B, qui atteint également des performances de pointe par rapport à tous les agents omnimodaux open source existants.

HarnessX : Une fabrique de harnais d'agent composable, adaptative et évolutive.
HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

Jun 12

ByTingyang Chen, Shuo Lu, Kang Zhao, Weicheng Meng, Hanlin Teng, Tianhao Li, Chao Li, Xule Liu, Jian Liang, Zhizhong Zhang, Yuan Xie, Heng Qu, Kun Shao, Jian Luan

La performance des agents d’IA dépend crucialement du harnais d’exécution, comprenant les prompts, outils, mémoire et flux de contrôle qui médiatisent la façon dont un modèle observe, raisonne et agit. Pourtant, les harnais actuels restent largement fabriqués à la main et statiques : chaque nouveau modèle ou tâche exige encore un échafaudage sur mesure, et les riches traces produites pendant l’exécution sont rarement distillées en amélioration systématique. Nous présentons HarnessX, une fonderie de harnais d’agents composables, adaptatifs et évolutifs. HarnessX assemble des primitives de harnais typées via une algèbre de substitution, les adapte grâce à AEGIS, un moteur d’évolution multi-agent piloté par traces et ancré dans un miroir opérationnel entre adaptation symbolique et apprentissage par renforcement, et ferme la boucle harnais-modèle en transformant les trajectoires à la fois en mises à jour du harnais et en signal d’entraînement du modèle. Sur cinq benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench et SWE-bench Verified), HarnessX obtient un gain moyen de +14,5 % (jusqu’à +44,0 %), les gains les plus importants là où les lignes de base sont les plus basses. Ces résultats suggèrent que le progrès des agents ne doit pas nécessairement provenir du seul passage à l’échelle des modèles : composer et faire évoluer les interfaces d’exécution à partir du retour d’exécution est un levier actionnable et complémentaire. L’intégralité du code sera publiée en open source dans une version ultérieure.

Repenser le RAG dans les vidéos longues : que récupérer et comment l’utiliser ?
Rethinking RAG in Long Videos: What to Retrieve and How to Use It?

Jun 11

ByYuho Lee, Jisu Shin, Nicole Hee-Yeon Kim, Jihwan Bang, Juntae Lee, Kyuwoong Hwang, Fatih Porikli, Hwanjun Song

La génération augmentée par récupération dépasse désormais le texte pour s'appliquer à de longues vidéos égocentriques, où les systèmes doivent sélectionner des segments pertinents pour la requête à travers de multiples modalités et granularités temporelles. Cependant, les progrès en VideoRAG sont limités par deux lacunes : les référentiels existants autorisent des requêtes auxquelles il est possible de répondre sans la vidéo, masquant ainsi les erreurs de récupération, et les méthodes antérieures appliquent une unique configuration modalité-granularité par requête, ignorant la variabilité au niveau des segments. Nous comblons ces deux lacunes en introduisant V-RAGBench, un référentiel de triplets ⟨requête, segment de preuve, réponse⟩ qui permet une évaluation fidèle et découplée de la récupération et de la génération, ainsi que CARVE, une méthode simple qui exécute des récupérateurs parallèles sur différentes configurations et emploie un reclassement adaptatif au segment pour identifier la configuration gagnante pour chaque segment. Chaque segment entre ensuite dans le générateur sous sa configuration gagnante sélectionnée lors de la récupération, produisant une forme de preuve entrelacée où la décision au niveau du segment se propage à travers les deux étapes. CARVE surpasse huit référentiels VideoRAG récents, les segments fournis au générateur entrelaçant plusieurs configurations plutôt que d'en partager une seule, un comportement inaccessible aux méthodes basées sur les requêtes.

OmniVideo-100K : un jeu de données pour le raisonnement audiovisuel via des scripts structurés et des chaînes de preuves
OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Jun 12

ByXinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan

Les pipelines automatisés actuels pour la Question-Réponse audio-visuelle (QA) adoptent généralement un paradigme « vidéo-légende-QA ». Cependant, ces méthodes segmentent typiquement les vidéos en courts extraits et génèrent des descriptions séparées pour les modalités audio et visuelle. Ce traitement découplé rompt les associations inhérentes entre les sons et leurs sources visuelles, tandis que le traitement indépendant des extraits entraîne souvent des descriptions incohérentes d’une même entité d’un segment à l’autre. De plus, coupler la compréhension de textes longs et la synthèse de QA en une seule étape limite souvent les modèles à des événements localisés, produisant des questions dépourvues de liens temporels à long terme et de raisonnement cross-modal profond. Pour résoudre ces problèmes, nous proposons un moteur de données automatisé doté de deux mécanismes : (1) la Scénarisation Vidéo Ancrée sur les Entités transforme les vidéos en scripts structurés, comprenant des résumés, des listes d’entités principales et des descriptions audio-visuelles par segment. La liste d’entités sert de prior global pour garantir la cohérence référentielle entre les segments et reconstruire les associations audio-visuelles. (2) la Génération de QA Guidée par les Indices incite les modèles à d’abord extraire du script des indices cross-modaux et inter-segments, puis à générer des paires QA sur la base de ces indices de grande valeur. Grâce à ce pipeline, nous construisons le jeu de données d’instruction-tuning OmniVideo-100K ainsi qu’un ensemble de test validé humainement, OmniVideo-Test. Le fine-tuning de VITA-1.5, Qwen2.5-Omni-7B et Qwen3-Omni-30B sur OmniVideo-100K permet des gains de performance allant jusqu’à 20,59 % sur OmniVideo-Test, démontrant une forte généralisation (jusqu’à 12,64 % d’amélioration) sur des benchmarks établis tels que Daily-Omni et JointAVBench.

De l'AGI à l'ASI
From AGI to ASI

Jun 10

ByTim Genewein, Matija Franklin, Alexander Lerchner, Laurent Orseau, Samuel Albanie, Adam Bales, Cole Wyeth, Stephanie Chan, Iason Gabriel, Joel Z. Leibo, Allan Dafoe, Marcus Hutter, Thore Graepel, Shane Legg

Au cours de la dernière décennie, la construction d'une intelligence artificielle générale de niveau humain est passée d'une spéculation lointaine à un objectif concret pour la prochaine décennie pour nombre des plus grandes organisations d'IA. Atteindre cet objectif aurait des impacts profonds et considérables sur la société humaine, ce qui soulève de nombreuses questions complexes pour la décennie à venir. Ce rapport examine comment l'IA elle-même pourrait continuer à se développer dans un monde post-AGI, le long du continuum de l'intelligence machine. Le point final de ce continuum, l'IA universelle, est théoriquement bien compris, ce qui fournit une base formelle pour l'objectif principal de ce rapport : la transition de l'AGI de niveau humain à la superintelligence artificielle générale, qui, intuitivement, peut être comprise comme un système plus intelligent et cognitivement capable que de grandes organisations humaines. Après avoir caractérisé l'ASI, le rapport discute de quatre voies potentielles de l'AGI à l'ASI : le passage à l'échelle de l'AGI, les changements de paradigme en IA, l'amélioration récursive, et l'émergence de l'ASI à partir de collectifs multi-agents à grande échelle. Le rapport examine ensuite les frictions et goulets d'étranglement possibles le long de ces voies. Déterminer si l'impact de ces frictions sera négligeable ou substantiel soulève un certain nombre de questions de recherche ouvertes concrètes. En raison des grandes incertitudes liées à la prévision des progrès de l'ASI, on ne peut exclure que les progrès de l'IA continuent de s'accélérer au cours des prochaines années. Cela pourrait impliquer que l'image d'un changement unique et transformateur, provoqué par l'introduction d'une AGI de niveau humain dans notre société, pourrait être inexacte. Plus appropriée pourrait être la perspective d'une série de changements sociétaux transformateurs causés par les progrès et les percées permis par l'IA dans de nombreux domaines de la science et de la technologie. Se préparer à cette perspective nécessite une entreprise massivement interdisciplinaire d'envergure et d'intérêt mondiaux.

Les modèles plus petits sont des explorateurs naturels pour la diversité au niveau des politiques dans GRPO
Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

Jun 2

ByYiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu

Nous identifions une nouvelle dimension pour améliorer la diversité des rollouts dans l'optimisation de politique relative de groupe (GRPO) pour les LLMs. Bien que GRPO repose sur des rollouts diversifiés, les stratégies dominantes augmentent principalement la diversité en injectant davantage d'aléa au niveau des tokens, ce qui peut introduire un bruit pas-à-pas et conduire à des trajectoires incohérentes. Nous découvrons que les modèles plus petits au sein d'une même famille de modèles présentent intrinsèquement une plus grande diversité au niveau de la politique, indiquée par leur pass@k supérieur à celui de leurs homologues plus grands lorsque le nombre d'échantillons augmente. Contrairement au bruit au niveau des tokens, cette diversité est temporellement corrélée, préserve la cohérence logique et fournit des signaux d'exploration structurés pour l'estimation du gradient. Nous proposons ainsi S2L-PO (Small-to-Large Policy Optimization), un cadre qui utilise des petits modèles fixes comme explorateurs naturels pour entraîner des modèles plus grands. Afin d'équilibrer exploration et exploitation, nous concevons une stratégie de recuit progressif qui passe des rollouts hors ligne du petit modèle à l'échantillonnage du grand apprenant lui-même. Ce passage évite élégamment les baisses de performance en milieu d'entraînement causées par les limites de capacité du petit modèle, permettant une convergence plus rapide et déverrouillant un plafond de performance plus élevé. S2L-PO améliore la précision sur divers benchmarks de raisonnement mathématique (par exemple, +8,8 % sur AIME 24 en utilisant un explorateur de 1,7B pour guider le modèle de 8B) tout en réduisant le calcul de rollout.

Sauter une couche ou la boucler ? Apprentissage de programme de couches dans les LLM
Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Jun 4

ByZiyue Li, Yang Li, Tianyi Zhou

Les grands modèles de langage (LLMs) réalisent l'inférence en suivant une exécution non récurrente de toutes les couches, selon une profondeur et un ordre fixes. Nous révélons l'existence répandue de programme de couches (PoLar) flexible, dynamique et sans entraînement, où les couches pré-entraînées peuvent être regroupées en modules puis sautées ou bouclées pour former un programme personnalisé pour chaque entrée. Pour la plupart des entrées, des exécutions de programmes sensiblement plus courtes peuvent atteindre la même précision ou une meilleure, tandis que les prédictions incorrectes du LLM original peuvent être corrigées par des programmes alternatifs avec moins de couches. Ces observations indiquent que l'inférence admet plusieurs calculs latents valides au-delà du passage avant standard. Pour atteindre efficacement PoLar en pratique, nous proposons un réseau de prédiction PoLar léger, qui apprend à générer des programmes d'exécution qui sautent ou répètent dynamiquement des couches pré-entraînées pour chaque entrée. Les expériences sur des références de raisonnement mathématique montrent que PoLar améliore constamment la précision par rapport à l'inférence standard et aux méthodes dynamiques antérieures, souvent tout en exécutant moins de couches, et que ces gains persistent lors d'une évaluation hors distribution. Nos résultats suggèrent que l'exécution à profondeur fixe ne capture qu'un sous-ensemble étroit de la capacité de raisonnement latent d'un LLM.

Mesure de la résilience épistémique des LLMs dans un contexte médical trompeur
Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

Jun 10

ByHongjian Zhou, Xinyu Zou, Jinge Wu, Sean Wu, Junchi Yu, Bradley Max Segal, Tobias Erich Niebuhr, Sara Amro, Michael Petrus, Sheikh Momin, Alexandra M. Cardoso Pinto, Rachel Niesen, Laura Sophie Wegner, Dhruv Darji, Jung Moses Koo, Joshua Fieggen, Kapil Narain, Mingde Zeng, Lei Clifton, Linda Shapiro, Fenglin Liu, David A. Clifton

Les grands modèles de langage (LLMs) atteignent désormais des scores de niveau expert aux examens d'autorisation d'exercice de la médecine, ce qui encourage l'hypothèse selon laquelle des scores élevés impliquent un jugement médical sûr, tandis que les patients les utilisent de plus en plus pour obtenir des conseils de santé. Nous montrons que cette hypothèse est fragile : lorsqu'un contexte trompeur est injecté dans des questions auxquelles les LLMs répondaient initialement correctement, ils abandonnent la bonne réponse. Nous appelons résilience épistémique la capacité à maintenir un jugement correct dans un contexte adversarial, et nous introduisons MedMisBench pour la mesurer. MedMisBench contient 10 932 questions médicales et 48 889 paires contexte-option trompeuses couvrant le raisonnement médical, la capacité agentive et l'évaluation du parcours patient. Sur 11 configurations de modèles, la précision moyenne passe de 71,1 % sur les questions originales à 38,0 % dans un contexte trompeur ciblé, avec un taux de réussite de l'attaque de 51,5 %. Les injections les plus dommageables sont des fabrications formelles et ressemblant à des règles : les contre-vérités cadrées par une autorité atteignent un taux de réussite de l'attaque de 69,5 % et les affirmations d'empoisonnement par exception atteignent 64,1 %. Un panel clinique de 14 membres provenant de 7 pays a identifié un préjudice potentiel grave dans 38,2 % des cas examinés. MedMisBench expose un angle mort structurel dans l'évaluation des LLMs en contexte médical : les références existantes mesurent ce que les modèles savent, mais pas s'ils préservent un jugement médical correct dans un contexte trompeur.

RedAct : Suppression des traces de capacités d'agent pour la protection des compétences procédurales
RedAct: Redacting Agent Capability Traces for Procedural Skill Protection

Jun 10

ByShuwen Xu, Zhitao He, Yi R. Fung

Les utilisateurs s'appuient sur les traces d'exécution pour observer le comportement des agents, diagnostiquer les défaillances et garantir la responsabilité. Ces traces contiennent des détails procéduraux riches, notamment les invocations d'outils, les décisions intermédiaires et la logique de récupération d'erreurs. Cependant, ces détails peuvent exposer des compétences procédurales privées, permettant à des méthodes aval de reconstituer des formules, seuils et stratégies clés sans accès aux poids du modèle ni aux fichiers de compétences. Pour quantifier ce risque et évaluer la protection, nous construisons CapTraceBench, un banc d'essai comprenant 75 tâches spécialisées à long horizon et 154 compétences soigneusement sélectionnées dans sept domaines. Nous introduisons également RedAct (https://github.com/XuShuwenn/RedAct), un cadre de publication de traces protégées qui localise les informations clés à protéger, réécrit les traces tout en préservant les preuves essentielles pour le vérificateur, et intègre des filigranes comportementaux pour l'analyse de provenance en aval. Sur des méthodes représentatives de réutilisation des traces, RedAct réduit le transfert normalisé de compétences (NST) de 44,7 à 67,1 % sur les traces brutes en dessous du seuil de base sans compétence, tout en préservant les preuves d'audit. Ses filigranes comportementaux autonomes atteignent un taux de détection vraie de 93,6 à 100,0 % avec un taux de fausses alarmes d'au plus 1,9 %. Ces résultats présentent les traces d'agents publics comme des interfaces de sécurité et montrent qu'une rédaction sélective peut réduire les fuites de capacités procédurales sans supprimer les preuves d'audit.

Les agents LLM peuvent voir les dépôts de code
LLM Agents Can See Code Repositories

Jun 12

ByDongjian Ma, Silin Chen, Yufei Yang, Yulin Shi, Yanfu yan, Xiaodong Gu

Les agents de codage alimentés par de grands modèles de langage ont démontré des performances solides dans les tâches de génie logiciel. Cependant, la plupart des agents consomment les dépôts presque exclusivement sous forme de texte, ce qui diffère de la manière dont les développeurs humains utilisent la structure visuelle, telle que les hiérarchies de dossiers et les relations de dépendance, pour s'orienter dans de grandes bases de code. Avec les grands modèles de langage multimodaux (MLLM), il reste une question ouverte de savoir si les agents peuvent bénéficier efficacement des représentations visuelles des dépôts. Cet article présente la première étude empirique systématique des représentations visuelles de dépôts pour les agents basés sur des LLM dans le cadre de la résolution de problèmes au niveau du dépôt. Nous évaluons quatre modèles multimodaux récents. Nos résultats montrent qu'une configuration strictement visuelle dégrade la précision et augmente le coût en tokens, car les agents manquent de détails symboliques suffisants et compensent par des requêtes visuelles répétées. En revanche, l'intégration de graphes visuels de la structure du dépôt en tant que modalité supplémentaire aux côtés des interfaces textuelles standard aide les agents à comprendre la structure plus efficacement : la consommation de tokens en entrée diminue jusqu'à 26 % tandis que la précision de résolution des problèmes est maintenue ou améliorée. La visualisation est la plus utile lors de la localisation des défauts et lorsque l'agent contrôle de manière autonome la profondeur d'exploration. Ces résultats indiquent une conception hybride texte-et-vision pratique pour les agents de codage de nouvelle génération.

RepFusion : Tirer parti des a priori multimodaux pour le débruitage dans l'espace de représentation
RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

Jun 12

ByXichen Pan, Aashu Singh, Satya Narayan Shukla, Xiangjun Fan, Shlok Kumar Mishra, Saining Xie

Les grands modèles de langage (LLMs) sont largement utilisés dans les systèmes de texte-à-image (T2I), mais ils sont généralement limités à l'encodage du texte, tandis que le débruitage est pris en charge par des architectures génératives nouvellement entraînées. L'émergence des autoencodeurs de représentation (RAEs) déplace l'objectif de génération vers des représentations visuelles sémantiquement structurées, créant un espace latent plus compatible avec les a priori des LLMs pré-entraînés. Inspirés par les LLMs multimodaux (MLLMs), où un projecteur MLP suffit pour aligner des représentations visuelles propres avec un LLM pré-entraîné, nous réutilisons le MLLM lui-même comme encodeur de représentation bruitée, étendant ce mécanisme des entrées propres aux entrées bruitées. Nous présentons RepFusion, qui utilise les sorties résultantes du MLLM comme signal de conditionnement pour un transformateur de diffusion. Dans des comparaisons contrôlées à des budgets d'inférence similaires, RepFusion surpasse les baselines qui consacrent une capacité comparable à des débruitages nouvellement initialisés. Ces résultats démontrent que les MLLMs fournissent des a priori solides pour le débruitage de représentations visuelles et qu'en conditionnant sur des représentations bruitées en évolution, le calcul en phase de test peut être utilisé de manière productive pour un conditionnement répété du MLLM dans les systèmes T2I modernes.

iMaC : traduire les actions en images de mouvement et de contact pour les modèles du monde incarnés
iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

Jun 8

ByZhenyu Wu, Xiuwei Xu, Yukun Zhou, Yifan Li, Qiuping Deng, Xiaofeng Wang, Zheng Zhu, Bingyao Yu, Ziwei Wang, Jiwen Lu, Haibin Yan

Les modèles du monde incarnés sont devenus un paradigme central pour la prise de décision robotique visuelle et la simulation interactive d’environnements. Cependant, les architectures incarnées conventionnelles reposent sur des vecteurs d’action structurés de faible dimension (par exemple, les angles articulaires et les poses de l’effecteur terminal), qui souffrent d’une capacité expressive limitée, d’une mauvaise généralisation entre diverses incarnations et d’une modélisation dynamique non naturelle pour des interactions physiques complexes. Pour pallier ces limitations, cet article propose iMac (Image as Action Control), un nouveau paradigme de contrôle unifié qui traite les images visuelles brutes comme des représentations d’action natives pour les modèles du monde incarnés. Contrairement au codage cinématique explicite traditionnel des actions, iMac formule la manipulation visuelle continue comme des tokens d’action basés sur l’image, qui encapsulent intrinsèquement les intentions de mouvement spatial, les contraintes géométriques interactives et les dynamiques physiques subtiles. Nous construisons une architecture incarnée à double branche composée d’un encodeur d’action-image et d’un prédicteur dynamique du monde : l’encodeur compresse les images visuelles guidées par la cible en plongements d’action compacts, tandis que le prédicteur apprend les règles de transition de l’environnement conditionnées par les actions image afin d’obtenir une prédiction d’état futur de haute fidélité et un contrôle incarné en boucle fermée. Des expériences approfondies sont menées sur des bancs d’essai publics de manipulation incarnée et des scénarios robotiques réels. Les résultats montrent qu’iMac surpasse les références de contrôle d’action basées sur des vecteurs en termes de précision de prédiction, de taux de réussite des tâches et de capacité de généralisation inter-scènes. De plus, notre conception d’action-image élimine la dépendance aux espaces d’action définis manuellement, réalisant un contrôle flexible et universel pour des agents incarnés hétérogènes. Ce travail offre une perspective visuelle-action innovante pour les modèles du monde incarnés, fournissant un paradigme simple mais efficace pour une perception et une manipulation robotiques évolutives.

Hy-Embodied-0.5-VLA : Des modèles vision-langage-action vers une pile d'apprentissage robotique en conditions réelles
Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

Jun 12

ByHe Zhang, Lingzhu Xiang, Haitao Lin, Zeyu Huang, Minghui Wang, Dingyan Zhong, Yubo Dong, Yihao Wu, Yongming Rao, Dongsheng Zhang, Wanjia He, Ling Chen, Kai Huang, Jiahao Chen, Sichang Su, Xumin Yu, Ziyi Wang, Chengwei Zhu, Xiao Teng, Yuchun Guo, Yufeng Zhang, Yuandong Liu, Rui Wang, Zisheng Lu, Han Hu, Zhengyou Zhang

Dans ce rapport, nous présentons Hy-Embodied-0.5-VLA, abrégé en HyVLA-0.5, un système de bout en bout qui couvre l'ensemble de la pile d'apprentissage robotique : collecte de données, conception de modèle, pré-entraînement continu et ajustement fin supervisé, post-entraînement par apprentissage par renforcement, et déploiement dans le monde réel. Chaque composant joue un rôle distinct dans cette pile.

Pythagoras-Prover : Avancées dans la preuve formelle efficace via la formalisation Lean augmentée
Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

Jun 10

ByJoshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia

Les prouveurs de théorèmes Lean modernes n’atteignent des performances élevées qu’avec des ressources computationnelles importantes en entraînement et en inférence, en partie à cause de la rareté des données de preuves vérifiées et des longues traces de raisonnement issues de la recherche de preuves formelles, ce qui rend coûteux à la fois le fine-tuning supervisé (SFT) et l’échantillonnage. Nous présentons Pythagoras-Prover, une famille de prouveurs Lean open source économes en calcul, conçue pour des budgets computationnels pratiques. Cette famille couvre deux paradigmes de génération : des modèles autorégressifs de 4B et 32B paramètres, ainsi qu’un premier prouveur basé sur la diffusion (4B) à titre de preuve de concept, qui affine itérativement les preuves Lean au moment de l’inférence. Pour l’efficacité de l’entraînement, nous construisons un corpus vérifié Lean stratifié en problèmes faciles, moyens et difficiles pour un SFT curriculaire, permettant aux modèles d’acquérir progressivement des compétences en preuve, depuis des preuves plus courtes et simples jusqu’à des preuves plus longues et complexes. Pendant le SFT, un mécanisme de filtrage dynamique du raisonnement de preuve préserve les traces informatives tout en maintenant chaque instance dans un budget de contexte de 8k tokens. Nous introduisons également l’Augmented Lean Formalisation (ALF), qui étend les corpus vérifiés rares en variants d’énoncés formels, peuplés via auto-distillation pour un signal d’entraînement supplémentaire sans vérifier formellement chaque instance mutée. En perturbant des problèmes connus tout en préservant leur caractère formel, ALF réduit la dépendance à la forme de surface d’un énoncé. Empiriquement, Pythagoras-Prover-4B surpasse DeepSeek-Prover-V2-671B à pass@32 sur MiniF2F-Test (86.1 % contre 82.4 %) avec environ 167 fois moins de paramètres, tandis que Pythagoras-Prover-32B établit un nouvel état de l’art open source à 93.0 % sur MiniF2F-Test et résout 93 des 672 problèmes de PutnamBench. Nous publions MiniF2F-ALF, un benchmark sensible à la contamination par mutation ALF sur lequel chaque modèle évalué perd en précision ; ici, notre modèle 32B reste le plus fort et notre modèle 4B égale l’état de l’art précédent, Goedel-Prover-V2-32B.

Pas besoin d'invites cachées ! On peut tromper l'évaluation par les pairs par IA avec des révisions de pure forme.
No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions

Jun 11

ByXu Yang, Zhizhou Sha, Junbo Li, Jian Yu, Yifan Sun, Matthew Zhao, Jinrui Fang, Xinyue Guo, Yining Wu, Xu Hu, Yifu Luo, Qiang Liu, Zhangyang Wang

Alors que les évaluations générées par l’IA passent d’outils expérimentaux à une infrastructure d’examen par les pairs, la plupart des préoccupations concernant la robustesse se sont concentrées sur des attaques explicites telles que les instructions cachées et l’injection d’invites. Nous étudions un mode de défaillance plus difficile et plus pertinent sur le plan politique : aucun texte caché, aucune injection d’invite, et aucune modification des méthodes, expériences, figures, équations, preuves ou résultats numériques. L’attaquant ne modifie que le contenu formel, tel que le résumé, le cadrage des contributions, les travaux connexes, la discussion et la structure narrative. Nous introduisons le *reconditionnement adversarial* : une attaque en boucle fermée qui utilise les retours de l’évaluateur IA pour rechercher des révisions au niveau formel tout en maintenant les preuves scientifiques inchangées. Sur trois évaluateurs IA courants, le reconditionnement adversarial atteint un taux de succès de 75,1 % et un gain de score moyen de +1,21/10. Cet effet ne s’explique pas par un simple polissage de la prose. Nous révélons également que les stratégies qui modifient la façon dont l’évaluateur interprète l’article—comme le repositionnement des travaux connexes et l’expansion de la discussion analytique—surpassent largement les modifications superficielles telles que le polissage local, la mise en forme des tableaux et les encadrés d’algorithmes. Notre analyse met en évidence deux modes de défaillance structurels plus profonds. Premièrement, les évaluateurs IA sont plus faciles à impressionner qu’à convaincre : mettre en avant les forces augmente de manière fiable le mérite perçu, tandis que les tentatives de dissiper les faiblesses se retournent fréquemment contre elles. Deuxièmement, les évaluateurs IA peuvent confondre l’apparence d’une réponse à une limitation avec sa résolution effective, permettant ainsi à des preuves inchangées d’être réinterprétées comme une contribution scientifique plus forte. Ces résultats montrent que le risque lié au déploiement ne réside pas seulement dans les instructions cachées malveillantes, mais aussi dans l’émergence de la présentation même de l’article comme une surface d’optimisation. Nous publions un benchmark évolutif sans contamination ainsi qu’un cadre d’attaque pour tester si les évaluateurs IA restent ancrés dans le contenu scientifique sous l’effet de modifications formelles uniquement.

VISTA : Entraînement auto-vérifié à cohérence de vue pour l'ancrage d'interfaces graphiques
VISTA: View-Consistent Self-Verified Training for GUI Grounding

Jun 12

ByXinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao Zhu

Lorsque l'on applique l'Optimisation Relative des Politiques par Groupes (GRPO) pour l'ancrage d'interface graphique (GUI Grounding), les tirages (rollouts) sont échantillonnés à partir d'une seule vue d'écran ; les groupes deviennent souvent soit tous des échecs sur des instances difficiles, soit tous des succès sur des instances faciles, ne fournissant ainsi aucun avantage relatif utile. Nous proposons VISTA (View-Consistent Self-Verified Training), un cadre d'entraînement basé sur GRPO qui construit chaque groupe de comparaison à partir de multiples vues préservant la cible d'une même instance d'interface graphique. Chaque vue est générée par un recadrage (crop) qui maintient l'élément cible visible et remappe exactement sa boîte, permettant ainsi de comparer les tirages du modèle sur des entrées sémantiquement équivalentes mais géométriquement différentes. Pour stabiliser la génération de coordonnées courtes sans transformer l'apprentissage par renforcement en imitation inconditionnelle, VISTA ajoute en outre un ancrage inter-vues auto-vérifié : une réponse oracle optimisée avec une perte pondérée par l'avantage, exclue de la baseline du groupe et activée uniquement lorsque le modèle a produit un tirage de récompense maximale. Sur cinq benchmarks d'ancrage d'interface graphique et plusieurs backbones Qwen, VISTA améliore systématiquement la précision d'ancrage. Sur ScreenSpot-Pro, il fait passer Qwen3-VL 4B/8B/30B-A3B de 55,5/52,7/53,7 à 63,4/65,8/67,0. Les analyses de robustesse montrent en outre une précision de pire vue plus élevée et des taux de basculement de prédiction plus faibles.

MBench : Un référentiel complet sur la capacité de mémoire pour les modèles de monde vidéo
MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

Jun 8

ByShengjun Zhang, Zhang Zhang, Simin Huang, Zhenyu Tang, Hanyang Wang, Chensheng Dai, Min Chen, Yifan Li, Yuxin Li, Yingjie Chen, Hao Liu, Chen Li, Jing Lyu, Yueqi Duan

Les récentes avancées dans les modèles du monde basés sur la vidéo ont démontré une capacité sans précédent à synthétiser des séquences visuelles haute-fidélité. Cependant, un écart fondamental persiste entre la génération vidéo visuellement plausible et les exigences fonctionnelles d’un modèle du monde, notamment en ce qui concerne le maintien d’un état interne stable et raisonnable sur des horizons temporels étendus. Alors que les référentiels existants mettent principalement l’accent sur la qualité visuelle, la cohérence du mouvement et l’adéquation texte-vidéo, ils négligent largement la mémoire, capacité essentielle d’un modèle du monde à préserver la cohérence sur de longs horizons et des interactions complexes. Pour combler cette lacune, nous présentons MBench, un référentiel complet dédié à la quantification et à l’évaluation de la capacité de mémoire des modèles du monde vidéo. Nous décomposons systématiquement la capacité de mémoire des modèles du monde vidéo en trois dimensions fondamentales hiérarchiques et complémentaires : la cohérence des entités, la cohérence de l’environnement et la cohérence causale, qui sont ensuite affinées en 12 sous-dimensions quantifiables pour caractériser complètement la mémoire à long terme. Notre référentiel s’appuie sur de longues vidéos réelles rigoureusement organisées, et est évalué à l’aide de matrices quantitatives basées sur des règles et d’un VLM afin de permettre une évaluation objective et complète de la cohérence. Des évaluations approfondies des principaux modèles du monde vidéo de pointe révèlent des limitations systémiques critiques des méthodes existantes en matière de maintien de l’état à long terme, fournissant ainsi un référentiel standardisé et une direction de recherche claire pour faire progresser le domaine.

μ_0 : Un modèle du monde 3D évolutif à base de traces d'interaction
μ_0: A Scalable 3D Interaction-Trace World Model

Jun 11

BySeungjae Lee, Yoonkyo Jung, Jusuk Lee, Jonghun Shin, Amir Hossein Shahidzadeh, Yao-Chih Lee, H. Jin Kim, Jia-Bin Huang, Furong Huang

Les modèles du monde qui capturent la manière dont les actions induisent des changements physiques permettent un apprentissage robotique scalable sans dépendre d'étiquettes d'actions spécifiques à l'incarnation. Les modèles vidéo dans l'espace pixel fournissent des a priori visuels étendus mais dépensent la capacité du modèle dans la reconstruction dense de l'apparence, tandis que les modèles d'action directs nécessitent des étiquettes spécifiques à l'incarnation qui entravent la scalabilité. Nous présentons μ₀, un modèle du monde scalable basé sur des traces 3D. Au lieu de prédire des pixels denses ou de modéliser directement les actions, μ₀ prévoit des trajectoires 3D lisses pour des points d'interaction saillants tels que les objets, les outils, les mains et les zones de contact, fournissant ainsi une interface de mouvement compacte et indépendante de l'incarnation. Pour permettre l'entraînement à partir de diverses sources vidéo, notre système TraceExtract extrait automatiquement une supervision 3D en sélectionnant des points clés, en construisant des traces globalement alignées et en associant des segments de mouvement à des légendes linguistiques hiérarchisées. Cette supervision de TraceExtract pré-entraîne μ₀ en combinant un backbone vision-langage pré-entraîné avec un expert de traces modulaire, qui représente chaque requête via des points de contrôle B-spline et prédit les traces futures. Les expériences montrent que μ₀ surpasse les bases de référence tant dans la prédiction de traces 2D que 3D, y compris les modèles de prédiction de traces et les méthodes VLM tokenisées. Parce que μ₀ est figé et réutilisable, il peut être associé à des experts d'action pour les incarnations robotiques en aval. Malgré un pré-entraînement sans action, les politiques conditionnées par les traces qui en résultent atteignent des performances compétitives avec les modèles VLA pré-entraînés avec supervision d'action, tels que π₀. Ces résultats établissent les traces 3D comme une représentation scalable et transférable pour la manipulation inter-incarnation.

L'agent arbitre : surveillance continue des conversations multi-agents pour détecter le désalignement émergent
The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

Jun 9

ByFilippo Tonini, Federico Torrielli, Anton Danholt Lautrup, Peter Schneider-Kamp, Mustafa Mert Çelikok, Lukas Galke Poech

À mesure que les systèmes d'IA composés de multiples agents basés sur des modèles de langage se généralisent, ils sont de plus en plus utilisés pour prendre des décisions collectivement : discuter, négocier et agir sur des tâches partagées. Bien que des agents individuels puissent sembler bien alignés lorsqu'ils sont testés isolément, des problèmes peuvent surgir de leurs interactions mutuelles. Nous présentons l’Arbiter, un agent conçu pour surveiller en temps réel les conversations multi-agents et identifier quels participants pourraient adopter un comportement non aligné. L’Arbiter fonctionne sous un « budget d'inspection » limité, ce qui l'oblige à utiliser ses ressources avec discernement. En observant une conversation pas à pas, il peut choisir d'attendre, d'interroger un participant, d'examiner des informations internes telles que les invites système ou les traces de raisonnement, ou de consigner un comportement suspect. À l'issue de l'observation, il produit un rapport identifiant la source probable du désalignement. Nous évaluons l’Arbiter dans cinq conditions conversationnelles, allant de conseils financiers risqués (organismes modèles) à des agents conscients de l'évaluation et en collusion. Nous testons cinq configurations d'outils de capacités croissantes ainsi que deux modèles de base. Nous constatons que l’Arbiter détecte de manière fiable les agents non alignés bien avant la fin de la conversation, les outils d'inspection active améliorant à la fois la précision et la rapidité de détection. Le désalignement induit par les poids s'avère le plus difficile à détecter, tandis que le désalignement induit par les instructions est identifié de manière fiable même sous observation passive. L'outil de consignation présente un effet double : il améliore le rappel au détriment de la précision. Ces résultats suggèrent qu'une surveillance continue et tenant compte du budget peut efficacement détecter le désalignement, et que superviser des systèmes multi-agents pourrait exiger de considérer l'auditeur comme un participant actif au processus. Le code est disponible à l'adresse https://github.com/aisilab/arbiter.

Avatar V : Mise à l'échelle de la génération de vidéos d'avatar avec référence vidéo
Avatar V: Scaling Video-Reference Avatar Video Generation

Jun 11

ByBenjamin Liang, Ce Chen, Desmond Lin, Ivan Somov, Jiajun Zhao, Jiewei Yuan, Jingfeng Zhang, Junhao Huang, Nik Nolte, Pedram Haqiqi, Penghan Wang, Rong Yan, Rui Zhang, Sam Prokopchuk, Sivan Wang, Viktor Goriachko, Yi Ren, Yuanming Li, Yutao Chen, Zhenhui Ye, Zhibin Hong, Zilong Nie, Zujin Guo

Générer des vidéos d’avatar qui ne sont pas seulement visuellement similaires à une personne cible, mais également reconnaissables sur le plan comportemental, en reproduisant fidèlement leur rythme de parole, leurs tendances gestuelles et leur dynamique expressionnelle, reste un défi ouvert. Les méthodes existantes se basent principalement sur des images statiques uniques, qui fournissent des informations d’identité insuffisantes et ne peuvent capturer les traits dynamiques du mouvement, tandis que les objectifs standard au niveau des pixels sous-servent les régions faciales critiques pour la perception qui déterminent la fidélité de l’avatar. Nous présentons Avatar V, un cadre à l’échelle de production qui répond à ces limitations grâce à une modélisation de l’identité conditionnée par une référence vidéo. Plutôt que de compresser l’identité en embeddings de taille fixe, le modèle se conditionne directement sur la séquence complète de tokens d’une vidéo de référence, apprenant à reproduire à la fois les attributs d’identité statique (géométrie faciale, texture de la peau) et les schémas comportementaux dynamiques (rythme de parole, micro-expressions) via une attention sur le contexte de référence. Nous introduisons l’Attention de Référence Éparse (Sparse Reference Attention), un mécanisme asymétrique offrant un conditionnement à complexité linéaire sur des références arbitrairement longues ; un flux de représentation du mouvement permettant le transfert de style de parole en boucle fermée ; et un affineur de super-résolution conscient de l’identité héritant du conditionnement complet de la référence. Ces éléments sont soutenus par un moteur de données qui organise plus de 100 millions de clips d’entraînement à partir de 50 millions de vidéos brutes, et un pipeline d’entraînement en cinq étapes comprenant un pré-entraînement par appariement de flux (flow matching), un réglage fin de la personnalité, une distillation en deux phases (accélération >10×), et un alignement RLHF, déployé sur des milliers de GPU. Avatar V génère des vidéos 1080p de durée illimitée, atteignant un état de l’art en matière de préservation de l’identité, de synchronisation labiale et de qualité de génération sur notre référentiel trans-scène, surpassant systématiquement les systèmes leaders tels que Seedance 2.0, Kling O3 Pro, Veo 3.1 et OmniHuman 1.5, à la fois dans les métriques automatisées et l’évaluation humaine.

RhymeFlow : Accélération sans entraînement pour la génération de vidéos avec planification asynchrone du flux de débruitage
RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling

Jun 4

ByChensheng Dai, Shengjun Zhang, Yifan Li, Zhang Zhang, Zheng Zhu, Yueqi Duan

Les modèles de génération vidéo basés sur les Transformers de diffusion (DiTs) ont obtenu des performances remarquables en synthèse vidéo, mais souffrent d’une latence d’inférence élevée et de coûts de calcul importants en raison de la complexité quadratique de l’attention 3D. Les méthodes d’accélération existantes réduisent principalement la complexité de calcul au sein de chaque étape individuelle de débruitage grâce à des techniques telles que l’attention sparse et la mise en cache KV. Cependant, elles adhèrent rigoureusement à la contrainte inhérente du pipeline de diffusion standard : chaque image de la séquence vidéo cible doit subir un processus de débruitage complet et dense sur l’ensemble des pas de temps de diffusion. Nous observons qu’en raison des contenus et des mouvements correspondants entre les images adjacentes, lorsque des images clés avec des transitions sémantiques critiques sont ancrées, les états intermédiaires des autres suivent souvent des trajectoires plus prévisibles, ce qui indique qu’un tel processus de débruitage uniforme et dense est intrinsèquement redondant pour les données vidéo naturelles. À cette fin, nous introduisons RhymeFlow, un cadre sans entraînement qui découple les trajectoires de débruitage des différentes images. Plus précisément, nous identifions d’abord un ensemble sparse d’images clés pivot qui dominent l’évolution sémantique latente. Ensuite, seules ces images clés subissent un débruitage dense, étape par étape, pour garantir l’intégrité structurelle, tandis que les images non clés sautent progressivement des étapes de débruitage afin de minimiser le coût de calcul. Étant donné que les états intermédiaires sautés des images non clés brisent la cohérence temporelle dans les étapes de débruitage des images clés, entraînant une dégradation visuelle, nous introduisons en outre un module de projection de trajectoire latente, qui permet aux images clés d’interagir avec une représentation de séquence complète et temporellement cohérente. Des expériences approfondies sur les modèles actuels de génération vidéo basés sur DiT démontrent que notre méthode surpasse les bases de référence existantes avec une vitesse d’inférence plus élevée et une meilleure qualité visuelle.

Le pouvoir caché du facteur d'échelle dans l'optimisation LoRA
The Hidden Power of Scaling Factor in LoRA Optimization

Jun 11

ByZicheng Zhang, Haoran Li, Jiaxing Wang, Guoqiang Gong, Anqi Li, Yudong Hu, Ting Xiong, Yurong Gao, Junxing Hu, Zhida Jiang, Yifeng Zhang, Pengzhang Liu, Qixia Jiang

Dans l'Adaptation de Bas-Rang (LoRA), le facteur d'échelle α est souvent traité comme un simple complément du taux d'apprentissage, mais son rôle dans l'optimisation reste mal compris. Dans cet article, nous révélons que le facteur d'échelle α et le taux d'apprentissage agissent différemment, α s'imposant comme le moteur dominant de l'optimisation effective, apportant des gains que la seule mise à l'échelle du taux d'apprentissage ne peut reproduire. Grâce à la synergie d'une analyse empirique approfondie et d'un cadre théorique Signal-Dérive, nous découvrons trois constats sur le mécanisme de mise à l'échelle de LoRA : premièrement, la suppression spectrale de LoRA lisse le paysage d'optimisation, rendant les hyperparamètres standards trop conservateurs et créant un écart d'optimisation. Deuxièmement, en tirant parti de ce lissage pour accélérer la convergence, α surpasse le taux d'apprentissage en amplifiant le signal de la tâche sans augmenter le rapport de dérive. Troisièmement, le facteur d'échelle optimal suit une relation sous-linéaire avec le rang, bien caractérisée par une loi en racine carrée avec un coefficient étonnamment grand, révélant une mise à l'échelle insuffisante des heuristiques existantes liées au rang. À partir de ces observations, nous proposons LoRA-α, un cadre minimaliste qui rétablit α dans son régime de principe, rendant LoRA compatible avec de petits taux d'apprentissage standards. Des évaluations approfondies sur diverses tâches montrent que LoRA-α améliore systématiquement les performances tout en simplifiant la recherche d'hyperparamètres, libérant ainsi le potentiel d'apprentissage de LoRA.

Quand votre LLM est-il contrôlable ?
When is Your LLM Steerable?

Jun 10

ByChenrui Fan, Yize Cheng, Ming Li, Soheil Feizi, Tianyi Zhou

Le guidage par activation offre une approche légère pour contrôler le comportement des modèles de langage lors de l'inférence, mais sa réussite ou son échec dépend fortement de la requête, du concept, du modèle et de la configuration de guidage. Déterminer le régime et les limites d'un guidage réussi nécessite généralement des recherches par grille coûteuses et une évaluation post-hoc de déroulements autorégressifs complets. Dans ce travail, nous examinons si la guidabilité peut être prédite à partir des états internes du modèle au début du processus de génération, par exemple après la génération des premiers tokens, et comment exploiter un tel prédicteur pour améliorer le taux de succès du guidage. À cette fin, nous introduisons d'abord ASTEER, un banc d'essai comprenant 1,4 million de générations guidées, couvrant 150 concepts, chaque guidage étant étiqueté comme réussi ou échoué. En exploitant ce banc d'essai, nous analysons la dynamique précoce du décodage du modèle en extrayant des caractéristiques qui comparent les états cachés avant et après le guidage à travers les couches et les premières étapes de décodage. Ces caractéristiques nous aident à comprendre comment les effets du guidage se propagent le long des couches et des positions des tokens, fournissant des informations clés pour la prédiction de la guidabilité. Nous entraînons ensuite un classifieur à arbres de décision à gradient boosting (GBDT) sur ces caractéristiques afin de prédire si une intervention entraînera un sous-guidage, un succès ou un sur-guidage, sans nécessiter de déroulement complet. Notre prédicteur atteint un score F1 macro d'environ 0,7 sur des concepts non vus, démontrant que les états cachés précoces encodent une information substantielle et structurée sur l'efficacité ultime du guidage. Nous exploitons en outre ce prédicteur de guidabilité comme guide pour la recherche de l'intensité de guidage, obtenant des performances quasi optimales avec une fraction du coût de décodage.

ClinHallu : un benchmark pour diagnostiquer les hallucinations par étapes dans le raisonnement des MLLM médicaux
ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

Jun 12

BySicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu

La construction de modèles de langage multimodaux médicaux de grande taille (MLLMs) fiables est essentielle pour un soutien fiable à la décision clinique. Les référentiels existants sur les hallucinations médicales se concentrent principalement sur la collecte de données, mais ignorent souvent l’origine des hallucinations dans le processus de raisonnement. Nous constatons que les sources d’hallucination varient selon les échantillons : les erreurs peuvent provenir d’une méconnaissance visuelle, d’un rappel incorrect de connaissances médicales ou d’une intégration défaillante du raisonnement. Pour permettre un diagnostic des hallucinations au niveau des sources, nous introduisons ClinHallu, un référentiel pour le diagnostic par étape des hallucinations dans le raisonnement des MLLMs médicaux. ClinHallu contient 7 031 instances validées, chaque instance étant enrichie d’une trace de raisonnement structurée décomposée en Reconnaissance Visuelle, Rappel de Connaissances et Intégration du Raisonnement. Nous utilisons également des interventions de remplacement d’étapes pour mesurer comment la correction d’étapes spécifiques affecte la réponse finale. Au-delà de l’évaluation, nous montrons que le fine-tuning supervisé par trace réduit les hallucinations par étape. ClinHallu fournit un banc d’essai d’hallucinations à grain fin pour diagnostiquer et atténuer les échecs de raisonnement dans les MLLMs médicaux. Le référentiel est accessible publiquement à l’adresse https://github.com/alibaba-damo-academy/ClinHallu.

LoSoNA : Un benchmark pour l'adaptation des normes sociales locales dans les conversations de groupe.
LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

Jun 12

ByMateusz Winiarek, Maksymilian Bilski, Mateusz Jacniacki

Les groupes de discussion en ligne sont des espaces sociaux dotés de normes conversationnelles locales rarement explicitées. La capacité et la propension des agents basés sur les LLM à reconnaître et à s'adapter à ces normes reste largement inexplorée. Nous présentons LoSoNA, un référentiel pour l'adaptation aux normes sociales locales dans les conversations multipartites. Chaque scénario fournit au modèle sujet un transcript de discussion de groupe préétabli dans lequel les participants non sujets manifestent une norme locale cachée, suivi d'un tour de sollicitation final qui force une réponse révélant si le sujet a inféré cette norme. Nous évaluons huit modèles de pointe et à poids ouverts sous quatre conditions de sollicitation qui varient en fonction du degré d'explicitation donné au modèle pour traiter la conversation antérieure comme preuve de la manière dont il doit répondre. La sollicitation naïve reste limitée pour la plupart des modèles ; l'aide d'une sollicitation explicite prenant en compte les normes est inégale, Gemini 3.1 Pro atteignant 84,2 % et Claude Fable 5 atteignant 81,6 %, tandis que plusieurs autres modèles ne montrent que de faibles gains ou des régressions. LoSoNA contribue aux appels récents à évaluer les capacités sociales des LLM en testant si les modèles peuvent inférer des normes conversationnelles locales à partir de précédents et les utiliser dans une réponse de discussion de groupe en un seul tour.

Évaluation comparative des agents d’IA pour relever des défis scientifiques à différentes échelles
Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Jun 10

ByTianyu Liu, Allen Xin Wang, Antonia Panescu, Lisa Xinyi Chen, Wenxin Long, Xinyu Wei, Yueqian Jing, Ziyao Zeng, Jihang Chen, Sihan Jiang, Ziqing Wang, Siyi Gu, Siyu Chen, Xinyang Hu, Haoran Shao, Leqi Xu, Wangjie Zheng, Zhiyuan Cao, Ada Fang, Botao Yu, Kunyang Sun, Rex Ying, Arman Cohan, Qingyu Chen, Lingzhou Xue, Kaize Ding, Yuanqi Du, Wengong Jin, Zhuoran Yang, Marinka Zitnik, James Zou, Hua Xu, Hongyu Zhao

Les agents IA sont de plus en plus développés pour accélérer la découverte scientifique, mais leurs capacités pratiques en contexte de recherche réelle restent mal comprises. Les référentiels existants pour évaluer les agents IA capturent rarement la complexité, l'hétérogénéité et le raisonnement étendu qu'exigent les travaux scientifiques, tandis que les référentiels dédiés aux tâches scientifiques réduisent souvent la recherche à des problèmes statiques et directs, offrant un soutien limité pour une évaluation interactive. Nous présentons ici SciAgentArena, un référentiel systématique pour évaluer les agents IA dans des scénarios de recherche scientifique réels, issus de besoins émergents dans plusieurs domaines. SciAgentArena comprend environ 200 tâches avec une vérification par étapes et un environnement interactif et indépendant de l'agent pour évaluer divers agents IA. En utilisant ce référentiel, nous constatons que les agents actuels peuvent contribuer efficacement à des flux de travail d'analyse de données bien spécifiés, en particulier lorsque la structure de la tâche et les critères d'évaluation sont clairs. Cependant, leurs performances restent inégales selon les contextes scientifiques : les agents peinent à générer des perspectives véritablement nouvelles, à maintenir une exploration autonome et à formuler des solutions robustes pour des questions de recherche ouvertes. Nous caractérisons en outre les modes de défaillance courants chez les agents et identifions des opportunités pour améliorer leur fiabilité, leur autonomie et leur raisonnement scientifique. Dans l'ensemble, SciAgentArena fournit un cadre pratique pour mesurer les progrès des agents IA appliqués à la science et pour guider la conception de futurs agents capables de relever des défis scientifiques complexes. L'ensemble des codes, tâches et jeux de données sont accessibles via ce lien : https://sciagentarena.github.io/.

Supervision dense, mises à jour éparses : sur la parcimonie et la géométrie de la distillation sur politique
Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Jun 11

ByGuo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye

La distillation sur politique (OPD) est récemment devenue une méthode de post-entraînement importante car elle combine deux ingrédients souhaitables : les trajectoires sur politique de l'étudiant et une supervision dense de l'enseignant. Cependant, la manière dont ce mélange modifie les paramètres d'un modèle reste floue. À travers plusieurs paires de modèles de langage et de vision-langage ainsi que différents cas d'usage, notre analyse aboutit à deux résultats principaux. En ce qui concerne la parcimonie, les mises à jour de type OPD sont petites et parcimonieuses par coordonnées. Elles sont réparties entre les couches et concernent généralement principalement les FFN. Cette structure parcimonieuse est utile sur le plan opérationnel : entraîner uniquement le sous-réseau découvert permet d'atteindre des performances presque identiques à celles de l'OPD complète. Cependant, l'optimiseur SGD favorisant la parcimonie obtient de moins bons résultats qu'AdamW dans notre ablation d'optimiseur, probablement parce que la supervision dense de l'enseignant préserve des échelles de gradient hétérogènes par coordonnées pour lesquelles la mise à l'échelle adaptative d'AdamW reste utile. En ce qui concerne la géométrie, les mises à jour sont numériquement de rang plein mais spectralement concentrées ; elles se situent principalement en dehors des sous-espaces singuliers principaux des poids sources et tombent de manière disproportionnée sur les coordonnées où les poids sources sont proches de zéro. Ces résultats suggèrent que la supervision dense de l'enseignant ne transforme pas l'OPD en une simple réécriture dense des paramètres ; au contraire, l'OPD conserve des signatures géométriques importantes du post-entraînement sur politique.

AFFORDANCE20Q : Évaluation du raisonnement d'affordance à partir des propriétés physiques
AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties

Jun 12

ByYifan Jiang, Meige Yang, Zitong Li, Jay Pujara

Le raisonnement sur les affordances, qui consiste à déduire les possibilités d'action d’un objet à partir de ses propriétés physiques (par exemple, sa forme et sa matière), est fondamental pour la compréhension physique humaine et devient de plus en plus crucial pour les grands modèles de langage (LLMs). Cependant, les benchmarks existants sur les affordances révèlent largement l’identité explicite des objets dans le cadre d’évaluation, ce qui permet aux modèles de s’appuyer sur des correspondances mémorisées entre objets et affordances plutôt que de raisonner sur les propriétés physiques. Pour combler cette lacune, nous présentons Affordance20Q, un nouveau benchmark de raisonnement sur les affordances formulé comme un jeu des 20 questions sans révéler l’identité de l’objet. Dans chaque partie, le modèle identifie l’affordance d’un objet caché parmi un ensemble de candidats en posant des questions oui/non sur ses propriétés physiques. Affordance20Q comprend 1 009 parties portant sur 454 objets et 59 affordances, toutes filtrées, affinées et annotées manuellement. Nous menons des expériences approfondies avec 15 LLMs de pointe et constatons un écart substantiel (~20 points) par rapport à la performance humaine. Une analyse du gain d’information (IG) basé sur la divergence KL montre en outre que les modèles ne parviennent pas à poser des questions discriminantes au fur et à mesure que la partie progresse. Pour combler cet écart, nous développons l’Induction de règles ancrées dans les KB (KARI), un pipeline basé sur les LLMs qui génère des règles d’affordance étayées par des preuves provenant de bases de connaissances (KBs). KARI améliore les LLMs open source jusqu’à 15,2 points, tandis que la couverture limitée des KBs entrave des gains supplémentaires. Nous publions l’ensemble de notre code et de nos données à l’adresse https://github.com/1171-jpg/Affordance20Q.git.

Une énigme de la raison artificielle : Enquête sur le fossé production-évaluation dans les grands modèles de raisonnement
An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

May 31

ByMingzhong Sun, Teresa Yeo, Armando Solar-Lezama, Tan Zhi-Xuan

Des études sur le raisonnement humain ont montré que les individus sont généralement plus performants pour évaluer des raisonnements que pour en produire de toutes pièces. En revanche, les grands modèles de raisonnement (LRM) sont entraînés à exceller dans la production de longues chaînes de raisonnement pour résoudre des problèmes complexes. Comment les LRM se comportent-ils alors dans l'évaluation des raisonnements ? Nous étudions cette question à l'aide de l'ensemble de données VAIR (Valid-Answer-Invalid-Reasoning) : des problèmes et solutions mathématiques comportant des défauts de raisonnement triviaux mais des réponses valides, conçus pour isoler l'évaluation du raisonnement de la confusion avec la production de raisonnement. Contrairement aux humains, dont nous constatons qu'ils ne sont que 6 % moins performants pour noter que pour résoudre de tels problèmes, nous observons un écart substantiel entre production et évaluation chez les LRM : les modèles de pointe obtiennent à peine 48 % lors de l'évaluation des solutions VAIR, malgré une production quasi parfaite des solutions. Pourquoi cette énigme ? Grâce à une analyse de la chaîne de pensée (CoT), nous trouvons des preuves d'un biais de confirmation de la réponse : les LRM produisent souvent une solution, puis vérifient la présence de la réponse correcte au lieu d'examiner soigneusement chaque étape, en fabriquant des rationalisations même lorsqu'ils remarquent un raisonnement anormal. Des sondes linéaires corroborent cela, montrant que bien que les activations des LRM encodent une certaine représentation d'un raisonnement valide, elles échouent à représenter robustement les solutions VAIR comme invalides. Le patching causal des représentations de la réponse finale entraîne un basculement des verdicts et des activations des LRM, démontrant que la validité de la réponse est responsable des biais de confirmation des modèles. Ces résultats mettent en évidence une limitation majeure des approches dominantes d'entraînement au raisonnement, qui incitent les LRM à produire et confirmer des raisonnements menant à des réponses correctes, mais pas à évaluer robustement les raisonnements sous-jacents.

P3D-Bench : Évaluation des MLLM pour la génération 3D paramétrique et le raisonnement structurel
P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

Jun 9

ByYikang Yang, Zhanpeng Hu, Youtian Lin, Mengqi Zhou, Jingxi Xu, Feihu Zhang, Jiaheng Liu, Yao Yao

Les grands modèles de langage multimodaux peuvent écrire du code pour générer des programmes complexes, ainsi qu'utiliser des programmes pour effectuer de la modélisation 3D, ce qui ouvre une nouvelle voie pour la génération 3D alimentée par leurs connaissances préalables, leur connaissance du monde et leur raisonnement. Pourtant, les référentiels existants évaluent rarement la modélisation 3D via le code. Une telle modélisation exige plus qu'un code exécutable : à partir d'une spécification textuelle ou visuelle, un modèle doit générer un programme 3D paramétrique qui est géométriquement précis, sémantiquement aligné et cohérent au niveau de l'assemblage. Nous présentons P3D-Bench, un référentiel pour la génération 3D paramétrique. Contrairement à un maillage 3D, un programme 3D paramétrique expose des dimensions explicites, des opérations de construction et des relations entre les pièces, révélant si un modèle retrouve la structure d'une conception, et pas seulement son apparence. Sous un protocole unifié, P3D-Bench couvre trois familles de tâches (Texte vers 3D, Image vers 3D et Assemblage 3D) et évalue chaque sortie pour l'exécutabilité, la fidélité géométrique, la topologie, les contraintes ancrées dans le texte, l'alignement sémantique multivue et la structure au niveau des pièces. Nous évaluons les MLLM de pointe et les LLM uniquement textuels sur 400 cas textuels, 400 cas d'image et 203 assemblages annotés, avec des modèles spécifiques au domaine comme points de référence. Notre évaluation approfondie produit trois résultats. Premièrement, les assemblages sont le cadre le plus difficile, où les modèles échouent encore à composer plusieurs pièces en une structure cohérente. Deuxièmement, les modèles peuvent souvent retrouver la forme globale et l'identité sémantique de l'objet cible, mais échouent à reproduire la géométrie paramétrique précise spécifiée par l'entrée. Troisièmement, la modélisation au niveau des pièces reste faible sur les assemblages, où les modèles ne retrouvent ni la géométrie de chaque pièce ni le nombre correct de pièces. Ces résultats positionnent P3D-Bench comme un référentiel pour l'évaluation de la géométrie paramétrique précise et de la structure au niveau des pièces dans la génération 3D paramétrique.

APT : Le pré-entraînement d'expert en actions améliore la généralisation des instructions des politiques Vision-Langage-Action
APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

Jun 10

ByKechun Xu, Zhenjie Zhu, Anzhe Chen, Rong Xiong, Yue Wang

Les modèles Vision-Langage-Action (VLA) qui associent des Modèles Vision-Langage (MVL) pré-entraînés à des experts d'action continue ont obtenu des performances de manipulation élevées, mais leur généralisation à des instructions en langage hors distribution (OOD) reste faible. Un défi connu est le déséquilibre structurel dans les données VLA, où le langage est bien moins diversifié que le contenu visuel et actionnel, rendant les politiques sujettes aux raccourcis visuels. Bien que les méthodes à action discrète atténuent ce problème par un co-entraînement vision-langage, les experts d'action continue ne bénéficient pas d'une telle protection : ils partent d'une initialisation aléatoire et apprennent entièrement à partir de données déséquilibrées, produisant des gradients bruités qui corrompent le MVL et n'exploitent pas ses capacités langagières. Nous abordons cela d'un point de vue bayésien, en factorisant la politique en un a priori Vision-Action (VA) indépendant du langage et une vraisemblance VLA conditionnée par le langage, et proposons APT, une méthode d'entraînement en deux étapes mettant l'accent sur le pré-entraînement de l'expert d'action (*Action expert PreTraining*). Lors de l'étape 1, l'expert d'action est pré-entraîné comme un a priori VA sur des paires vision-action provenant d'un MVL figé, contournant ainsi le déséquilibre langagier. Lors de l'étape 2, les tokens de langage sont injectés via un mécanisme de fusion à porte qui intègre les caractéristiques du MVL tout en préservant l'antériorité visuomotrice apprise. APT s'applique aux architectures VLA courantes, y compris les architectures de type π et GR00T. Des expériences exhaustives valident qu'APT obtient des gains constants sur des instructions invisibles et des tâches compositionnelles. Page du projet : https://xukechun.github.io/papers/APT/

Tracé du monde : géométrie générative alignée sur les pixels au-delà du visible
World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

Jun 11

ByHao Zhang, Mohamed El Banani, Jen-Hao Cheng, Paul Zhang, Yi Hua, Ben Mildenhall, Christoph Lassner, Narendra Ahuja, Gengshan Yang

Les méthodes de conversion image-à-3D font souvent un compromis entre fidélité et complétude : les estimateurs de profondeur sont ancrés aux pixels d'entrée mais s'arrêtent à la surface visible, tandis que les modèles image-à-3D génèrent des formes complètes souvent mal alignées avec l'entrée. Nous introduisons World Tracing, une représentation géométrique générative alignée sur les pixels qui prédit des points 3D alignés avec les pixels observés tout en complétant la géométrie au-delà de la surface visible. Pour chaque pixel d'entrée, World Tracing prédit une pile ordonnée de points 3D dans l'espace caméra, où la première couche représente la surface visible et les couches suivantes représentent les intersections avant-arrière avec les surfaces occluses. Nous instancions cette représentation avec un transformeur de diffusion world-tracing, WT-DiT, qui traite les multiples couches géométriques comme des jetons de débruitage séparés couplés par attention factorisée et globale. WT-DiT est entraîné avec un flow matching dans l'espace des pixels et un programme de bruit mixte qui équilibre la reconstruction de la surface visible avec la génération de géométrie occluse. World Tracing atteint de bonnes performances en reconstruction de surface visible et en génération de géométrie complète sur des bancs d'essai d'objets, de scènes et dynamiques, surpassant à la fois les prédicteurs de profondeur et les générateurs image-à-3D. Il préserve également la correspondance 2D-à-3D, permettant l'édition de scènes 3D pilotée par texte, la synthèse de vidéos de nouvelles vues conditionnée par la géométrie, et l'intégration sans entraînement avec des générateurs de maillages texturés.

AlloSpatial : Cadre d'exploitation agentique pour le raisonnement spatial dans les modèles de fondation
AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

Jun 8

ByShouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Jingzhi Li, Yubin Wang, Xingxing Wei

Les Modèles Fondamentaux Multimodaux (MFMs) ont réalisé des progrès considérables, mais restent fragiles en matière de raisonnement spatial sur le monde physique. Un goulet d'étranglement clé réside dans leur incapacité à transformer les observations égocentriques locales en une représentation spatiale allocentrique globale. Pour y remédier, nous proposons AlloSpatial, un cadre agentique pour la cognition spatiale allocentrique dans les modèles fondamentaux. AlloSpatial introduit World2Mind, un bac à sable de cartographie cognitive prêt à l'emploi qui convertit les observations égocentriques en priors allocentriques structurés, incluant des Arbres Spatiaux Allocentriques (AST) et des cartes d'itinéraire prenant en charge l'interrogation de la topologie des objets, des relations géométriques, de la passabilité et des trajectoires. Pour exploiter ces priors de manière fiable malgré les reconstructions bruitées et les preuves visuelles ambiguës, AlloSpatial introduit un Harnais de Raisonnement Spatial pour le jugement d'utilisation d'outils, la collecte d'indices découplés par modalité et l'arbitrage géométrico-sémantique. Nous internalisons en outre ce processus dans Qwen3-VL grâce à un apprentissage par renforcement à démarrage à froid avec une récompense au niveau de la trajectoire contrôlée par le harnais. Les expériences sur VSI-Bench et MindCube montrent qu'AlloSpatial améliore les modèles propriétaires de 5 % à 18 % dans un cadre sans entraînement, tandis que les AST seuls soutiennent un raisonnement spatial robuste même lorsque les entrées visuelles sont supprimées. Les agents AlloSpatial entraînés surpassent en outre les grands modèles à usage général et les bases de référence spatiales compétitives, suggérant que les représentations allocentriques structurées, l'utilisation active d'outils et le raisonnement vérifiable offrent une voie prometteuse vers des modèles fondamentaux spatialement capables.

Identification de la meilleure action à deux niveaux de fidélité pour un arbre minimax stochastique
Two-Fidelity Best-Action Identification for Stochastic Minimax Tree

Jun 1

ByPeter Chen, Xi Chen

Nous étudions l'identification de la meilleure action avec confiance fixée (BAI) dans les arbres minimax stochastiques. Ce problème devient de plus en plus pertinent dans la planification moderne en IA, où la recherche minimax approfondie et la recherche arborescente Monte-Carlo (MCTS) avec des simulations longues de modèles linguistiques sont confrontées à un compromis fondamental : les évaluations heuristiques sont peu coûteuses mais biaisées, tandis que les simulations précises sont fiables mais d'un coût prohibitif. Nous proposons 2FFS, un algorithme de recherche arborescente à deux fidélités qui transpose les idées des bandits plats multi-fidélité aux arbres. L'algorithme combine une expansion rapide de type minimax avec un échantillonnage stochastique de type MCTS, en décidant de manière adaptative quand exploiter des évaluations biaisées peu coûteuses et quand recourir à des évaluations précises coûteuses pour une certification locale. Nous prouvons la correction à confiance fixée, établissons un arrêt fini pour l'identification exacte et donnons une borne supérieure de coût polynomiale en profondeur pour les arbres de profondeur générale. À travers des expériences numériques sur des arbres stochastiques, 2FFS utilise nettement moins d'échantillons et d'opérations de calcul que la baseline existante BAI-MCTS.

Détection la plus rapide du début d'hallucination : bornes de retard et statistiques CUSUM apprises
Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics

Jun 10

ByIgor Itkin

Les détecteurs d'hallucination au niveau des tokens sont évalués en tant que classifieurs, par AUC sur l'ensemble des tokens, mais un moniteur en continu est jugé par son temps de réaction : le nombre de tokens qui s'écoulent entre l'apparition d'une hallucination et l'alarme. Nous formulons la détection du début d'hallucination comme un problème de détection de changement le plus rapide. Un modèle de Markov du premier ordre de l'état latent fidèle/hallucinatoire, validé sur RAGTruth, situe la tâche dans le cadre de la théorie classique des points de changement et fournit la borne inférieure de Lorden sur le délai de détection : environ 1,3 token à un taux de fausses alarmes de 0,01. Nous montrons ensuite qu'un étiqueteur récurrent causal agit comme un CUSUM avec un incrément appris ; à un taux de fausses alarmes équivalent, il détecte en 11 à 13 tokens, contre 31 pour une baseline linéaire par token, et une décomposition contrôlée attribue la majeure partie de cet avantage à un meilleur score par token plutôt qu'à une accumulation temporelle. Un théorème d'optimalité du taux d'information de type Donsker-Varadhan explique l'écart d'ordre de grandeur restant : le score appris ne réalise qu'1/4,5 de la divergence portée par les caractéristiques, un déficit que le recalibrage ne peut combler, le reste étant un effet d'horizon fini. Les métriques de classification masquent cette structure de délai ; l'analyse séquentielle la rend mesurable.

FVSpec : tests de propriétés du monde réel en tant que défis Lean
FVSpec: Real-World Property-Based Tests as Lean Challenges

May 31

ByQuinn Dougherty, Max von Hippel, Hazel Shackleton, Mike Dodds

Nous présentons un benchmark pour évaluer les modèles et agents d'IA sur des tâches réelles de vérification formelle de logiciels. Nous extrayons d'abord 11 039 tests basés sur des propriétés (PBT) issus de dépôts Python réels, puis traduisons automatiquement 2 772 d'entre eux (25 %) en 9 415 spécifications Lean 4 avec des espaces réservés "sorry" (environ 3 formalisations par PBT ; nous conservons plusieurs tentatives lorsqu'aucune ne domine sur les métriques de qualité). Traduire les PBT en spécifications Lean est difficile : cela nécessite de modéliser la sémantique de Python dans Lean, d'inférer la propriété logique encodée dans un PBT impératif, et de gérer les difficultés inhérentes à la programmation typée dépendante dans un langage peu utilisé. Nous décrivons un pipeline LLM à trois agents pour la transpilation des PBT en spécifications Lean, évaluons des métriques de couverture et de qualité, et fournissons des lignes de base pour la génération de preuves utilisant plusieurs approches automatisées et basées sur des modèles. Tout le code (scraper et agents) et les données (PBT et spécifications Lean) sont open source. Notre benchmark vise à stimuler les progrès sur le problème encore peu exploré de la vérification formelle assistée par IA de logiciels réels, un enjeu d'intérêt croissant alors que l'IA produit de plus en plus de code dans le monde.

ActiveMimic : Pré-entraînement vidéo égocentrique avec perception active
ActiveMimic: Egocentric Video Pretraining with Active Perception

Jun 4

ByXingyao Lin, Guojin Zhong, Tianyi Lu, Ziyi Ye, Yichen Zhu, Zuxuan Wu, Yu-Gang Jiang

La vidéo humaine égocentrique offre une alternative scalable aux données robotiques pour le pré-entraînement, pourtant les modèles pré-entraînés sur ces vidéos sous-performent systématiquement ceux pré-entraînés sur des données robotiques. Nous attribuons cet écart à un signal manquant : le comportement de perception active dans les vidéos égocentriques, où les humains repositionnent continuellement leur point de vue lors de la manipulation, induisant un mouvement de caméra que les pipelines standards traitent comme du bruit. Pour y remédier, nous présentons ActiveMimic, un cadre de pré-entraînement qui récupère des trajectoires synchronisées de la caméra et du poignet à partir d’une seule caméra RGB portée sur le corps, modélise le mouvement de la caméra comme une action de point de vue, et apprend conjointement la perception active et la manipulation à partir de vidéos humaines égocentriques en conditions réelles avant de s’adapter à un robot cible. Empiriquement, des expériences en conditions réelles sur des tâches aux exigences diverses en perception active montrent qu’ActiveMimic surpasse systématiquement les bases pré-entraînées sur vidéo humaine et égale les modèles de pointe pré-entraînés sur données robotiques. Des analyses supplémentaires fournissent la preuve que la capacité de perception active provient du pré-entraînement sur vidéo humaine égocentrique plutôt que du réglage fin spécifique au robot, confirmant ainsi la perception active comme la clé pour exploiter la vidéo humaine égocentrique dans le pré-entraînement robotique.

CARVE : Réparation certifiée et abordable de manœuvres rejetées via des enveloppes pour la conduite interactive
CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

May 31

ByYifan Wang

La conduite interactive révèle un mode de défaillance facile à manquer dans les piles de conduite autonome conscientes des règles : une marge de règle stricte peut devenir négative pour un candidat ego, même si une petite concession légale de la part d’un agent non prioritaire rétablirait la faisabilité. Les livrets de règles, boucliers et filtres d’atteignabilité existants sont efficaces pour opposer leur veto à des actions dangereuses, tandis que les planificateurs basés sur la prédiction modélisent les réponses probables. Ni les uns ni les autres ne renvoient un objet de preuve en temps réel qui indique quelle modification multi-agents bornée répare la manœuvre, à qui appartient la modification, si la demande est abordable en termes de priorité, et quelle solution de repli pour l’ego reste si la demande n’est pas respectée. Nous formulons cet objet manquant comme une *certification de réparation interactive* et introduisons *CARVE*, une couche de certification sans prédiction reposant sur un treillis fini d’opérateurs tactiques appartenant à l’ego et à l’agent. Les demandes appartenant à l’agent ne sont admissibles qu’à l’intérieur de \(B_j(s) = β(π_j)α_j^{\max}(s)\), une enveloppe de coopération qui sépare l’atteignabilité cinématique de la priorité normative. Le certificat résultant enregistre la règle contraignante, la catégorie de réparation, l’ensemble de réparation, la répartition des coûts pondérée par la responsabilité et la solution de repli. Sur 589 épisodes de rejeu INTERACTION ancrés dans la géométrie Lanelet2, CARVE-Greedy accepte 98,64 % des manœuvres initialement mises en veto et récupère 370/378 faux vetos résolus par l’humain, tout en préservant 589/589 respect des priorités, zéro faux positif d’agent prioritaire et 400/400 vetos de stress négatif. Nous prouvons la solidité du certificat, le respect structurel des priorités, la minimalité exacte dans un treillis fini, la contingence de repli et les conditions de cohérence de l’attribution de responsabilité. CARVE ne prédit ni n’exige la conformité d’un autre conducteur ; il certifie si une interaction proposée est bornée, attribuable et normativement admissible sous les hypothèses déclarées.

AdaSR : Raisonnement Adaptatif en Flux avec Optimisation Hiérarchique Relative de Politique
AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

Jun 12

ByJunlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen

Les grands modèles de raisonnement suivent généralement un paradigme "lire puis penser" : ils observent l'entrée complète, raisonnent sur un contexte statique, puis produisent la réponse. Pourtant, de nombreux scénarios réels sont intrinsèquement dynamiques, comme les flux audio et vidéo, où l'information arrive sous forme d'un flux continu et les modèles doivent raisonner, mettre à jour et répondre sous des observations partielles. Les récentes méthodes de raisonnement en flux permettent aux modèles de penser tout en lisant, mais elles reposent largement sur l'imitation supervisée de trajectoires préconstruites, ce qui limite leur flexibilité. Dans cet article, nous proposons AdaSR, un cadre de raisonnement adaptatif en flux qui permet aux modèles de raisonner pendant l'entrée du flux et d'effectuer une délibération finale une fois le flux terminé, apprenant quand penser et combien de calcul allouer à différentes étapes. Pour optimiser ce processus de raisonnement hiérarchique, nous introduisons l'Optimisation Hiérarchique par Politique Relative (HRPO), qui décompose l'optimisation de la politique en phases de raisonnement en flux et de raisonnement profond, offrant une attribution d'avantage plus fine au lieu de distribuer uniformément un avantage unique au niveau de la séquence sur tous les jetons. HRPO intègre des récompenses de format, de précision et de pensée adaptative pour imposer des protocoles de raisonnement valides, préserver la performance finale de la tâche et encourager une allocation de calcul tenant compte de la latence. Les expériences montrent qu'AdaSR atteint un meilleur équilibre entre précision du raisonnement, efficacité computationnelle et latence de flux par rapport à la ligne de base de l'ajustement fin supervisé. Nous publions notre code à l'adresse https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.

Squeeze-Release : élagage itératif avec minimisation structurelle exacte
Squeeze-Release: Iterative Pruning with Exact Structural Minimization

Jun 12

ByRoman Denkin, Ida Akerholm, Prashant Singh, Ida-Maria Sintorn

L'élagage non structuré produit des tenseurs de poids creux, mais l'implémentation standard conserve les dimensions des tenseurs inchangées, de sorte que le modèle déployé n'est pas plus petit qu'avant l'élagage. Nous présentons une réécriture structurelle exacte, que nous appelons minimisation, qui convertit un réseau masqué en un réseau dense plus petit dont la fonction de propagation avant est identique à l'arrondi en virgule flottante près. Le cycle Squeeze-Release itère l'élagage et la minimisation avec une étape de libération intermédiaire qui réactive les positions exactement nulles à l'intérieur des tenseurs compactés sous forme d'un petit bruit calibré, transformant ainsi une capacité autrement perdue en paramètres entraînables. Les cycles successifs utilisent cette capacité pour détecter une redondance structurelle qu'un seul passage ne peut atteindre. Nous introduisons également CompensatedLayerNorm, un remplacement préservant la fonction de LayerNorm qui étend la minimisation à la réduction des canaux dans les flux résiduels équipés de LayerNorm. Squeeze-Release comprime le réseau déployable à 39 fois plus petit que le modèle non élagué sur un réseau entièrement connecté et à 14,8 fois plus petit sur un CNN moderne (ConvNeXt-Tiny), avec une précision comparable. De plus, nous prouvons que la réécriture peut être étendue aux architectures de transformeurs.

WaveDiT : Appariement de flots par ondelettes conscient de la distribution pour la synthèse efficace d'IRM cérébrale 3D
WaveDiT: Distribution-Aware Wavelet Flow Matching for Efficient 3D Brain MRI Synthesis

Jun 7

ByDanilo Danese, Angela Lombardi, Giuseppe Fasano, Matteo Attimonelli, Tommaso Di Noia

Des ensembles de données volumineux et équilibrés sur le plan démographique sont essentiels pour obtenir des biomarqueurs fiables en neuroimagerie. La synthèse d'IRM cérébrale 3D en pleine résolution peut soutenir l'augmentation de données dans ce contexte, mais les approches existantes entraînent soit un coût de calcul prohibitif à l'échelle volumétrique, soit reposent sur une compression latente avec pertes qui peut compromettre les détails anatomiques. En conséquence, l'augmentation générative 3D pratique nécessite souvent une infrastructure de calcul spécialisée. Nous proposons WaveDiT, un cadre de matching de flux conditionnel opérant dans l'espace des coefficients d'une transformée en ondelettes discrètes de Haar 3D. Le modèle combine une attention spatio-profondeur factorisée avec une modélisation de l'incertitude hétéroscédastique par bande, dérivée de statistiques d'ondelettes d'ordre supérieur. La log-variance prédite est intégrée à la fois dans l'objectif du flux et dans la voie de conditionnement, permettant une précision adaptative cohérente avec la structure de variance à queue lourde et dépendante de l'entrée des détails anatomiques. Cette formulation permet une synthèse 3D en pleine résolution sous des contraintes pratiques de mémoire et de temps sur une seule GPU moderne. L'évaluation sur une cohorte multi-site démontre un meilleur alignement entre les distributions d'IRM générées et réelles, ainsi qu'une amélioration de la prédiction en aval de l'âge cérébral et de l'accord anatomique au niveau régional par rapport aux références basées sur la diffusion, la latence et les ondelettes. Le code est disponible à l'adresse https://github.com/sisinflab/WaveDiT.

Évaluation statistiquement fiable des classements basée sur les LLM via l'inférence alimentée par la prédiction
Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

Jun 3

ByAbhishek Divekar

Avec PRECISE, nous avons étendu l’inférence assistée par prédiction pour produire des estimations corrigées du biais des métriques d’évaluation de classement en combinant un petit ensemble annoté par des humains avec un vaste ensemble évalué par un LLM. PPI est prouvé sans biais, quel que soit le profil d’erreur du juge LLM. Nous le rendons applicable à des métriques hiérarchiques comme Precision@K, où les annotations portent sur chaque document mais la métrique porte sur chaque requête, en réduisant le calcul de l’espace de sortie de O(2^|C|) à O(2^K). Sur le benchmark ESCI, l’ajout de 30 annotations humaines aux jugements de Claude 3 Sonnet réduit l’erreur type des estimations de Precision@4 de 4,45 à 3,50 (soit une réduction relative de 21 %). Dans un système de production, notre cadre a correctement identifié la meilleure des trois variantes du système à partir de 100 étiquettes humaines et de 2 heures d’annotation par des experts du domaine ; les tests A/B ont confirmé ce classement avec +407 points de base dans les ventes quotidiennes.