HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

49 papers found

Rapport Technique d'ERNIE 5.0
ERNIE 5.0 Technical Report

Feb 4

ByHaifeng Wang, Hua Wu, Tian Wu, Yu Sun, Jing Liu, Dianhai Yu, Yanjun Ma, Jingzhou He, Zhongjun He, Dou Hong, Qiwen Liu, Shuohuan Wang, Junyuan Shang, Zhenyu Zhang, Yuchen Ding, Jinle Zeng, Jiabin Yang, Liang Shen, Ruibiao Chen, Weichong Yin, Siyu Ding, Dai Dai, Shikun Feng, Siqi Bao, Bolei He, Yan Chen, Zhenyu Jiao, Ruiqing Zhang, Zeyu Chen, Qingqing Dang, Kaipeng Deng, Jiajun Jiang, Enlei Gong, Guoxia Wang, Yanlin Sha, Yi Liu, Yehan Zheng, Weijian Xu, Jiaxiang Liu, Zengfeng Zeng, Yingqi Qu, Zhongli Li, Zhengkun Zhang, Xiyang Wang, Zixiang Xu, Xinchao Xu, Zhengjie Huang, Dong Wang, Bingjin Chen, Yue Chang, Xing Yuan, Shiwei Huang, Qiao Zhao, Xinzhe Ding, Shuangshuang Qiao, Baoshan Yang, Bihong Tang, Bin Li, Bingquan Wang, Binhan Tang, Binxiong Zheng, Bo Cui, Bo Ke, Bo Zhang, Bowen Zhang, Boyan Zhang, Boyang Liu, Caiji Zhang, Can Li, Chang Xu, Chao Pang, Chao Zhang, Chaoyi Yuan, Chen Chen, Cheng Cui, Chenlin Yin, Chun Gan, Chunguang Chai, Chuyu Fang, Cuiyun Han, Dan Zhang, Danlei Feng, Danxiang Zhu, Dong Sun, Dongbo Li, Dongdong Li, Dongdong Liu, Dongxue Liu, Fan Ding, Fan Hu, Fan Li, Fan Mo, Feisheng Wu, Fengwei Liu, Gangqiang Hu, Gaofeng Lu, Gaopeng Yong, Gexiao Tian, Guan Wang, Guangchen Ni, Guangshuo Wu, Guanzhong Wang, Guihua Liu, Guishun Li, Haibin Li, Haijian Liang, Haipeng Ming, Haisu Wang, Haiyang Lu, Haiye Lin, Han Zhou, Hangting Lou, Hanwen Du, Hanzhi Zhang, Hao Chen, Hao Du, Hao Liu, Hao Zhou, Haochen Jiang, Haodong Tian, Haoshuang Wang, Haozhe Geng, Heju Yin, Hong Chen, Hongchen Xue, Hongen Liu, Honggeng Zhang, Hongji Xu, Hongwei Chen, Hongyang Zhang, Hongyuan Zhang, Hua Lu, Huan Chen, Huan Wang, Huang He, Hui Liu, Hui Zhong, Huibin Ruan, Jiafeng Lu, Jiage Liang, Jiahao Hu, Jiahao Hu, Jiajie Yang, Jialin Li, Jian Chen, Jian Wu, Jianfeng Yang, Jianguang Jiang, Jianhua Wang, Jianye Chen, Jiaodi Liu, Jiarui Zhou, Jiawei Lv, Jiaxin Zhou, Jiaxuan Liu, Jie Han, Jie Sun, Jiefan Fang, Jihan Liu, Jihua Liu, Jing Hu, Jing Qian, Jing Yan, Jingdong Du, Jingdong Wang, Jingjing Wu, Jingyong Li, Jinheng Wang, Jinjin Li, Jinliang Lu, Jinlin Yu, Jinnan Liu, Jixiang Feng, Jiyi Huang, Jiyuan Zhang, Jun Liang, Jun Xia, Jun Yu, Junda Chen, Junhao Feng, Junhong Xiang, Junliang Li, Kai Liu, Kailun Chen, Kairan Su, Kang Hu, Kangkang Zhou, Ke Chen, Ke Wei, Kui Huang, Kun Wu, Kunbin Chen, Lei Han, Lei Sun, Lei Wen, Linghui Meng, Linhao Yu, Liping Ouyang, Liwen Zhang, Longbin Ji, Longzhi Wang, Meng Sun, Meng Tian, Mengfei Li, Mengqi Zeng, Mengyu Zhang, Ming Hong, Mingcheng Zhou, Mingming Huang, Mingxin Chen, Mingzhu Cai, Naibin Gu, Nemin Qiu, Nian Wang, Peng Qiu, Peng Zhao, Pengyu Zou, Qi Wang, Qi Xin, Qian Wang, Qiang Zhu, Qianhui Luo, Qianwei Yang, Qianyue He, Qifei Wu, Qinrui Li, Qiwen Bao, Quan Zhang, Quanxiang Liu, Qunyi Xie, Rongrui Zhan, Rufeng Dai, Rui Peng, Ruian Liu, Ruihao Xu, Ruijie Wang, Ruixi Zhang, Ruixuan Liu, Runsheng Shi, Ruting Wang, Senbo Kang, Shan Lu, Shaofei Yu, Shaotian Gong, Shenwei Hu, Shifeng Zheng, Shihao Guo, Shilong Fan, Shiqin Liu, Shiwei Gu, Shixi Zhang, Shuai Yao, Shuang Zhang, Shuangqiao Liu, Shuhao Liang, Shuwei He, Shuwen Yang, Sijun He, Siming Dai, Siming Wu, Siyi Long, Songhe Deng, Suhui Dong, Suyin Liang, Teng Hu, Tianchan Xu, Tianliang Lv, Tianmeng Yang, Tianyi Wei, Tiezhu Gao, Ting Sun, Ting Zhang, Tingdan Luo, Wei He, Wei Luan, Wei Yin, Wei Zhang, Wei Zhou, Weibao Gong, Weibin Li, Weicheng Huang, Weichong Dang, Weiguo Zhu, Weilong Zhang, Weiqi Tan, Wen Huang, Wenbin Chang, Wenjing Du, Wenlong Miao, Wenpei Luo, Wenquan Wu, Xi Shi, Xi Zhao, Xiang Gao, Xiangguo Zhang, Xiangrui Yu, Xiangsen Wang, Xiangzhe Wang, Xianlong Luo, Xianying Ma, Xiao Tan, Xiaocong Lin, Xiaofei Wang, Xiaofeng Peng, Xiaofeng Wu, Xiaojian Xu, Xiaolan Yuan, Xiaopeng Cui, Xiaotian Han, Xiaoxiong Liu, Xiaoxu Fei, Xiaoxuan Wu, Xiaoyu Wang, Xiaoyu Zhang, Xin Sun, Xin Wang, Xinhui Huang, Xinming Zhu, Xintong Yu, Xinyi Xu, Xinyu Wang, Xiuxian Li, XuanShi Zhu, Xue Xu, Xueying Lv, Xuhong Li, Xulong Wei, Xuyi Chen, Yabing Shi, Yafeng Wang, Yamei Li, Yan Liu, Yanfu Cheng, Yang Gao, Yang Liang, Yang Wang, Yang Wang, Yang Yang, Yanlong Liu, Yannian Fu, Yanpeng Wang, Yanzheng Lin, Yao Chen, Yaozong Shen, Yaqian Han, Yehua Yang, Yekun Chai, Yesong Wang, Yi Song, Yichen Zhang, Yifei Wang, Yifeng Guo, Yifeng Kou, Yilong Chen, Yilong Guo, Yiming Wang, Ying Chen, Ying Wang, Yingsheng Wu, Yingzhan Lin, Yinqi Yang, Yiran Xing, Yishu Lei, Yixiang Tu, Yiyan Chen, Yong Zhang, Yonghua Li, Yongqiang Ma, Yongxing Dai, Yongyue Zhang, Yu Ran, Yu Sun, Yu-Wen Michael Zhang, Yuang Liu, Yuanle Liu, Yuanyuan Zhou, Yubo Zhang, Yuchen Han, Yucheng Wang, Yude Gao, Yuedong Luo, Yuehu Dong, Yufeng Hu, Yuhui Cao, Yuhui Yun, Yukun Chen, Yukun Gao, Yukun Li, Yumeng Zhang, Yun Fan, Yun Ma, Yunfei Zhang, Yunshen Xie, Yuping Xu, Yuqin Zhang, Yuqing Liu, Yurui Li, Yuwen Wang, Yuxiang Lu, Zefeng Cai, Zelin Zhao, Zelun Zhang, Zenan Lin, Zezhao Dong, Zhaowu Pan, Zhaoyu Liu, Zhe Dong, Zhe Zhang, Zhen Zhang, Zhengfan Wu, Zhengrui Wei, Zhengsheng Ning, Zhenxing Li, Zhenyu Li, Zhenyu Qian, Zhenyun Li, Zhi Li, Zhichao Chen, Zhicheng Dong, Zhida Feng, Zhifan Feng, Zhihao Deng, Zhijin Yu, Zhiyang Chen, Zhonghui Zheng, Zhuangzhuang Guo, Zhujun Zhang, Zhuo Sun, Zichang Liu, Zihan Lin, Zihao Huang, Zihe Zhu, Ziheng Zhao, Ziping Chen, Zixuan Zhu, Ziyang Xu, Ziyi Liang, Ziyuan Gao

198

Dans ce rapport, nous présentons ERNIE 5.0, un modèle de fondation natif autorégressif conçu pour la compréhension et la génération multimodales unifiées couvrant le texte, l'image, la vidéo et l'audio. Toutes les modalités sont entraînées à partir de zéro selon un objectif unifié de prédiction du prochain groupe de tokens, basé sur une architecture de mélange d'experts (MoE) ultra-creux avec un routage d'experts agnostique aux modalités. Pour relever les défis pratiques du déploiement à grande échelle sous diverses contraintes de ressources, ERNIE 5.0 adopte un nouveau paradigme d'entraînement élastique. Au cours d'une seule session de pré-entraînement, le modèle apprend une famille de sous-modèles avec des profondeurs, des capacités d'experts et une parcimonie de routage variables, permettant des compromis flexibles entre performance, taille du modèle et latence d'inférence dans des scénarios contraints par la mémoire ou le temps. De plus, nous abordons systématiquement les défis liés à la mise à l'échelle de l'apprentissage par renforcement pour les modèles de fondation unifiés, garantissant ainsi un post-entraînement efficace et stable sous des architectures MoE ultra-creuses et divers paramètres multimodaux. Des expériences approfondies démontrent qu'ERNIE 5.0 atteint des performances solides et équilibrées sur de multiples modalités. À notre connaissance, parmi les modèles publiquement divulgués, ERNIE 5.0 représente la première réalisation à l'échelle de production d'un modèle autorégressif unifié à mille milliards de paramètres qui prend en charge à la fois la compréhension et la génération multimodales. Pour faciliter les recherches futures, nous présentons des visualisations détaillées du routage d'experts agnostique aux modalités dans le modèle unifié, ainsi qu'une analyse empirique complète de l'entraînement élastique, visant à offrir des perspectives profondes à la communauté.

FASA : Attention parcimonieuse sensible à la fréquence
FASA: Frequency-aware Sparse Attention

Feb 3

ByYifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley

101

Le déploiement des grands modèles de langage (LLM) se heurte à un goulot d'étranglement critique lors du traitement d'entrées longues : l'empreinte mémoire prohibitive du cache clé-valeur (KV). Pour résoudre ce problème, le paradigme de l'élagage de tokens exploite la parcimonie de l'attention pour ne conserver de manière sélective qu'un petit sous-ensemble critique de tokens. Cependant, les approches existantes sont insuffisantes : les méthodes statiques risquent une perte d'information irréversible, et les stratégies dynamiques utilisent des heuristiques qui capturent insuffisamment la nature dépendante de la requête de l'importance des tokens. Nous proposons FASA, un nouveau cadre qui réalise l'éviction de tokens sensible à la requête en prédisant dynamiquement leur importance. FASA découle d'une nouvelle intuition concernant RoPE : la découverte d'une parcimonie fonctionnelle au niveau des blocs de fréquence (FC). Notre constat clé est qu'un petit sous-ensemble identifiable de FC "dominants" présente systématiquement un accord contextuel élevé avec la tête d'attention complète. Cela fournit un proxy robuste et sans coût computationnel pour identifier les tokens saillants. S'appuyant sur cette intuition, FASA identifie d'abord un ensemble critique de tokens à l'aide des FC dominants, puis effectue un calcul d'attention ciblé uniquement sur ce sous-ensemble élagué. Comme il n'accède qu'à une petite fraction du cache KV, FASA réduit considérablement les besoins en bande passante mémoire et le coût computationnel. Sur un spectre de tâches à contexte long, allant de la modélisation de séquences au raisonnement CoT complexe, FASA surpasse systématiquement toutes les méthodes de référence d'éviction de tokens et atteint une précision quasi-oraculaire, démontrant une robustesse remarquable même avec des budgets contraints. Notamment, sur LongBench-V1, FASA atteint près de 100 % des performances du cache KV complet en ne conservant que 256 tokens, et réalise une accélération de 2,56 fois en utilisant seulement 18,9 % du cache sur AIME24.

WideSeek-R1 : Exploration de la mise à l'échelle en largeur pour la recherche d'information étendue via l'apprentissage par renforcement multi-agent
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Feb 4

ByZelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang

Les progrès récents des grands modèles de langage (LLM) se sont principalement concentrés sur la mise à l'échelle en profondeur, où un agent unique résout des problèmes à long terme grâce à un raisonnement multi-étapes et à l'utilisation d'outils. Cependant, à mesure que les tâches s'élargissent, le principal goulot d'étranglement passe de la compétence individuelle à la capacité organisationnelle. Dans ce travail, nous explorons une dimension complémentaire de mise à l'échelle en largeur avec des systèmes multi-agents pour répondre à la recherche d'information étendue. Les systèmes multi-agents existants reposent souvent sur des workflows artisanaux et des interactions alternées qui ne parviennent pas à paralléliser efficacement le travail. Pour combler cette lacune, nous proposons WideSeek-R1, un framework agent-chef/sous-agents entraîné par apprentissage par renforcement multi-agents (MARL) pour synergiser l'orchestration scalable et l'exécution parallèle. En utilisant un LLM partagé avec des contextes isolés et des outils spécialisés, WideSeek-R1 optimise conjointement l'agent chef et les sous-agents parallèles sur un jeu de données curé de 20 000 tâches de recherche d'information étendue. Des expériences approfondies montrent que WideSeek-R1-4B atteint un score F1 de 40,0 % sur le benchmark WideSearch, ce qui est comparable aux performances de l'agent unique DeepSeek-R1-671B. De plus, WideSeek-R1-4B présente des gains de performance constants à mesure que le nombre de sous-agents parallèles augmente, soulignant l'efficacité de la mise à l'échelle en largeur.

Efficacité des Données d'Entraînement dans les Modèles de Récompense de Processus Multimodaux
Training Data Efficiency in Multimodal Process Reward Models

Feb 4

ByJinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang

Les Modèles de Récompense de Processus Multimodaux (MPRM) sont au cœur de la supervision au niveau des étapes pour le raisonnement visuel dans les MLLM. L'entraînement des MPRM nécessite généralement de vastes corpus annotés par Monte Carlo (MC), ce qui engendre un coût substantiel. Cet article étudie l'efficacité des données pour l'entraînement des MPRM. Nos expériences préliminaires révèlent que l'entraînement des MPRM atteint rapidement un plateau lors d'un sous-échantillonnage aléatoire des données d'entraînement, indiquant une redondance importante dans les corpus annotés par MC existants. Pour l'expliquer, nous formalisons un cadre théorique et révélons que les mises à jour du gradient informatives dépendent de deux facteurs : le mélange des étiquettes des étapes positives/négatives et la fiabilité des étiquettes (scores MC moyens des étapes positives). Guidés par ces insights, nous proposons le Score d'Information Équilibrée (BIS), qui priorise à la fois le mélange et la fiabilité en se basant sur les signaux MC existants au niveau du déploiement, sans engendrer de coût supplémentaire. Sur deux architectures (InternVL2.5-8B et Qwen2.5-VL-7B) évaluées sur VisualProcessBench, les sous-ensembles sélectionnés par BIS égalent et surpassent même les performances obtenues avec toutes les données, en n'utilisant qu'une petite fraction de celles-ci. Notamment, le sous-ensemble BIS atteint les performances du jeu de données complet avec seulement 10 % des données d'entraînement, améliorant le sous-échantillonnage aléatoire de 4,1 % en valeur relative.

OmniSIFT : Compression Modale-Asymétrique des Tokens pour des Modèles de Langage de Grande Taille Omnipotentiels Efficients
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Feb 4

ByYue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang

Les modèles de langage de grande taille omnimodaux (Omni-LLM) ont démontré de solides capacités dans les tâches de compréhension audio-vidéo. Cependant, leur dépendance à de longues séquences de jetons multimodaux entraîne une surcharge computationnelle substantielle. Malgré ce défi, les méthodes de compression de jetons conçues pour les Omni-LLM restent limitées. Pour combler cette lacune, nous proposons OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), un cadre de compression de jetons asymétrique en modalité, spécialement conçu pour les Omni-LLM. Plus précisément, OmniSIFT adopte une stratégie de compression en deux étapes : (i) un module d'élagage vidéo spatio-temporel qui supprime la redondance vidéo provenant à la fois de la structure intra-trame et du chevauchement inter-trames, et (ii) un module de sélection audio guidé par la vision qui filtre les jetons audio. L'ensemble du cadre est optimé de bout en bout via un estimateur différentiable à passage direct. Des expériences approfondies sur cinq benchmarks représentatifs démontrent l'efficacité et la robustesse d'OmniSIFT. Notamment, pour Qwen2.5-Omni-7B, OmniSIFT n'introduit que 4,85 millions de paramètres tout en maintenant une latence inférieure à celle des méthodes de base sans apprentissage telles qu'OmniZip. Avec seulement 25 % du contexte de jetons original, OmniSIFT surpasse constamment toutes les méthodes de compression de référence et dépasse même les performances du modèle utilisant tous les jetons sur plusieurs tâches.

HySparse : Une architecture d'attention hybride et parcimonieuse avec sélection oracle de tokens et partage du cache clé-valeur
HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Feb 3

ByYizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen, Zhengju Tang, Zihan Jiang, Yifan Song, Hailin Zhang, Liang Zhao, Bo Yang, Gang Wang, Shijie Cao, Fuli Luo

Ce travail présente l'Attention Hybride Creuse (HySparse), une nouvelle architecture qui entrelace chaque couche d'attention complète avec plusieurs couches d'attention creuse. Bien que conceptuellement simple, HySparse dérive stratégiquement la sélection de tokens et les caches KV de chaque couche creuse directement à partir de la couche d'attention complète qui la précède. Cette architecture résout deux limitations fondamentales des méthodes d'attention creuse antérieures. Premièrement, les approches conventionnelles reposent généralement sur des proxys supplémentaires pour prédire l'importance des tokens, introduisant une complexité additionnelle et des performances potentiellement sous-optimales. En revanche, HySparse utilise la couche d'attention complète comme un oracle précis pour identifier les tokens importants. Deuxièmement, les conceptions d'attention creuse existantes réduisent souvent le calcul sans économiser le cache KV. HySparse permet aux couches d'attention creuse de réutiliser le cache KV de l'attention complète, réduisant ainsi à la fois le calcul et la mémoire. Nous évaluons HySparse sur des modèles denses 7B et des modèles MoE 80B. Dans tous les contextes, HySparse surpasse systématiquement les lignes de base de l'attention complète et de l'hybride SWA. Notamment, dans le modèle MoE 80B avec 49 couches au total, seulement 5 couches utilisent l'attention complète, pourtant HySparse réalise des gains de performance substantiels tout en réduisant le stockage du cache KV de près de 10 fois.

EgoActor : Ancrage de la planification de tâches dans des actions égocentriques spatialement conscientes pour les robots humanoïdes via des modèles visio-linguistiques
EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Feb 4

ByYu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson

Le déploiement de robots humanoïdes dans des environnements réels est fondamentalement complexe, car il exige une intégration étroite de la perception, de la locomotion et de la manipulation sous des observations à information partielle et dans des environnements dynamiquement changeants, ainsi qu'une transition robuste entre des sous-tâches de types différents. Pour relever ces défis, nous proposons une nouvelle tâche – EgoActing – qui consiste à ancrer directement des instructions de haut niveau dans diverses actions humanoïdes, précises et spatialement conscientes. Nous concrétisons cette tâche en introduisant EgoActor, un modèle vision-langage (VLM) unifié et évolutif capable de prédire des primitives de locomotion (par exemple, marcher, tourner, se déplacer latéralement, changer de hauteur), des mouvements de tête, des commandes de manipulation et des interactions humain-robot pour coordonner la perception et l'exécution en temps réel. Nous tirons parti d'un large apprentissage supervisé à partir de données égocentriques en RGB uniquement issues de démonstrations réelles, de questions-réponses de raisonnement spatial et de démonstrations en environnement simulé, permettant à EgoActor de prendre des décisions robustes et contextuelles et d'effectuer une inférence d'actions fluide (en moins d'1s) avec des modèles de 8B et 4B paramètres. Des évaluations approfondies dans des environnements simulés et réels démontrent qu'EgoActor relie efficacement la planification abstraite des tâches et l'exécution motrice concrète, tout en généralisant à diverses tâches et à des environnements non vus.

Quant VideoGen : Génération de vidéos longues par auto-régression via une quantification du cache KV sur 2 bits
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

Feb 3

ByHaocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer

Malgré les progrès rapides des modèles de diffusion vidéo autorégressifs, un goulot d'étranglement algorithmique émergent limite à la fois la déployabilité et la capacité de génération : la mémoire cache KV. Dans les modèles de génération vidéo autorégressive, le cache KV croît avec l'historique de génération et domine rapidement la mémoire GPU, dépassant souvent 30 Go, ce qui empêche le déploiement sur du matériel largement disponible. Plus critique encore, des budgets contraints pour le cache KV restreignent la mémoire de travail effective, dégradant directement la cohérence à long terme de l'identité, de la disposition et du mouvement. Pour relever ce défi, nous présentons Quant VideoGen (QVG), un cadre de quantification du cache KV sans apprentissage pour les modèles de diffusion vidéo autorégressifs. QVG exploite la redondance spatiotemporelle vidéo via un Lissage Sémantiquement Conscient, produisant des résidus de faible magnitude, favorables à la quantification. Il introduit en outre la Quantification Progressive des Résidus, un schéma multi-étapes allant du grossier au fin qui réduit l'erreur de quantification tout en permettant un compromis fluide entre qualité et mémoire. Sur les benchmarks LongCat Video, HY WorldPlay et Self Forcing, QVG établit une nouvelle frontière de Pareto entre la qualité et l'efficacité mémoire, réduisant la mémoire du cache KV jusqu'à 7,0 fois avec une surcharge de latence de bout en bout inférieure à 4 %, tout en surpassant constamment les méthodes de référence existantes en qualité de génération.

TIDE : Évaluation Diagnostique Basée sur les Trajectoires de l'Amélioration en Temps de Test des Agents LLM
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

Feb 2

ByHang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin

Les récentes avancées des agents LLM autonomes démontrent leur capacité à améliorer leurs performances grâce à une interaction itérative avec l'environnement. Nous définissons ce paradigme comme l'Amélioration au Moment du Test (TTI). Cependant, les mécanismes expliquant pourquoi et comment la TTI réussit ou échoue restent mal compris, et les métriques d'évaluation existantes ne parviennent pas à capturer son efficacité d'optimisation des tâches, l'adaptation du comportement après des actions erronées, et l'utilité spécifique de la mémoire de travail pour l'accomplissement des tâches. Pour combler ces lacunes, nous proposons l'Évaluation Diagnostique de l'Amélioration au Moment du Test (TIDE), un cadre indépendant de l'agent et de l'environnement qui décompose la TTI en trois dimensions complètes et interconnectées. Le cadre mesure (1) la dynamique temporelle globale de l'accomplissement des tâches et (2) identifie si la performance est principalement contrainte par des comportements de bouclage récursif ou (3) par une accumulation excessive de mémoire. Grâce à des expériences approfondies sur divers agents et environnements, TIDE révèle qu'améliorer la performance des agents nécessite plus qu'une augmentation de la raisonnement interne, et exige d'optimiser explicitement la dynamique d'interaction entre l'agent et l'environnement.

SoMA : Un simulateur neuronal réel-vers-simulé pour la manipulation robotique de corps mous
SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

Feb 2

ByMu Huang, Hui Wang, Kerui Ren, Linning Xu, Yunsong Zhou, Mulin Yu, Bo Dai, Jiangmiao Pang

La simulation d'objets déformables soumis à des interactions complexes reste un défi fondamental pour la manipulation robotique réaliste-simulée, avec une dynamique pilotée conjointement par les effets environnementaux et les actions du robot. Les simulateurs existants reposent sur une physique prédéfinie ou des dynamiques apprises par données sans contrôle conditionné par le robot, limitant la précision, la stabilité et la généralisation. Cet article présente SoMA, un simulateur par projection de gaussiennes 3D pour la manipulation de corps mous. SoMA couple la dynamique des déformations, les forces environnementales et les actions articulaires du robot dans un espace neuronal latent unifié pour une simulation réaliste-simulée de bout en bout. La modélisation des interactions sur des gaussiennes apprises permet une manipulation contrôlable et stable à long terme et une généralisation au-delà des trajectoires observées, sans modèles physiques prédéfinis. SoMA améliore la précision de resimulation et la généralisation sur des manipulations robotiques réelles de 20%, permettant la simulation stable de tâches complexes comme le pliage de tissu à long terme.

Modèles de langage à diffusion contextuelle résiduelle
Residual Context Diffusion Language Models

Jan 30

ByYuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu

Les modèles de langage à diffusion de grande taille (dLLM) sont apparus comme une alternative prometteuse aux modèles de langage purement autogressifs car ils peuvent décoder plusieurs jetons en parallèle. Cependant, les dLLM par blocs les plus performants reposent sur un mécanisme de « remasquage » qui ne décode que les jetons les plus confiants et rejette les autres, gaspillant ainsi efficacement du calcul. Nous démontrons que le recyclage du calcul des jetons rejetés est bénéfique, car ces jetons conservent des informations contextuelles utiles pour les itérations de décodage ultérieures. Compte tenu de cela, nous proposons la Diffusion à Contexte Résiduel (RCD), un module qui convertit ces représentations de jetons rejetés en résidus contextuels et les réinjecte pour l'étape de débruitage suivante. La RCD utilise un pipeline d'entraînement découplé en deux étapes pour contourner les goulots d'étranglement mémoire associés à la rétropropagation. Nous validons notre méthode à la fois sur des modèles de raisonnement CoT longs (SDAR) et sur des modèles de suivi d'instructions CoT courts (LLaDA). Nous démontrons qu'un dLLM standard peut être efficacement converti au paradigme RCD avec seulement ~1 milliard de jetons. La RCD améliore systématiquement les dLLM de pointe de 5 à 10 points de précision avec une surcharge de calcul minimale sur un large éventail de benchmarks. Notamment, sur les tâches AIME les plus difficiles, la RCD double presque la précision de base et permet jusqu'à 4 à 5 fois moins d'étapes de débruitage à des niveaux de précision équivalents.

Repenser la région de confiance dans l'apprentissage par renforcement des LLM
Rethinking the Trust Region in LLM Reinforcement Learning

Feb 4

ByPenghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee

L'apprentissage par renforcement (RL) est devenu un pilier pour le réglage fin des grands modèles de langage (LLM), l'Optimisation Proximale des Politiques (PPO) servant d'algorithme standard de facto. Malgré son omniprésence, nous soutenons que le mécanisme central de clipping du ratio dans PPO est structurellement inadapté aux grands vocabulaires inhérents aux LLM. PPO contraint les mises à jour de la politique basées sur le ratio de probabilité des tokens échantillonnés, qui sert d'estimation Monte Carlo à un échantillon, bruitée, de la vraie divergence de politique. Cela crée une dynamique d'apprentissage sous-optimale : les mises à jour pour les tokens de faible probabilité sont agressivement sur-pénalisées, tandis que les décalages potentiellement catastrophiques pour les tokens de haute probabilité sont sous-contraints, conduisant à une inefficacité et une instabilité de l'entraînement. Pour résoudre ce problème, nous proposons l'Optimisation Proximale des Politiques par Divergence (DPPO), qui substitue le clipping heuristique par une contrainte plus principielle basée sur une estimation directe de la divergence de politique (par exemple, la Variation Totale ou KL). Pour éviter une empreinte mémoire excessive, nous introduisons les approximations Binaire et Top-K efficaces pour capturer la divergence essentielle avec une surcharge négligeable. Des évaluations empiriques approfondies démontrent que DPPO atteint une stabilité et une efficacité d'entraînement supérieures aux méthodes existantes, offrant une base plus robuste pour le réglage fin des LLM par RL.

Routage Sémantique : Exploration de la Pondération des Caractéristiques Multi-Couches dans les LLM pour les Transformers de Diffusion
Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

Feb 3

ByBozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang

Les modèles récents de génération d'images par texte basés sur DiT adoptent de plus en plus des LLM comme encodeurs de texte, pourtant le conditionnement textuel reste largement statique et utilise souvent une seule couche de LLM, malgré une hiérarchie sémantique prononcée entre les couches du LLM et des dynamiques de bruitage non stationnaires à la fois dans le temps de diffusion et la profondeur du réseau. Pour mieux correspondre au processus dynamique de la génération DiT et ainsi améliorer la capacité générative du modèle de diffusion, nous introduisons un cadre unifié de fusion convexe normalisée équipé de portes légères pour organiser systématiquement les états cachés multi-couches du LLM via une fusion temporelle, en profondeur et conjointe. Les expériences établissent le Routage Sémantique en Profondeur comme la stratégie de conditionnement supérieure, améliorant constamment l'alignement texte-image et la génération compositionnelle (par exemple, +9.97 sur la tâche de décompte GenAI-Bench). À l'inverse, nous constatons qu'une fusion purement temporelle peut paradoxalement dégrader la fidélité de la génération visuelle. Nous attribuons cela à un décalage trajectoire d'entraînement-inférence : sous le guidage sans classifieur, les pas de temps nominaux ne parviennent pas à suivre le SNR effectif, provoquant une injection de caractéristiques à un moment sémantiquement inadéquat lors de l'inférence. Globalement, nos résultats positionnent le routage en profondeur comme une base de référence solide et efficace et soulignent le besoin crucial de signaux conscients de la trajectoire pour permettre un conditionnement temporel robuste.

HY3D-Bench : Génération d'actifs 3D
HY3D-Bench: Generation of 3D Assets

Feb 3

ByTeam Hunyuan3D, Bowen Zhang, Chunchao Guo, Dongyuan Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jiaao Yu, Jiachen Xu, Jingwei Huang, Kunhong Li, Lifu Wang, Linus, Penghao Wang, Qingxiang Lin, Ruining Tang, Xianghui Yang, Yang Li, Yirui Guan, Yunfei Zhao, Yunhan Yang, Zeqiang Lai, Zhihao Liang, Zibo Zhao

Si les récentes avancées en représentations neuronales et modèles génératifs ont révolutionné la création de contenu 3D, ce domaine reste limité par d'importants goulots d'étranglement dans le traitement des données. Pour y remédier, nous présentons HY3D-Bench, un écosystème open-source conçu pour établir une base unifiée et de haute qualité pour la génération 3D. Nos contributions sont triples : (1) Nous constituons une bibliothèque de 250 000 objets 3D haute fidélité, distillés à partir de référentiels à grande échelle, en utilisant un pipeline rigoureux pour fournir des artefacts prêts pour l'entraînement, incluant des maillages étanches et des rendus multi-vues ; (2) Nous introduisons une décomposition structurelle au niveau des pièces, offrant la granularité essentielle pour une perception fine et un édition contrôlable ; et (3) Nous comblons les écarts de distribution du monde réel via un pipeline d’AIGC synthétique évolutif, contribuant 125 000 actifs synthétiques pour renforcer la diversité dans les catégories à longue traîne. Validé empiriquement par l'entraînement de Hunyuan3D-2.1-Small, HY3D-Bench démocratise l'accès à des ressources de données robustes, visant à catalyser l'innovation dans la perception 3D, la robotique et la création de contenu numérique.

AutoFigure : Génération et perfectionnement d'illustrations scientifiques prêtes pour publication
AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

Feb 3

ByMinjun Zhu, Zhen Lin, Yixuan Weng, Panzhong Lu, Qiujie Xie, Yifan Wei, Sifan Liu, Qiyao Sun, Yue Zhang

Les illustrations scientifiques de haute qualité sont cruciales pour communiquer efficacement des concepts scientifiques et techniques complexes, mais leur création manuelle demeure un goulot d'étranglement bien connu tant dans le monde universitaire que dans l'industrie. Nous présentons FigureBench, la première base de référence à grande échelle pour la génération d'illustrations scientifiques à partir de textes scientifiques longs. Elle contient 3 300 paires texte-figure scientifiques de haute qualité, couvrant diverses tâches de conversion de texte en illustration issues d'articles scientifiques, de revues de littérature, de blogs et de manuels. De plus, nous proposons AutoFigure, le premier cadre agentique qui génère automatiquement des illustrations scientifiques de haute qualité à partir de textes scientifiques longs. Plus précisément, avant de produire le résultat final, AutoFigure procède à une réflexion approfondie, à une recombination et à une validation pour créer une mise en page à la fois structurellement solide et esthétiquement raffinée, produisant une illustration scientifique qui allie exhaustivité structurelle et attrait esthétique. En tirant parti des données de haute qualité de FigureBench, nous menons des expériences approfondies pour tester les performances d'AutoFigure par rapport à diverses méthodes de référence. Les résultats démontrent qu'AutoFigure surpasse constamment toutes les méthodes de référence, produisant des illustrations scientifiques prêtes pour la publication. Le code, l'ensemble de données et l'espace HuggingFace sont disponibles à l'adresse https://github.com/ResearAI/AutoFigure.

Les modèles de langage auto-suggestifs améliorent l'apprentissage par renforcement
Self-Hinting Language Models Enhance Reinforcement Learning

Feb 3

ByBaohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian

L'optimisation de politique relative au groupe (GRPO) a récemment émergé comme une méthode pratique pour aligner les grands modèles de langage sur des objectifs vérifiables. Cependant, avec des récompenses terminales éparses, la GRPO stagne souvent car les épisodes au sein d'un groupe reçoivent fréquemment des récompenses identiques, ce qui entraîne un effondrement des avantages relatifs et une annulation des mises à jour. Nous proposons la GRPO alignée par auto-indice avec supervision privilégiée (SAGE), un cadre d'apprentissage par renforcement sur-politique qui injecte des indices privilégiés pendant l'entraînement pour remodeler la distribution des épisodes sous la même récompense terminale du vérificateur. Pour chaque prompt x, le modèle échantillonne un indice compact h (par exemple, un plan ou une décomposition) puis génère une solution τ conditionnée par (x,h). Fait crucial, la récompense de tâche R(x,τ) reste inchangée ; les indices augmentent uniquement la diversité des résultats au sein du groupe sous un échantillonnage fini, empêchant l'effondrement des avantages GRPO sous des récompenses éparses. Au moment du test, nous fixons h=varnothing et déployons la politique sans indice, sans aucune information privilégiée. De plus, l'échantillonnage d'auto-indices diversifiés sert de curriculum adaptatif qui suit les goulots d'étranglement de l'apprenant plus efficacement que des indices fixes provenant d'une politique initiale ou d'un modèle externe plus fort. Les expériences sur 6 benchmarks avec 3 LLM montrent que SAGE surpasse constamment la GRPO, en moyenne de +2,0 sur Llama-3.2-3B-Instruct, +1,2 sur Qwen2.5-7B-Instruct et +1,3 sur Qwen3-4B-Instruct. Le code est disponible à l'adresse https://github.com/BaohaoLiao/SAGE.

CL-bench : Un benchmark pour l'apprentissage contextuel
CL-bench: A Benchmark for Context Learning

Feb 3

ByShihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao

Les modèles linguistiques (LM) actuels excellent dans le raisonnement sur des prompts en utilisant des connaissances pré-entraînées. Cependant, les tâches du monde réel sont bien plus complexes et dépendantes du contexte : les modèles doivent apprendre à partir du contexte spécifique à la tâche et exploiter de nouvelles connaissances au-delà de celles acquises lors du pré-entraînement pour raisonner et résoudre les tâches. Nous nommons cette capacité l'apprentissage contextuel (context learning), une aptitude cruciale que les humains possèdent naturellement mais qui a été largement négligée. Pour cela, nous présentons CL-bench, un benchmark du monde réel composé de 500 contextes complexes, 1 899 tâches et 31 607 grilles d'évaluation, tous conçus par des experts domainaux expérimentés. Chaque tâche est conçue de telle sorte que le nouveau contenu nécessaire à sa résolution est contenu dans le contexte correspondant. Résoudre les tâches de CL-bench nécessite que les modèles apprennent à partir du contexte, qu'il s'agisse de nouvelles connaissances spécifiques à un domaine, de systèmes de règles, de procédures complexes ou de lois dérivées de données empiriques, toutes absentes du pré-entraînement. Cela va bien au-delà des tâches à long contexte qui testent principalement la récupération ou la compréhension écrite, et des tâches d'apprentissage en contexte (in-context learning), où les modèles apprennent des schémas de tâches simples via des instructions et des démonstrations. Nos évaluations de dix LM de pointe montrent que les modèles ne résolvent en moyenne que 17,2 % des tâches. Même le modèle le plus performant, GPT-5.1, n'en résout que 23,7 %, révélant que les LM n'ont pas encore acquis un apprentissage contextuel efficace, ce qui constitue un goulot d'étranglement critique pour aborder les tâches réelles complexes dépendantes du contexte. CL-bench représente une étape vers la construction de LM dotés de cette capacité fondamentale, les rendant plus intelligents et faisant progresser leur déploiement dans des scénarios du monde réel.

Vibe AIGC : Un nouveau paradigme pour la génération de contenu via l'orchestration agentique
Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

Feb 4

ByJiaheng Liu, Yuanxing Zhang, Shihao Li, Xinping Lei

Au cours de la dernière décennie, la trajectoire de l'intelligence artificielle générative a été dominée par un paradigme centré sur les modèles, piloté par les lois d'échelle. Malgré des progrès significatifs en matière de fidélité visuelle, cette approche a rencontré un « plafond d'utilisabilité » qui se manifeste par le Fossé Intention-Exécution (c'est-à-dire la disparité fondamentale entre l'intention de haut niveau d'un créateur et la nature stochastique et en boîte noire des modèles actuels à exécution unique). Dans cet article, inspirés par le Vibe Coding, nous introduisons le Vibe AIGC, un nouveau paradigme pour la génération de contenu via une orchestration agentique, qui représente la synthèse autonome de flux de travail hiérarchiques multi-agents. Dans ce paradigme, le rôle de l'utilisateur transcende l'ingénierie de prompts traditionnelle pour évoluer vers celui d'un Commandant qui fournit une « Vibe », une représentation de haut niveau englobant les préférences esthétiques, la logique fonctionnelle, etc. Un Méta-Planificateur centralisé agit alors comme un architecte système, déconstruisant cette « Vibe » en pipelines agentiques exécutables, vérifiables et adaptatifs. En passant de l'inférence stochastique à l'orchestration logique, le Vibe AIGC comble le fossé entre l'imagination humaine et l'exécution machine. Nous soutenons que ce changement redéfinira l'économie collaborative humain-IA, transformant l'IA d'un moteur d'inférence fragile en un partenaire d'ingénierie robuste au niveau système, démocratisant ainsi la création d'actifs numériques complexes et de long terme.

VLS : Pilotage de politiques de robot préentraînées via des modèles vision-langage
VLS: Steering Pretrained Robot Policies via Vision-Language Models

Feb 3

ByShuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna

Pourquoi les politiques préentraînées par diffusion ou appariement de flux échouent-elles lorsque la même tâche est exécutée près d'un obstacle, sur une surface de support décalée ou au milieu d'un encombrement modéré ? Ces échecs reflètent rarement un manque de compétences motrices ; ils révèlent plutôt une limitation de l'apprentissage par imitation face à des décalages entre entraînement et test, où la génération d'actions est étroitement couplée à des configurations spatiales et des spécifications de tâches propres à l'entraînement. Le réentraînement ou le réglage fin pour résoudre ces échecs est coûteux et conceptuellement inadapté, car les comportements requis existent déjà mais ne peuvent pas être adaptés de manière sélective au moment du test. Nous proposons Vision-Language Steering (VLS), un cadre sans entraînement pour l'adaptation à l'inférence de politiques robotiques génératives figées. VLS traite l'adaptation comme un problème de contrôle à l'inférence, orientant le processus d'échantillonnage d'une politique préentraînée par diffusion ou appariement de flux en réponse à des observations et descriptions linguistiques hors distribution, sans modifier les paramètres de la politique. En exploitant des modèles vision-langage pour synthétiser des fonctions de récompense différenciables par rapport à la trajectoire, VLS guide le débruitage vers des trajectoires d'actions qui satisfont aux exigences spatiales et de tâche au moment du test. Lors d'évaluations en simulation et dans le monde réel, VLS surpasse constamment les méthodes d'orientation antérieures, avec une amélioration de 31 % sur CALVIN et un gain de 13 % sur LIBERO-PRO. Le déploiement réel sur un robot Franka démontre en outre une adaptation robuste à l'inférence face à des décalages spatiaux et sémantiques lors des tests. Page du projet : https://vision-language-steering.github.io/webpage/

A-RAG : Mise à l'échelle de la Génération Augmentée par Récupération Agentique via des Interfaces de Récupération Hiérarchiques
A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Feb 3

ByMingxuan Du, Benfeng Xu, Chiwei Zhu, Shaohan Wang, Pengyu Wang, Xiaorui Wang, Zhendong Mao

Les modèles de langage de pointe ont démontré de solides capacités de raisonnement et d'utilisation d'outils sur le long terme. Cependant, les systèmes RAG existants ne parviennent pas à exploiter ces capacités. Ils reposent encore sur deux paradigmes : (1) concevoir un algorithme qui récupère des passages en une seule fois et les concatène dans l'entrée du modèle, ou (2) prédéfinir un workflow et inciter le modèle à l'exécuter étape par étape. Aucun de ces paradigmes ne permet au modèle de participer aux décisions de récupération, empêchant ainsi une mise à l'échelle efficace avec les améliorations du modèle. Dans cet article, nous présentons A-RAG, un cadre RAG agentique qui expose des interfaces de récupération hiérarchique directement au modèle. A-RAG fournit trois outils de récupération : recherche par mots-clés, recherche sémantique et lecture de segments, permettant à l'agent de rechercher et de récupérer des informations de manière adaptative sur plusieurs granularités. Les expériences sur plusieurs benchmarks de questions-réponses en domaine ouvert montrent qu'A-RAG surpasse constamment les approches existantes avec un nombre comparable ou inférieur de tokens récupérés, démontrant qu'A-RAG exploite efficacement les capacités du modèle et s'adapte dynamiquement aux différentes tâches RAG. Nous étudions en outre systématiquement comment A-RAG évolue avec la taille du modèle et le calcul au moment du test. Nous publierons notre code et notre suite d'évaluation pour faciliter les recherches futures. Le code et la suite d'évaluation sont disponibles à l'adresse https://github.com/Ayanami0730/arag.

PaperSearchQA : Apprentissage de la recherche et du raisonnement sur des articles scientifiques avec RLVR
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

Jan 26

ByJames Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy

Les agents de recherche sont des modèles de langage (LM) qui raisonnent et interrogent des bases de connaissances (ou le web) pour répondre à des questions ; les méthodes récentes supervisent uniquement la précision de la réponse finale en utilisant l'apprentissage par renforcement avec des récompenses vérifiables (RLVR). La plupart des agents de recherche RLVR traitent de questions-réponses en domaine général, ce qui limite leur pertinence pour les systèmes d'IA techniques dans les domaines scientifiques, techniques et médicaux. Dans ce travail, nous proposons d'entraîner des agents à rechercher et raisonner sur des articles scientifiques – cela permet de tester la réponse à des questions techniques, c'est directement pertinent pour les scientifiques réels, et ces capacités seront cruciales pour les futurs systèmes d'IA scientifique. Concrètement, nous publions un corpus de recherche de 16 millions de résumés d'articles biomédicaux et construisons un jeu de données de questions-réponses factuelles exigeant appelé PaperSearchQA avec 60 000 échantillons dont la réponse se trouve dans le corpus, ainsi que des benchmarks. Nous entraînons des agents de recherche dans cet environnement à surpasser les bases de référence de récupération non-RL ; nous effectuons également une analyse quantitative supplémentaire et observons des comportements intéressants des agents comme la planification, le raisonnement et l'auto-vérification. Notre corpus, jeux de données et benchmarks sont utilisables avec le codebase populaire Search-R1 pour l'entraînement RLVR et sont publiés sur https://huggingface.co/collections/jmhb/papersearchqa. Enfin, nos méthodes de création de données sont évolutives et facilement extensibles à d'autres domaines scientifiques.

Horizon-LM : Une architecture centrée sur la RAM pour l'entraînement de modèles de langage de grande taille
Horizon-LM: A RAM-Centric Architecture for LLM Training

Feb 4

ByZhengqing Yuan, Lichao Sun, Yanfang, Ye

La croissance rapide des grands modèles de langage (LLM) a dépassé l'évolution du matériel à GPU unique, rendant l'échelle des modèles de plus en plus contrainte par la capacité mémoire plutôt que par le calcul. Bien que les systèmes d'entraînement modernes étendent la mémoire GPU via le parallélisme distribué et la déportation de charge à travers les niveaux CPU et stockage, ils conservent fondamentalement un paradigme d'exécution centré sur le GPU dans lequel les GPU hébergent des répliques persistantes du modèle et des graphes d'autograd complets. En conséquence, la mise à l'échelle de grands modèles reste étroitement couplée à des grappes multi-GPU, des environnements d'exécution distribués complexes et une consommation mémoire hôte imprévisible, créant des barrières substantielles pour les charges de travail post-entraînement à l'échelle du nœud, telles que le réglage par instruction, l'alignement et l'adaptation de domaine. Nous présentons Horizon-LM, un système d'entraînement à mémoire centrée qui redéfinit les rôles du CPU et du GPU pour l'optimisation des grands modèles. Horizon-LM traite la mémoire hôte comme le stockage de paramètres autoritaire et utilise les GPU uniquement comme moteurs de calcul transitoires via un modèle d'exécution CPU-maître, GPU-esclave. En éliminant les modules résidents persistants sur le GPU et les graphes d'autograd, en employant une recomputation explicite avec propagation manuelle des gradients, et en introduisant un moteur d'exécution pipeliné à double tampon, Horizon-LM découple l'échelle du modèle du nombre de GPU et limite l'utilisation mémoire à l'empreinte théorique des paramètres. Sur un seul GPU H200 avec 1,5 To de RAM hôte, Horizon-LM entraîne de manière fiable des modèles jusqu'à 120 milliards de paramètres. Sur une machine standard à un seul A100, Horizon-LM atteint jusqu'à 12,2 fois le débit d'entraînement de DeepSpeed ZeRO-3 avec déportation CPU, tout en préservant l'exactitude numérique. Sur toutes les plateformes et échelles, Horizon-LM maintient une utilisation élevée des dispositifs et une croissance mémoire prévisible, démontrant que la mémoire hôte, et non la mémoire GPU, définit la véritable frontière de faisabilité pour l'entraînement de grands modèles à l'échelle du nœud.

MEnvAgent : Construction d'environnements polyglottes évolutifs pour l'ingénierie logicielle vérifiable
MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

Jan 30

ByChuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang

L'évolution des agents de modèles de langage de grande taille (LLM) pour l'ingénierie logicielle (SWE) est limitée par la rareté des ensembles de données vérifiables, un goulot d'étranglement découlant de la complexité de construction d'environnements exécutables dans divers langages. Pour résoudre ce problème, nous présentons MEnvAgent, un cadre multi-langage pour la construction automatisée d'environnements qui facilite la génération évolutive d'instances de tâches vérifiables. MEnvAgent utilise une architecture Planification-Exécution-Vérification multi-agents pour résoudre de manière autonome les échecs de construction et intègre un nouveau mécanisme de Réutilisation d'Environnement qui réduit la surcharge computationnelle en corrigeant progressivement les environnements historiques. Les évaluations sur MEnvBench, un nouveau benchmark comprenant 1 000 tâches dans 10 langages, démontrent que MEnvAgent surpasse les approches de référence, améliorant les taux d'échec à réussite (F2P) de 8,6 % tout en réduisant les coûts temporels de 43 %. De plus, nous démontrons l'utilité de MEnvAgent en construisant MEnvData-SWE, le plus grand ensemble de données polyglotte open-source d'environnements Docker vérifiables réalistes à ce jour, accompagné de trajectoires de solution qui permettent des gains de performance cohérents sur les tâches SWE pour un large éventail de modèles. Notre code, benchmark et ensemble de données sont disponibles à l'adresse https://github.com/ernie-research/MEnvAgent.

De la donnée au comportement : prédire les comportements indésirables des modèles avant l'entraînement
From Data to Behavior: Predicting Unintended Model Behaviors Before Training

Feb 4

ByMengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang

Les grands modèles de langage (LLM) peuvent acquérir des biais non intentionnels à partir de données d'entraînement apparemment bénignes, même sans indices explicites ou contenu malveillant. Les méthodes existantes peinent à détecter ces risques avant le fine-tuning, rendant l'évaluation post hoc coûteuse et inefficace. Pour relever ce défi, nous introduisons Data2Behavior, une nouvelle tâche visant à prédire les comportements non intentionnels des modèles avant l'entraînement. Nous proposons également Manipulating Data Features (MDF), une approche légère qui résume les données candidates via leurs représentations moyennes et les injecte dans la passe avant d'un modèle de base, permettant aux signaux statistiques latents dans les données d'influencer les activations du modèle et de révéler les biais potentiels et risques de sécurité sans mettre à jour aucun paramètre. MDF permet une prédiction fiable tout en consommant seulement environ 20% des ressources GPU nécessaires au fine-tuning. Les expériences sur Qwen3-14B, Qwen2.5-32B-Instruct et Gemma-3-12b-it confirment que MDF peut anticiper les comportements non intentionnels et fournir un éclairage sur les vulnérabilités pré-entraînement.

Agent-Omit : Entraînement d'Agents LLM Efficaces pour l'Omission Adaptative de la Pensée et de l'Observation via l'Apprentissage par Renforcement Agentique
Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

Feb 4

ByYansong Ning, Jun Fang, Naiqiang Tan, Hao Liu

La gestion de la pensée et de l'observation des agents lors d'interactions multi-tours agent-environnement est une stratégie émergente pour améliorer l'efficacité des agents. Cependant, les études existantes traitent l'ensemble des trajectoires d'interaction de manière égale, négligeant le fait que la nécessité de la pensée et l'utilité de l'observation varient selon les tours. Pour cela, nous menons d'abord des investigations quantitatives sur la manière dont la pensée et l'observation affectent l'efficacité et le rendement des agents. Sur la base de nos résultats, nous proposons Agent-Omit, un cadre d'apprentissage unifié qui permet aux agents LLM d'omettre de manière adaptative les pensées et observations redondantes. Plus précisément, nous synthétisons d'abord une petite quantité de données de démarrage à froid, incluant des scénarios d'omission à tour unique et multi-tours, pour affiner le comportement d'omission de l'agent. De plus, nous introduisons une approche d'apprentissage par renforcement agentique sensible à l'omission, incorporant un mécanisme d'échantillonnage dual et une récompense d'omission sur mesure pour stimuler la capacité d'omission adaptative de l'agent. Théoriquement, nous prouvons que l'écart de notre politique d'omission est borné supérieurement par la divergence KL. Les résultats expérimentaux sur cinq benchmarks d'agents montrent que notre Agent-Omit-8B peut atteindre des performances comparables à sept agents LLM de pointe, et obtenir le meilleur compromis efficacité-rendement par rapport à sept méthodes d'agents LLM efficaces. Notre code et nos données sont disponibles à l'adresse https://github.com/usail-hkust/Agent-Omit.

D-CORE : Incitation à la décomposition des tâches dans les grands modèles de raisonnement pour une utilisation complexe d'outils
D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

Feb 2

ByBowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang

L'utilisation efficace d'outils et le raisonnement sont des capacités essentielles pour les grands modèles de raisonnement (LRM) afin de résoudre des problèmes complexes du monde réel. Par une analyse empirique, nous identifions que les LRM actuels manquent de capacité de décomposition en sous-tâches dans des scénarios complexes d'utilisation d'outils, conduisant à un Raisonnement Paresseux. Pour y remédier, nous proposons un cadre d'entraînement en deux étapes, D-CORE (\textbf{D}écomposition des tâches et \textbf{Co}mposition des processus de \textbf{Re}aisonnement), qui incite d'abord la capacité de raisonnement par décomposition de tâches des LRM via l'autodistillation, suivie d'un apprentissage par renforcement tenant compte de la diversité (RL) pour restaurer la capacité de raisonnement réflexif des LRM. D-CORE permet des améliorations robustes de l'utilisation d'outils sur diverses benchmarks et échelles de modèles. Les expériences sur BFCLv3 démontrent la supériorité de notre méthode : D-CORE-8B atteint une précision de 77,7 %, surpassant le meilleur modèle 8B de 5,7 %. Parallèlement, D-CORE-14B établit un nouvel état de l'art à 79,3 %, surpassant les modèles 70B bien qu'étant 5 fois plus petit. Le code source est disponible à l'adresse https://github.com/alibaba/EfficientAI.

Quantifier l'écart entre compréhension et génération dans les modèles multimodaux unifiés
Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

Feb 2

ByChenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou

Les récents progrès des modèles multimodaux unifiés (UMM) ont démontré des avancées remarquables dans les tâches de compréhension et de génération. Cependant, la question de savoir si ces deux capacités sont véritablement alignées et intégrées au sein d'un même modèle demeure incertaine. Pour étudier cette problématique, nous présentons GapEval, un benchmark bidirectionnel conçu pour quantifier l'écart entre les capacités de compréhension et de génération, et mesurer quantitativement la cohérence cognitive des deux directions dites « unifiées ». Chaque question peut être répondue dans les deux modalités (image et texte), permettant une évaluation symétrique de la capacité d'inférence bidirectionnelle d'un modèle et de sa cohérence cross-modale. Les expériences révèlent un écart persistant entre les deux directions pour une large gamme d'UMM aux architectures variées, suggérant que les modèles actuels n'atteignent qu'une unification superficielle plutôt qu'une convergence cognitive profonde des deux capacités. Pour explorer plus avant le mécanisme sous-jacent, nous menons une étude empirique sous l'angle de la manipulation des connaissances afin d'illustrer les limitations fondamentales. Nos résultats indiquent que les connaissances au sein des UMM restent souvent disjointes. L'émergence des capacités et les connaissances à travers les modalités ne sont pas synchronisées, ouvrant la voie à de futures explorations.

SpatiaLab : Les modèles vision-langage peuvent-ils raisonner spatialement dans des conditions réelles ?
SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

Feb 3

ByAzmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez

Le raisonnement spatial est un aspect fondamental de la cognition humaine, mais il reste un défi majeur pour les modèles vision-langage (VLM) contemporains. Les travaux antérieurs reposaient largement sur des environnements synthétiques ou générés par LLM, avec des conceptions de tâches limitées et des configurations proches de casse-têtes, ne parvenant pas à capturer la complexité du monde réel, le bruit visuel et les relations spatiales diverses auxquels les VLMs sont confrontés. Pour remédier à cela, nous présentons SpatiaLab, un benchmark complet pour évaluer le raisonnement spatial des VLMs dans des contextes réalistes et non contraints. SpatiaLab comprend 1 400 paires question-réponse visuelles réparties en six catégories principales : Positionnement Relatif, Profondeur et Occlusion, Orientation, Taille et Échelle, Navigation Spatiale et Géométrie 3D, chacune avec cinq sous-catégories, soit 30 types de tâches distincts. Chaque sous-catégorie contient au moins 25 questions, et chaque catégorie principale comprend au moins 200 questions, supportant une évaluation à choix multiples et ouverte. Des expériences sur diverses VLMs de pointe, incluant des modèles open-source et propriétaires, des modèles axés sur le raisonnement et des modèles spécialisés en raisonnement spatial, révèlent un écart substantiel dans les capacités de raisonnement spatial par rapport aux humains. Dans le cadre à choix multiples, InternVL3.5-72B atteint une précision de 54,93 % contre 87,57 % pour les humains. Dans le cadre à réponses ouvertes, tous les modèles montrent une baisse de performance d'environ 10 à 25 %, GPT-5-mini obtenant le score le plus élevé à 40,93 % contre 64,93 % pour les humains. Ces résultats mettent en lumière des limitations clés dans la gestion des relations spatiales complexes, la perception de la profondeur, la navigation et la géométrie 3D. En fournissant un cadre d'évaluation diversifié et ancré dans le monde réel, SpatiaLab expose des défis et des opportunités critiques pour faire progresser le raisonnement spatial des VLMs, offrant un benchmark pour guider les recherches futures vers une compréhension spatiale robuste et alignée avec l'humain. SpatiaLab est disponible à l'adresse : https://spatialab-reasoning.github.io/.

BatCoder : Apprentissage Bidirectionnel Autosupervisé Code-Documentation par Rétro-traduction
BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

Jan 30

ByJingwen Xu, Yiyang Lu, Zisu Huang, Changze Lv, Xiaohua Wang, Shizheng Li, Zhibo Xu, Zhengkang Guo, Zhengyuan Wang, Muzhao Tian, Xuanjing Huang, Xiaoqing Zheng

L'entraînement de modèles de langage de grande taille (LLM) pour des tâches liées au code repose généralement sur des paires code-documentation de haute qualité, qui sont coûteuses à constituer et souvent rares pour les langages de programmation de niche. Nous présentons BatCoder, un cadre d'apprentissage par renforcement auto-supervisé conçu pour optimiser conjointement la génération de code et la production de documentation. BatCoder utilise une stratégie de rétro-traduction : une documentation est d'abord générée à partir du code, puis cette documentation générée est utilisée pour reconstruire le code original. La similarité sémantique entre le code original et le code reconstruit sert de récompense implicite, permettant à l'apprentissage par renforcement d'améliorer les performances du modèle à la fois pour générer du code à partir de documentation et inversement. Cette approche permet d'entraîner les modèles en utilisant uniquement du code, augmentant ainsi considérablement le nombre d'exemples d'entraînement disponibles. Évalué sur HumanEval et MBPP avec un modèle de 7 milliards de paramètres, BatCoder a atteint des scores de 83,5 % et 81,0 % en pass@1, surpassant des bases de référence open-source solides. De plus, le cadre démontre une scalabilité constante à la fois par rapport à la taille du corpus d'entraînement et à la capacité du modèle.

Conception de Récompenses Basées sur la Vraisemblance pour le Raisonnement Général des LLM
Likelihood-Based Reward Designs for General LLM Reasoning

Feb 3

ByAriel Kwiatkowski, Natasha Butt, Ismail Labiad, Julia Kempe, Yann Ollivier

L'affinage des grands modèles de langage (LLM) sur des benchmarks de raisonnement par apprentissage par renforcement nécessite une fonction de récompense spécifique, souvent binaire, pour chaque benchmark. Cela présente deux limitations potentielles : la nécessité de concevoir la récompense, et la nature potentiellement parcellaire des récompenses binaires. Ici, nous étudions systématiquement les récompenses dérivées de la probabilité ou de la log-probabilité d'émettre la réponse de référence (ou toute autre continuation de prompt présente dans les données), lesquelles présentent l'avantage de ne pas dépendre de vérificateurs spécifiques et d'être disponibles à grande échelle. Plusieurs travaux récents ont préconisé l'utilisation de récompenses similaires (par exemple, VeriFree, JEPO, RLPR, NOVER). Nous comparons systématiquement des variantes de récompenses basées sur la vraisemblance avec des lignes de base standard, en testant les performances à la fois sur des benchmarks standards de raisonnement mathématique et sur des réponses longues où aucun vérificateur externe n'est disponible. Nous constatons que l'utilisation de la log-probabilité de la réponse de référence comme récompense pour l'apprentissage par enchaînement de pensées (CoT) est la seule option qui fonctionne bien dans toutes les configurations. Cette récompense est également cohérente avec la perte de log-vraisemblance du token suivant utilisée lors du pré-entraînement. Dans des contextes vérifiables, les récompenses en log-probabilité offrent des taux de succès comparables ou supérieurs au renforcement avec des récompenses binaires standard, et produisent une perplexité bien meilleure. Dans des contextes non vérifiables, elles performent au même niveau que le Fine-Tuning Supervisé (SFT). En revanche, les méthodes basées sur la probabilité, comme VeriFree, plafonnent dans les contextes non vérifiables en raison de la probabilité négligeable d'obtenir la bonne réponse. Globalement, cela établit les récompenses en log-probabilité comme une méthode viable pour l'affinage CoT, faisant le pont entre les contextes de réponses courtes et vérifiables et ceux de réponses longues et non vérifiables.

A2Eval : Évaluation Agentique et Automatisée pour le Cerveau Incarné
A2Eval: Agentic and Automated Evaluation for Embodied Brain

Feb 2

ByShuai Zhang, Jiayu Hu, Zijie Chen, Zeyuan Ding, Yi Zhang, Yingji Zhang, Ziyi Zhou, Junwei Liao, Shengjie Zhou, Yong Dai, Zhenzhong Lan, Xiaozhu Ju

L'évaluation actuelle des VLM incarnés repose sur des benchmarks statiques, définis par des experts et annotés manuellement, qui présentent une redondance sévère et un déséquilibre de couverture. Ce paradigme laborieux draine les ressources computationnelles et d'annotation, gonfle les coûts et fausse le classement des modèles, freinant in fine le développement itératif. Pour y remédier, nous proposons l'Évaluation Automatique Agentique (A2Eval), premier cadre agentique automatisant la curation et l'évaluation des benchmarks via deux agents collaboratifs. L'Agent Données induit de manière autonome des dimensions de capacité et assemble une suite d'évaluation équilibrée et compacte, tandis que l'Agent Éval synthétise et valide des pipelines d'évaluation exécutables, permettant une évaluation entièrement autonome et haute fidélité. Évalué sur 10 benchmarks et 13 modèles, A2Eval compresse les suites d'évaluation de 85%, réduit les coûts computationnels globaux de 77% et offre une accélération de 4,6x tout en préservant la qualité de l'évaluation. Surtout, A2Eval corrige les biais systématiques de classement, améliore l'alignement humain jusqu'à un rho de Spearman=0,85 et maintient une haute fidélité de classement (tau de Kendall=0,81), établissant un nouveau standard pour l'évaluation incarnée haute fidélité et faible coût. Notre code et nos données seront bientôt publics.

Au-delà des raccourcis unimodaux : les MLLM comme raisonneurs intermodaux pour la reconnaissance d'entités nommées ancrée
Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

Feb 4

ByJinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang

La Reconnaissance d'Entités Nommées Multimodales Ancrée (GMNER) vise à extraire des entités textuelles, à leur attribuer des catégories sémantiques et à les ancrer dans des régions visuelles correspondantes. Dans ce travail, nous explorons le potentiel des Grands Modèles Linguistiques Multimodaux (MLLMs) pour réaliser la GMNER de manière end-to-end, au-delà de leur rôle typique d'outils auxiliaires dans des approches en cascade. Notre étude révèle un défi fondamental : les MLLMs présentent un biais de modalité, incluant un biais visuel et un biais textuel, qui découle de leur tendance à emprunter des raccourcis unimodaux plutôt qu'à effectuer une vérification multimodale rigoureuse. Pour y remédier, nous proposons le Raisonnement par Cohérence Sensible aux Modalités (MCR), qui impose un raisonnement multimodal structuré via l'Injection de Schémas de Raisonnement Multi-styles (MRSI) et l'Optimisation Vérifiable Guidée par Contraintes (CVO). MRSI transforme des contraintes abstraites en chaînes de raisonnement exécutables, tandis que CVO permet au modèle d'aligner dynamiquement ses trajectoires de raisonnement avec l'Optimisation de Politique Relative par Groupe (GRPO). Les expériences sur les tâches de GMNER et d'ancrage visuel démontrent que MCR atténue efficacement le biais de modalité et obtient des performances supérieures aux méthodes de référence existantes.

Diffusion vidéo autorégressive efficace avec tête factice
Efficient Autoregressive Video Diffusion with Dummy Head

Jan 28

ByHang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu

Le modèle de diffusion vidéo autorégressif a récemment suscité un intérêt de recherche considérable grâce à sa modélisation causale et à son débruîtage itératif. Dans ce travail, nous constatons que l'auto-attention multi-têtes dans ces modèles sous-utilise les trames historiques : environ 25 % des têtes s'attachent presque exclusivement à la trame courante, et supprimer leurs caches KV n'entraîne qu'une dégradation mineure des performances. Sur cette base, nous proposons Dummy Forcing, une méthode simple mais efficace pour contrôler l'accessibilité du contexte entre les différentes têtes. Spécifiquement, l'allocation de mémoire hétérogène proposée réduit la redondance contextuelle par tête, accompagnée d'une programmation dynamique des têtes pour classer adaptivement les types de têtes. De plus, nous développons une technique de regroupement contextuel pour obtenir une compression de cache plus agressive. Sans entraînement supplémentaire, notre méthode Dummy Forcing offre une accélération jusqu'à 2,0x par rapport à la baseline, permettant une génération vidéo à 24,3 IPS avec une baisse de qualité inférieure à 0,5 %. La page du projet est disponible à l'adresse https://csguoh.github.io/project/DummyForcing/.

Pas de solution universelle : Construction de systèmes de traduction pour le bachkir, le kazakh, le kirghize, le tatar et le tchouvache à l'aide de données synthétiques et originales
No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

Feb 4

ByDmitry Karpov

Nous explorons la traduction automatique pour cinq paires de langues turciques : russe-bachkir, russe-kazakh, russe-kirghiz, anglais-tatar et anglais-tchouvache. Le fine-tuning de nllb-200-distilled-600M avec LoRA sur des données synthétiques a permis d'atteindre un score chrF++ de 49,71 pour le kazakh et 46,94 pour le bachkir. L'approche par prompting de DeepSeek-V3.2 avec récupération d'exemples similaires a obtenu un chrF++ de 39,47 pour le tchouvache. Pour le tatar, les approches zero-shot ou basées sur la récupération ont atteint un chrF++ de 41,6, tandis que pour le kirghiz, l'approche zero-shot a obtenu 45,6. Nous rendons publics le jeu de données et les poids obtenus.

Apprentissage Contextuel pour les Discussions Multi-Agents
Context Learning for Multi-Agent Discussion

Feb 2

ByXingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang, Ju Ren

La Discussion Multi-Agent (MAD) a récemment suscité un intérêt croissant, où plusieurs instances de modèles de langage résolvent des problèmes de manière collaborative via une discussion structurée. Cependant, nous constatons que les méthodes MAD actuelles souffrent facilement d'incohérence discussionnelle : les modèles échouent à atteindre une solution cohérente en raison du désalignement entre leurs contextes individuels. Dans cet article, nous présentons une méthode d'apprentissage de contexte multi-modèle (M2CL) qui apprend un générateur de contexte pour chaque agent, capable de générer dynamiquement des instructions contextuelles à chaque tour de discussion via une organisation et un raffinement automatiques de l'information. Plus précisément, inspiré par nos insights théoriques sur l'instruction contextuelle, M2CL entraîne les générateurs à contrôler la cohérence contextuelle et les divergences de sortie via un mécanisme auto-adaptatif soigneusement conçu. Cette approche permet aux modèles d'éviter une convergence prématurée sur un bruit majoritaire et d'atteindre progressivement le consensus correct. Nous évaluons M2CL sur des tâches complexes, incluant le raisonnement académique, les tâches incarnées et le contrôle mobile. Les résultats montrent que les performances de M2CL surpassent significativement les méthodes existantes de 20% à 50%, tout en bénéficiant d'une transférabilité et d'une efficacité computationnelle favorables.

Jetons de Peau : Une représentation compacte apprise pour le rigging autorégressif unifié
Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

Feb 4

ByJia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu

La prolifération rapide des modèles génératifs 3D a créé un goulot d'étranglement critique dans les pipelines d'animation : le rigging. Les méthodes automatisées existantes sont fondamentalement limitées par leur approche du skinning, le traitant comme une tâche de régression hautement dimensionnelle et mal posée, qui est inefficace à optimiser et généralement découplée de la génération du squelette. Nous postulons qu'il s'agit d'un problème de représentation et introduisons SkinTokens : une représentation apprise, compacte et discrète pour les poids d'enveloppe. En tirant parti d'un FSQ-CVAE pour capturer la sparsité intrinsèque du skinning, nous reformulons la tâche d'une régression continue vers un problème de prédiction de séquence de tokens plus traitable. Cette représentation permet TokenRig, un framework autogressif unifié qui modélise l'intégralité du rig comme une séquence unique de paramètres squelettiques et de SkinTokens, apprenant les dépendances complexes entre les squelettes et les déformations de peau. Le modèle unifié est ensuite propice à une étape d'apprentissage par renforcement, où des récompenses géométriques et sémantiques sur mesure améliorent la généralisation à des assets complexes hors distribution. Quantitativement, la représentation SkinTokens conduit à une amélioration de 98 % à 133 % de la précision du skinning par rapport aux méthodes de l'état de l'art, tandis que le framework complet TokenRig, affiné par RL, améliore la prédiction osseuse de 17 % à 22 %. Notre travail présente une approche générative unifiée du rigging qui offre une fidélité et une robustesse supérieures, proposant une solution évolutive à un défi de longue date dans la création de contenu 3D.

Auto-récompense par Monte Carlo séquentiel pour modèles de langage à diffusion masquée
Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models

Feb 2

ByZiwei Luo, Ziqi Jin, Lei Wang, Lidong Bing, Thomas B. Schön

Ce travail présente le SMC auto-récompensant (Sequential Monte Carlo), un algorithme de mise à l'échelle lors de l'inférence permettant un échantillonnage efficace des modèles de langage à diffusion masquée (MDLM). Notre algorithme découle de l'observation que la plupart des MDLM existants reposent sur une stratégie d'échantillonnage basée sur la confiance, où seuls les tokens présentant la plus haute confiance prédictive sont préservés à chaque étape. Cela restreint la génération à un paradigme de décodage glouton sensible au bruit, entraînant un effondrement inévitable de la diversité des trajectoires possibles. Nous résolvons ce problème en lançant en parallèle plusieurs processus de diffusion interactifs, appelés particules, pour l'exploration des trajectoires. Surtout, nous introduisons la confiance au niveau de la trajectoire comme signal d'auto-récompense pour attribuer des poids d'importance aux particules. Durant l'échantillonnage, les particules sont itérativement pondérées et rééchantillonnées pour orienter systématiquement la génération vers des échantillons de haute qualité et globalement confiants. Notre SMC auto-récompensant est validé sur divers modèles de langage à diffusion masquée et benchmarks, obtenant une amélioration significative sans entraînement supplémentaire ni guide de récompense, tout en convertissant efficacement la capacité d'inférence parallèle en une qualité d'échantillonnage améliorée. Notre code est disponible à l'adresse https://github.com/Algolzw/self-rewarding-smc.

Modélisation Autoregressive des Protéines via la Génération de Structures Multi-échelles
Protein Autoregressive Modeling via Multiscale Structure Generation

Feb 4

ByYanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu

Nous présentons la modélisation autogressive des protéines (PAR), le premier cadre autogressif multi-échelle pour la génération de squelette protéique via une prédiction hiérarchique allant du grossier au fin. En exploitant la nature hiérarchique des protéines, PAR génère des structures qui imitent la sculpture d'une statue, formant d'abord une topologie grossière avant d'affiner les détails structurels à travers les échelles. Pour y parvenir, PAR comprend trois composants clés : (i) des opérations de sous-échantillonnage multi-échelles qui représentent les structures protéiques à plusieurs échelles durant l'entraînement ; (ii) un transformeur autogressif qui encode l'information multi-échelle et produit des plongements conditionnels pour guider la génération de structures ; (iii) un décodeur de squelette basé sur des flux qui génère les atomes du squelette conditionnellement à ces plongements. De plus, les modèles autogressifs souffrent du biais d'exposition, causé par l'écart entre les procédures d'entraînement et de génération, ce qui dégrade substantiellement la qualité de la génération des structures. Nous atténuons efficacement ce problème en adoptant l'apprentissage par contexte bruité et l'échantillonnage planifié, permettant une génération robuste du squelette. Notamment, PAR présente une forte généralisation zero-shot, supportant une génération conditionnelle flexible guidée par l'humain et l'échafaudage de motifs sans nécessiter de micro-ajustement. Sur le benchmark de génération inconditionnelle, PAR apprend efficacement les distributions de protéines et produit des squelettes de haute qualité conceptuelle, tout en présentant un comportement d'échelle favorable. Ensemble, ces propriétés établissent PAR comme un cadre prometteur pour la génération de structures protéiques.

OmniRad : Un modèle fondamental radiologique pour l'analyse multitâche d'images médicales
OmniRad: A Radiological Foundation Model for Multi-Task Medical Image Analysis

Feb 4

ByLuca Zedda, Andrea Loddo, Cecilia Di Ruberto

L'analyse radiologique bénéficie de plus en plus de représentations visuelles pré-entraînées capables de prendre en charge des tâches en aval hétérogènes à travers les modalités d'imagerie. Dans ce travail, nous présentons OmniRad, un modèle fondamental radiologique auto-supervisé pré-entraîné sur 1,2 million d'images médicales, conçu selon des principes inspirés de la radiologie qui mettent l'accent sur la réutilisation des représentations et la transférabilité inter-tâches. Nous évaluons l'encodeur pré-entraîné selon plusieurs régimes d'adaptation en aval, incluant des adaptateurs légers spécifiques aux tâches avec une architecture principale gelée ainsi qu'un réglage fin complet de bout en bout pour la classification, nous permettant d'évaluer à la fois la qualité de représentation et les performances spécifiques aux tâches. OmniRad est évalué sur un large éventail de benchmarks publics couvrant la classification et la segmentation sur multiples modalités. Sur la collection MedMNISTv2, OmniRad améliore le F1 de classification jusqu'à 2,05% par rapport aux modèles fondamentaux concurrents. Pour la prédiction dense, OmniRad obtient des améliorations du score de Dice moyen sur six ensembles de données MedSegBench en utilisant des représentations gelées. Les analyses qualitatives et les visualisations de l'espace latent suggèrent une amélioration du regroupement des caractéristiques et une séparation liée aux modalités.

SAFE : Réglage Fin Stable avec Contrôle Prédictif Conscient de l'Entropie pour l'Alignement par Apprentissage par Renforcement
SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF

Feb 4

ByDipan Maity

L'optimisation par les politiques proximales (PPO) est considérée par la littérature récente comme la méthode canonique pour la partie apprentissage par renforcement (RL) du RLHF. Bien que le PPO obtienne de bonnes performances empiriques, sa motivation est heuristique et il gère la contrainte de divergence KL utilisée dans LM-RLHF de manière ad hoc. Il souffre également d'oscillations de la récompense, d'effondrement de l'entropie, de dérive de la fonction de valeur et de divergences soudaines de la politique, qui nécessitent des redémarrages fréquents et un réglage hyperparamétrique étendu. Dans cet article, nous développons une nouvelle méthode RL acteur-critique purement sur politique pour le cadre LM-RLHF. Nous présentons SAFE (Stable Alignment Finetuning with Entropy-aware control), un nouvel algorithme RLHF qui combine un critique à double soft-min pour l'estimation pessimiste de la valeur avec un nouveau cadre de stabilisation multi-couches combinant une régulation KL conditionnée par l'entropie et des seuils adaptatifs contrôlés par PID. Contrairement aux pénalités KL symétriques du PPO standard, SAFE distingue l'exploration en haute entropie de l'effondrement modal en basse entropie et ajuste dynamiquement les pénalités en fonction de la vélocité des récompenses. Les expériences sur un modèle de 3 milliards de paramètres montrent que SAFE obtient une récompense moyenne d'entraînement supérieure de +5,15 % à celle du PPO (0,725 contre 0,689), des chutes de récompense négligeables et un contrôle KL supérieur. Notre méthode ajoute une surcharge computationnelle minimale et fournit un cadre RLHF interprétable et résistant aux crashes, qui maintient une vitesse d'apprentissage agressive tout en garantissant une optimisation stable à long terme adaptée à un déploiement en production. Le code est disponible à l'adresse https://github.com/ryyzn9/SAFE.

Compression par proxy pour la modélisation du langage
Proxy Compression for Language Modeling

Feb 4

ByLin Zheng, Xinyu Li, Qian Liu, Xiachong Feng, Lingpeng Kong

Les modèles linguistiques modernes sont entraînés presque exclusivement sur des séquences de tokens produites par un tokeniseur fixe, un compresseur externe sans perte généralement appliqué à des séquences d'octets UTF-8, couplant ainsi le modèle à ce compresseur. Ce travail présente la compression par procuration, un schéma d'entraînement alternatif qui préserve les avantages d'efficacité des entrées compressées tout en fournissant une interface de bout en bout sur les octets bruts au moment de l'inférence. Pendant l'entraînement, un modèle linguistique est entraîné conjointement sur des séquences d'octets bruts et des vues compressées générées par des compresseurs externes ; ce processus permet au modèle d'apprendre à aligner en interne les séquences compressées et les octets bruts. Cet alignement permet un transfert robuste entre les deux formats, même lorsque l'entraînement s'effectue principalement sur des entrées compressées qui sont abandonnées lors de l'inférence. Des expériences approfondies en modélisation linguistique du code démontrent que la compression par procuration améliore considérablement l'efficacité de l'entraînement et surpasse significativement les modèles de référence purement basés sur les octets, pour un budget de calcul fixe. À mesure que l'échelle des modèles augmente, ces gains deviennent plus prononcés, et les modèles entraînés par procuration finissent par égaler ou rivaliser avec les approches utilisant un tokeniseur, le tout en opérant exclusivement sur des octets bruts et en conservant la robustesse inhérente à la modélisation au niveau des octets.

SkeletonGaussian : Génération 4D modifiable par squelettisation Gaussienne
SkeletonGaussian: Editable 4D Generation through Gaussian Skeletonization

Feb 4

ByLifan Wu, Ruijie Zhu, Yubo Ai, Tianzhu Zhang

La génération 4D a réalisé des progrès remarquables dans la synthèse d'objets 3D dynamiques à partir de texte, d'images ou de vidéos. Cependant, les méthodes existantes représentent souvent le mouvement comme un champ de déformation implicite, ce qui limite le contrôle direct et la capacité d'édition. Pour résoudre ce problème, nous proposons SkeletonGaussian, un nouveau cadre pour générer des Gaussiennes 3D dynamiques et éditables à partir d'une vidéo monoculaire. Notre approche introduit une représentation articulée hiérarchique qui décompose le mouvement en un mouvement rigide épars, explicitement piloté par un squelette, et un mouvement non rigide à grain fin. Concrètement, nous extrayons un squelette robuste et pilotons le mouvement rigide via le *linear blend skinning*, suivi d'un raffinement basé sur des hexplanes pour les déformations non rigides, améliorant ainsi l'interprétabilité et l'éditabilité. Les résultats expérimentaux démontrent que SkeletonGaussian surpasse les méthodes existantes en qualité de génération tout en permettant une édition intuitive du mouvement, établissant un nouveau paradigme pour la génération 4D éditable. Page du projet : https://wusar.github.io/projects/skeletongaussian/

AgentArk : Distiller l'intelligence multi-agents dans un seul agent de grand modèle de langage
AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Feb 3

ByYinyi Luo, Yiqiao Jin, Weichen Yu, Mengqi Zhang, Srijan Kumar, Xiaoxiao Li, Weijie Xu, Xin Chen, Jindong Wang

Alors que les systèmes multi-agents de grands modèles de langage (LLM) obtiennent des performances de raisonnement supérieures par des débats itératifs, leur déploiement pratique est limité par leur coût computationnel élevé et la propagation d'erreurs. Cet article propose AgentArk, un nouveau cadre permettant de distiller la dynamique multi-agents dans les poids d'un modèle unique, transformant ainsi efficacement les interactions explicites au moment du test en capacités implicites du modèle. Cela dote un agent unique de l'intelligence des systèmes multi-agents tout en restant efficace sur le plan computationnel. Plus précisément, nous étudions trois stratégies de distillation hiérarchique sur divers modèles, tâches, échelles et scénarios : le fine-tuning enrichi par le raisonnement ; l'augmentation basée sur les trajectoires ; et la distillation consciente du processus. En déplaçant la charge de calcul de l'inférence vers l'entraînement, les modèles distillés préservent l'efficacité d'un agent tout en présentant les solides performances de raisonnement et d'auto-correction de multiples agents. Ils démontrent en outre une robustesse et une généralisation accrues sur diverses tâches de raisonnement. Nous espérons que ces travaux pourront éclairer les futures recherches sur le développement multi-agent efficace et robuste. Notre code est disponible à l'adresse https://github.com/AIFrontierLab/AgentArk.

« Je ne me suis peut-être pas exprimé clairement » : Diagnostic de l'instabilité dynamique dans le raisonnement des LLM au moment de l'inférence
"I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time

Feb 2

ByJinkun Chen, Fengxiang Cheng, Sijia Han, Vlado Keselj

Les défaillances de raisonnement dans les grands modèles de langage (LLM) sont généralement mesurées uniquement en fin de génération, pourtant de nombreuses erreurs se manifestent par une rupture au niveau du processus : le modèle « perd le fil » en cours de raisonnement. Nous étudions si de telles ruptures sont détectables à partir d'observables disponibles en temps d'inférence via les API standard (logprobabilités des tokens), sans aucun entraînement ou ajustement fin. Nous définissons un signal d'instabilité simple qui combine un changement distributionnel entre étapes consécutives (JSD) et l'incertitude (entropie), résumons chaque trace par la valeur maximale de son instabilité, et montrons que ce signal prédit de manière fiable l'échec. Sur GSM8K et HotpotQA, l'intensité de l'instabilité prédit les mauvaises réponses avec une AUC supérieure au hasard et produit un déclin monotone de la précision par groupe à grande échelle, quel que soit la taille du modèle. Fait crucial, nous montrons que l'instabilité n'est pas uniformément néfaste : une instabilité précoce peut refléter une stabilisation ultérieure et une réponse finale correcte (instabilité corrective), tandis qu'une instabilité tardive est plus souvent suivie d'un échec (instabilité destructive), même pour des amplitudes maximales comparables, indiquant que la capacité de récupération dépend non seulement de l'intensité du changement distributionnel, mais aussi du moment où ces changements se produisent par rapport à l'horizon de décodage restant. La méthode est agnostique au modèle, ne nécessite pas d'entraînement, est reproductible, et est présentée comme un outil de diagnostic plutôt que comme un mécanisme de correction ou de contrôle.

Alignement sans récompense pour des objectifs conflictuels
Reward-free Alignment for Conflicting Objectives

Feb 2

ByPeter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin

Les méthodes d'alignement direct sont de plus en plus utilisées pour aligner les grands modèles de langage (LLM) avec les préférences humaines. Cependant, de nombreux problèmes d'alignement dans le monde réel impliquent des objectifs multiples et conflictuels, où une agrégation naïve des préférences peut entraîner un apprentissage instable et de mauvais compromis. En particulier, les méthodes à perte pondérée peuvent échouer à identifier des directions de mise à jour qui améliorent simultanément tous les objectifs, et les approches multi-objectifs existantes reposent souvent sur des modèles de récompense explicites, introduisant une complexité supplémentaire et déformant les préférences spécifiées par l'utilisateur. Les contributions de cet article sont doubles. Premièrement, nous proposons un cadre d'Alignement sans Récompense pour Objectifs Conflictuels (RACO) qui exploite directement des données de préférence par paires et résout les conflits de gradient via une nouvelle variante écrêtée de la descente de gradient évitant les conflits. Nous fournissons des garanties de convergence vers des points Pareto-critiques qui respectent les pondérations d'objectifs spécifiées par l'utilisateur, et montrons en outre que l'écrêtage peut strictement améliorer le taux de convergence dans le cadre à deux objectifs. Deuxièmement, nous améliorons notre méthode à l'aide d'heuristiques et menons des expériences pour démontrer la compatibilité du cadre proposé pour l'alignement des LLM. Des évaluations qualitatives et quantitatives sur des tâches de résumé multi-objectifs et d'alignement de la sécurité, menées sur plusieurs familles de LLM (Qwen 3, Llama 3, Gemma 3), montrent que notre méthode atteint constamment de meilleurs compromis de Pareto par rapport aux lignes de base existantes en alignement multi-objectifs.

LongVPO : Des indices ancrés à l'auto-raisonnement pour l'optimisation des préférences dans les vidéos longues
LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

Feb 2

ByZhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang

Nous présentons LongVPO, un nouveau cadre d'Optimisation Directe des Préférences en deux étapes qui permet à des modèles vision-langue à contexte court de comprendre robustement des vidéos ultra-longues sans aucune annotation vidéo longue. Dans l'Étape 1, nous synthétisons des triplets de préférences en ancrant des questions à des clips courts individuels, en les entrelaçant avec des distracteurs, et en appliquant un filtrage par similarité visuelle et par spécificité des questions pour atténuer le biais positionnel et garantir une supervision non ambiguë. Nous approximons également le score du modèle de référence sur les contextes longs en évaluant uniquement le clip d'ancrage, réduisant ainsi la surcharge computationnelle. Dans l'Étape 2, nous utilisons un pipeline de légendage récursif sur des vidéos longues pour générer des métadonnées au niveau scène, puis utilisons un grand modèle linguistique pour élaborer des requêtes de raisonnement multi-segments et des réponses non préférées, alignant ainsi les préférences du modèle via des tâches de raisonnement multi-segments. Avec seulement 16 000 exemples synthétiques et sans étiquettes humaines coûteuses, LongVPO surpasse les modèles open-source de l'état de l'art sur plusieurs benchmarks de vidéos longues, tout en maintenant de solides performances sur les vidéos courtes (par exemple, sur MVBench), offrant ainsi un paradigme évolutif pour une compréhension efficace des vidéos longues.

FOTBCD : Un Benchmark à Grande Échelle pour la Détection des Changements du Bâti à partir d'Orthophotos et de Données Topographiques Françaises
FOTBCD: A Large-Scale Building Change Detection Benchmark from French Orthophotos and Topographic Data

Jan 30

ByAbdelrrahman Moubane

Nous présentons FOTBCD, un jeu de données à grande échelle pour la détection des changements du bâti, dérivé des orthophotographies françaises officielles et des données topographiques du bâti fournies par l'IGN France. Contrairement aux benchmarks existants, géographiquement limités à des villes uniques ou à des régions restreintes, FOTBCD couvre 28 départements de la France métropolitaine, dont 25 sont utilisés pour l'entraînement et trois départements géographiquement disjoints sont réservés pour l'évaluation. Le jeu de données couvre divers environnements urbains, périurbains et ruraux avec une résolution de 0,2 m/pixel. Nous rendons publique FOTBCD-Binary, un ensemble de données comprenant environ 28 000 paires d'images avant/après avec des masques binaires de changement du bâti au niveau pixel, chacune étant associée à des métadonnées spatiales au niveau de la plaque. Le jeu de données est conçu pour l'évaluation et le benchmarking à grande échelle dans un contexte de décalage de domaine géographique, les échantillons de validation et de test étant issus des départements réservés et vérifiés manuellement pour garantir la qualité des annotations. De plus, nous rendons publique FOTBCD-Instances, un sous-ensemble annoté au niveau instance et accessible publiquement, comprenant plusieurs milliers de paires d'images, qui illustre le schéma d'annotation complet utilisé dans la version complète au niveau instance de FOTBCD. En utilisant une ligne de base de référence fixe, nous évaluons FOTBCD-Binary par rapport à LEVIR-CD+ et WHU-CD, fournissant des preuves empiriques solides que la diversité géographique au niveau du jeu de données est associée à une amélioration de la généralisation inter-domaine dans la détection des changements du bâti.

RexBERT : Encodeurs bidirectionnels spécialisés en contexte pour le commerce électronique
RexBERT: Context Specialized Bidirectional Encoders for E-commerce

Feb 4

ByRahul Bajaj, Anuj Garg

Les transformeurs encodeurs restent indispensables dans les systèmes de recherche, de classification et de classement où la latence, la stabilité et le coût sont primordiaux. Cependant, la plupart des encodeurs à usage général sont entraînés sur des corpus génériques ayant une couverture limitée des domaines spécialisés. Nous présentons RexBERT, une famille d'encodeurs de type BERT conçus spécifiquement pour la sémantique du commerce électronique. Nous apportons trois contributions. Premièrement, nous publions Ecom-niverse, un corpus de 350 milliards de tokens constitué à partir de diverses sources de vente au détail et d'achat. Nous décrivons un pipeline modulaire qui isole et extrait le contenu lié au e-commerce de FineFineWeb et d'autres ressources web ouvertes, et caractérisons la distribution domainale résultante. Deuxièmement, nous présentons une méthode reproductible de pré-entraînement s'appuyant sur les avancées architecturales de ModernBERT. La méthode se compose de trois phases : pré-entraînement général, extension du contexte et spécialisation domainale recuite. Troisièmement, nous entraînons des modèles RexBERT allant de 17M à 400M de paramètres et les évaluons sur des tâches de classification de tokens, de similarité sémantique et de compréhension générale du langage naturel à l'aide de jeux de données du e-commerce. Bien qu'ils aient 2 à 3 fois moins de paramètres, les modèles RexBERT surpassent les encodeurs généralistes plus grands et égalent ou dépassent les modèles modernes à contexte long sur les benchmarks spécialisés. Nos résultats démontrent que des données de haute qualité dans le domaine, combinées à une approche d'entraînement principée, offrent une base plus solide pour les applications de e-commerce que la simple augmentation indiscriminée de la taille des modèles.

HalluHard : Un benchmark rigoureux sur les hallucinations en conversations multi-tours
HalluHard: A Hard Multi-Turn Hallucination Benchmark

Feb 1

ByDongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko

Les grands modèles de langage (LLM) continuent de produire des affirmations factuelles plausibles mais non fondées, un problème qui s'aggrave dans les dialogues multi-tours à mesure que le contexte s'étend et que les erreurs initiales s'accumulent. Nous présentons HalluHard, un benchmark exigeant sur les hallucinations en dialogue multi-tours, comprenant 950 questions de base couvrant quatre domaines à enjeux élevés : les affaires juridiques, les questions de recherche, les directives médicales et la programmation. Nous opérationnalisons l'ancrage factuel en exigeant des citations intégrées pour toute assertion factuelle. Pour permettre une évaluation fiable dans des contextes ouverts, nous proposons un pipeline d'évaluation qui récupère itérativement des preuves via une recherche web. Ce système peut extraire, filtrer et analyser des sources en texte intégral (y compris les PDF) pour déterminer si le matériel cité étaye réellement le contenu généré. Sur un ensemble varié de modèles propriétaires de pointe et à poids ouvert, les hallucinations restent substantielles même avec une recherche web (environ 30 % pour la configuration la plus robuste, Opus-4.5 avec recherche web), les erreurs de rattachement du contenu persistant à des taux élevés. Enfin, nous montrons que le comportement hallucinatoire est influencé par la capacité du modèle, la position dans le tour de dialogue, le raisonnement effectif et le type de connaissances requises.