HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

38 papers found

Rapport Technique STEP3-VL-10B
STEP3-VL-10B Technical Report

Jan 14

ByAilin Huang, Chengyuan Yao, Chunrui Han, Fanqi Wan, Hangyu Guo, Haoran Lv, Hongyu Zhou, Jia Wang, Jian Zhou, Jianjian Sun, Jingcheng Hu, Kangheng Lin, Liang Zhao, Mitt Huang, Song Yuan, Wenwen Qu, Xiangfeng Wang, Yanlin Lai, Yingxiu Zhao, Yinmin Zhang, Yukang Shi, Yuyang Chen, Zejia Weng, Ziyang Meng, Ang Li, Aobo Kong, Bo Dong, Changyi Wan, David Wang, Di Qi, Dingming Li, En Yu, Guopeng Li, Haiquan Yin, Han Zhou, Hanshan Zhang, Haolong Yan, Hebin Zhou, Hongbo Peng, Jiaran Zhang, Jiashu Lv, Jiayi Fu, Jie Cheng, Jie Zhou, Jisheng Yin, Jingjing Xie, Jingwei Wu, Jun Zhang, Junfeng Liu, Kaijun Tan, Kaiwen Yan, Liangyu Chen, Lina Chen, Mingliang Li, Qian Zhao, Quan Sun, Shaoliang Pang, Shengjie Fan, Shijie Shang, Siyuan Zhang, Tianhao You, Wei Ji, Wuxun Xie, Xiaobo Yang, Xiaojie Hou, Xiaoran Jiao, Xiaoxiao Ren, Xiangwen Kong, Xin Huang, Xin Wu, Xing Chen, Xinran Wang, Xuelin Zhang, Yana Wei, Yang Li, Yanming Xu, Yeqing Shen, Yuang Peng, Yue Peng, Yu Zhou, Yusheng Li, Yuxiang Yang, Yuyang Zhang, Zhe Xie, Zhewei Huang, Zhenyi Lu, Zhimin Fan, Zihui Cheng, Daxin Jiang, Qi Han, Xiangyu Zhang, Yibo Zhu, Zheng Ge

193

Nous présentons STEP3-VL-10B, un modèle fondateur open-source léger conçu pour redéfinir le compromis entre efficacité compacte et intelligence multimodale de pointe. STEP3-VL-10B est réalisé grâce à deux changements stratégiques : premièrement, une stratégie de pré-entraînement unifiée et entièrement dégelée sur 1,2 billion de tokens multimodaux qui intègre un encodeur de perception aligné sur le langage avec un décodeur Qwen3-8B pour établir une synergie vision-langage intrinsèque ; deuxièmement, un pipeline d'après-entraînement à grande échelle comprenant plus de 1000 itérations d'apprentissage par renforcement. Surtout, nous mettons en œuvre le Raisonnement Coordonné Parallèle (PaCoRe) pour augmenter la puissance de calcul au moment du test, en allouant des ressources à un raisonnement perceptif scalable qui explore et synthétise diverses hypothèses visuelles. Par conséquent, malgré son empreinte compacte de 10 milliards de paramètres, STEP3-VL-10B rivalise ou surpasse des modèles 10 à 20 fois plus grands (par exemple, GLM-4.6V-106B, Qwen3-VL-235B) ainsi que les fleurons propriétaires de premier plan comme Gemini 2.5 Pro et Seed-1.5-VL. Offrant des performances de premier ordre, il atteint 92,2 % sur MMBench et 80,11 % sur MMMU, tout en excellant dans le raisonnement complexe avec 94,43 % sur AIME2025 et 75,95 % sur MathVision. Nous publions la suite complète du modèle pour offrir à la communauté une base de référence puissante, efficace et reproductible.

Segmentation socio-sémantique urbaine par raisonnement vision-langage
Urban Socio-Semantic Segmentation with Vision-Language Reasoning

Jan 15

ByYu Wang, Yi Wang, Rui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, Yansheng Li

155

En tant que centres d'activité humaine, les surfaces urbaines sont constituées d'une multitude d'entités sémantiques. La segmentation de ces diverses entités à partir d'imagerie satellite est cruciale pour une gamme d'applications en aval. Les modèles de segmentation avancés actuels peuvent segmenter de manière fiable les entités définies par des attributs physiques (par exemple, les bâtiments, les plans d'eau) mais peinent encore avec les catégories définies socialement (par exemple, les écoles, les parcs). Dans ce travail, nous réalisons une segmentation socio-sémantique par raisonnement avec un modèle vision-langage. Pour faciliter cela, nous présentons le jeu de données Urban Socio-Semantic Segmentation nommé SocioSeg, une nouvelle ressource comprenant de l'imagerie satellite, des cartes numériques et des étiquettes au niveau pixel d'entités sémantiques sociales organisées en une structure hiérarchique. De plus, nous proposons un nouveau cadre de raisonnement vision-langage appelé SocioReasoner qui simule le processus humain d'identification et d'annotation des entités sémantiques sociales via une reconnaissance cross-modale et un raisonnement multi-étapes. Nous utilisons l'apprentissage par renforcement pour optimiser ce processus non différentiable et susciter les capacités de raisonnement du modèle vision-langage. Les expériences démontrent les gains de notre approche par rapport aux modèles de l'état de l'art et une forte généralisation zero-shot. Notre jeu de données et notre code sont disponibles sur https://github.com/AMAP-ML/SocioReasoner.

Récompenser l'Exceptionnel : RL Sensible à l'Unicité pour la Résolution Créative de Problèmes dans les LLM
Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

Jan 13

ByZhiyuan Hu, Yucheng Wang, Yufei He, Jiaying Wu, Yilun Zhao, See-Kiong Ng, Cynthia Breazeal, Anh Tuan Luu, Hae Won Park, Bryan Hooi

146

L'apprentissage par renforcement (RL) est devenu un paradigme central pour le post-entraînement des grands modèles de langage (LLM), particulièrement pour les tâches de raisonnement complexe. Cependant, il souffre souvent d'un effondrement de l'exploration : les politiques se concentrent prématurément sur un petit ensemble de schémas de raisonnement dominants, améliorant ainsi la métrique pass@1 tout en limitant la diversité au niveau des déploiements (rollouts) et les gains en pass@k. Nous soutenons que cet échec découle d'une régularisation du comportement local des tokens plutôt que de la diversité des ensembles de solutions. Pour y remédier, nous proposons l'Apprentissage par Renforcement avec Sensibilité à l'Unicité, un objectif au niveau du déploiement qui récompense explicitement les solutions correctes présentant des stratégies de haut niveau rares. Notre méthode utilise un juge basé sur un LLM pour regrouper les déploiements d'un même problème selon leurs stratégies de résolution de haut niveau, en ignorant les variations superficielles, et repondère les avantages de la politique inversement proportionnellement à la taille des clusters. Ainsi, les stratégies correctes mais novatrices reçoivent une récompense plus élevée que les stratégies redondantes. Sur divers benchmarks de raisonnement en mathématiques, en physique et en médecine, notre approche améliore constamment la métrique pass@k pour de grands budgets d'échantillonnage et augmente l'aire sous la courbe pass@k (AUC@K) sans sacrifier la métrique pass@1, tout en maintenant l'exploration et en révélant à grande échelle des stratégies de résolution plus diversifiées.

Apprentissage par Renforcement Multi-Agent Collaboratif en Temps de Test pour le Raisonnement
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Jan 14

ByZhiyuan Hu, Yunhai Hu, Juncheng Liu, Shuyue Stella Li, Yucheng Wang, Zhen Xu, See-Kiong Ng, Anh Tuan Luu, Xinxing Xu, Bryan Hooi, Cynthia Breazeal, Hae Won Park

Les systèmes multi-agents ont évolué pour devenir des collaborateurs pratiques pilotés par des LLM pour de nombreuses applications, gagnant en robustesse grâce à la diversité et à la vérification croisée. Cependant, l'apprentissage par renforcement multi-agent (MARL) est coûteux en ressources et instable : la co-adaptation des équipes induit une non-stationnarité, et les récompenses sont souvent rares et à forte variance. Par conséquent, nous introduisons l'apprentissage par renforcement multi-agent au moment du test (MATTRL), un cadre qui injecte une expérience textuelle structurée dans la délibération multi-agent lors de l'inférence. MATTRL forme une équipe multi-experts de spécialistes pour des discussions multi-tours, récupère et intègre des expériences en temps de test, et atteint un consensus pour la prise de décision finale. Nous étudions également l'attribution de crédit pour construire un pool d'expériences au niveau des tours, puis le réinjecter dans le dialogue. Sur des benchmarks exigeants en médecine, mathématiques et éducation, MATTRL améliore la précision de 3,67 % en moyenne par rapport à une base multi-agent, et de 8,67 % par rapport à des bases mono-agent comparables. Des études d'ablation examinent différents schémas d'attribution de crédit et fournissent une comparaison détaillée de leur impact sur les résultats d'entraînement. MATTRL offre une voie stable, efficace et efficiente vers un raisonnement multi-agent robuste aux décalages de distribution sans réglage.

FlowAct-R1 : Vers une génération vidéo humanoïde interactive
FlowAct-R1: Towards Interactive Humanoid Video Generation

Jan 15

ByLizhen Wang, Yongming Zhu, Zhipeng Ge, Youwei Zheng, Longhao Zhang, Tianshu Hu, Shiyang Qin, Mingshuang Luo, Jiaxu Zhang, Xin Chen, Yulong Wang, Zerong Zheng, Jianwen Jiang, Chao Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao

La génération interactive de vidéos humanoïdes vise à synthétiser des agents visuels réalistes capables d'interagir avec les humains via des séquences vidéo continues et réactives. Malgré les progrès récents en synthèse vidéo, les méthodes existantes se heurtent souvent au compromis entre la synthèse haute fidélité et les exigences d'interaction en temps réel. Dans cet article, nous proposons FlowAct-R1, un cadre spécifiquement conçu pour la génération interactive en temps réel de vidéos humanoïdes. Fondé sur une architecture MMDiT, FlowAct-R1 permet la synthèse en flux de vidéos de durée arbitraire tout en maintenant une réactivité à faible latence. Nous introduisons une stratégie de forçage de diffusion par segments, complétée par une nouvelle variante d'auto-forçage, pour atténuer l'accumulation d'erreurs et garantir une cohérence temporelle à long terme durant les interactions continues. En tirant parti de techniques de distillation efficaces et d'optimisations systémiques, notre cadre atteint une fréquence stable de 25 images par seconde en résolution 480p, avec un temps d'affichage de la première image d'environ 1,5 seconde seulement. La méthode proposée offre un contrôle complet et granulaire du corps entier, permettant à l'agent de transitionner naturellement entre divers états comportementaux dans des scénarios interactifs. Les résultats expérimentaux démontrent que FlowAct-R1 atteint une vivacité comportementale et un réalisme perceptuel exceptionnels, tout en maintenant une robuste généralisation à travers divers styles de personnages.

VIBE : Éditeur basé sur des instructions visuelles
VIBE: Visual Instruction Based Editor

Jan 5

ByGrigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich

L'édition d'images basée sur des instructions est l'un des domaines connaissant la croissance la plus rapide dans l'IA générative. Au cours de l'année écoulée, ce domaine a atteint un nouveau niveau, avec des dizaines de modèles open-source publiés parallèlement à des systèmes commerciaux très performants. Cependant, seul un nombre limité d'approches open-source atteint actuellement une qualité adaptée à un usage réel. De plus, les modèles de diffusion, choix dominant pour ces pipelines, sont souvent volumineux et coûteux en calculs pour de nombreux déploiements et cadres de recherche, les variantes largement utilisées contenant généralement de 6 à 20 milliards de paramètres. Cet article présente un pipeline d'édition d'images basé sur des instructions, compact et à haut débit, qui utilise un modèle moderne Qwen3-VL de 2 milliards de paramètres pour guider le processus d'édition et le modèle de diffusion Sana1.5 de 1,6 milliard de paramètres pour la génération d'images. Nos décisions de conception concernant l'architecture, le traitement des données, la configuration de l'entraînement et l'évaluation visent une inférence à faible coût et une stricte cohérence avec l'image source, tout en maintenant une qualité élevée dans les principales catégories d'édition réalisables à cette échelle. Évaluée sur les benchmarks ImgEdit et GEdit, la méthode proposée égale ou dépasse les performances de modèles de référence substantiellement plus lourds, y compris des modèles contenant plusieurs fois plus de paramètres et ayant un coût d'inférence plus élevé, et est particulièrement performante pour les modifications nécessitant la préservation de l'image d'entrée, telles que l'ajustement d'attribut, la suppression d'objet, les modifications de l'arrière-plan et le remplacement ciblé. Le modèle tient dans 24 Go de mémoire GPU et génère des images éditées jusqu'à une résolution 2K en environ 4 secondes sur un NVIDIA H100 en précision BF16, sans optimisations d'inférence supplémentaires ni distillation.

Au-delà des outils statiques : l'évolution des outils en temps réel pour le raisonnement scientifique
Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

Jan 12

ByJiaxuan Lu, Ziyu Kong, Yemin Wang, Rong Fu, Haiyuan Wan, Cheng Yang, Wenjie Lou, Haoran Sun, Lilong Wang, Yankai Jiang, Xiaosong Wang, Xiao Sun, Dongzhan Zhou

Le défi central de l'IA pour la Science ne réside pas uniquement dans le raisonnement, mais dans la capacité à créer des méthodes computationnelles dans un monde scientifique ouvert. Les agents actuels basés sur les LLM s'appuient sur des bibliothèques d'outils statiques et prédéfinies, un paradigme qui échoue fondamentalement dans les domaines scientifiques où les outils sont rares, hétérogènes et intrinsèquement incomplets. Dans cet article, nous proposons l'Évolution d'Outils en Temps de Test (TTE), un nouveau paradigme qui permet aux agents de synthétiser, vérifier et faire évoluer des outils exécutables durant l'inférence. En transformant les outils de ressources fixes en artefacts pilotés par les problèmes, le TTE surmonte la rigidité et les limitations de la traîne longue des bibliothèques d'outils statiques. Pour faciliter une évaluation rigoureuse, nous présentons SciEvo, un benchmark comprenant 1 590 tâches de raisonnement scientifique soutenues par 925 outils évolués automatiquement. Des expériences approfondies montrent que le TTE atteint des performances de pointe en matière de précision et d'efficacité des outils, tout en permettant une adaptation transdomaine efficace des outils computationnels. Le code et le benchmark ont été publiés à l'adresse https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.

HeartMuLa : Une famille de modèles fondamentaux de musique open source
HeartMuLa: A Family of Open Sourced Music Foundation Models

Jan 15

ByDongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, Yuexian Zou

Nous présentons une familles de modèles de fondation musicaux open-source conçus pour faire progresser la compréhension et la génération musicale à grande échelle à travers diverses tâches et modalités. Notre cadre comprend quatre composantes majeures : (1) HeartCLAP, un modèle d'alignement audio-texte ; (2) HeartTranscriptor, un modèle robuste de reconnaissance de paroles optimisé pour les scénarios musicaux réels ; et (3) HeartCodec, un tokeniseur de codec musical à faible fréquence d'images (12,5 Hz) mais à haute fidélité qui capture la structure musicale à long terme tout en préservant les détails acoustiques fins et en permettant une modélisation autoregressive efficace ; (4) HeartMuLa, un modèle de génération de chansons basé sur un LLM capable de synthétiser de la musique haute fidélité sous des conditions riches et contrôlables par l'utilisateur (par exemple, descriptions textuelles de style, paroles et audio de référence). De plus, il propose deux modes spécialisés : (i) un contrôle granulaire des attributs musicaux, qui permet aux utilisateurs de spécifier le style de différentes sections de chanson (par exemple, intro, couplet, refrain) à l'aide d'invites en langage naturel ; et (ii) une génération de musique courte et engageante, adaptée comme musique de fond pour les vidéos courtes. Enfin, HeartMuLa s'améliore significativement lorsqu'il est mis à l'échelle à 7 milliards de paramètres. Pour la première fois, nous démontrons qu'un système de niveau commercial équivalent à Suno peut être reproduit en utilisant des données et des ressources GPU à l'échelle académique. Nous espérons que ces modèles de fondation serviront de bases solides pour les recherches futures et faciliteront les applications pratiques dans la production de contenu multimodal.

Vers une science agentique à horizon ultra-long : l’accumulation cognitive pour l’ingénierie du machine learning
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

Jan 15

ByXinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang, Rui Ye, Jiaao Chen, Hanrui Wang, Wei-Chen Wang, Yuzhi Zhang, Linfeng Zhang, Weinan E, Di Jin, Siheng Chen

Le progrès de l'intelligence artificielle vers une science agentique est actuellement freiné par le défi de l'autonomie à horizon ultra-long, c'est-à-dire la capacité à maintenir une cohérence stratégique et une correction itérative sur des cycles expérimentaux s'étalant sur plusieurs jours ou semaines. Si les grands modèles de langage (LLM) ont démontré leur prouesse en raisonnement à court terme, ils sont facilement submergés par les détails d'exécution dans les environnements de recherche réels à haute dimensionnalité et à rétroaction retardée, échouant à consolider les retours d'information épars en une guidance cohérente à long terme. Nous présentons ici ML-Master 2.0, un agent autonome maîtrisant l'ingénierie du machine learning (MLE) à horizon ultra-long, qui constitue un microcosme représentatif de la découverte scientifique. En reformulant la gestion du contexte comme un processus d'accumulation cognitive, notre approche introduit le Cache Cognitif Hiérarchique (CCH), une architecture à plusieurs niveaux inspirée des systèmes informatiques qui permet la différenciation structurelle de l'expérience dans le temps. En distillant dynamiquement les traces d'exécution transitoires en connaissances stables et en sagesse trans-tâches, le CCH permet aux agents de découpler l'exécution immédiate de la stratégie expérimentale à long terme, surmontant ainsi efficacement les limites de scalabilité des fenêtres de contexte statiques. Lors des évaluations sur MLE-Bench d'OpenAI avec des budgets de 24 heures, ML-Master 2.0 atteint un taux de médaille de pointe de 56,44 %. Nos résultats démontrent que l'autonomie à horizon ultra-long fournit une feuille de route scalable pour des IA capables d'exploration autonome au-delà des complexités précédemment établies par l'homme.

DanQing：一个前沿的大规模中文视觉语言预训练数据集
DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

Jan 15

ByHengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang

Les modèles de pré-entraînement vision-langage (VLP) démontrent des performances solides sur diverses tâches en aval en apprenant à partir de larges ensembles de paires image-texte via un pré-entraînement contrastif. La publication de vastes jeux de données anglais image-texte (par exemple, COYO-700M et LAION-400M) a permis l'adoption généralisée de modèles tels que CLIP et SigLIP pour des tâches incluant la recherche cross-modale et la légendation d'images. Cependant, les progrès du pré-entraînement vision-langage pour le chinois ont considérablement pris du retard, en raison de la rareté de données image-texte chinoises de haute qualité. Pour combler cette lacune, nous développons une méthodologie complète pour construire un jeu de données cross-modal chinois de haute qualité. En conséquence, nous proposons DanQing, qui contient 100 millions de paires image-texte collectées depuis Common Crawl. Contrairement aux jeux de données existants, DanQing est constitué via un processus de sélection plus rigoureux, produisant une qualité de données supérieure. De plus, DanQing est principalement construit à partir de données web de 2024-2025, permettant aux modèles de mieux capturer les tendances sémantiques évolutives et offrant ainsi une utilité pratique accrue. Nous comparons DanQing aux jeux de données existants en poursuivant le pré-entraînement du modèle SigLIP2. Les résultats expérimentaux montrent que DanQing obtient constamment des performances supérieures sur une série de tâches chinoises en aval, incluant la classification zero-shot, la recherche cross-modale et des évaluations basées sur LMM. Pour faciliter les recherches futures sur le pré-entraînement vision-langage chinois, nous ouvrirons le jeu de données DanQing sous licence Creative Commons CC-BY 4.0.

Distillation par Appariement de Transition pour une Génération Vidéo Rapide
Transition Matching Distillation for Fast Video Generation

Jan 14

ByWeili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat

Les grands modèles de diffusion et de flux vidéo ont obtenu un succès remarquable dans la génération de vidéos de haute qualité, mais leur utilisation dans les applications interactives en temps réel reste limitée en raison de leur processus d'échantillonnage multi-étapes inefficace. Dans ce travail, nous présentons la Distillation par Appariement de Transitions (TMD), un cadre novateur pour distiller les modèles de diffusion vidéo en générateurs efficaces à faible nombre d'étapes. L'idée centrale de TMD est d'apparier la trajectoire de bruitage inverse multi-étapes d'un modèle de diffusion avec un processus de transition de probabilité en peu d'étapes, où chaque transition est modélisée comme un flux conditionnel léger. Pour permettre une distillation efficace, nous décomposons l'architecture de diffusion originale en deux composants : (1) une architecture principale, comprenant la majorité des premières couches, qui extrait des représentations sémantiques à chaque étape de transition externe ; et (2) une tête de flux, constituée des dernières couches, qui exploite ces représentations pour effectuer plusieurs mises à jour de flux internes. Étant donné un modèle de diffusion vidéo pré-entraîné, nous introduisons d'abord une tête de flux dans le modèle, et l'adaptons en une carte de flux conditionnelle. Nous appliquons ensuite une distillation par appariement de distributions au modèle étudiant avec un déploiement de la tête de flux à chaque étape de transition. Des expériences approfondies sur la distillation des modèles texte-à-vidéo Wan2.1 1.3B et 14B démontrent que TMD offre un compromis flexible et solide entre la vitesse de génération et la qualité visuelle. En particulier, TMD surpasse les modèles distillés existants pour des coûts d'inférence comparables en termes de fidélité visuelle et d'adhérence à l'invite. Page du projet : https://research.nvidia.com/labs/genair/tmd

CoF-T2I : Les modèles vidéo en tant que raisonneurs purement visuels pour la génération d'images à partir de texte
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

Jan 15

ByChengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang

Les modèles récents de génération vidéo ont révélé l'émergence d'un raisonnement en chaîne de frames (CoF), permettant une inférence visuelle frame par frame. Grâce à cette capacité, les modèles vidéo ont été appliqués avec succès à diverses tâches visuelles (par exemple, la résolution de labyrinthes, les puzzles visuels). Cependant, leur potentiel pour améliorer la génération texte-image (T2I) reste largement inexploré en raison de l'absence d'un point de départ clairement défini pour le raisonnement visuel et d'états intermédiaires interprétables dans le processus de génération T2I. Pour combler cette lacune, nous proposons CoF-T2I, un modèle qui intègre le raisonnement CoF dans la génération T2I via un raffinement visuel progressif, où les frames intermédiaires agissent comme des étapes de raisonnement explicites et la frame finale est prise comme sortie. Pour établir un tel processus de génération explicite, nous constituons CoF-Evol-Instruct, un jeu de données de trajectoires CoF qui modélise le processus de génération de la sémantique à l'esthétique. Pour améliorer davantage la qualité et éviter les artefacts de mouvement, nous permettons une opération d'encodage indépendante pour chaque frame. Les expériences montrent que CoF-T2I surpasse significativement le modèle vidéo de base et obtient des performances compétitives sur des benchmarks difficiles, atteignant 0,86 sur GenEval et 7,468 sur Imagine-Bench. Ces résultats indiquent le potentiel substantiel des modèles vidéo pour faire progresser la génération texte-image de haute qualité.

Alterbute : Modification des attributs intrinsèques des objets dans les images
Alterbute: Editing Intrinsic Attributes of Objects in Images

Jan 15

ByTal Reiss, Daniel Winter, Matan Cohen, Alex Rav-Acha, Yael Pritch, Ariel Shamir, Yedid Hoshen

Nous présentons Alterbute, une méthode fondée sur la diffusion pour modifier les attributs intrinsèques d'un objet dans une image. Notre méthode permet de changer la couleur, la texture, le matériau, et même la forme d'un objet, tout en préservant son identité perçue et le contexte de la scène. Les approches existantes reposent soit sur des prérequis non supervisés qui échouent souvent à préserver l'identité, soit sur une supervision excessivement restrictive qui empêche des variations intrinsèques significatives. Notre méthode s'appuie sur : (i) un objectif d'apprentissage assoupli qui permet au modèle de modifier à la fois les attributs intrinsèques et extrinsèques, conditionné par une image de référence d'identité, une invite textuelle décrivant les attributs intrinsèques cibles, ainsi qu'une image d'arrière-plan et un masque objet définissant le contexte extrinsèque. Lors de l'inférence, nous restreignons les changements extrinsèques en réutilisant l'arrière-plan et le masque objet originaux, garantissant ainsi que seuls les attributs intrinsèques souhaités sont modifiés ; (ii) les Entités Nommées Visuelles (VNEs) - des catégories d'identité visuelle à granularité fine (par exemple, « Porsche 911 Carrera ») qui regroupent des objets partageant des caractéristiques définissant l'identité tout en autorisant des variations dans leurs attributs intrinsèques. Nous utilisons un modèle vision-langage pour extraire automatiquement les labels VNE et les descriptions d'attributs intrinsèques d'un vaste jeu de données d'images publiques, permettant ainsi une supervision évolutive et préservant l'identité. Alterbute surpasse les méthodes existantes en matière d'édition d'attributs intrinsèques d'objets préservant l'identité.

Penser-Puis-Générer : Diffusion texte-image raisonnée avec encodeurs LLM
Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

Jan 15

BySiqi Kou, Jiachun Jin, Zetong Zhou, Ye Ma, Yugang Wang, Quan Chen, Peng Jiang, Xiao Yang, Jun Zhu, Kai Yu, Zhijie Deng

Les progrès récents des modèles de diffusion (DMs) texte-image (T2I) ont permis une synthèse visuelle de haute qualité à partir de diverses instructions textuelles. Cependant, la plupart des DMs T2I existants, même ceux équipés d'encodeurs de texte basés sur de grands modèles de langage (LLM), restent des mappeurs texte-pixels : ils utilisent les LLM simplement comme encodeurs de texte, sans exploiter leurs capacités de raisonnement intrinsèques pour déduire ce qui devrait être représenté visuellement étant donné l'instruction textuelle. Pour aller au-delà d'une telle génération littérale, nous proposons le paradigme penser-puis-générer (T2G), où l'encodeur de texte basé sur un LLM est incité à raisonner et à reformuler les instructions brutes de l'utilisateur ; les états des instructions reformulées servent ensuite de conditionnement pour la diffusion. Pour y parvenir, nous activons d'abord le schéma penser-puis-reformuler de l'encodeur LLM grâce à un processus de fine-tuning supervisé léger. Ensuite, l'encodeur LLM et le backbone de diffusion sont co-optimisés via Dual-GRPO pour garantir un raisonnement fidèle du contexte et un rendu précis de la sémantique. Plus précisément, l'encodeur de texte est renforcé à l'aide de récompenses ancrées dans l'image pour inférer et rappeler des connaissances du monde, tandis que le backbone de diffusion est poussé à produire des images sémantiquement cohérentes et visuellement réalistes. Les expériences montrent des améliorations substantielles en matière de cohérence factuelle, d'alignement sémantique et de réalisme visuel sur des benchmarks de génération et d'édition d'images basées sur le raisonnement, atteignant un score de 0,79 sur WISE, presque à égalité avec GPT-4. Nos résultats constituent une étape prometteuse vers des modèles unifiés de nouvelle génération dotés de capacités de raisonnement, d'expression et de démonstration.

Molmo2 : Modèles et données en libre accès pour les modèles vision-langage avec compréhension et ancrage vidéo
Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Jan 15

ByChristopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna

Les modèles vidéo-langage (VLM) les plus performants actuels restent propriétaires. Les modèles open-source les plus avancés s'appuient soit sur des données synthétiques issues de VLM propriétaires, effectuant ainsi un *distillation* de ces derniers, soit ne divulguent pas leurs données ou méthode d'entraînement. En conséquence, la communauté open source manque des bases nécessaires pour progresser par rapport à l'état de l'art en matière de modèles langage (pour la vidéo et l'image). Point crucial, de nombreuses applications en aval nécessitent plus qu'une simple compréhension générale de la vidéo ; elles exigent un ancrage (*grounding*) – soit par désignation (*pointing*), soit par suivi (*tracking*) au niveau des pixels. Même les modèles propriétaires ne possèdent pas cette capacité. Nous présentons Molmo2, une nouvelle famille de VLM qui sont à l'état de l'art parmi les modèles open source et démontrent des capacités exceptionnellement nouvelles en matière d'ancrage par désignation pour des tâches sur image unique, multi-images et vidéo. Notre contribution principale est un ensemble de 7 nouveaux jeux de données vidéo et 2 jeux de données multi-images, incluant un jeu de données de descriptions vidéo très détaillées pour le pré-entraînement, un jeu de données de questions-réponses libres sur vidéo pour le réglage fin, un nouveau jeu de données de suivi d'objets avec des requêtes complexes, et un nouveau jeu de données innovant pour la désignation dans la vidéo, le tout collecté sans utiliser de VLM fermés. Nous présentons également une méthode d'entraînement pour ces données utilisant un système efficace de *packing* et d'encodage par arbre de messages, et montrons qu'une attention bidirectionnelle sur les tokens visuels et une nouvelle stratégie de pondération des tokens améliorent les performances. Notre modèle de 8B, le meilleur de sa catégorie, surpasse les autres modèles open source (poids et données ouverts) sur les vidéos courtes, le décompte et la description, et est compétitif sur les vidéos longues. Pour l'ancrage vidéo, Molmo2 surpasse significativement les modèles open source existants comme Qwen3-VL (35,5 contre 29,6 de précision sur le décompte vidéo) et dépasse les modèles propriétaires comme Gemini 3 Pro sur certaines tâches (38,4 contre 20,0 en F1 sur la désignation vidéo et 56,2 contre 41,1 en J&F sur le suivi vidéo).

Action100M : Un jeu de données d'actions vidéo à grande échelle
Action100M: A Large-scale Video Action Dataset

Jan 15

ByDelong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung

Inférer des actions physiques à partir d'observations visuelles est une capacité fondamentale pour faire progresser l'intelligence artificielle dans le monde physique. Atteindre cet objectif nécessite des jeux de données vidéo d'actions à grande échelle et à vocabulaire ouvert, couvrant de vastes domaines. Nous présentons Action100M, un jeu de données à grande échelle construit à partir de 1,2 million de vidéos pédagogiques issues d'Internet (soit 14,6 années de durée totale), produisant environ 100 millions de segments temporellement localisés avec une supervision d'actions à vocabulaire ouvert et des descriptions riches. Action100M est généré par un pipeline entièrement automatisé qui (i) effectue une segmentation temporelle hiérarchique en utilisant les embeddings de V-JEPA 2, (ii) produit des descriptions à plusieurs niveaux (images et segments) organisées en une Arborescence-de-Descriptions, et (iii) agrège les preuves avec un modèle de raisonnement (GPT-OSS-120B) dans le cadre d'une procédure d'Auto-Raffinement en plusieurs tours pour produire des annotations structurées (action brève/détaillée, acteur, description brève/détaillée). L'entraînement de VL-JEPA sur Action100M démontre des améliorations constantes avec l'augmentation des données et de fortes performances en zero-shot sur divers benchmarks de reconnaissance d'actions, établissant Action100M comme une nouvelle base pour la recherche évolutive en compréhension vidéo et modélisation du monde.

ToolSafe : Amélioration de la sécurité des invocations d'outils pour les agents basés sur les LLM via une garde proactive au niveau des étapes et un système de rétroaction
ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

Jan 15

ByYutao Mou, Zhangchi Xue, Lijun Li, Peiyang Liu, Shikun Zhang, Wei Ye, Jing Shao

Si les agents basés sur LLM peuvent interagir avec des environnements en invoquant des outils externes, leurs capacités élargies amplifient également les risques de sécurité. Surveiller en temps réel les comportements d'invocation d'outils au niveau de l'étape et intervenir de manière proactive avant une exécution non sécurisée est crucial pour le déploiement des agents, mais reste peu exploré. Dans ce travail, nous construisons d'abord TS-Bench, un nouveau benchmark pour la détection de la sécurité des invocations d'outils au niveau de l'étape dans les agents LLM. Nous développons ensuite un modèle de garde-fou, TS-Guard, en utilisant l'apprentissage par renforcement multi-tâches. Le modèle détecte de manière proactive les actions d'invocation d'outils non sécurisées avant leur exécution en raisonnant sur l'historique des interactions. Il évalue la nocivité des requêtes et les corrélations action-attaque, produisant des jugements de sécurité et des retours interprétables et généralisables. De plus, nous présentons TS-Flow, un cadre de raisonnement piloté par les retours du garde-fou pour les agents LLM, qui réduit en moyenne de 65 % les invocations d'outils nuisibles des agents de type ReAct et améliore l'accomplissement des tâches bénignes d'environ 10 % sous des attaques par injection de prompt.

Rapport de sécurité sur GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro et Seedream 4.5
A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

Jan 15

ByXingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang

L'évolution rapide des modèles de langage de grande taille (LLM) et des modèles de langage multimodaux de grande taille (MLLM) a engendré des progrès substantiels en matière de raisonnement, de perception et de capacité générative à travers le langage et la vision. Cependant, il reste incertain si ces avancées se traduisent par des améliorations proportionnelles en termes de sécurité, en partie à cause de pratiques d'évaluation fragmentées limitées à des modalités ou des modèles de menace uniques. Dans ce rapport, nous présentons une évaluation intégrée de la sécurité de 7 modèles de pointe : GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro et Seedream 4.5. Nous évaluons chaque modèle dans des contextes de langage, de vision-langage et de génération d'images en utilisant un protocole unifié qui intègre l'évaluation par benchmark, l'évaluation adversarial, l'évaluation multilingue et l'évaluation de la conformité. L'agrégation de nos évaluations en tableaux de classement de sécurité et en profils de sécurité des modèles à travers plusieurs modes d'évaluation révèle un paysage de sécurité extrêmement hétérogène. Alors que GPT-5.2 démontre une performance de sécurité constamment solide et équilibrée à travers les évaluations, d'autres modèles présentent des compromis prononcés entre la sécurité sur les benchmarks, l'alignement adversarial, la généralisation multilingue et la conformité réglementaire. Les modalités de langage et de vision-langage présentent toutes deux une vulnérabilité significative sous évaluation adversarial, tous les modèles se dégradant substantiellement malgré de bons résultats sur les benchmarks standards. Les modèles de génération d'images à partir de texte atteignent un alignement relativement plus fort dans les catégories de risques visuels réglementés, mais restent fragiles face à des prompts adversarial ou sémantiquement ambigus. Globalement, ces résultats montrent que la sécurité des modèles de pointe est intrinsèquement multidimensionnelle – façonnée par la modalité, la langue et le schéma d'évaluation – soulignant la nécessité d'évaluations de sécurité standardisées pour évaluer précisément le risque réel et guider le développement et le déploiement responsables des modèles.

MatchTIR : Supervision fine du raisonnement intégrant des outils par appariement bipartite
MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

Jan 15

ByChangle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin

Le raisonnement intégrant des outils (TIR) permet aux grands modèles de langage (LLM) de résoudre des tâches complexes en entrelaçant des étapes de raisonnement avec des interactions d'outils externes. Cependant, les méthodes existantes d'apprentissage par renforcement reposent généralement sur des récompenses au niveau des résultats ou des trajectoires, attribuant des avantages uniformes à toutes les étapes d'une trajectoire. Cette attribution de crédit à granularité grossière ne parvient pas à distinguer les appels d'outils efficaces de ceux redondants ou erronés, particulièrement dans les scénarios multi-tours à long horizon. Pour résoudre ce problème, nous proposons MatchTIR, un cadre introduisant une supervision fine via une attribution de récompense au niveau du tour basée sur l'appariement biparti et une estimation d'avantage à double niveau. Plus précisément, nous formulons l'attribution de crédit comme un problème d'appariement bipartite entre les traces prédites et les traces de vérité terrain, en utilisant deux stratégies d'attribution pour obtenir des récompenses denses au niveau du tour. De plus, pour équilibrer la précision des étapes locales avec la réussite globale de la tâche, nous introduisons un schéma d'estimation d'avantage à double niveau qui intègre les signaux au niveau du tour et de la trajectoire, attribuant des valeurs d'avantage distinctes à chaque tour d'interaction. Des expériences approfondies sur trois benchmarks démontrent la supériorité de MatchTIR. Notamment, notre modèle de 4B surpasse la majorité des concurrents de 8B, particulièrement dans les tâches à long horizon et multi-tours. Nos codes sont disponibles à l'adresse https://github.com/quchangle1/MatchTIR.

PACEvolve : Permettre une évolution cohérente à long terme tenant compte du progrès
PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution

Jan 15

ByMinghao Yan, Bo Peng, Benjamin Coleman, Ziqi Chen, Zhouhang Xie, Zhankui He, Noveen Sachdeva, Isabella Ye, Weili Wang, Chi Wang, Ed H. Chi, Wang-Cheng Kang, Derek Zhiyuan Cheng, Beidou Wang

Les modèles de langage de grande taille (LLM) sont devenus des opérateurs puissants pour la recherche évolutive, mais la conception d'échafaudages de recherche efficaces reste ad hoc. Bien que prometteurs, les systèmes actuels intégrant des LLM manquent d'une approche systématique pour gérer le processus évolutif. Nous identifions trois modes de défaillance distincts : la Pollution du Contexte, où l'historique des expériences biaise la génération future de candidats ; l'Effondrement Modal, où les agents stagnent dans des minima locaux en raison d'un mauvais équilibre exploration-exploitation ; et la Collaboration Faible, où des stratégies de croisement rigides ne parviennent pas à exploiter efficacement les trajectoires de recherche parallèles. Nous présentons Progress-Aware Consistent Evolution (PACEvolve), un cadre conçu pour régir robustement le contexte de l'agent et la dynamique de recherche afin de relever ces défis. PACEvolve combine une gestion hiérarchique du contexte (HCM) avec un élagage pour résoudre la pollution du contexte ; un retour arrière basé sur la quantité de mouvement (MBB) pour échapper aux minima locaux ; et une politique d'échantillonnage auto-adaptative qui unifie le retour arrière et le croisement pour une coordination de recherche dynamique (CE), permettant aux agents d'équilibrer le raffinement interne avec la collaboration entre trajectoires. Nous démontrons que PACEvolve offre une voie systématique vers une auto-amélioration cohérente et à long terme, obtenant des résultats de pointe sur LLM-SR et KernelBench, tout en découvrant des solutions surpassant le record sur Modded NanoGPT.

M^4olGen : Génération Moléculaire Multi-Agent et Multi-Étapes sous Contraintes Multi-Propriétés Précises
M^4olGen: Multi-Agent, Multi-Stage Molecular Generation under Precise Multi-Property Constraints

Jan 15

ByYizhan Li, Florence Cloutier, Sifan Wu, Ali Parviz, Boris Knyazev, Yan Zhang, Glen Berseth, Bang Liu

La génération de molécules satisfaisant des contraintes numériques précises sur de multiples propriétés physico-chimiques est un enjeu crucial et difficile. Bien que les grands modèles de langage (LLM) soient expressifs, ils peinent à assurer un contrôle multi-objectif précis et un raisonnement numérique sans structure externe et rétroaction. Nous présentons M olGen, un cadre fragmentaire, augmenté par retrieval, en deux étapes pour la génération de molécules sous contraintes multi-propriétés. Étape I : Génération de prototype : un raisonneur multi-agent effectue des modifications au niveau des fragments, ancrées par retrieval, pour produire un candidat proche de la région réalisable. Étape II : Optimisation fine par RL : un optimiseur au niveau des fragments, entraîné avec l'Optimisation de Politique Relative par Groupe (GRPO), applique des affinements en un ou plusieurs sauts pour minimiser explicitement les erreurs sur les propriétés vers notre cible, tout en régulant la complexité des modifications et l'écart par rapport au prototype. Un vaste ensemble de données, automatiquement constitué, contenant des chaînes de raisonnement sur les modifications de fragments et les deltas de propriétés mesurés, sous-tend les deux étapes, permettant un suivi déterministe, reproductible et un raisonnement contrôlable en plusieurs sauts. Contrairement aux travaux antérieurs, notre cadre raisonne mieux sur les molécules en exploitant les fragments et prend en charge un affinement contrôlable vers des cibles numériques. Les expériences sur la génération sous deux ensembles de contraintes de propriétés (QED, LogP, Poids Moléculaire et HOMO, LUMO) montrent des gains constants en termes de validité et de satisfaction précise des cibles multi-propriétés, surpassant les LLM robustes et les algorithmes basés sur les graphes.

TAG-MoE : Gating adaptatif aux tâches pour un mélange unifié d'experts génératifs
TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

Jan 12

ByYu Xu, Hongbin Yan, Juan Cao, Yiji Cheng, Tiankai Hang, Runze He, Zijin Yin, Shiyi Zhang, Yuxin Zhang, Jintao Li, Chunyu Wang, Qinglin Lu, Tong-Yee Lee, Fan Tang

Les modèles unifiés de génération et d'édition d'images souffrent d'interférences sévères entre tâches dans les architectures denses de transformeurs par diffusion, où un espace paramétrique partagé doit faire un compromis entre des objectifs conflictuels (par exemple, l'édition locale contre la génération pilotée par un sujet). Bien que le paradigme épars des mélanges d'experts (MoE) soit une solution prometteuse, ses réseaux de gating restent agnostiques à la tâche, fonctionnant sur la base de caractéristiques locales, sans conscience de l'intention globale de la tâche. Cette nature agnostique empêche une spécialisation significative et ne permet pas de résoudre l'interférence sous-jacente entre les tâches. Dans cet article, nous proposons un nouveau cadre pour injecter une intention sémantique dans le routage des MoE. Nous introduisons un schéma hiérarchique d'annotation sémantique des tâches pour créer des descripteurs de tâches structurés (par exemple, portée, type, préservation). Nous concevons ensuite une régularisation par alignement prédictif pour aligner les décisions de routage internes sur la sémantique de haut niveau de la tâche. Cette régularisation fait évoluer le réseau de gating d'un exécutant agnostique vers un centre de dispatch. Notre modèle atténue efficacement les interférences entre tâches, surpassant les modèles de référence denses en fidélité et en qualité, et notre analyse montre que les experts développent naturellement des spécialisations claires et sémantiquement corrélées.

Alignement physique au moment de l'inférence des modèles génératifs vidéo avec des modèles du monde latent
Inference-time Physics Alignment of Video Generative Models with Latent World Models

Jan 15

ByJianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

Les modèles génératifs vidéo de pointe produisent un contenu visuel prometteur mais violent souvent les principes physiques fondamentaux, limitant ainsi leur utilité. Bien que certains attribuent cette déficience à une compréhension insuffisante de la physique acquise lors du pré-entraînement, nous constatons que le déficit de plausibilité physique provient également de stratégies d'inférence sous-optimales. Nous introduisons donc WMReward et traitons l'amélioration de la plausibilité physique de la génération vidéo comme un problème d'alignement au moment de l'inférence. En particulier, nous exploitons le fort a priori physique d'un modèle du monde latent (ici, VJEPA-2) comme récompense pour rechercher et orienter plusieurs trajectoires de débruitage candidates, permettant ainsi de mettre à l'échelle le calcul au moment du test pour une meilleure performance de génération. Empiriquement, notre approche améliore considérablement la plausibilité physique dans des contextes de génération conditionnés par image, par plusieurs images et par texte, avec validation par une étude de préférence humaine. Notamment, lors du défi PhysicsIQ de l'ICCV 2025 Perception Test, nous avons obtenu un score final de 62,64 %, remportant la première place et surpassant l'état de l'art précédent de 7,42 %. Notre travail démontre la viabilité de l'utilisation de modèles du monde latent pour améliorer la plausibilité physique de la génération vidéo, au-delà de cette instanciation ou paramétrisation spécifique.

LSRIF : Apprentissage par Renforcement à Structure Logique pour le Suivi d'Instructions
LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

Jan 10

ByQingyu Ren, Qianyu He, Jingwen Chang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Han Xia, Zeye Sun, Fei Yu

Le suivi des instructions est crucial pour les grands modèles de langage, mais les instructions réelles contiennent souvent des structures logiques telles que des dépendances séquentielles et des branchements conditionnels. Les méthodes existantes construisent généralement des jeux de données avec des contraintes parallèles et optimisent les récompenses moyennes, ignorant les dépendances logiques et produisant des signaux bruités. Nous proposons un cadre d'entraînement à structure logique LSRIF qui modélise explicitement la logique des instructions. Nous construisons d'abord un jeu de données LSRInstruct avec des structures de contraintes de types parallèles, séquentiels et conditionnels, puis concevons une méthode de récompense structurellement consciente LSRIF incluant l'agrégation moyenne pour les structures parallèles, la propagation des pénalités d'échec pour les structures séquentielles et les récompenses sélectives pour les branchements conditionnels. Les expériences montrent que LSRIF apporte des améliorations significatives dans le suivi d'instructions (en domaine connu et hors domaine) et le raisonnement général. L'analyse révèle que l'apprentissage avec des structures logiques explicites provoque des mises à jour paramétriques dans les couches d'attention et affine l'attention au niveau des tokens pour les contraintes et les opérateurs logiques.

LaViT : Alignement des pensées visuelles latentes pour le raisonnement multimodal
LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

Jan 15

ByLinquan Wu, Tianxiang Jiang, Yifei Dong, Haoyu Yang, Fengji Zhang, Shichaang Meng, Ai Xuan, Linqi Song, Jacky Keung

Le raisonnement latent multimodal actuel repose souvent sur une supervision externe (par exemple, des images auxiliaires), ignorant la dynamique attentionnelle visuelle intrinsèque. Dans ce travail, nous identifions un Écart de Perception critique dans la distillation : les modèles étudiants imitent fréquemment la sortie textuelle d'un enseignant tout en se concentrant sur des régions visuelles fondamentalement divergentes, reposant ainsi sur des préalables linguistiques plutôt que sur une perception ancrée. Pour combler cet écart, nous proposons LaViT, un cadre qui aligne les pensées visuelles latentes plutôt que les embeddings statiques. LaViT contraint l'étudiant à reconstruire de manière autorégressive la sémantique visuelle et les trajectoires attentionnelles de l'enseignant avant la génération de texte, en employant un mécanisme de verrouillage sensoriel curriculaire pour éviter l'apprentissage par raccourci. Des expériences approfondies montrent que LaViT améliore significativement l'ancrage visuel, obtenant des gains allant jusqu'à +16,9 % sur des tâches de raisonnement complexe, et permettant à un modèle compact de 3B de surpasser des variantes open-source plus grandes et des modèles propriétaires comme GPT-4o.

RigMo : Unification de l'apprentissage du rig et du mouvement pour l'animation générative
RigMo: Unifying Rig and Motion Learning for Generative Animation

Jan 10

ByHao Zhang, Jiahao Luo, Bohui Wan, Yizhou Zhao, Zongrui Li, Michael Vasilkovsky, Chaoyang Wang, Jian Wang, Narendra Ahuja, Bing Zhou

Malgré les progrès significatifs en génération 4D, les éléments fondamentaux que sont le rig et l'animation sont généralement modélisés comme des problèmes distincts. Les pipelines existants s'appuient sur des squelettes et des poids d'enveloppe de référence pour la génération de mouvement et traitent l'auto-rigging comme un processus indépendant, ce qui nuit à l'évolutivité et à l'interprétabilité. Nous présentons RigMo, un framework génératif unifié qui apprend conjointement le rig et l'animation directement à partir de séquences de maillages bruts, sans aucune annotation de rig fournie par l'homme. RigMo encode les déformations par sommet dans deux espaces latents compacts : un latent de rig qui décode en os gaussiens explicites et en poids d'enveloppe, et un latent de mouvement qui produit des transformations SE(3) variant dans le temps. Ensemble, ces sorties définissent un maillage animable avec une structure explicite et un mouvement cohérent, permettant une inférence de rig et de mouvement en feed-forward pour les objets déformables. Au-delà de la découverte unifiée rig-mouvement, nous introduisons un modèle Motion-DiT opérant dans l'espace latent de RigMo et démontrons que ces latents conscients de la structure peuvent naturellement prendre en charge des tâches de génération de mouvement en aval. Les expériences sur DeformingThings4D, Objaverse-XL et TrueBones démontrent que RigMo apprend des rigs lisses, interprétables et physiquement plausibles, tout en obtenant une reconstruction et une généralisation au niveau de la catégorie supérieures par rapport aux méthodes de référence existantes en auto-rigging et déformation. RigMo établit un nouveau paradigme pour la modélisation dynamique 3D unifiée, consciente de la structure et évolutive.

V-DPM : Reconstruction vidéo 4D avec cartes de points dynamiques
V-DPM: 4D Video Reconstruction with Dynamic Point Maps

Jan 14

ByEdgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi

Des représentations 3D puissantes comme les cartes de points invariants DUSt3R, qui codent la forme 3D et les paramètres de caméra, ont considérablement fait progresser la reconstruction 3D par propagation directe. Alors que les cartes de points supposent des scènes statiques, les Cartes de Points Dynamiques (DPM) étendent ce concept au contenu 3D dynamique en représentant également le mouvement de la scène. Cependant, les DPM existantes se limitent à des paires d'images et, comme DUSt3R, nécessitent un post-traitement par optimisation lorsque plus de deux vues sont impliquées. Nous soutenons que les DPM sont plus utiles lorsqu'elles sont appliquées aux vidéos et nous introduisons V-DPM pour le démontrer. Premièrement, nous montrons comment formuler des DPM pour une entrée vidéo de manière à maximiser la puissance de représentation, à faciliter la prédiction neuronale et à permettre la réutilisation de modèles pré-entraînés. Deuxièmement, nous implémentons ces idées sur la base de VGGT, un reconstructeur 3D récent et puissant. Bien que VGGT ait été entraîné sur des scènes statiques, nous montrons qu'une quantité modeste de données synthétiques suffit à l'adapter en un prédicteur V-DPM efficace. Notre approche obtient des performances de pointe en reconstruction 3D et 4D pour les scènes dynamiques. En particulier, contrairement aux extensions dynamiques récentes de VGGT telles que P3, les DPM récupèrent non seulement la profondeur dynamique mais aussi le mouvement 3D complet de chaque point de la scène.

EvasionBench : Détection des réponses évasives dans les questions-réponses financières par consensus multi-modèles et LLM-comme-juge
EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

Jan 14

ByShijian Ma, Yan Lin, Yi Yang

La détection des réponses évasives lors des conférences de résultats est cruciale pour la transparence financière, mais les progrès sont entravés par l'absence de référentiels à grande échelle. Nous présentons EvasionBench, comprenant 30 000 échantillons d'entraînement et 1 000 échantillons de test annotés manuellement (Kappa de Cohen 0,835) répartis sur trois niveaux d'évasion. Notre contribution principale est un cadre d'annotation multi-modèles s'appuyant sur une idée fondamentale : le désaccord entre les LLMs de pointe signale les exemples difficiles les plus précieux pour l'entraînement. Nous extrayons les cas limites où deux annotateurs performants sont en conflit, en utilisant un arbitre pour résoudre les étiquettes. Cette approche surpasse de 2,4 % la distillation par modèle unique, les échantillons arbitrés améliorant la généralisation malgré une perte d'entraînement plus élevée (0,421 contre 0,393) - une preuve que l'extraction des désaccords agit comme un régularisateur implicite. Notre modèle entraîné Eva-4B (4 milliards de paramètres) atteint une précision de 81,3 %, surpassant son modèle de base de 25 points de pourcentage et approchant les performances des LLMs de pointe pour une fraction du coût d'inférence.

PRL : L'apprentissage par récompense de processus améliore la capacité de raisonnement des LLM et élargit les frontières du raisonnement
PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

Jan 15

ByJiarui Yao, Ruida Wang, Tong Zhang

L'amélioration des capacités de raisonnement des grands modèles de langage (LLM) est un sujet récurrent ces derniers temps. Cependant, la plupart des travaux pertinents se basent sur des récompenses de résultat au niveau de la trajectoire, omettant une supervision fine pendant le processus de raisonnement. D'autres cadres d'entraînement existants qui tentent de combiner les signaux de processus pour optimiser les LLM reposent également lourdement sur des étapes supplémentaires fastidieuses comme MCTS, l'entraînement d'un modèle de récompense séparé, etc., ce qui nuit à l'efficacité de l'entraînement. De plus, l'intuition derrière la conception des signaux de processus manque de support théorique rigoureux, laissant la compréhension du mécanisme d'optimisation opaque. Dans cet article, nous proposons l'Apprentissage par Récompense de Processus (PRL), qui décompose l'objectif d'apprentissage par renforcement à régularisation d'entropie en étapes intermédiaires, avec des récompenses de processus rigoureuses qui peuvent être attribuées aux modèles en conséquence. Partant d'une motivation théorique, nous dérivons la formulation du PRL qui est essentiellement équivalente à l'objectif de maximisation de la récompense plus un terme de pénalité par divergence KL entre le modèle de politique et un modèle de référence. Cependant, le PRL peut transformer la récompense de résultat en signaux de supervision de processus, ce qui aide à mieux guider l'exploration durant l'optimisation par RL. Nos résultats expérimentaux démontrent que le PRL améliore non seulement les performances moyennes de la capacité de raisonnement des LLM mesurées par average @ n, mais élargit également la frontière du raisonnement en améliorant la métrique pass @ n. Des expériences approfondies montrent que l'efficacité du PRL peut être vérifiée et généralisée.

Dérivation de la logique des personnages à partir de la trame narrative sous forme d'arbres de décision codifiés
Deriving Character Logic from Storyline as Codified Decision Trees

Jan 15

ByLetian Peng, Kun Zhou, Longfei Yun, Yupeng Hou, Jingbo Shang

Les agents de jeu de rôle (RP) s'appuient sur des profils comportementaux pour agir de manière cohérente dans divers contextes narratifs. Cependant, les profils existants sont largement non structurés, non exécutables et faiblement validés, ce qui entraîne un comportement d'agent fragile. Nous proposons les Arbres de Décision Codifiés (CDT), un cadre basé sur les données qui induit une structure décisionnelle exécutable et interprétable à partir de données narratives à grande échelle. CDT représente les profils comportementaux comme un arbre de règles conditionnelles, où les nœuds internes correspondent à des conditions de scène validées et les feuilles codent des énoncés comportementaux ancrés, permettant une récupération déterministe de règles contextuellement appropriées au moment de l'exécution. L'arbre est appris en induisant itérativement des règles scène-action candidates, en les validant par rapport aux données et en les affinant par spécialisation hiérarchique, produisant des profils qui permettent une inspection transparente et des mises à jour fondées. Sur plusieurs benchmarks, CDT surpasse substantiellement les profils écrits par des humains et les méthodes d'induction de profils antérieures pour 85 personnages issus de 16 artefacts, indiquant que les représentations comportementales codifiées et validées conduisent à un ancrage d'agent plus fiable.

Raisonnement par Cohorte de Similarité Patient dans le Text-to-SQL Clinique
Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL

Jan 14

ByYifei Shen, Yilun Zhao, Justice Ou, Tinglin Huang, Arman Cohan

La traduction de requêtes cliniques en SQL dans le monde réel nécessite un raisonnement sur des tables hétérogènes de dossiers médicaux électroniques (DME), des fenêtres temporelles et des cohortes de similarité entre patients pour produire des requêtes exécutables. Nous présentons CLINSQL, un benchmark de 633 tâches annotées par des experts sur MIMIC-IV v3.1, qui exige des jointures multi-tables, des filtres cliniquement pertinents et du SQL exécutable. Résoudre CLINSQL implique de naviguer dans les métadonnées du schéma et les systèmes de codage clinique, de traiter des contextes longs et de composer des requêtes en plusieurs étapes qui vont au-delà du text-to-SQL traditionnel. Nous évaluons 22 modèles propriétaires et open-source sous un processus d'auto-affinement en chaîne de pensée (Chain-of-Thought) et utilisons une analyse SQL basée sur une grille d'évaluation avec vérifications d'exécution qui priorisent les exigences cliniques critiques. Malgré les récents progrès, les performances restent loin de la fiabilité clinique : sur l'ensemble de test, GPT-5-mini atteint un score d'exécution de 74,7 %, DeepSeek-R1 mène les modèles open-source à 69,2 %, et Gemini-2.5-Pro chute de 85,5 % sur les tâches Faciles à 67,2 % sur les tâches Difficiles. Les progrès sur CLINSQL marquent des avancées tangentes vers un système de text-to-SQL cliniquement fiable pour l'analyse des DME en conditions réelles.

Amélioration de la classification des sentiments et de la détection de l'ironie dans les grands modèles de langage grâce à des techniques avancées d'ingénierie des prompts
Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques

Jan 13

ByMarvin Schmitt, Anne Schwerk, Sebastian Lempert

Cette étude examine l'utilisation de l'ingénierie des prompts pour améliorer les grands modèles de langage (LLM), spécifiquement GPT-4o-mini et gemini-1.5-flash, dans des tâches d'analyse de sentiment. Elle évalue des techniques de prompting avancées comme l'apprentissage par quelques exemples (few-shot learning), le prompting en chaîne de pensée (chain-of-thought) et l'auto-cohérence (self-consistency) par rapport à une baseline. Les tâches principales incluent la classification des sentiments, l'analyse de sentiment axée sur les aspects et la détection de nuances subtiles telles que l'ironie. La recherche détaille le contexte théorique, les jeux de données et les méthodes utilisées, en évaluant la performance des LLM mesurée par l'exactitude, le rappel, la précision et le score F1. Les résultats révèlent que le prompting avancé améliore significativement l'analyse de sentiment, l'approche par quelques exemples excellant avec GPT-4o-mini et le prompting en chaîne de pensée améliorant la détection de l'ironie avec gemini-1.5-flash jusqu'à 46 %. Ainsi, bien que les techniques de prompting avancées améliorent globalement les performances, le fait que le prompting par quelques exemples fonctionne le mieux pour GPT-4o-mini et que le chaîne de pensée excelle avec gemini-1.5-flash pour la détection de l'ironie suggère que les stratégies de prompting doivent être adaptées à la fois au modèle et à la tâche. Cela souligne l'importance d'aligner la conception des prompts à la fois sur l'architecture du LLM et sur la complexité sémantique de la tâche.

Compétences des agents dans la nature : une étude empirique des vulnérabilités de sécurité à grande échelle
Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale

Jan 15

ByYi Liu, Weizhe Wang, Ruitao Feng, Yao Zhang, Guangquan Xu, Gelei Deng, Yuekang Li, Leo Zhang

L'essor des frameworks d'agents IA a introduit les compétences d'agents (skills), des modules modulaires contenant des instructions et du code exécutable permettant d'étendre dynamiquement les capacités des agents. Bien que cette architecture permette une personnalisation puissante, les compétences s'exécutent avec une confiance implicite et un contrôle minimal, créant une surface d'attaque significative mais non caractérisée. Nous réalisons la première analyse de sécurité empirique à grande échelle de cet écosystème émergent, collectant 42 447 compétences sur deux places de marché majeures et en analysant systématiquement 31 132 à l'aide de SkillScan, un cadre de détection multi-étapes intégrant l'analyse statique et une classification sémantique basée sur les LLM. Nos résultats révèlent des risques de sécurité omniprésents : 26,1 % des compétences contiennent au moins une vulnérabilité, couvrant 14 schémas distincts répartis en quatre catégories : injection de prompt, exfiltration de données, escalade de privilèges et risques liés à la chaîne d'approvisionnement. L'exfiltration de données (13,3 %) et l'escalade de privilèges (11,8 %) sont les plus prévalentes, tandis que 5,2 % des compétences présentent des schémas de haute gravité suggérant fortement une intention malveillante. Nous constatons que les compétences regroupant des scripts exécutables sont 2,12 fois plus susceptibles de contenir des vulnérabilités que les compétences basées uniquement sur des instructions (RC=2,12, p<0,001). Nos contributions incluent : (1) une taxonomie de vulnérabilités fondée sur 8 126 compétences vulnérables, (2) une méthodologie de détection validée atteignant une précision de 86,7 % et un rappel de 82,5 %, et (3) un jeu de données ouvert et une boîte à outils de détection pour soutenir la recherche future. Ces résultats démontrent la nécessité urgente de systèmes d'autorisation basés sur les capacités et d'un contrôle de sécurité obligatoire avant que ce vecteur d'attaque ne soit davantage exploité.

Les chameaux peuvent aussi utiliser les ordinateurs : Sécurité au niveau système pour les agents d'utilisation informatique
CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Jan 14

ByHanna Foerster, Robert Mullins, Tom Blanchard, Nicolas Papernot, Kristina Nikolić, Florian Tramèr, Ilia Shumailov, Cheng Zhang, Yiren Zhao

Les agents IA sont vulnérables aux attaques par injection de prompt, où un contenu malveillant détourne le comportement de l'agent pour voler des identifiants ou causer des pertes financières. La seule défense robuste connue est l'isolation architecturale qui sépare strictement la planification de tâches de confiance des observations non fiables de l'environnement. Cependant, l'application de cette conception aux agents d'utilisation informatique (CUA) – des systèmes qui automatisent des tâches en visualisant des écrans et en exécutant des actions – présente un défi fondamental : les agents actuels nécessitent une observation continue de l'état de l'interface utilisateur pour déterminer chaque action, ce qui entre en conflit avec l'isolation requise pour la sécurité. Nous résolvons cette tension en démontrant que les flux de travail des interfaces utilisateur, bien que dynamiques, sont structurellement prévisibles. Nous introduisons la planification en une seule étape pour les CUA, où un planificateur de confiance génère un graphe d'exécution complet avec des branches conditionnelles avant toute observation de contenu potentiellement malveillant, fournissant des garanties vérifiables d'intégrité du flux de contrôle contre les injections d'instructions arbitraires. Bien que cette isolation architecturale prévienne avec succès les injections d'instructions, nous montrons que des mesures supplémentaires sont nécessaires pour prévenir les attaques par détournement de branche, qui manipulent les éléments de l'interface utilisateur pour déclencher des chemins valides non intentionnels dans le plan. Nous évaluons notre conception sur OSWorld et conservons jusqu'à 57 % des performances des modèles de pointe tout en améliorant les performances des modèles open source plus petits jusqu'à 19 %, démontrant qu'une sécurité rigoureuse et l'utilité peuvent coexister dans les CUA.

WildRayZer : Synthèse de grandes vues auto-supervisée dans des environnements dynamiques
WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

Jan 15

ByXuweiyi Chen, Wentao Zhou, Zezhou Cheng

Nous présentons WildRayZer, un cadre auto-supervisé pour la synthèse de nouvelles vues (NVS) dans des environnements dynamiques où la caméra et les objets sont en mouvement. Le contenu dynamique rompt la cohérence multi-vues sur laquelle reposent les modèles NVS statiques, entraînant des effets de fantôme, une géométrie hallucinée et une estimation de pose instable. WildRayZer résout ce problème en effectuant un test d'analyse par synthèse : un moteur de rendu statique uniquement pour la caméra explique la structure rigide, et ses résidus révèlent les régions transitoires. À partir de ces résidus, nous construisons des masques de mouvement pseudo, distillons un estimateur de mouvement et l'utilisons pour masquer les tokens d'entrée et contrôler les gradients de perte, afin que la supervision se concentre sur la complétion de l'arrière-plan inter-vues. Pour permettre un entraînement et une évaluation à grande échelle, nous constituons Dynamic RealEstate10K (D-RE10K), un jeu de données réel de 15 000 séquences dynamiques capturées de manière informelle, et D-RE10K-iPhone, un benchmark apparié de vues transitoires et propres pour la NVS éparse consciente des transitoires. Les expériences montrent que WildRayZer surpasse constamment les méthodes de référence par optimisation et à passe avant, à la fois dans l'élimination des régions transitoires et dans la qualité NVS de l'image complète, avec une seule passe avant.

VQ-Seg : Perturbation de tokens par quantification vectorielle pour la segmentation semi-supervisée d'images médicales
VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation

Jan 15

BySicheng Yang, Zhaohu Xing, Lei Zhu

L'apprentissage par cohérence avec perturbation des caractéristiques est une stratégie largement utilisée en segmentation semi-supervisée d'images médicales. Cependant, de nombreuses méthodes de perturbation existantes reposent sur du *dropout*, et nécessitent donc un réglage manuel minutieux du taux de *dropout*, qui est un hyperparamètre sensible souvent difficile à optimiser et pouvant conduire à une régularisation sous-optimale. Pour surmonter cette limite, nous proposons VQ-Seg, la première approche à utiliser la quantification vectorielle (VQ) pour discrétiser l'espace des caractéristiques et introduire un nouveau module de perturbation quantifiée (QPM) contrôlable qui remplace le *dropout*. Notre QPM perturbe les représentations discrètes en mélangeant les positions spatiales des indices du codebook, permettant une régularisation efficace et contrôlable. Pour atténuer la perte d'information potentielle causée par la quantification, nous concevons une architecture à double branche où l'espace de caractéristiques post-quantification est partagé entre les tâches de reconstruction d'image et de segmentation. De plus, nous introduisons un adaptateur de caractéristiques post-VQ (PFA) pour intégrer les guidages d'un modèle de fondation (FM), complétant ainsi l'information sémantique de haut niveau perdue durant la quantification. Par ailleurs, nous avons constitué un jeu de données à grande échelle sur le cancer du poumon (LC) comprenant 828 scanners TDM annotés pour le carcinome pulmonaire de type central. Des expériences approfondies sur le jeu de données LC et d'autres benchmarks publics démontrent l'efficacité de notre méthode, qui surpasse les approches de l'état de l'art. Le code est disponible à l'adresse : https://github.com/script-Yang/VQ-Seg.

Démystifier le motif de barre oblique dans l'attention : Le rôle du RoPE
Demystifying the Slash Pattern in Attention: The Role of RoPE

Jan 13

ByYuan Cheng, Fengzhuo Zhang, Yunlong Hou, Cunxiao Du, Chao Du, Tianyu Pang, Aixin Sun, Zhuoran Yang

Les grands modèles de langage (LLM) présentent souvent des motifs d'attention en diagonale, où les scores d'attention se concentrent le long de la sous-diagonale Δ pour un certain décalage Δ. Ces motifs jouent un rôle clé dans la transmission d'informations entre les tokens. Mais pourquoi émergent-ils ? Dans cet article, nous démystifions l'émergence de ces Têtes à Dominance Diagonale (SDH) sous des perspectives empirique et théorique. Premièrement, en analysant des LLM open-source, nous constatons que les SDH sont intrinsèques aux modèles et se généralisent à des prompts hors distribution. Pour expliquer cette émergence intrinsèque, nous analysons les requêtes, les clés et l'Encodage Positionnel Rotationnel (RoPE), qui déterminent conjointement les scores d'attention. Notre analyse empirique révèle deux conditions caractéristiques des SDH : (1) Les requêtes et les clés sont presque de rang un, et (2) Le RoPE est dominé par des composantes de fréquences moyennes et élevées. Sous ces conditions, les requêtes et les clés sont quasi identiques d'un token à l'autre, et les interactions entre les composantes de fréquences moyennes et élevées du RoPE donnent naissance aux SDH. Au-delà des preuves empiriques, nous montrons théoriquement que ces conditions sont suffisantes pour garantir l'émergence des SDH en les formalisant comme nos hypothèses de modélisation. En particulier, nous analysons la dynamique d'apprentissage d'un Transformer peu profond équipé de RoPE sous ces conditions, et prouvons que les modèles entraînés par descente de gradient présentent des SDH. Les SDH se généralisent à des prompts hors distribution.

Compression de la banque de mémoire pour l'adaptation continue des grands modèles de langage
Memory Bank Compression for Continual Adaptation of Large Language Models

Jan 2

ByThomas Katraouras, Dimitrios Rafailidis

Les grands modèles de langage (LLM) sont devenus un pilier pour de nombreuses applications quotidiennes. Cependant, avec l'évolution des données, leurs connaissances deviennent rapidement obsolètes. L'apprentissage continu vise à mettre à jour les LLM avec de nouvelles informations sans effacer les connaissances préalablement acquises. Bien que des méthodes comme le réglage fin complet puissent intégrer de nouvelles données, elles sont coûteuses en calcul et sujettes à l'oubli catastrophique, où les connaissances antérieures sont écrasées. Les approches à mémoire augmentée abordent ce problème en équipant les LLM d'une banque de mémoire, c'est-à-dire un module de mémoire externe qui stocke des informations pour une utilisation future. Cependant, ces méthodes rencontrent une limite critique : en particulier, la banque de mémoire ne cesse de croître dans un scénario réel lorsque des flux de données à grande échelle arrivent. Dans cet article, nous proposons MBC, un modèle qui compresse la banque de mémoire via une stratégie d'optimisation par codebook pendant l'apprentissage d'adaptation en ligne. Pour garantir un apprentissage stable, nous introduisons également un mécanisme de réinitialisation en ligne qui empêche l'effondrement du codebook. De plus, nous utilisons l'adaptation Key-Value Low-Rank dans les couches d'attention du LLM, permettant une utilisation efficace des représentations mémorielles compressées. Des expériences avec des ensembles de données de référence pour la question-réponse démontrent que MBC réduit la taille de la banque de mémoire à 0,3 % par rapport à la base de référence la plus compétitive, tout en maintenant une haute précision de rétention pendant l'apprentissage d'adaptation en ligne. Notre code est disponible publiquement à l'adresse https://github.com/Thomkat/MBC.