HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

37 papers found

LightMem : Génération augmentée par mémoire légère et efficace
LightMem: Lightweight and Efficient Memory-Augmented Generation

Oct 21

ByJizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang

Malgré leurs capacités remarquables, les modèles de langage à grande échelle (LLMs) peinent à exploiter efficacement les informations historiques d'interaction dans des environnements dynamiques et complexes. Les systèmes de mémoire permettent aux LLMs de dépasser les interactions sans état en introduisant des mécanismes de stockage, de récupération et d'utilisation persistants de l'information. Cependant, les systèmes de mémoire existants introduisent souvent des surcharges substantielles en temps et en calcul. À cette fin, nous introduisons un nouveau système de mémoire appelé LightMem, qui établit un équilibre entre la performance et l'efficacité des systèmes de mémoire. Inspiré par le modèle de mémoire humaine d'Atkinson-Shiffrin, LightMem organise la mémoire en trois étapes complémentaires. Premièrement, la mémoire sensorielle inspirée par la cognition filtre rapidement les informations non pertinentes grâce à une compression légère et regroupe les informations selon leurs sujets. Ensuite, la mémoire à court terme consciente des sujets consolide ces groupes thématiques, organisant et résumant le contenu pour un accès plus structuré. Enfin, la mémoire à long terme avec mise à jour pendant le sommeil utilise une procédure hors ligne qui découple la consolidation de l'inférence en ligne. Les expériences sur LongMemEval avec les architectures GPT et Qwen montrent que LightMem surpasse les bases de référence en termes de précision (gains allant jusqu'à 10,9 %) tout en réduisant l'utilisation de tokens jusqu'à 117 fois, les appels API jusqu'à 159 fois et le temps d'exécution de plus de 12 fois. Le code est disponible à l'adresse https://github.com/zjunlp/LightMem.

Entraînement efficace de modèles de langage à contexte long par désagrégation de l'attention principale
Efficient Long-context Language Model Training by Core Attention Disaggregation

Oct 20

ByYonghao Zhuang, Junda Chen, Bo Pang, Yi Gu, Yibo Zhu, Yimin Jiang, Ion Stoica, Eric Xing, Hao Zhang

Nous présentons la technique de désagrégation de l'attention centrale (CAD), qui améliore l'entraînement des modèles de langage à grand contexte en découplant le calcul de l'attention centrale, softmax(QK^T)V, du reste du modèle et en l'exécutant sur un pool distinct de dispositifs. Dans les systèmes existants, l'attention centrale est colocalisée avec d'autres couches ; pour des contextes longs, sa croissance quadratique en termes de calcul par rapport à la croissance quasi-linéaire des autres composants entraîne un déséquilibre de charge et des retardataires dans les groupes parallèles de données et de pipelines. CAD est rendu possible par deux observations. Premièrement, l'attention centrale est sans état : elle ne possède pas de paramètres entraînables et seulement des données transitoires minimales, ce qui réduit l'équilibrage à la planification de tâches liées au calcul. Deuxièmement, elle est composable : les noyaux d'attention modernes conservent une efficacité élevée lors du traitement de lots fusionnés de fragments au niveau des jetons avec des longueurs arbitraires. CAD partitionne l'attention centrale en tâches au niveau des jetons et les répartit sur des serveurs d'attention dédiés, qui réorganisent dynamiquement les tâches pour équilibrer le calcul sans sacrifier l'efficacité des noyaux. Nous implémentons CAD dans un système appelé DistCA, qui utilise un schéma d'exécution en ping-pong pour superposer entièrement la communication avec le calcul et une exécution sur place sur les serveurs d'attention pour réduire l'utilisation de la mémoire. Sur 512 GPU H200 et des longueurs de contexte allant jusqu'à 512k jetons, DistCA améliore le débit d'entraînement de bout en bout jusqu'à 1,35x, élimine les retardataires dans les parallélismes de données et de pipelines, et atteint un équilibre quasi parfait en termes de calcul et de mémoire.

Monde-dans-le-Monde : Modèles de monde dans un univers en boucle fermée
World-in-World: World Models in a Closed-Loop World

Oct 20

ByJiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen

Les modèles génératifs de mondes (WMs) peuvent désormais simuler des environnements avec un réalisme visuel frappant, ce qui soulève naturellement la question de savoir s'ils peuvent doter des agents incarnés d'une perception prédictive pour la prise de décision. Les progrès sur cette question ont été limités par une évaluation fragmentée : la plupart des benchmarks existants adoptent des protocoles en boucle ouverte qui mettent l'accent sur la qualité visuelle de manière isolée, laissant la question centrale de l'utilité incarnée non résolue, c'est-à-dire, les WMs aident-ils réellement les agents à réussir des tâches incarnées ? Pour combler cette lacune, nous introduisons World-in-World, la première plateforme ouverte qui évalue les WMs dans un monde en boucle fermée reflétant les interactions réelles entre agents et environnement. World-in-World propose une stratégie de planification en ligne unifiée et une API d'action standardisée, permettant à des WMs hétérogènes de prendre des décisions. Nous avons conçu quatre environnements en boucle fermée qui évaluent rigoureusement divers WMs, privilégient la réussite des tâches comme métrique principale et dépassent l'accent commun sur la qualité visuelle ; nous présentons également la première loi d'échelle des données pour les modèles de mondes dans des contextes incarnés. Notre étude révèle trois surprises : (1) la qualité visuelle seule ne garantit pas la réussite des tâches, la contrôlabilité compte davantage ; (2) l'augmentation des données d'action-observation après l'entraînement est plus efficace que l'amélioration des générateurs de vidéos pré-entraînés ; et (3) l'allocation de plus de ressources de calcul lors de l'inférence permet aux WMs d'améliorer considérablement les performances en boucle fermée.

UniGenBench++ : Un Benchmark Unifié d'Évaluation Sémantique pour la Génération de Texte à Image
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Oct 21

ByYibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Les progrès récents dans la génération de texte-à-image (T2I) soulignent l'importance de référentiels fiables pour évaluer la précision avec laquelle les images générées reflètent la sémantique de leur description textuelle. Cependant, (1) les référentiels existants manquent de diversité dans les scénarios de prompts et de support multilingue, deux éléments essentiels pour une applicabilité dans le monde réel ; (2) ils offrent des évaluations grossières sur les dimensions principales, couvrant une gamme étroite de sous-dimensions, et sont insuffisants pour une évaluation fine des sous-dimensions. Pour répondre à ces limites, nous introduisons UniGenBench++, un référentiel unifié d'évaluation sémantique pour la génération T2I. Concrètement, il comprend 600 prompts organisés hiérarchiquement pour assurer à la fois couverture et efficacité : (1) il s'étend sur divers scénarios du monde réel, c'est-à-dire 5 thèmes principaux de prompts et 20 sous-thèmes ; (2) il explore de manière exhaustive la cohérence sémantique des modèles T2I sur 10 critères principaux et 27 sous-critères d'évaluation, chaque prompt évaluant plusieurs points de test. Pour évaluer rigoureusement la robustesse des modèles face aux variations linguistiques et à la longueur des prompts, nous fournissons des versions courtes et longues de chaque prompt en anglais et en chinois. En exploitant les connaissances générales du monde et les capacités de compréhension fine des images d'un modèle de langage multimodal (MLLM) propriétaire, à savoir Gemini-2.5-Pro, un pipeline efficace est développé pour la construction fiable du référentiel et l'évaluation simplifiée des modèles. De plus, pour faciliter davantage l'utilisation par la communauté, nous entraînons un modèle d'évaluation robuste permettant une évaluation hors ligne des sorties des modèles T2I. Grâce à un benchmarking complet des modèles T2I open-source et propriétaires, nous révélons systématiquement leurs forces et faiblesses sur divers aspects.

Chaque Étape Évolue : Mise à l'Échelle de l'Apprentissage par Renforcement pour un Modèle de Pensée à l'Échelle du Trillion
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

Oct 21

ByLing Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen

Nous présentons Ring-1T, le premier modèle de pensée open-source de pointe doté d’un trillion de paramètres. Il compte un trillion de paramètres au total et en active environ 50 milliards par token. L’entraînement de tels modèles à l’échelle du trillion de paramètres introduit des défis sans précédent, notamment un désalignement entre l’entraînement et l’inférence, des inefficacités dans le traitement des séquences et des goulots d’étranglement dans le système d’apprentissage par renforcement (RL). Pour y remédier, nous proposons trois innovations interconnectées : (1) IcePop stabilise l’entraînement RL via un masquage et un écrêtage des écarts au niveau des tokens, résolvant ainsi l’instabilité due aux divergences entre entraînement et inférence ; (2) C3PO++ améliore l’utilisation des ressources pour les longues séquences sous un budget de tokens en les partitionnant dynamiquement, obtenant ainsi une efficacité temporelle élevée ; et (3) ASystem, un cadre RL haute performance conçu pour surmonter les goulots d’étranglement systémiques qui entravent l’entraînement de modèles à un trillion de paramètres. Ring-1T obtient des résultats révolutionnaires sur des benchmarks critiques : 93,4 sur AIME-2025, 86,72 sur HMMT-2025, 2088 sur CodeForces et 55,94 sur ARC-AGI-v1. Notamment, il atteint un niveau de médaille d’argent sur l’IMO-2025, soulignant ses capacités de raisonnement exceptionnelles. En publiant le modèle complet MoE à 1T paramètres pour la communauté, nous offrons un accès direct à des capacités de raisonnement de pointe. Cette contribution marque une étape importante dans la démocratisation de l’intelligence de raisonnement à grande échelle et établit une nouvelle référence pour les performances des modèles open-source.

Chem-R : Apprendre à raisonner en tant que chimiste
Chem-R: Learning to Reason as a Chemist

Oct 19

ByWeida Wang, Benteng Chen, Di Zhang, Wanhao Liu, Shuchen Pu, Ben Gao, Jin Zeng, Lei Bai, Wanli Ouyang, Xiaoyong Wei, Tianshu Yu, Tianfan Fu, Shuzhou Sun, Jiatong Li, Zifu Wang, Yuqiang Li, Shufei Zhang

Bien que les grands modèles de langage (LLMs) possèdent un potentiel significatif pour faire progresser la découverte chimique, les LLMs actuels manquent de connaissances chimiques fondamentales, produisent des trajectoires de raisonnement peu fiables et présentent des performances sous-optimales dans diverses tâches chimiques. Pour relever ces défis, nous proposons Chem-R, un modèle de raisonnement chimique généralisable conçu pour imiter les processus délibératifs des chimistes. Chem-R est entraîné via un cadre en trois phases qui développe progressivement des capacités de raisonnement avancées, incluant : 1) la Formation Fondamentale en Chimie, qui établit les connaissances chimiques de base ; 2) la Distillation de Protocoles de Raisonnement Chimique, intégrant des traces de raisonnement structurées, semblables à celles des experts, pour guider une résolution de problèmes systématique et fiable ; 3) l'Optimisation Relative de Politique par Groupe Multi-tâches, qui optimise le modèle pour une performance équilibrée dans diverses tâches au niveau moléculaire et réactionnel. Ce pipeline structuré permet à Chem-R d'atteindre des performances de pointe sur des benchmarks complets, surpassant les principaux grands modèles de langage, y compris Gemini-2.5-Pro et DeepSeek-R1, jusqu'à 46 % sur les tâches moléculaires et 66 % sur les tâches réactionnelles. Par ailleurs, Chem-R surpasse également de manière constante les modèles de fondation chimiques existants dans les tâches au niveau moléculaire et réactionnel. Ces résultats mettent en évidence la robuste généralisation, l'interprétabilité et le potentiel de Chem-R en tant que fondement pour la prochaine génération de découverte chimique pilotée par l'IA.

MoGA : Attention par Mélange de Groupes pour la Génération de Vidéos Longues de Bout en Bout
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

Oct 21

ByWeinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao

La génération de vidéos longues avec les Transformers à Diffusion (DiTs) est limitée par la croissance quadratique de l'attention complète en fonction de la longueur de la séquence. Étant donné que l'attention est hautement redondante, les sorties sont dominées par un petit sous-ensemble de paires requête-clé. Les méthodes parcimonieuses existantes reposent sur une estimation grossière par blocs, dont les compromis précision-efficacité sont contraints par la taille des blocs. Cet article introduit l'Attention par Mélange de Groupes (MoGA), une attention parcimonieuse efficace qui utilise un routeur de tokens léger et apprenable pour associer précisément les tokens sans estimation par blocs. Grâce à un routage sémantiquement conscient, MoGA permet des interactions efficaces à longue portée. En tant que méthode sans noyau, MoGA s'intègre parfaitement aux piles d'attention modernes, y compris FlashAttention et le parallélisme de séquences. En s'appuyant sur MoGA, nous développons un modèle efficace de génération de vidéos longues qui produit de manière end-to-end des vidéos de niveau minute, multi-plans, en 480p à 24 ips, avec une longueur de contexte d'environ 580k. Des expériences approfondies sur diverses tâches de génération vidéo valident l'efficacité de notre approche.

Saisir n'importe quelle région : Vers une compréhension contextuelle précise des pixels pour les modèles de langage multimodaux
Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Oct 21

ByHaochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang

Bien que les modèles de langage multimodaux de grande taille (MLLMs) excellent dans la compréhension holistique, ils peinent à capturer un monde dense avec des scènes complexes, nécessitant une analyse fine des détails complexes et des interrelations entre objets. Les MLLMs au niveau des régions ont constitué une étape prometteuse. Cependant, les tentatives précédentes sont généralement optimisées pour comprendre des régions données de manière isolée, négligeant les contextes globaux cruciaux. Pour remédier à cela, nous introduisons Grasp Any Region (GAR) pour une compréhension visuelle complète au niveau des régions. Grâce à une technique efficace de relecture des caractéristiques alignées sur les régions d'intérêt (RoI), GAR permet (1) une perception précise en exploitant les contextes globaux nécessaires, et (2) la modélisation des interactions entre plusieurs invites. Ensemble, il parvient naturellement à (3) un raisonnement compositionnel avancé pour répondre à des questions libres spécifiques sur n'importe quelle région, passant ainsi du paradigme de la description passive à celui du dialogue actif. De plus, nous construisons GAR-Bench, qui non seulement fournit une évaluation plus précise de la compréhension d'une seule région, mais aussi, et surtout, mesure les interactions et le raisonnement complexe à travers plusieurs régions. Des expériences approfondies ont démontré que GAR-1B non seulement maintient les capacités de légendage de pointe, par exemple en surpassant DAM-3B de +4,5 sur DLC-Bench, mais excelle également dans la modélisation des relations entre plusieurs invites avec des capacités de compréhension avancées, surpassant même InternVL3-78B sur GAR-Bench-VQA. Plus important encore, notre GAR-8B en zero-shot surpasse même VideoRefer-7B en domaine spécifique sur VideoRefer-BenchQ, indiquant que ses fortes capacités peuvent être facilement transférées aux vidéos.

DeepSeek-OCR : Compression Optique Contextuelle
DeepSeek-OCR: Contexts Optical Compression

Oct 21

ByHaoran Wei, Yaofeng Sun, Yukun Li

Nous présentons DeepSeek-OCR comme une première exploration de la faisabilité de la compression de contextes longs via une cartographie optique 2D. DeepSeek-OCR se compose de deux éléments : DeepEncoder et DeepSeek3B-MoE-A570M en tant que décodeur. Plus précisément, DeepEncoder sert de moteur central, conçu pour maintenir de faibles activations avec des entrées haute résolution tout en atteignant des taux de compression élevés pour garantir un nombre optimal et gérable de tokens visuels. Les expériences montrent que lorsque le nombre de tokens textuels est inférieur à 10 fois celui des tokens visuels (c'est-à-dire un taux de compression < 10x), le modèle peut atteindre une précision de décodage (OCR) de 97 %. Même avec un taux de compression de 20x, la précision OCR reste d'environ 60 %. Cela montre un potentiel considérable pour des domaines de recherche tels que la compression de contextes historiques longs et les mécanismes d'oubli dans les LLMs. Au-delà de cela, DeepSeek-OCR démontre également une grande valeur pratique. Sur OmniDocBench, il surpasse GOT-OCR2.0 (256 tokens/page) en utilisant seulement 100 tokens visuels, et dépasse MinerU2.0 (6000+ tokens par page en moyenne) tout en utilisant moins de 800 tokens visuels. En production, DeepSeek-OCR peut générer des données d'entraînement pour les LLMs/VLMs à une échelle de 200k+ pages par jour (avec un seul A100-40G). Les codes et les poids du modèle sont accessibles publiquement à l'adresse http://github.com/deepseek-ai/DeepSeek-OCR.

IF-VidCap : Les modèles de sous-titrage vidéo peuvent-ils suivre des instructions ?
IF-VidCap: Can Video Caption Models Follow Instructions?

Oct 21

ByShihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu

Bien que les modèles de langage multimodaux de grande envergure (MLLMs) aient démontré leur compétence en matière de sous-titrage vidéo, les applications pratiques nécessitent des légendes qui suivent des instructions spécifiques de l'utilisateur plutôt que de générer des descriptions exhaustives et non contraintes. Les benchmarks actuels, cependant, évaluent principalement l'exhaustivité descriptive tout en négligeant largement les capacités de suivi des instructions. Pour combler cette lacune, nous introduisons IF-VidCap, un nouveau benchmark pour l'évaluation du sous-titrage vidéo contrôlable, qui contient 1 400 échantillons de haute qualité. Distinct des benchmarks existants de sous-titrage vidéo ou de suivi général des instructions, IF-VidCap intègre un cadre systématique qui évalue les légendes sur deux dimensions : la correction du format et la correction du contenu. Notre évaluation approfondie de plus de 20 modèles éminents révèle un paysage nuancé : malgré la domination continue des modèles propriétaires, l'écart de performance se réduit, les meilleures solutions open-source atteignant désormais une quasi-parité. De plus, nous constatons que les modèles spécialisés dans le sous-titrage dense sous-performent les MLLMs à usage général sur des instructions complexes, indiquant que les travaux futurs devraient simultanément faire progresser à la fois la richesse descriptive et la fidélité au suivi des instructions.

GAS : Amélioration de la discrétisation des EDO de diffusion via un solveur adversaire généralisé
GAS: Improving Discretization of Diffusion ODEs via Generalized Adversarial Solver

Oct 20

ByAleksandr Oganov, Ilya Bykov, Eva Neudachina, Mishan Aliev, Alexander Tolmachev, Alexander Sidorov, Aleksandr Zuev, Andrey Okhotin, Denis Rakitin, Aibek Alanov

Bien que les modèles de diffusion atteignent une qualité de génération de pointe, ils souffrent toujours d'un échantillonnage coûteux en termes de calcul. Des travaux récents abordent ce problème avec des méthodes d'optimisation basées sur le gradient, qui distille un solveur ODE de diffusion en quelques étapes à partir du processus d'échantillonnage complet, réduisant ainsi le nombre d'évaluations de fonctions de plusieurs dizaines à seulement quelques-unes. Cependant, ces approches reposent souvent sur des techniques d'entraînement complexes et ne se concentrent pas explicitement sur la préservation des détails fins. Dans cet article, nous introduisons le Solveur Généralisé : une paramétrisation simple de l'échantillonneur ODE qui ne nécessite pas de techniques d'entraînement supplémentaires et améliore la qualité par rapport aux approches existantes. Nous combinons en outre la perte de distillation originale avec un entraînement adversarial, ce qui atténue les artefacts et améliore la fidélité des détails. Nous appelons la méthode résultante le Solveur Adversarial Généralisé et démontrons sa performance supérieure par rapport aux méthodes d'entraînement de solveur existantes sous des contraintes de ressources similaires. Le code est disponible à l'adresse https://github.com/3145tttt/GAS.

Vers une personnalisation fidèle et contrôlée via l'apprentissage par renforcement avec critique et post-édition
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

Oct 21

ByChenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou

La personnalisation fidèle des grands modèles de langage (LLM) pour les aligner sur les préférences individuelles des utilisateurs est une tâche cruciale mais complexe. Bien que le fine-tuning supervisé (SFT) atteigne rapidement un plateau de performance, l'apprentissage par renforcement standard basé sur les retours humains (RLHF) peine également à capturer les nuances de la personnalisation. Les modèles de récompense basés sur des valeurs scalaires sont sujets au "reward hacking", ce qui entraîne des réponses verbeuses et superficiellement personnalisées. Pour surmonter ces limitations, nous proposons Critique-Post-Edit, un cadre d'apprentissage par renforcement robuste qui permet une personnalisation plus fidèle et contrôlable. Notre cadre intègre deux composants clés : (1) un modèle de récompense génératif personnalisé (GRM) qui fournit des scores multidimensionnels et des critiques textuelles pour résister au reward hacking, et (2) un mécanisme Critique-Post-Edit où le modèle de politique révise ses propres sorties en fonction de ces critiques pour un apprentissage plus ciblé et efficace. Lors d'une évaluation rigoureuse contrôlée par la longueur, notre méthode surpasse largement le PPO standard sur des benchmarks de personnalisation. Le modèle personnalisé Qwen2.5-7B obtient une amélioration moyenne de 11 % en taux de victoire, et le modèle personnalisé Qwen2.5-14B dépasse les performances de GPT-4.1. Ces résultats démontrent une voie pratique vers une personnalisation fidèle, efficace et contrôlable.

Penser en 3D : Raisonnement spatial fondé sur l'imagination géométrique à partir de vues limitées
Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Oct 21

ByZhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang

Bien que les récents progrès des modèles vision-langage (VLMs) aient permis des avancées remarquables dans un large éventail de tâches multimodales, la compréhension des relations spatiales en 3D à partir de vues limitées reste un défi majeur. Les méthodes de raisonnement précédentes reposent généralement sur du texte pur (par exemple, des cartes cognitives topologiques) ou sur des indices visuels en 2D. Cependant, leur capacité de représentation limitée entrave les performances dans des tâches spécifiques nécessitant une imagination spatiale en 3D. Pour pallier cette limitation, nous proposons 3DThinker, un cadre capable d'exploiter efficacement les riches informations géométriques intégrées dans les images tout en raisonnant, comme le font les humains. Notre cadre est le premier à permettre un raisonnement mental en 3D sans aucune entrée préalable en 3D, et il ne repose pas sur des données 3D explicitement étiquetées pour l'entraînement. Plus précisément, notre entraînement se déroule en deux étapes. Tout d'abord, nous effectuons un entraînement supervisé pour aligner la latence 3D générée par le VLM lors du raisonnement avec celle d'un modèle de fondation 3D (par exemple, VGGT). Ensuite, nous optimisons l'ensemble de la trajectoire de raisonnement uniquement basée sur des signaux de résultat, affinant ainsi le raisonnement mental sous-jacent en 3D. Des expériences approfondies sur plusieurs benchmarks montrent que 3DThinker surpasse systématiquement les bases de référence solides et offre une nouvelle perspective pour unifier les représentations 3D dans le raisonnement multimodal. Notre code sera disponible à l'adresse https://github.com/zhangquanchen/3DThinker.

Le tatouage des LLM multilingues est-il vraiment multilingue ? Une solution simple par rétro-traduction
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution

Oct 20

ByAsim Mohamed, Martin Gubri

Le tatouage multilingue vise à rendre les sorties des grands modèles de langage (LLM) traçables à travers les langues, mais les méthodes actuelles restent insuffisantes. Malgré les affirmations de robustesse interlingue, elles ne sont évaluées que sur des langues à ressources élevées. Nous montrons que les méthodes existantes de tatouage multilingue ne sont pas véritablement multilingues : elles échouent à rester robustes face aux attaques par traduction dans les langues à ressources moyennes et faibles. Nous attribuons cet échec au regroupement sémantique, qui ne fonctionne pas lorsque le vocabulaire du tokenizer contient trop peu de tokens de mots complets pour une langue donnée. Pour remédier à cela, nous introduisons STEAM, une méthode de détection basée sur la rétro-traduction qui restaure la force du tatouage perdue lors de la traduction. STEAM est compatible avec toute méthode de tatouage, robuste face à différents tokenizers et langues, non invasive et facilement extensible à de nouvelles langues. Avec des gains moyens de +0,19 AUC et +40%p TPR@1% sur 17 langues, STEAM offre une voie simple et robuste vers un tatouage plus équitable à travers diverses langues.

MT-Video-Bench : Un benchmark holistique de compréhension vidéo pour l'évaluation des LLM multimodaux dans les dialogues multi-tours
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

Oct 20

ByYaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu

Le développement récent des modèles de langage multimodaux de grande envergure (MLLMs) a considérablement amélioré la capacité de l'IA à comprendre les modalités visuelles. Cependant, les benchmarks d'évaluation existants se limitent principalement à des questions-réponses en un seul tour, négligeant ainsi la complexité des dialogues multi-tours dans les scénarios réels. Pour combler cette lacune, nous introduisons MT-Video-Bench, un benchmark holistique de compréhension vidéo conçu pour évaluer les MLLMs dans des dialogues multi-tours. Plus précisément, notre MT-Video-Bench évalue principalement six compétences fondamentales axées sur la perceptivité et l'interactivité, englobant 987 dialogues multi-tours soigneusement sélectionnés dans divers domaines. Ces capacités sont rigoureusement alignées avec des applications réelles, telles que l'analyse interactive de sports et le tutorat intelligent basé sur des vidéos multi-tours. Avec MT-Video-Bench, nous évaluons de manière approfondie divers MLLMs open-source et propriétaires de pointe, révélant des écarts de performance significatifs et des limites dans la gestion des dialogues vidéo multi-tours. Le benchmark sera rendu public pour favoriser les recherches futures.

UltraGen : Génération de vidéo haute résolution avec attention hiérarchique
UltraGen: High-Resolution Video Generation with Hierarchical Attention

Oct 21

ByTeng Hu, Jiangning Zhang, Zihan Su, Ran Yi

Les récents progrès dans la génération vidéo ont permis de produire des visuels captivants, avec des applications variées dans la création de contenu, le divertissement et la réalité virtuelle. Cependant, la plupart des modèles existants de génération vidéo basés sur des transformateurs à diffusion sont limités à des résolutions basses (<=720P) en raison de la complexité computationnelle quadratique du mécanisme d'attention par rapport à la largeur et à la hauteur de la sortie. Ce goulot d'étranglement computationnel rend la génération native de vidéos haute résolution (1080P/2K/4K) impraticable à la fois pour l'entraînement et l'inférence. Pour relever ce défi, nous présentons UltraGen, un nouveau cadre de génération vidéo qui permet i) une synthèse vidéo native haute résolution efficace et ii) de bout en bout. Plus précisément, UltraGen intègre une architecture d'attention hiérarchique à double branche basée sur une décomposition attention globale-locale, qui découple l'attention complète en une branche d'attention locale pour un contenu régional haute fidélité et une branche d'attention globale pour la cohérence sémantique globale. Nous proposons en outre une stratégie de modélisation globale spatialement compressée pour apprendre efficacement les dépendances globales, ainsi qu'un mécanisme d'attention locale hiérarchique entre fenêtres pour réduire les coûts computationnels tout en améliorant le flux d'information entre différentes fenêtres locales. Des expériences approfondies démontrent qu'UltraGen peut efficacement adapter des modèles vidéo pré-entraînés à basse résolution à des résolutions 1080P et même 4K pour la première fois, surpassant les méthodes existantes de pointe et les pipelines en deux étapes basés sur la super-résolution dans les évaluations qualitatives et quantitatives.

ssToken : Sélection de tokens auto-modulée et sémantiquement consciente pour le fine-tuning des grands modèles de langage
ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

Oct 21

ByXiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan

La qualité des données joue un rôle crucial dans l'amélioration du réglage fin supervisé (SFT) pour les grands modèles de langage (LLMs), et la sélection de données au niveau des tokens s'est imposée comme une direction prometteuse en raison de sa nature granulaire. Malgré leurs performances empiriques solides, les méthodes existantes de sélection au niveau des tokens partagent deux limitations majeures : (1) nécessiter l'entraînement ou l'accès à un modèle de référence supplémentaire, et (2) s'appuyer uniquement sur des informations de perte pour la sélection des tokens, ce qui ne permet pas de bien préserver les tokens sémantiquement importants qui ne sont pas favorisés par les métriques basées sur la perte. Pour relever ces défis, nous proposons ssToken, une approche de sélection de tokens auto-modulée et consciente de la sémantique. ssToken exploite des modèles historiques facilement accessibles pour calculer la différence de perte par token avec le modèle actuel, ce qui sert de signal auto-modulé permettant au modèle de sélectionner de manière adaptative les tokens le long de sa trajectoire d'optimisation, plutôt que de s'appuyer sur une perte excessive provenant d'un modèle de référence pré-entraîné comme dans les travaux précédents. Nous introduisons en outre une métrique d'estimation de l'importance des tokens basée sur l'attention et consciente de la sémantique, orthogonale à la sélection basée sur la perte et fournissant des informations sémantiques complémentaires pour un filtrage plus efficace. Des expériences approfondies sur différentes familles de modèles et échelles démontrent que la sélection auto-modulée et la sélection consciente de la sémantique surpassent individuellement le réglage fin sur l'ensemble des données, tandis que leur intégration—ssToken—obtient des gains synergiques et surpasse davantage les méthodes de sélection au niveau des tokens précédentes, offrant des améliorations de performance tout en maintenant l'efficacité de l'entraînement.

ProCLIP : Alignement progressif vision-langage via un intégrateur basé sur un modèle de langage de grande taille
ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

Oct 21

ByXiaoxing Hu, Kaicheng Yang, Ziyong Feng, Qi Ming, Zonghao Guo, Xiang An, Ziyong Feng, Junchi Yan, Xue Yang

L'encodeur de texte original de CLIP est limité par une longueur maximale d'entrée de 77 tokens, ce qui entrave sa capacité à traiter efficacement des textes longs et à effectuer une compréhension sémantique fine. De plus, l'encodeur de texte de CLIP ne prend pas en charge les entrées multilingues. Toutes ces limitations restreignent considérablement son applicabilité à un éventail plus large de tâches. Des études récentes ont tenté de remplacer l'encodeur de texte de CLIP par un encodeur basé sur un modèle de langage de grande taille (LLM) pour améliorer sa capacité à traiter des textes longs, à comprendre plusieurs langues et à saisir des nuances sémantiques fines. Cependant, comme les espaces de représentation des LLM et l'espace vision-langage de CLIP sont pré-entraînés indépendamment sans alignement préalable, un alignement direct utilisant l'apprentissage contrastif peut perturber l'alignement intrinsèque vision-langage dans l'encodeur d'images de CLIP, conduisant à une sous-utilisation des connaissances acquises lors du pré-entraînement. Pour relever ce défi, nous proposons ProCLIP, un cadre d'alignement progressif vision-langage basé sur l'apprentissage curriculaire, afin d'aligner efficacement l'encodeur d'images de CLIP avec un encodeur basé sur un LLM. Plus précisément, ProCLIP distille d'abord les connaissances de l'encodeur de texte de CLIP dans l'encodeur basé sur un LLM pour tirer parti des riches connaissances pré-entraînées de CLIP tout en établissant un alignement initial entre l'encodeur LLM et l'encodeur d'images de CLIP. Ensuite, ProCLIP aligne davantage l'encodeur d'images de CLIP avec l'encodeur basé sur un LLM grâce à un réglage contrastif image-texte, en employant une régularisation par auto-distillation pour éviter le surajustement. Pour parvenir à un alignement plus efficace, une perte d'alignement sémantique par instance et une perte d'alignement de la structure des embeddings sont utilisées lors de l'héritage des représentations et du réglage contrastif. Le code est disponible à l'adresse suivante : https://github.com/VisionXLab/ProCLIP.

MUG-V 10B : Pipeline d'entraînement à haute efficacité pour les modèles de génération de vidéos à grande échelle
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

Oct 20

ByYongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng

Ces dernières années, les modèles génératifs à grande échelle pour le contenu visuel (par exemple, les images, les vidéos et les objets/scènes 3D) ont réalisé des progrès remarquables. Cependant, l'entraînement de modèles de génération de vidéos à grande échelle reste particulièrement difficile et gourmand en ressources en raison de l'alignement intermodal texte-vidéo, des longues séquences impliquées et des dépendances spatio-temporelles complexes. Pour relever ces défis, nous présentons un cadre d'entraînement qui optimise quatre piliers : (i) le traitement des données, (ii) l'architecture du modèle, (iii) la stratégie d'entraînement et (iv) l'infrastructure pour les modèles de génération de vidéos à grande échelle. Ces optimisations ont permis des gains d'efficacité significatifs et des améliorations de performance à toutes les étapes du prétraitement des données, de la compression vidéo, de la mise à l'échelle des paramètres, du pré-entraînement basé sur un curriculum et du post-entraînement axé sur l'alignement. Notre modèle résultant, MUG-V 10B, rivalise avec les générateurs de vidéos les plus récents et, sur des tâches de génération de vidéos orientées commerce électronique, surpasse les meilleurs modèles de référence open-source dans les évaluations humaines. Plus important encore, nous mettons à disposition l'ensemble de la pile, y compris les poids du modèle, le code d'entraînement à grande échelle basé sur Megatron-Core, et les pipelines d'inférence pour la génération et l'amélioration de vidéos. À notre connaissance, il s'agit de la première publication publique de code d'entraînement pour la génération de vidéos à grande échelle exploitant Megatron-Core pour atteindre une efficacité d'entraînement élevée et une mise à l'échelle multi-nœud quasi-linéaire. Les détails sont disponibles sur https://github.com/Shopee-MUG/MUG-V{notre page web}.

DSI-Bench : Un référentiel pour l'intelligence spatiale dynamique
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence

Oct 21

ByZiang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao

Le raisonnement sur les relations spatiales dynamiques est essentiel, car les observateurs et les objets se déplacent souvent simultanément. Bien que les modèles vision-langage (VLMs) et les modèles d'expertise visuelle excellent dans les tâches en 2D et les scénarios statiques, leur capacité à comprendre pleinement les scénarios dynamiques en 3D reste limitée. Nous introduisons l'Intelligence Spatiale Dynamique et proposons DSI-Bench, un benchmark comprenant près de 1 000 vidéos dynamiques et plus de 1 700 questions annotées manuellement, couvrant neuf motifs de mouvement découplés des observateurs et des objets. Des conceptions spatialement et temporellement symétriques réduisent les biais et permettent une évaluation systématique du raisonnement des modèles concernant le mouvement de l'observateur et celui des objets. Notre évaluation de 14 VLMs et modèles experts révèle des limitations clés : les modèles confondent souvent le mouvement de l'observateur et celui des objets, présentent des biais sémantiques et échouent à inférer avec précision les relations relatives dans des scénarios dynamiques. Notre DSI-Bench fournit des résultats précieux et des insights pour le développement futur de modèles généraux et experts dotés d'une intelligence spatiale dynamique.

AlphaQuanter : Un cadre d'apprentissage par renforcement agentique orchestré par des outils de bout en bout pour le trading d'actions
AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

Oct 16

ByZheye Deng, Jiashu Wang

Bien que les agents basés sur des modèles de langage de grande taille (LLM) montrent un potentiel dans le trading automatisé, ils rencontrent encore des limitations critiques. Les cadres multi-agents les plus répandus souffrent souvent d'inefficacité, produisent des signaux incohérents et manquent d'optimisation de bout en bout nécessaire pour apprendre une stratégie cohérente à partir des retours du marché. Pour remédier à cela, nous présentons AlphaQuanter, un cadre mono-agent qui utilise l'apprentissage par renforcement (RL) pour apprendre une politique dynamique sur un flux de décision transparent et augmenté par des outils. Cela permet à un seul agent d'orchestrer de manière autonome les outils et d'acquérir proactivement des informations à la demande, établissant ainsi un processus de raisonnement transparent et vérifiable. Des expériences approfondies démontrent qu'AlphaQuanter atteint des performances de pointe sur des indicateurs financiers clés. De plus, son raisonnement interprétable révèle des stratégies sophistiquées, offrant des insights novateurs et précieux pour les traders humains. Notre code pour l'acquisition de données et l'entraînement de l'agent est disponible publiquement à l'adresse suivante : https://github.com/AlphaQuanter/AlphaQuanter.

Extraction des données d'alignement dans les modèles ouverts
Extracting alignment data in open models

Oct 21

ByFederico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes

Dans ce travail, nous démontrons qu'il est possible d'extraire des quantités significatives de données d'entraînement d'alignement à partir d'un modèle post-entraîné — utiles pour orienter le modèle afin d'améliorer certaines capacités telles que le raisonnement sur de longs contextes, la sécurité, le suivi d'instructions et les mathématiques. Alors que la majorité des travaux connexes sur la mémorisation se sont concentrés sur la mesure du succès de l'extraction des données d'entraînement via la correspondance de chaînes de caractères, nous soutenons que les modèles d'embedding sont mieux adaptés à nos objectifs spécifiques. Les distances mesurées à travers un modèle d'embedding de haute qualité peuvent identifier des similitudes sémantiques entre des chaînes de caractères qu'une métrique différente, telle que la distance d'édition, aura du mal à capturer. En fait, dans notre investigation, la correspondance approximative de chaînes de caractères aurait gravement sous-estimé (par une estimation conservatrice de 10 fois) la quantité de données pouvant être extraites en raison d'artefacts triviaux qui dévalorisent la métrique. Fait intéressant, nous constatons que les modèles régurgitent facilement les données d'entraînement utilisées lors des phases de post-entraînement telles que le SFT ou le RL. Nous montrons que ces données peuvent ensuite être utilisées pour entraîner un modèle de base, récupérant ainsi une part significative des performances originales. Nous croyons que notre travail expose un risque potentiellement négligé concernant l'extraction des données d'alignement. Enfin, notre travail ouvre une discussion intéressante sur les effets en aval des pratiques de distillation : puisque les modèles semblent régurgiter des aspects de leur ensemble d'entraînement, la distillation peut donc être considérée comme un entraînement indirect sur le jeu de données original du modèle.

Raisonnement vidéo sans entraînement
Video Reasoning without Training

Oct 19

ByDeepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague

Le raisonnement vidéo utilisant des modèles multimodaux de grande taille (LMMs) repose sur un apprentissage par renforcement (RL) coûteux et une chaîne de pensée verbeuse, entraînant une surcharge computationnelle importante lors de l'entraînement et de l'inférence. De plus, les mécanismes qui contrôlent le processus de pensée dans ces modèles de raisonnement sont très limités. Dans cet article, en utilisant l'entropie de la sortie du modèle comme signal, nous découvrons que les modèles de haute qualité passent par une série de micro-explorations et micro-exploitations qui maintiennent le processus de raisonnement ancré (c'est-à-dire évitent une randomisation excessive pendant que le modèle explore ou réfléchit à une réponse). Nous observons en outre qu'une fois ce processus de "pensée" terminé, les modèles plus précis démontrent une meilleure convergence en réduisant significativement l'entropie via une phase d'exploitation finale (c'est-à-dire une convergence plus certaine vers une trajectoire de solution). Nous utilisons ensuite ces nouvelles perspectives théoriquement fondées pour ajuster directement le comportement du modèle lors de l'inférence, sans recourir à l'apprentissage par renforcement ou à un réglage supervisé. Plus précisément, lors de l'inférence, notre approche proposée, appelée V-Reason (Video-Reason), adapte le cache de valeur du LMM via quelques étapes d'optimisation sur un petit contrôleur entraînable en utilisant un objectif basé sur l'entropie, c'est-à-dire sans supervision à partir d'un ensemble de données ou de RL. Ce réglage améliore le comportement de micro-exploration et d'exploitation du modèle pendant l'inférence. Nos expériences montrent que notre méthode proposée obtient des améliorations significatives par rapport aux modèles de base réglés par instruction sur plusieurs ensembles de données de raisonnement vidéo, réduisant l'écart avec les modèles entraînés par RL à moins de 0,6 % de précision moyenne sans aucun entraînement, tout en offrant des avantages massifs en termes d'efficacité : les tokens de sortie sont réduits de 58,6 % par rapport au modèle RL.

Unimedvl : Unification de la compréhension et de la génération multimodales médicales par Observation-Connaissance-Analyse
Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

Oct 17

ByJunzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He

Les applications de diagnostic médical nécessitent des modèles capables de traiter des entrées médicales multimodales (images, antécédents des patients, résultats de laboratoire) et de générer des sorties diversifiées, incluant à la fois des rapports textuels et du contenu visuel (annotations, masques de segmentation et images). Malgré ce besoin, les systèmes d'IA médicale existants perturbent ce processus unifié : les modèles de compréhension d'images médicales interprètent les images mais ne peuvent pas générer de sorties visuelles, tandis que les modèles de génération d'images médicales synthétisent des images mais ne peuvent pas fournir d'explications textuelles. Cela entraîne des lacunes dans la représentation des données, l'intégration des caractéristiques et les capacités multimodales au niveau des tâches. À cette fin, nous proposons un cadre multiniveau qui s'inspire des workflows de diagnostic à travers le paradigme Observation-Connaissance-Analyse (OKA). Plus précisément, au niveau de l'observation, nous construisons UniMed-5M, un ensemble de données comprenant plus de 5,6 millions d'échantillons qui reformatent des données unimodales diversifiées en paires multimodales pour une observation fondamentale. Au niveau de la connaissance, nous proposons l'apprentissage progressif par curriculum qui introduit systématiquement des connaissances médicales multimodales. Au niveau de l'analyse, nous introduisons UniMedVL, le premier modèle médical unifié multimodal pour l'analyse simultanée des tâches de compréhension et de génération d'images au sein d'une seule architecture. UniMedVL atteint des performances supérieures sur cinq benchmarks de compréhension d'images médicales, tout en égalant les modèles spécialisés en qualité de génération sur huit modalités d'imagerie médicale. De manière cruciale, notre architecture unifiée permet un partage bidirectionnel des connaissances : les tâches de génération améliorent les caractéristiques de compréhension visuelle, démontrant que l'intégration de capacités traditionnellement séparées dans un cadre médical unique débloque des améliorations pour diverses tâches de vision-langage médicales. Le code est disponible à l'adresse https://github.com/uni-medical/UniMedVL.

Mono4DGS-HDR : Splatting Gaussien 4D à haute plage dynamique à partir de vidéos monoculaires à exposition alternée
Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

Oct 21

ByJinfeng Liu, Lingtong Kong, Mi Zhou, Jinwen Chen, Dan Xu

Nous présentons Mono4DGS-HDR, le premier système permettant de reconstruire des scènes 4D à haute plage dynamique (HDR) rendables à partir de vidéos monoculaires à plage dynamique réduite (LDR) non posées, capturées avec des expositions alternées. Pour relever un tel défi, nous proposons un cadre unifié avec une approche d'optimisation en deux étapes basée sur le lissage gaussien. La première étape apprend une représentation gaussienne HDR de la vidéo dans l'espace de coordonnées de la caméra orthographique, éliminant ainsi le besoin de poses de caméra et permettant une reconstruction initiale robuste de la vidéo HDR. La deuxième étape transforme les gaussiennes de la vidéo dans l'espace monde et affine conjointement les gaussiennes mondiales avec les poses de caméra. De plus, nous proposons une stratégie de régularisation de la luminance temporelle pour améliorer la cohérence temporelle de l'apparence HDR. Étant donné que cette tâche n'a jamais été étudiée auparavant, nous construisons un nouveau benchmark d'évaluation en utilisant des ensembles de données publiquement disponibles pour la reconstruction de vidéos HDR. Des expériences approfondies démontrent que Mono4DGS-HDR surpasse significativement les solutions alternatives adaptées à partir des méthodes de pointe, tant en qualité de rendu qu'en vitesse.

Élargir l'espace d'action des LLM pour raisonner au-delà du langage
Expanding the Action Space of LLMs to Reason Beyond Language

Oct 8

ByZhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson

Les modèles de langage de grande taille (LLMs) sont des raisonneurs puissants en langage naturel, mais leurs actions sont généralement limitées à la production de tokens de vocabulaire. Par conséquent, les interactions avec des environnements externes — tels que des opérateurs symboliques ou des simulateurs — doivent être exprimées sous forme de texte dans des formats prédéfinis, analysées et acheminées vers des interfaces externes. Cela surcharge le langage du modèle avec des tâches de raisonnement et de contrôle, et nécessite un analyseur personnalisé, externe au LLM. Pour résoudre ce problème, nous découplons les interactions avec l'environnement du langage en les internalisant dans un espace d'actions étendu (ExpA), au-delà du vocabulaire. Le modèle commence à raisonner dans l'environnement linguistique par défaut, mais peut déclencher des actions de routage et basculer vers un environnement externe à tout moment. À partir de là, le modèle ne peut invoquer que des actions spécifiques à l'environnement, recevoir des retours de celui-ci, et potentiellement revenir au langage en conséquence. Pour favoriser une exploration efficace de l'espace d'actions étendu et des nouveaux environnements, nous introduisons l'apprentissage par renforcement ExpA (EARL) avec une optimisation de politique contrefactuelle. Sur des tâches nécessitant des interactions multi-tours et une planification contingente, EARL surpasse des bases de référence solides avec des actions contraintes par le vocabulaire. Il se montre robuste dans l'apprentissage multi-tâches basé sur des calculatrices et, dans le problème de tri partiellement observé, atteint une précision parfaite pour Sort-4 tout en découvrant de manière autonome un algorithme efficace compétitif avec les conceptions classiques.

Quand "Correct" n'est pas sûr : Peut-on faire confiance aux correctifs fonctionnellement justes générés par les agents de code ?
When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?

Oct 15

ByYibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen

Les agents de code sont de plus en plus sollicités pour corriger des bugs de manière autonome sur des plateformes comme GitHub, mais leur évaluation de sécurité se concentre presque exclusivement sur la correction fonctionnelle. Dans cet article, nous révélons un nouveau type de menace pour les agents de code dans le monde réel : les correctifs fonctionnellement corrects mais vulnérables (FCV), qui passent tous les tests mais contiennent du code vulnérable. Avec notre FCV-Attack, qui peut être délibérément conçue par des attaquants malveillants ou implicitement introduite par des développeurs bienveillants, nous montrons que les modèles de langage les plus avancés (par exemple, ChatGPT et Claude) et les structures d'agents (par exemple, SWE-agent et OpenHands) sont tous vulnérables à cette menace FCV ; sur 12 combinaisons d'agents-modèles dans SWE-Bench, l'attaque ne nécessite qu'un accès en boîte noire et une seule requête à l'agent de code pour être exécutée. Par exemple, pour la vulnérabilité CWE-538 (exposition d'informations), la FCV-Attack atteint un taux de réussite de 40,7 % sur GPT-5 Mini + OpenHands. Nos résultats révèlent une menace de sécurité importante négligée par les paradigmes d'évaluation actuels et appellent au développement de défenses axées sur la sécurité pour les agents de code.

PRISMM-Bench : Un Benchmark des Incohérences Multimodales Fondées sur l'Évaluation par les Pairs
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Oct 18

ByLukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin

Les modèles multimodaux de grande taille (LMMs) sont de plus en plus appliqués à la recherche scientifique, mais il reste incertain s'ils peuvent comprendre et raisonner de manière fiable sur la complexité multimodale des articles scientifiques. Un défi central réside dans la détection et la résolution des incohérences entre le texte, les figures, les tableaux et les équations, des problèmes souvent subtils, spécifiques au domaine, et qui finissent par compromettre la clarté, la reproductibilité et la confiance. Les benchmarks existants négligent cette problématique, soit en isolant des modalités uniques, soit en s'appuyant sur des erreurs synthétiques qui ne capturent pas la complexité réelle. Nous introduisons PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), le premier benchmark basé sur des incohérences réelles signalées par les relecteurs dans des articles scientifiques. Grâce à un pipeline en plusieurs étapes incluant l'extraction de revues, le filtrage assisté par LLM et la vérification humaine, nous avons compilé 262 incohérences provenant de 242 articles. Sur la base de cet ensemble, nous concevons trois tâches, à savoir l'identification des incohérences, leur correction et l'appariement de paires, qui évaluent la capacité d'un modèle à détecter, corriger et raisonner sur les incohérences entre différentes modalités. De plus, pour résoudre le problème notoire des raccourcis basés sur les choix dans les évaluations à choix multiples, où les modèles exploitent les motifs de réponse sans véritablement comprendre la question, nous introduisons des représentations de réponse structurées en JSON qui minimisent les biais linguistiques en réduisant la dépendance aux indices stylistiques superficiels. Nous évaluons 21 LMMs de pointe, incluant des modèles open-weight de grande taille (GLM-4.5V 106B, InternVL3 78B) et des modèles propriétaires (Gemini 2.5 Pro, GPT-5 avec raisonnement élevé). Les résultats révèlent des performances étonnamment faibles (26,1-54,2 %), soulignant le défi du raisonnement scientifique multimodal et motivant des progrès vers des assistants scientifiques dignes de confiance.

Libérer le raisonnement scientifique pour la génération de protocoles bio-expérimentaux via un mécanisme de récompense structuré basé sur les composants
Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

Oct 17

ByHaoran Sun, Yankai Jiang, Zhenyu Tang, Yaning Pan, Shuang Gu, Zekai Lin, Lilong Wang, Wenjie Lou, Lei Liu, Lei Bai, Xiaosong Wang

La base de la science reproductible repose sur des protocoles qui sont précis, logiquement ordonnés et exécutables. La génération autonome de ces protocoles à partir de requêtes en langage naturel pourrait grandement améliorer l'efficacité du processus de reproduction. Cependant, les modèles de langage de grande taille (LLMs) actuels génèrent souvent des protocoles incomplets ou incohérents, limitant ainsi leur utilité. Pour remédier à cette limitation, nous introduisons d'abord SciRecipe, un ensemble de données à grande échelle comprenant plus de 12 000 protocoles structurés couvrant 27 sous-domaines biologiques et englobant à la fois des tâches de compréhension et de résolution de problèmes. Pour améliorer davantage la génération de protocoles, nous proposons le paradigme "Esquisse-et-Remplissage", qui sépare l'analyse, la structuration et l'expression afin de garantir que chaque étape soit explicite et vérifiable. En complément, le mécanisme de récompense structuré basé sur des composants évalue la granularité des étapes, l'ordre des actions et la fidélité sémantique, alignant ainsi l'optimisation du modèle sur la fiabilité expérimentale. Sur la base de ces composants, nous développons Thoth, formé à travers un processus en étapes de "Connaissance-à-Action" qui progresse de l'acquisition de connaissances au raisonnement opérationnel, et finalement à la génération de protocoles robustes et exécutables. Sur plusieurs benchmarks, Thoth surpasse de manière constante les LLMs propriétaires et open-source, obtenant des améliorations significatives en termes d'alignement des étapes, de séquencement logique et de précision sémantique. Notre approche ouvre la voie à des assistants scientifiques fiables qui relient la connaissance à l'exécution expérimentale. Toutes les données, codes et modèles seront rendus publics.

Élagage des réseaux multitâches surparamétrés pour la restauration d'images web dégradées
Pruning Overparameterized Multi-Task Networks for Degraded Web Image Restoration

Oct 16

ByThomas Katraouras, Dimitrios Rafailidis

La qualité de l'image est un facteur crucial pour fournir un contenu visuellement attrayant sur les plateformes web. Cependant, les images subissent souvent une dégradation due aux opérations destructrices appliquées par les réseaux sociaux en ligne (OSNs), affectant négativement l'expérience utilisateur. La restauration d'image est le processus de récupération d'une image propre et de haute qualité à partir d'une entrée dégradée. Récemment, les modèles de restauration d'image multi-tâches (tout-en-un) ont suscité un intérêt significatif, grâce à leur capacité à gérer simultanément différents types de dégradations d'image. Cependant, ces modèles comportent souvent un nombre excessivement élevé de paramètres entraînables, les rendant inefficaces sur le plan computationnel. Dans cet article, nous proposons une stratégie pour compresser les modèles de restauration d'image multi-tâches. Nous visons à découvrir des sous-réseaux très épars au sein de modèles profonds surparamétrés qui peuvent égaler ou même surpasser les performances de leurs homologues denses. Le modèle proposé, nommé MIR-L, utilise une stratégie d'élagage itérative qui supprime les poids de faible magnitude sur plusieurs tours, tout en réinitialisant les poids restants à leur initialisation d'origine. Ce processus itératif est important pour l'optimisation du modèle de restauration d'image multi-tâches, découvrant efficacement des "billets gagnants" qui maintiennent ou dépassent les performances de pointe à des niveaux de parcimonie élevés. L'évaluation expérimentale sur des ensembles de données de référence pour les tâches de dépluie, de débrumage et de débruitage montre que MIR-L ne conserve que 10 % des paramètres entraînables tout en maintenant des performances élevées en restauration d'image. Notre code, ensembles de données et modèles pré-entraînés sont rendus publics à l'adresse https://github.com/Thomkat/MIR-L.

Diffusion Planifiée
Planned Diffusion

Oct 20

ByDaniel Israel, Tian Jin, Ellie Cheng, Guy Van den Broeck, Aditya Grover, Suvinay Subramanian, Michael Carbin

Un défi central dans l'inférence des grands modèles de langage est l'arbitrage entre la vitesse de génération et la qualité des résultats. Les modèles autorégressifs produisent des textes de haute qualité mais génèrent les tokens de manière séquentielle. Les modèles de diffusion peuvent générer des tokens en parallèle, mais nécessitent souvent de nombreuses itérations pour atteindre une qualité équivalente. Nous proposons la diffusion planifiée, une méthode hybride qui combine les forces des deux paradigmes. La diffusion planifiée fonctionne en deux étapes : d'abord, le modèle crée un plan autorégressif court qui divise la sortie en segments plus petits et indépendants. Ensuite, le modèle génère ces segments simultanément en utilisant la diffusion. Cette approche élargit la frontière de Pareto vitesse-qualité et offre une voie pratique pour une génération de texte plus rapide et de haute qualité. Sur AlpacaEval, une suite de 805 prompts d'exécution d'instructions, la diffusion planifiée atteint un arbitrage Pareto-optimal entre qualité et latence, obtenant une accélération de 1,27x à 1,81x par rapport à la génération autorégressive avec seulement une baisse de 0,87 % à 5,4 % du taux de réussite, respectivement. Notre analyse de sensibilité montre que le mécanisme de planification de la diffusion planifiée est minimal et fiable, et que des paramètres d'exécution simples existent pour offrir un contrôle flexible de l'arbitrage qualité-latence.

Alignement à Toute Profondeur : Débloquer l'Alignement de Sécurité Innée des LLMs à Toute Profondeur
Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

Oct 20

ByJiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu

Les modèles de langage de grande taille (LLMs) présentent un alignement fort mais superficiel : ils refusent directement les requêtes nuisibles lorsqu'un refus est attendu au tout début d'un tour d'assistant, mais cette protection s'effondre une fois qu'une continuation nuisible est en cours (soit par des attaques adverses, soit par des attaques de préremplissage nuisible de l'assistant). Cela soulève une question fondamentale : L'alignement superficiel inné des LLMs peut-il être déverrouillé pour garantir la sécurité à des profondeurs de génération arbitraires ? Pour atteindre cet objectif, nous proposons l'Alignement à Toute Profondeur (ADA), une défense efficace au moment de l'inférence avec un surcoût négligeable. ADA est construit sur notre observation que l'alignement est concentré dans les jetons d'en-tête de l'assistant grâce à leur utilisation répétée dans l'entraînement aux refus superficiels, et que ces jetons possèdent les forts a priori d'alignement du modèle. En réintroduisant ces jetons en cours de génération, ADA incite le modèle à réévaluer la nocivité et à rétablir les refus à n'importe quel point de la génération. À travers diverses familles de modèles open-source (Llama, Gemma, Mistral, Qwen, DeepSeek et gpt-oss), ADA atteint une performance de sécurité robuste sans nécessiter de modifications des paramètres du modèle de base. Il assure un taux de refus proche de 100 % contre des attaques adverses de préremplissage allant de dizaines à milliers de jetons. De plus, ADA réduit le taux de réussite moyen des attaques adverses de prompt notables (comme GCG, AutoDAN, PAIR et TAP) à moins de 3 %. Tout cela est accompli tout en préservant l'utilité sur les tâches bénignes avec un minimum de sur-refus. ADA maintient cette résilience même après que le modèle de base subit un ajustement d'instruction ultérieur (bénin ou adversaire).

L'écart des instructions atomiques : les LLM ajustés par instruction peinent à exécuter des directives simples et autonomes
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives

Oct 20

ByHenry Lim, Kwan Hui Lim

Les grands modèles de langage ajustés par instruction (IT-LLMs) démontrent un raisonnement zero-shot robuste, mais leur capacité à exécuter des instructions simples et autonomes reste peu explorée, bien que cela soit fondamental pour le suivi d'instructions complexes. Nous évaluons 20 IT-LLMs sur des versions modifiées des benchmarks MMLU et MMLU-Pro, en faisant varier systématiquement le format des étiquettes d'options (alphabétique, numérique, romain) tout en conservant leur signification identique sous quatre paradigmes : (1) Avec des instructions explicites, les changements d'étiquettes provoquent des variations importantes de performance (par exemple, -30,45 % pour les étiquettes romaines vs. numériques), révélant un biais lié au format des instructions. (2) Sans instructions, la performance chute davantage (jusqu'à -10,84 %) et la sensibilité aux étiquettes s'intensifie, soulignant le rôle des directives explicites. (3) Lorsque le contenu des options est supprimé, les modèles échouent à surpasser les bases de choix aléatoires, sauf avec des étiquettes numériques, suggérant une faible adhésion aux directives atomiques. (4) L'utilisation d'exemples en three-shot n'apporte pas de gains significatifs en robustesse ou fidélité, et les analyses de génération montrent des erreurs persistantes sur les étiquettes, en particulier pour les formats non numériques. Quelle que soit la taille des modèles, les LLMs plus grands atteignent une précision plus élevée mais restent incohérents dans le suivi des instructions. Ces résultats mettent en lumière les insuffisances des paradigmes actuels d'ajustement par instruction et soulignent la nécessité de méthodes d'évaluation et de stratégies d'entraînement ciblant explicitement le suivi d'instructions atomiques.

Les bacs à sable statiques sont insuffisants : modéliser la complexité sociétale nécessite une co-évolution ouverte dans les simulations multi-agents basées sur les modèles de langage (LLM).
Static Sandboxes Are Inadequate: Modeling Societal Complexity Requires Open-Ended Co-Evolution in LLM-Based Multi-Agent Simulations

Oct 15

ByJinkun Chen, Sher Badshah, Xuemin Yu, Sijia Han

Et si les agents artificiels pouvaient non seulement communiquer, mais aussi évoluer, s’adapter et remodeler leurs mondes de manière imprévisible ? Avec les modèles de langage (LLM) alimentant désormais les systèmes multi-agents et les simulations sociales, nous assistons à l’émergence de nouvelles possibilités pour modéliser des environnements ouverts et en constante évolution. Pourtant, la plupart des simulations actuelles restent confinées à des cadres statiques, caractérisés par des tâches prédéfinies, des dynamiques limitées et des critères d’évaluation rigides. Ces limitations les empêchent de saisir la complexité des sociétés réelles. Dans cet article, nous soutenons que les benchmarks statiques et spécifiques à une tâche sont fondamentalement inadéquats et doivent être repensés. Nous examinons de manière critique les architectures émergentes qui intègrent les LLM aux dynamiques multi-agents, mettons en lumière des défis clés tels que l’équilibre entre stabilité et diversité, l’évaluation des comportements imprévus et la montée en complexité, et proposons une nouvelle taxonomie pour ce domaine en évolution rapide. Enfin, nous présentons une feuille de route de recherche axée sur l’ouverture, la co-évolution continue et le développement d’écosystèmes d’IA résilients et socialement alignés. Nous appelons la communauté à dépasser les paradigmes statiques et à contribuer à façonner la prochaine génération de simulations multi-agents adaptatives et socialement conscientes.

Prédire l'imprévisible : Prévision reproductible par BiLSTM des décomptes d'incidents dans la base de données mondiale sur le terrorisme (GTD)
Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)

Oct 16

ByOluwasegun Adegoke

Nous étudions la prévision à court terme du nombre hebdomadaire d'incidents terroristes en utilisant la Global Terrorism Database (GTD, 1970-2016). Nous construisons un pipeline reproductible avec des découpages temporels fixes et évaluons un réseau LSTM bidirectionnel (BiLSTM) par rapport à des références classiques solides (naïf saisonnier, linéaire/ARIMA) et à un modèle de référence profond LSTM-Attention. Sur l'ensemble de test réservé, le BiLSTM atteint une RMSE de 6,38, surpassant LSTM-Attention (9,19 ; +30,6%) et une régression linéaire avec décalage (+35,4% de gain en RMSE), avec des améliorations parallèles en MAE et MAPE. Des ablations variant la mémoire temporelle, la longueur de l'historique d'entraînement, la granularité spatiale, la taille du lookback et les groupes de caractéristiques montrent que les modèles entraînés sur des données historiques longues généralisent le mieux ; un lookback modéré (20-30 semaines) fournit un contexte solide ; et l'encodage bidirectionnel est crucial pour capturer à la fois les schémas de montée en puissance et de conséquences dans la fenêtre. L'analyse des groupes de caractéristiques indique que la structure à court terme (comptages décalés et statistiques glissantes) contribue le plus, avec les caractéristiques géographiques et relatives aux victimes ajoutant un gain incrémental. Nous publions le code, les configurations et des tableaux de résultats compacts, et fournissons une déclaration sur les données/éthique documentant la licence GTD et l'utilisation à des fins de recherche uniquement. Globalement, l'étude offre une référence transparente et performante pour la prévision des incidents dans la GTD.

EvoSyn : Synthèse de données évolutives généralisables pour un apprentissage vérifiable
EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

Oct 20

ByHe Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao

Les données fiables et vérifiables sont devenues un facteur clé des gains de capacités dans les modèles de langage modernes, permettant un apprentissage par renforcement stable avec des récompenses vérifiables et une distillation efficace qui transfère les compétences à travers les tâches mathématiques, de codage et agentielles. Cependant, la construction de données synthétiques vérifiables et généralisables reste difficile en raison de la génération sujette à des hallucinations, et des artefacts de vérification faibles ou triviaux qui ne parviennent pas à distinguer les solutions solides des solutions faibles. Les approches existantes reposent souvent sur des heuristiques spécifiques à la tâche ou des filtres post-hoc qui ne se transfèrent pas entre les domaines et manquent d'un évaluateur universel et fondé sur des principes de la vérifiabilité. Dans ce travail, nous introduisons un cadre de synthèse de données évolutif, indépendant de la tâche, guidé par des stratégies et vérifiable par exécution qui, à partir d'une supervision minimale initiale, synthétise conjointement des problèmes, des solutions candidates diversifiées et des artefacts de vérification, et découvre itérativement des stratégies via un évaluateur basé sur la cohérence qui impose un accord entre les vérifications annotées par l'homme et celles induites par la stratégie. Ce pipeline transforme le filtrage en une synthèse fondée sur des principes : il assemble de manière fiable des instances d'entraînement cohérentes et vérifiables et généralise sans règles spécifiques au domaine. Nos expériences démontrent l'efficacité de l'approche proposée sous les paradigmes d'entraînement RLVR et de distillation de modèles. Les résultats montrent que l'entraînement avec nos données synthétisées apporte des améliorations significatives sur les tâches LiveCodeBench et AgentBench-OS, mettant en évidence la robuste généralisation de notre cadre.

PokeeResearch : Recherche approfondie efficace via apprentissage par renforcement à partir de retours d'IA et échafaudage de raisonnement robuste
PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

Oct 17

ByYi Wan, Jiuqi Wang, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu

Les grands modèles de langage (LLM) augmentés par des outils émergent en tant qu'agents de recherche approfondis, des systèmes capables de décomposer des requêtes complexes, de récupérer des preuves externes et de synthétiser des réponses fondées. Cependant, les agents actuels restent limités par une récupération superficielle, des métriques d'alignement faibles et un comportement fragile dans l'utilisation des outils. Nous présentons PokeeResearch-7B, un agent de recherche approfondi de 7 milliards de paramètres construit sous un cadre unifié d'apprentissage par renforcement pour la robustesse, l'alignement et l'évolutivité. PokeeResearch-7B est entraîné par un cadre d'apprentissage par renforcement à partir de retours d'IA (RLAIF) sans annotation, optimisant les politiques à l'aide de signaux de récompense basés sur des LLM qui capturent la précision factuelle, la fidélité des citations et l'adhésion aux instructions. Un échafaudage de raisonnement multi-appels piloté par une chaîne de pensée renforce encore la robustesse grâce à l'auto-vérification et à la récupération adaptative après des échecs d'outils. Parmi 10 benchmarks populaires de recherche approfondie, PokeeResearch-7B atteint des performances de pointe parmi les agents de recherche approfondis à l'échelle de 7 milliards de paramètres. Cela met en évidence qu'un apprentissage par renforcement et une conception de raisonnement minutieux peuvent produire des agents IA efficaces, résilients et de qualité recherche. Le modèle et le code d'inférence sont open-source sous licence MIT à l'adresse https://github.com/Pokee-AI/PokeeResearchOSS.