HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

35 papers found

VCRL : Apprentissage par renforcement curriculaire basé sur la variance pour les grands modèles de langage
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

Sep 24

ByGuochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang

113

L'apprentissage par renforcement basé sur les politiques joue actuellement un rôle important dans l'amélioration des LLM pour les tâches de raisonnement mathématique. Cependant, les méthodes existantes d'apprentissage par renforcement basées sur les rollouts (GRPO, DAPO, GSPO, etc.) ne prennent pas explicitement en compte la capacité d'apprentissage des LLM pour des échantillons de différents niveaux de difficulté, ce qui va à l'encontre du processus cognitif humain pour les tâches de raisonnement mathématique, qui progresse du facile au difficile. Intuitivement, nous constatons que la variance de la récompense du groupe de rollouts dans RLVR reflète en partie la difficulté de l'échantillon actuel pour les LLM. Les échantillons trop faciles ou trop difficiles présentent une variance plus faible, tandis que les échantillons de difficulté modérée ont une variance plus élevée. Sur cette base, nous proposons VCRL, un cadre d'apprentissage par renforcement curriculaire qui contrôle dynamiquement la difficulté des échantillons d'entraînement en fonction de la variance des récompenses de groupe. Les expériences menées sur cinq benchmarks mathématiques et deux modèles révèlent les avantages de VCRL par rapport aux méthodes de référence actuelles en apprentissage par renforcement pour les LLM.

MMR1 : Amélioration du raisonnement multimodal grâce à un échantillonnage sensible à la variance et à des ressources ouvertes
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

Sep 25

BySicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu

Les grands modèles de raisonnement multimodal ont connu des progrès rapides, mais leur avancée est limitée par deux contraintes majeures : l'absence de données ouvertes, à grande échelle et de haute qualité pour les longues chaînes de pensée (CoT), ainsi que l'instabilité des algorithmes d'apprentissage par renforcement (RL) lors de la post-formation. L'Optimisation de Politique Relative par Groupe (GRPO), le cadre standard pour le réglage fin en RL, est sujette à la disparition du gradient lorsque la variance des récompenses est faible, ce qui affaiblit les signaux d'optimisation et compromet la convergence. Ce travail apporte trois contributions : (1) Nous proposons l'Échantillonnage Sensible à la Variance (VAS), une stratégie de sélection de données guidée par le Score de Promotion de la Variance (VPS) qui combine la variance des résultats et la diversité des trajectoires pour augmenter la variance des récompenses et stabiliser l'optimisation de la politique. (2) Nous publions des ressources à grande échelle, soigneusement sélectionnées, contenant environ 1,6 million de données de démarrage à froid de longues CoT et environ 15 000 paires de questions-réponses pour la RL, conçues pour garantir la qualité, la difficulté et la diversité, ainsi qu'une base de code de formation reproductible de bout en bout. (3) Nous rendons publics une famille de modèles de raisonnement multimodal à différentes échelles, établissant des références standardisées pour la communauté. Les expériences sur des benchmarks de raisonnement mathématique démontrent l'efficacité des données sélectionnées et de la méthode VAS proposée. Des études d'ablation et des analyses approfondies fournissent des insights supplémentaires sur les contributions de chaque composant. De plus, nous établissons théoriquement que la variance des récompenses borne inférieurement l'amplitude attendue du gradient de la politique, avec VAS servant de mécanisme pratique pour réaliser cette garantie. Notre code, données et points de contrôle sont disponibles à l'adresse https://github.com/LengSicong/MMR1.

SciReasoner : Établir les bases du raisonnement scientifique à travers les disciplines
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

Sep 25

ByYizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai

Nous présentons un modèle de fondation pour le raisonnement scientifique qui aligne le langage naturel avec des représentations scientifiques hétérogènes. Le modèle est pré-entraîné sur un corpus de 206 milliards de tokens couvrant des textes scientifiques, des séquences pures et des paires séquence-texte, puis aligné via un apprentissage supervisé fin (SFT) sur 40 millions d'instructions, en utilisant un amorçage à froid progressif pour susciter des chaînes de pensée longues, et un apprentissage par renforcement avec un façonnage de récompense spécifique aux tâches, ce qui instille un raisonnement scientifique réfléchi. Il prend en charge quatre familles de capacités, couvrant jusqu'à 103 tâches à travers différents workflows : (i) traduction fidèle entre texte et formats scientifiques, (ii) extraction de texte/connaissances, (iii) prédiction de propriétés, (iv) classification de propriétés, (v) génération et conception de séquences inconditionnelles et conditionnelles. Par rapport aux systèmes spécialisés, notre approche élargit la couverture des instructions, améliore la généralisation inter-domaines et renforce la fidélité. Nous détaillons la curation des données et l'entraînement, et montrons que l'apprentissage interdisciplinaire renforce le transfert et la fiabilité en aval. Le modèle, les ensembles de données pour le réglage des instructions et le code d'évaluation sont open-source sur https://huggingface.co/SciReason et https://github.com/open-sciencelab/SciReason.

Recherche arborescente pour l'apprentissage par renforcement des agents LLM
Tree Search for LLM Agent Reinforcement Learning

Sep 25

ByYuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu

Les récents progrès en apprentissage par renforcement (RL) ont considérablement amélioré les capacités agentiques des grands modèles de langage (LLMs). Dans les tâches agentiques à long terme et à tours multiples, les approches existantes, guidées uniquement par des récompenses de résultat, souffrent souvent du problème de supervision parcellaire. Pour relever ce défi, nous proposons l'Optimisation de Politique Relative Groupée basée sur les Arbres (Tree-GRPO), une méthode RL d'agents groupés fondée sur la recherche arborescente, où chaque nœud de l'arbre représente une étape complète d'interaction de l'agent. En partageant des préfixes communs, l'échantillonnage par recherche arborescente augmente le nombre de déploiements réalisables dans un budget fixe de tokens ou d'appels d'outils. De plus, nous constatons que la trajectoire structurée en arbre permet naturellement la construction de signaux de supervision étape par étape, même en utilisant uniquement la récompense de résultat. Sur cette base, Tree-GRPO estime les avantages relatifs groupés à la fois aux niveaux intra-arbre et inter-arbre. Grâce à une analyse théorique, nous démontrons que l'objectif de l'optimisation de politique relative groupée au niveau intra-arbre est équivalent à celui de l'apprentissage direct des préférences au niveau des étapes. Les expériences menées sur 11 jeux de données et 3 types de tâches de question-réponse démontrent la supériorité de la méthode RL basée sur les arbres par rapport à la méthode RL basée sur les chaînes.

Seedream 4.0 : Vers la nouvelle génération de génération d'images multimodales
Seedream 4.0: Toward Next-generation Multimodal Image Generation

Sep 24

ByTeam Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu

Nous présentons Seedream 4.0, un système efficace et performant de génération d'images multimodales qui unifie la synthèse texte-à-image (T2I), l'édition d'images et la composition multi-images au sein d'un même cadre. Nous avons développé un transformeur de diffusion hautement efficace, doté d'un VAE puissant, capable de réduire considérablement le nombre de tokens d'image. Cela permet un entraînement efficace de notre modèle et lui permet de générer rapidement des images haute résolution natives (par exemple, 1K-4K). Seedream 4.0 est pré-entraîné sur des milliards de paires texte-image couvrant des taxonomies variées et des concepts centrés sur la connaissance. Une collecte de données exhaustive à travers des centaines de scénarios verticaux, associée à des stratégies optimisées, assure un entraînement stable et à grande échelle, avec une forte généralisation. En intégrant un modèle VLM soigneusement affiné, nous effectuons un post-entraînement multimodal pour entraîner conjointement les tâches T2I et d'édition d'images. Pour l'accélération de l'inférence, nous intégrons la distillation adversarial, l'appariement de distributions, la quantification ainsi que le décodage spéculatif. Le système atteint un temps d'inférence allant jusqu'à 1,8 seconde pour générer une image 2K (sans LLM/VLM comme modèle PE). Des évaluations approfondies révèlent que Seedream 4.0 obtient des résultats de pointe à la fois en T2I et en édition d'images multimodales. En particulier, il démontre des capacités multimodales exceptionnelles dans des tâches complexes, incluant l'édition précise d'images et le raisonnement contextuel, et permet également la référence multi-images, ainsi que la génération de plusieurs images de sortie. Cela étend les systèmes T2I traditionnels en un outil créatif plus interactif et multidimensionnel, repoussant les limites de l'IA générative pour des applications tant créatives que professionnelles. Seedream 4.0 est désormais accessible sur https://www.volcengine.com/experience/ark?launch=seedream.

Hunyuan3D-Omni : Un cadre unifié pour la génération contrôlée d'actifs 3D
Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

Sep 25

ByTeam Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao

Les récentes avancées dans les modèles génératifs natifs 3D ont accéléré la création d'assets pour les jeux, les films et le design. Cependant, la plupart des méthodes reposent encore principalement sur un conditionnement par image ou texte et manquent de contrôles fins et intermodaux, ce qui limite la contrôlabilité et l'adoption pratique. Pour combler cette lacune, nous présentons Hunyuan3D-Omni, un cadre unifié pour la génération d'assets 3D fins et contrôlables, basé sur Hunyuan3D 2.1. En plus des images, Hunyuan3D-Omni accepte des nuages de points, des voxels, des boîtes englobantes et des poses squelettiques comme signaux de conditionnement, permettant un contrôle précis sur la géométrie, la topologie et la pose. Au lieu de têtes séparées pour chaque modalité, notre modèle unifie tous les signaux dans une architecture intermodale unique. Nous entraînons avec une stratégie d'échantillonnage progressive et consciente de la difficulté, qui sélectionne une modalité de contrôle par exemple et biaise l'échantillonnage vers les signaux plus difficiles (par exemple, la pose squelettique) tout en réduisant le poids des signaux plus faciles (par exemple, les nuages de points), encourageant ainsi une fusion multimodale robuste et une gestion élégante des entrées manquantes. Les expériences montrent que ces contrôles supplémentaires améliorent la précision de la génération, permettent des transformations conscientes de la géométrie et augmentent la robustesse pour les workflows de production.

AutoIntent : AutoML pour la classification de texte
AutoIntent: AutoML for Text Classification

Sep 25

ByIlya Alekseev, Roman Solomatin, Darina Rustamova, Denis Kuznetsov

AutoIntent est un outil d'apprentissage automatique automatisé pour les tâches de classification de texte. Contrairement aux solutions existantes, AutoIntent propose une automatisation de bout en bout, incluant la sélection de modèles d'embedding, l'optimisation des classificateurs et le réglage des seuils de décision, le tout au sein d'une interface modulaire similaire à sklearn. Le framework est conçu pour prendre en charge la classification multi-labels et la détection de hors-champ. AutoIntent démontre des performances supérieures par rapport aux outils AutoML existants sur des jeux de données standard de classification d'intentions et permet aux utilisateurs d'équilibrer efficacité et consommation de ressources.

TrustJudge : Incohérences du modèle de langage en tant que juge et comment les atténuer
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

Sep 25

ByYidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang

L'adoption des modèles de langage à grande échelle (LLM) en tant qu'évaluateurs automatisés (LLM-comme-juge) a révélé des incohérences critiques dans les cadres d'évaluation actuels. Nous identifions deux types fondamentaux d'incohérences : (1) l'incohérence de comparaison des scores, où des réponses moins bien notées surpassent celles ayant des scores plus élevés dans des comparaisons par paires, et (2) l'incohérence de transitivité par paires, manifestée par des chaînes de préférences circulaires (A>B>C>A) et des contradictions d'équivalence (A=B=C≠A). Nous soutenons que ces problèmes proviennent de la perte d'information dans les systèmes de notation discrets et des jugements ambigus d'égalité lors de l'évaluation par paires. Nous proposons TrustJudge, un cadre probabiliste qui aborde ces limitations grâce à deux innovations clés : 1) un système de notation sensible à la distribution qui calcule des attentes continues à partir des probabilités de notation discrètes, préservant l'entropie de l'information pour une notation plus précise, et 2) une agrégation prenant en compte la vraisemblance qui résout les violations de transitivité en utilisant des probabilités de préférence bidirectionnelles ou la perplexité. Nous formalisons également les limites théoriques des cadres LLM-comme-juge actuels et démontrons comment les composants de TrustJudge les surmontent. Lorsqu'il est évalué avec Llama-3.1-70B-Instruct comme juge en utilisant notre ensemble de données, TrustJudge réduit l'incohérence de comparaison des scores de 8,43 % (de 23,32 % à 14,89 %) et l'incohérence de transitivité par paires de 10,82 % (de 15,22 % à 4,40 %), tout en maintenant une précision d'évaluation plus élevée. Notre travail fournit la première analyse systématique des incohérences des cadres d'évaluation dans les paradigmes LLM-comme-juge, offrant à la fois des insights théoriques et des solutions pratiques pour une évaluation automatisée fiable. Le cadre démontre des améliorations constantes à travers diverses architectures et échelles de modèles, permettant une évaluation plus fiable des LLM sans nécessiter d'entraînement supplémentaire ou d'annotations humaines. Les codes sont disponibles à l'adresse https://github.com/TrustJudge/TrustJudge.

Pensée par Prétraitement Augmenté
Thinking Augmented Pre-training

Sep 24

ByLiang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei

Cet article présente une approche simple et évolutive pour améliorer l'efficacité des données dans l'entraînement des grands modèles de langage (LLM) en enrichissant les données textuelles existantes avec des trajectoires de pensée. Le calcul nécessaire pour le pré-entraînement des LLM croît à un rythme sans précédent, tandis que la disponibilité de données de haute qualité reste limitée. Par conséquent, maximiser l'utilité des données disponibles constitue un défi de recherche majeur. Un obstacle principal est que certains tokens de haute qualité sont difficiles à apprendre avec une capacité de modèle fixe, car la logique sous-jacente d'un seul token peut être exceptionnellement complexe et profonde. Pour résoudre ce problème, nous proposons le Pré-entraînement Augmenté par la Pensée (TPT), une méthodologie universelle qui enrichit le texte avec des trajectoires de pensée générées automatiquement. Cet enrichissement augmente efficacement le volume des données d'entraînement et rend les tokens de haute qualité plus faciles à apprendre grâce à un raisonnement et une décomposition étape par étape. Nous appliquons TPT à diverses configurations d'entraînement allant jusqu'à 100 milliards de tokens, couvrant le pré-entraînement avec des données limitées et abondantes, ainsi que l'entraînement intermédiaire à partir de points de contrôle open-source performants. Les résultats expérimentaux indiquent que notre méthode améliore considérablement les performances des LLM pour différentes tailles et familles de modèles. Notamment, TPT améliore l'efficacité des données dans le pré-entraînement des LLM d'un facteur 3. Pour un modèle de 3 milliards de paramètres, il améliore les performances post-entraînement de plus de 10 % sur plusieurs benchmarks de raisonnement difficiles.

CE-GPPO : Contrôle de l'entropie via l'optimisation de politique par écrêtage préservant le gradient en apprentissage par renforcement
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

Sep 25

ByZhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

L'apprentissage par renforcement (Reinforcement Learning, RL) est devenu un paradigme puissant pour optimiser les grands modèles de langage (Large Language Models, LLMs) afin de gérer des tâches de raisonnement complexes. Un défi central dans ce processus réside dans la gestion de l'entropie de la politique, qui reflète l'équilibre entre exploration et exploitation pendant l'entraînement. Les méthodes existantes, telles que l'optimisation proximale des politiques (Proximal Policy Optimization, PPO) et ses variantes, éliminent des signaux de gradient précieux provenant de tokens à faible probabilité en raison du mécanisme de clipping. Nous analysons systématiquement la dynamique de l'entropie et révélons que ces tokens coupés jouent un rôle critique mais négligé dans la régulation de l'évolution de l'entropie. Nous proposons Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO), un nouvel algorithme qui réintroduit les gradients des tokens coupés dans le PPO standard de manière douce et bornée. En contrôlant l'amplitude des gradients des tokens situés en dehors de l'intervalle de clipping, CE-GPPO parvient à atteindre un équilibre entre exploration et exploitation. Nous fournissons une justification théorique et des preuves empiriques montrant que CE-GPPO atténue efficacement l'instabilité de l'entropie. Des expériences approfondies sur des benchmarks de raisonnement mathématique montrent que CE-GPPO surpasse systématiquement des bases de référence solides à différentes échelles de modèles.

Apprentissage par Renforcement Hors-Politique Résiduel pour l’Affinage des Politiques de Clonage Comportemental
Residual Off-Policy RL for Finetuning Behavior Cloning Policies

Sep 23

ByLars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi

Les avancées récentes dans le domaine du clonage comportemental (BC) ont permis de développer des politiques de contrôle visuomoteur impressionnantes. Cependant, ces approches sont limitées par la qualité des démonstrations humaines, l'effort manuel requis pour la collecte de données et les rendements décroissants liés à l'augmentation des données hors ligne. En comparaison, l'apprentissage par renforcement (RL) entraîne un agent par interaction autonome avec l'environnement et a montré un succès remarquable dans divers domaines. Néanmoins, l'entraînement direct de politiques RL sur des robots réels reste difficile en raison de l'inefficacité des échantillons, des préoccupations de sécurité et de la difficulté d'apprentissage à partir de récompenses éparses pour des tâches à long terme, en particulier pour les systèmes à degrés de liberté (DoF) élevés. Nous présentons une méthode qui combine les avantages du BC et du RL à travers un cadre d'apprentissage résiduel. Notre approche exploite les politiques BC comme bases en boîte noire et apprend des corrections résiduelles légères par étape via un RL hors politique efficace en termes d'échantillons. Nous démontrons que notre méthode ne nécessite que des signaux de récompense binaires épars et peut améliorer efficacement les politiques de manipulation sur des systèmes à degrés de liberté élevés, à la fois en simulation et dans le monde réel. En particulier, nous démontrons, à notre connaissance, le premier entraînement RL réussi sur un robot humanoïde doté de mains dextres. Nos résultats montrent des performances de pointe dans diverses tâches basées sur la vision, ouvrant une voie pratique pour le déploiement du RL dans le monde réel. Site web du projet : https://residual-offpolicy-rl.github.io

CHARM : Modélisation autorégressive de coiffures anime 3D basée sur des points de contrôle
CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling

Sep 25

ByYuze He, Yanning Zhou, Wang Zhao, Jingwen Ye, Yushi Bai, Kaiwen Xiao, Yong-Jin Liu, Zhongqian Sun, Wei Yang

Nous présentons CHARM, une nouvelle représentation paramétrique et un cadre génératif pour la modélisation des coiffures anime. Alors que les méthodes traditionnelles de modélisation des cheveux se concentrent sur des cheveux réalistes en utilisant des représentations basées sur des mèches ou volumétriques, les coiffures anime présentent une géométrie hautement stylisée et structurée par morceaux qui défie les techniques existantes. Les travaux existants reposent souvent sur une modélisation dense de maillages ou des courbes splines artisanales, les rendant inefficaces pour l'édition et inadaptés à un apprentissage scalable. CHARM introduit une paramétrisation compacte et inversible basée sur des points de contrôle, où une séquence de points de contrôle représente chaque mèche de cheveux, et chaque point est encodé avec seulement cinq paramètres géométriques. Cette représentation efficace et précise supporte à la fois une conception conviviale pour les artistes et une génération basée sur l'apprentissage. Construit sur cette représentation, CHARM introduit un cadre génératif autorégressif qui génère efficacement des coiffures anime à partir d'images ou de nuages de points en entrée. En interprétant les coiffures anime comme un "langage des cheveux" séquentiel, notre transformeur autorégressif capture à la fois la géométrie locale et la topologie globale de la coiffure, aboutissant à une création de coiffures anime de haute fidélité. Pour faciliter à la fois l'entraînement et l'évaluation de la génération de coiffures anime, nous construisons AnimeHair, un jeu de données à grande échelle de 37K coiffures anime de haute qualité avec des mèches séparées et des données de maillage traitées. Des expériences approfondies démontrent les performances de pointe de CHARM en termes de précision de reconstruction et de qualité de génération, offrant une solution expressive et scalable pour la modélisation des coiffures anime. Page du projet : https://hyzcluster.github.io/charm/

Recon-Act : Un système multi-agent auto-évolutif d'utilisation de navigateur via la reconnaissance web, la génération d'outils et l'exécution de tâches
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

Sep 25

ByKaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu

Ces dernières années, les modèles multimodaux ont réalisé des progrès remarquables et ouvert la voie à des agents intelligents pour l'utilisation des navigateurs. Cependant, lorsqu'il s'agit de résoudre des tâches sur des pages web réelles dans des trajectoires multi-tours et à long terme, les agents actuels souffrent encore d'une séquence d'actions désordonnée et d'un excès d'essais et d'erreurs lors de l'exécution. Cet article présente Recon-Act, un cadre multi-agent auto-évolutif basé sur le paradigme comportemental Reconnaissance-Action. Le système comprend une Équipe de Reconnaissance et une Équipe d'Action : la première effectue une analyse comparative et génère des outils, tandis que la seconde gère la décomposition des intentions, l'orchestration des outils et l'exécution. En comparant les trajectoires erronées avec les trajectoires réussies, l'Équipe de Reconnaissance déduit des remèdes, les abstrait en une notion unifiée d'outils généralisés, exprimés soit sous forme d'indices, soit sous forme de codes basés sur des règles, et les enregistre en temps réel dans l'archive d'outils. L'Équipe d'Action réinfère le processus en s'appuyant sur ces outils ciblés, établissant ainsi une boucle de formation en circuit fermé de données-outils-action-feedback. Suivant la feuille de route en 6 niveaux proposée dans ce travail, nous avons actuellement atteint le Niveau 3 (avec une intervention humaine limitée dans la boucle). En exploitant les outils généralisés obtenus grâce à la reconnaissance, Recon-Act améliore considérablement l'adaptabilité aux sites web inconnus et la résolubilité des tâches à long terme, et obtient des performances de pointe sur le dataset difficile VisualWebArena.

FLUX sait-il déjà comment réaliser une composition d'image physiquement plausible ?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Sep 25

ByShilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong

La composition d'image vise à insérer de manière fluide un objet spécifié par l'utilisateur dans une nouvelle scène, mais les modèles existants peinent à gérer des éclairages complexes (par exemple, des ombres précises, des reflets sur l'eau) et des entrées diversifiées et haute résolution. Les modèles modernes de diffusion texte-image (par exemple, SD3.5, FLUX) encodent déjà des a priori physiques et de résolution essentiels, mais manquent d'un cadre pour les exploiter sans recourir à l'inversion latente, qui verrouille souvent les poses des objets dans des orientations contextuellement inappropriées, ou à une chirurgie d'attention fragile. Nous proposons SHINE, un cadre sans entraînement pour une Insertion Fluide et Haute Fidélité avec Erreurs Neutralisées. SHINE introduit une perte d'ancrage guidée par la variété, exploitant des adaptateurs de personnalisation pré-entraînés (par exemple, IP-Adapter) pour guider les latents afin de représenter fidèlement le sujet tout en préservant l'intégrité de l'arrière-plan. Une guidance de suppression de la dégradation et un mélange adaptatif de l'arrière-plan sont proposés pour éliminer davantage les sorties de faible qualité et les coutures visibles. Pour pallier le manque de benchmarks rigoureux, nous introduisons ComplexCompo, qui présente des résolutions variées et des conditions difficiles telles qu'un faible éclairage, une forte illumination, des ombres complexes et des surfaces réfléchissantes. Les expériences sur ComplexCompo et DreamEditBench montrent des performances de pointe sur des métriques standard (par exemple, DINOv2) et des scores alignés sur l'humain (par exemple, DreamSim, ImageReward, VisionReward). Le code et le benchmark seront rendus publics lors de la publication.

Comprendre le processus de pensée des modèles de raisonnement : une perspective issue de la théorie des épisodes de Schoenfeld
Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

Sep 18

ByMing Li, Nan Zhang, Chenrui Fan, Hong Jiao, Yanbin Fu, Sydney Peters, Qingshu Xu, Robert Lissitz, Tianyi Zhou

Alors que les modèles de raisonnement à grande échelle (LRM) génèrent des chaînes de pensée étendues, nous manquons d'un cadre méthodologique pour comprendre comment ces pensées sont structurées. Dans cet article, nous introduisons une approche novatrice en appliquant la théorie des épisodes de Schoenfeld, un cadre cognitif classique pour la résolution de problèmes mathématiques humains, afin d'analyser les traces de raisonnement des LRM. Nous avons annoté des milliers de phrases et de paragraphes issus de solutions générées par des modèles pour des problèmes mathématiques en utilisant sept étiquettes cognitives (par exemple, Planifier, Implémenter, Vérifier). Le résultat est le premier benchmark public pour l'analyse fine du raisonnement machine, comprenant un large corpus annoté et des guides d'annotation détaillés. Notre analyse préliminaire révèle des motifs distincts dans le raisonnement des LRM, tels que les dynamiques de transition entre états cognitifs. Ce cadre fournit une méthodologie théoriquement fondée pour interpréter la cognition des LRM et permet des travaux futurs sur des systèmes de raisonnement plus contrôlables et transparents.

SD3.5-Flash : Distillation guidée par la distribution pour les flux génératifs
SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

Sep 25

ByHmrishav Bandyopadhyay, Rahim Entezari, Jim Scott, Reshinth Adithyan, Yi-Zhe Song, Varun Jampani

Nous présentons SD3.5-Flash, un cadre de distillation efficace en quelques étapes qui apporte une génération d'images de haute qualité sur des appareils grand public accessibles. Notre approche distille des modèles de flux rectifiés, normalement prohibitifs en termes de calcul, grâce à un objectif de correspondance de distribution reformulé, spécialement conçu pour la génération en quelques étapes. Nous introduisons deux innovations clés : le "partage des pas de temps" pour réduire le bruit des gradients et le "réglage fin par pas de temps divisés" pour améliorer l'alignement avec les prompts. Combinées à des optimisations globales du pipeline, comme la restructuration de l'encodeur de texte et une quantification spécialisée, notre système permet à la fois une génération rapide et un déploiement économe en mémoire sur différentes configurations matérielles. Cela démocratise l'accès à travers toute la gamme d'appareils, des téléphones mobiles aux ordinateurs de bureau. Grâce à une évaluation approfondie, incluant des études utilisateurs à grande échelle, nous démontrons que SD3.5-Flash surpasse systématiquement les méthodes existantes en quelques étapes, rendant ainsi l'IA générative avancée véritablement accessible pour un déploiement pratique.

V-GameGym : Génération visuelle de jeux pour les grands modèles de langage de programmation
V-GameGym: Visual Game Generation for Code Large Language Models

Sep 24

ByWei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou

Les modèles de langage de grande taille spécialisés dans le code ont démontré des capacités remarquables dans les tâches de programmation, mais les benchmarks actuels se concentrent principalement sur une modalité unique plutôt que sur le développement de jeux visuels. La plupart des benchmarks existants liés au code évaluent la correction syntaxique et la précision d'exécution, négligeant des métriques critiques spécifiques aux jeux telles que la jouabilité, l'esthétique visuelle et l'engagement des utilisateurs, qui sont essentielles pour un déploiement en conditions réelles. Pour combler l'écart entre les capacités actuelles des LLM en résolution de problèmes algorithmiques et en programmation compétitive par rapport aux exigences complètes du développement pratique de jeux, nous présentons V-GameGym, un benchmark complet comprenant 2 219 échantillons de haute qualité répartis en 100 clusters thématiques issus de dépôts réels, adoptant une méthodologie de curation basée sur le clustering pour garantir à la fois la diversité et l'exhaustivité structurelle. De plus, nous introduisons un cadre d'évaluation multimodal avec un pipeline automatisé piloté par LLM pour la synthèse de code visuel utilisant des environnements sandbox UI complets. Notre analyse approfondie révèle que V-GameGym comble efficacement l'écart entre la précision de la génération de code et les workflows pratiques de développement de jeux, fournissant des métriques de qualité quantifiables pour la programmation visuelle et la génération d'éléments interactifs.

UserRL : Formation d'un agent interactif centré sur l'utilisateur via l'apprentissage par renforcement
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

Sep 24

ByCheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang

L'apprentissage par renforcement (RL) a démontré son potentiel pour entraîner des modèles agentiques qui dépassent les benchmarks statiques pour s'engager dans des interactions dynamiques et multi-tours. Cependant, la valeur ultime de tels agents réside dans leur capacité à assister les utilisateurs, un contexte où la diversité et la dynamique des interactions utilisateurs posent des défis. Dans ce travail, nous proposons UserRL, un cadre unifié pour l'entraînement et l'évaluation des capacités centrées sur l'utilisateur à travers des environnements gym standardisés couplés à des utilisateurs simulés. Nous faisons varier systématiquement l'attribution des récompenses au niveau des tours et le calcul des scores au niveau des trajectoires pour analyser comment différentes formulations affectent l'apprentissage sous l'algorithme GRPO. Nos expériences sur les modèles Qwen3 révèlent trois résultats clés : (i) le démarrage à froid par SFT est crucial pour débloquer la capacité initiale d'interaction et permettre des améliorations continues par RL ; (ii) un calcul délibéré des scores de trajectoire produit des interactions multi-tours plus efficaces et efficientes ; et (iii) bien que des utilisateurs simulés plus performants (par exemple, GPT-4o) facilitent l'entraînement, les simulateurs open-source (par exemple, Qwen3-32B) restent une option rentable et transférable. Ensemble, ces résultats soulignent qu'une conception minutieuse du façonnage des récompenses et du choix de la simulation utilisateur est aussi cruciale que l'échelle du modèle, et établissent UserRL comme une voie pratique pour développer des modèles agentiques robustes centrés sur l'utilisateur. Tous les codes et données sont publics pour de futures recherches.

Transformateur de Géométrie Visuelle Quantifiée Fondée
Quantized Visual Geometry Grounded Transformer

Sep 25

ByWeilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

Les modèles de reconstruction 3D basés sur l'apprentissage, représentés par les Transformers à Base Géométrique Visuelle (VGGTs), ont réalisé des progrès remarquables grâce à l'utilisation de transformers à grande échelle. Leurs coûts prohibitifs en termes de calcul et de mémoire entravent sérieusement leur déploiement dans des applications réelles. La Quantification Post-Entraînement (PTQ) est devenue une pratique courante pour compresser et accélérer les modèles. Cependant, nous observons empiriquement que la PTQ rencontre des obstacles uniques lors de la compression des VGGTs à l'échelle du milliard : les tokens spéciaux indépendants des données induisent des distributions d'activation à queue lourde, tandis que la nature multi-vues des données 3D rend la sélection des échantillons de calibration très instable. Cet article propose le premier cadre de Quantification pour les VGGTs, nommé QuantVGGT. Celui-ci repose principalement sur deux contributions techniques : Premièrement, nous introduisons la Quantification Fine à Double Lissage, qui intègre une rotation de Hadamard pré-globale et un lissage local post-canal pour atténuer robustement les distributions à queue lourde et la variance inter-canaux. Deuxièmement, nous concevons un Échantillonnage Diversifié Filtré par le Bruit, qui filtre les valeurs aberrantes via des statistiques de couches profondes et construit des clusters de calibration diversifiés conscients des cadres pour assurer des plages de quantification stables. Des expériences approfondies démontrent que QuantVGGT atteint des résultats de pointe sur différents benchmarks et largeurs de bits, surpassant largement la méthode de quantification générique précédemment considérée comme l'état de l'art. Nous soulignons que notre QuantVGGT en 4 bits peut offrir une réduction de mémoire de 3,7 fois et une accélération de 2,5 fois lors de l'inférence sur matériel réel, tout en maintenant une précision de reconstruction supérieure à 98 % de celle de sa version en pleine précision. Cela démontre les avantages considérables et la praticabilité de QuantVGGT dans des scénarios à ressources limitées. Notre code est disponible à l'adresse suivante : https://github.com/wlfeng0509/QuantVGGT.

ScaleDiff : Mise à l'échelle des problèmes complexes pour le raisonnement mathématique avancé
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

Sep 25

ByQizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu

Les modèles de raisonnement à grande échelle (LRMs) ont démontré des capacités impressionnantes dans la résolution de problèmes complexes, bénéficiant souvent d'un entraînement sur des problèmes mathématiques difficiles qui stimulent un raisonnement élaboré. Des efforts récents ont exploré la synthèse automatisée de problèmes mathématiques en sollicitant des modèles propriétaires ou des modèles open-source à grande échelle à partir de données de départ ou de concepts mathématiques intrinsèques. Cependant, la mise à l'échelle de ces méthodes reste difficile en raison de leur coût computationnel/API élevé, de la complexité de la sollicitation et du niveau de difficulté limité des problèmes générés. Pour surmonter ces limitations, nous proposons ScaleDiff, un pipeline simple mais efficace conçu pour intensifier la création de problèmes difficiles. Nous identifions efficacement les problèmes difficiles dans des ensembles de données existants avec un seul passage avant en utilisant un modèle de pensée adaptative, capable de percevoir la difficulté des problèmes et de basculer automatiquement entre les modes "Pensée" et "Non-Pensée". Nous entraînons ensuite un générateur de problèmes difficiles spécialisé (DiffGen-8B) sur ces données filtrées, qui peut produire de nouveaux problèmes difficiles à grande échelle, éliminant ainsi le besoin de sollicitations complexes par instance et les coûts API associés. Le fine-tuning de Qwen2.5-Math-7B-Instruct sur l'ensemble de données ScaleDiff-Math entraîne une augmentation substantielle des performances de 11,3 % par rapport à l'ensemble de données original et atteint une précision moyenne de 65,9 % sur AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 et MATH500, surpassant des LRMs récents et performants comme OpenThinker3. Notamment, cette performance est obtenue en utilisant le modèle Qwen3-8B, économique, comme enseignant, démontrant que notre pipeline peut transférer efficacement des capacités de raisonnement avancées sans recourir à des modèles enseignants plus grands et plus coûteux. De plus, nous observons un phénomène clair de mise à l'échelle dans les performances des modèles sur des benchmarks difficiles à mesure que la quantité de problèmes difficiles augmente. Code : https://github.com/QizhiPei/ScaleDiff.

SceneWeaver : Synthèse de scènes 3D tout-en-un avec un agent extensible et auto-réfléchissant
SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Sep 24

ByYandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang

La synthèse de scènes intérieures est devenue de plus en plus importante avec l'essor de l'IA incarnée, qui nécessite des environnements 3D non seulement visuellement réalistes, mais aussi physiquement plausibles et fonctionnellement diversifiés. Bien que les approches récentes aient amélioré la fidélité visuelle, elles restent souvent limitées à des catégories de scènes fixes, manquent de détails au niveau des objets et de cohérence physique, et peinent à s'aligner sur des instructions utilisateur complexes. Dans ce travail, nous présentons SceneWeaver, un cadre agentif réflexif qui unifie divers paradigmes de synthèse de scènes grâce à un raffinement itératif basé sur des outils. Au cœur de SceneWeaver se trouve un planificateur basé sur un modèle de langage qui sélectionne parmi une suite d'outils extensibles de génération de scènes, allant des modèles génératifs basés sur les données aux méthodes visuelles et basées sur les LLM, guidé par une auto-évaluation de la plausibilité physique, du réalisme visuel et de l'alignement sémantique avec l'entrée utilisateur. Cette conception en boucle fermée raisonner-agir-réfléchir permet à l'agent d'identifier les incohérences sémantiques, d'invoquer des outils ciblés et de mettre à jour l'environnement au fil des itérations successives. Des expériences approfondies sur des types de pièces courants et à vocabulaire ouvert démontrent que SceneWeaver surpasse non seulement les méthodes antérieures sur les métriques physiques, visuelles et sémantiques, mais généralise également efficacement à des scènes complexes avec des instructions variées, marquant ainsi une étape vers la génération d'environnements 3D à usage général. Site web du projet : https://scene-weaver.github.io/.

BESPOKE : Benchmark pour la personnalisation des grands modèles de langage assistés par recherche via un retour d'information diagnostique
BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

Sep 25

ByHyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee

Les grands modèles de langage (LLM) augmentés par la recherche ont fait progresser les tâches de recherche d'information en intégrant la récupération dans la génération, réduisant ainsi la charge cognitive des utilisateurs par rapport aux systèmes de recherche traditionnels. Cependant, ils restent insuffisants pour répondre pleinement aux besoins diversifiés des utilisateurs, ce qui nécessite de reconnaître comment une même requête peut refléter des intentions différentes selon les utilisateurs et de fournir l'information sous des formes privilégiées. Bien que des systèmes récents comme ChatGPT et Gemini tentent de personnaliser les réponses en exploitant les historiques des utilisateurs, l'évaluation systématique de cette personnalisation reste peu explorée. Pour combler cette lacune, nous proposons BESPOKE, un benchmark réaliste pour évaluer la personnalisation dans les LLM augmentés par la recherche. BESPOKE est conçu pour être à la fois réaliste, en collectant des historiques de chat et de recherche directement auprès d'humains, et diagnostique, en associant les réponses à des scores de préférence détaillés et à des retours d'expérience. Le benchmark est construit grâce à une annotation humaine approfondie et à long terme, où des annotateurs ont contribué leurs propres historiques, rédigé des requêtes avec des besoins d'information détaillés, et évalué les réponses avec des scores et des retours diagnostiques. En exploitant BESPOKE, nous menons des analyses systématiques qui révèlent les exigences clés pour une personnalisation efficace dans les tâches de recherche d'information, fournissant ainsi une base pour l'évaluation fine des LLM augmentés par la recherche et personnalisés. Notre code et nos données sont disponibles à l'adresse https://augustinlib.github.io/BESPOKE/.

Agent de Recommandation Interactive avec Commandes Utilisateur Actives
Interactive Recommendation Agent with Active User Commands

Sep 25

ByJiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng

Les systèmes de recommandation traditionnels s'appuient sur des mécanismes de feedback passifs qui limitent les utilisateurs à des choix simples tels que "j'aime" et "je n'aime pas". Cependant, ces signaux à granularité grossière ne parviennent pas à capturer les motivations et intentions nuancées des utilisateurs. Par conséquent, les systèmes actuels ne peuvent pas non plus distinguer quels attributs spécifiques des éléments influencent la satisfaction ou l'insatisfaction des utilisateurs, ce qui entraîne une modélisation imprécise des préférences. Ces limitations fondamentales créent un écart persistant entre les intentions des utilisateurs et les interprétations du système, compromettant finalement la satisfaction des utilisateurs et l'efficacité du système. Pour remédier à ces limitations, nous introduisons le Flux de Recommandation Interactive (IRF), un paradigme novateur qui permet l'utilisation de commandes en langage naturel au sein des flux de recommandation grand public. Contrairement aux systèmes traditionnels qui confinent les utilisateurs à une influence comportementale implicite passive, l'IRF offre un contrôle explicite actif sur les politiques de recommandation grâce à des commandes linguistiques en temps réel. Pour soutenir ce paradigme, nous développons RecBot, une architecture à double agent où un Agent Parseur transforme les expressions linguistiques en préférences structurées et un Agent Planificateur orchestre dynamiquement des chaînes d'outils adaptatives pour ajuster les politiques à la volée. Pour permettre un déploiement pratique, nous utilisons une distillation de connaissances augmentée par simulation afin d'atteindre des performances efficaces tout en maintenant de solides capacités de raisonnement. À travers des expériences approfondies hors ligne et en ligne à long terme, RecBot démontre des améliorations significatives à la fois en termes de satisfaction des utilisateurs et de résultats commerciaux.

Derrière RoPE : Comment le masque causal encode-t-il l'information positionnelle ?
Behind RoPE: How Does Causal Mask Encode Positional Information?

Sep 25

ByJunu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi

Bien que les encodages positionnels explicites tels que RoPE constituent une source principale d'information positionnelle dans les décodeurs de Transformers, le masque causal fournit également des informations positionnelles. Dans ce travail, nous démontrons que le masque causal peut induire des motifs dépendants de la position dans les scores d'attention, même sans paramètres ni dépendance causale dans l'entrée. Notre analyse théorique indique que le motif d'attention induit tend à favoriser les paires requête-clé proches, reflétant le comportement des encodages positionnels courants. Une analyse empirique confirme que les modèles entraînés présentent le même comportement, les paramètres appris amplifiant davantage ces motifs. Notamment, nous avons constaté que l'interaction entre le masque causal et RoPE déforme les motifs de scores d'attention relative de RoPE en motifs non relatifs. Nous avons observé cet effet de manière cohérente dans les grands modèles de langage modernes, suggérant l'importance de considérer le masque causal comme une source d'information positionnelle aux côtés des encodages positionnels explicites.

Quand le jugement devient bruit : comment les défauts de conception dans les benchmarks d'évaluation des LLM minent silencieusement la validité
When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

Sep 24

ByBenjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson

Les benchmarks évalués par des LLM (modèles de langage) sont de plus en plus utilisés pour évaluer les comportements complexes des modèles, mais leur conception introduit des modes de défaillance absents dans les benchmarks traditionnels basés sur des vérités de référence. Nous soutenons que sans objectifs précis et constructions vérifiables, les classements des benchmarks peuvent produire des résultats de haute confiance qui sont en réalité largement bruités. Nous introduisons deux mécanismes pour diagnostiquer ces problèmes. L'adhérence schématique quantifie la part du verdict global d'un évaluateur qui est expliquée par le schéma d'évaluation explicite, révélant une variance inexpliquée lorsque les évaluateurs s'écartent de leur propre grille. La validité psychométrique agrège des signaux de cohérence interne et de validité discriminante pour quantifier l'incertitude irréductible dans toute exécution de benchmark. En appliquant ces outils à Arena-Hard Auto, nous constatons une incohérence schématique sévère et un effondrement des facteurs parmi les évaluateurs populaires : par exemple, une variance inexpliquée dépassant 90 % pour DeepSeek-R1-32B et des corrélations de facteurs supérieures à 0,93 pour la plupart des critères. Nous montrons également que l'agrégation de style ELO utilisée par Arena-Hard Auto s'effondre et masque l'incertitude réelle des classements. Nos résultats mettent en lumière des défauts de conception qui compromettent la validité et proposent des principes actionnables pour construire des benchmarks évalués par des LLM mieux définis et conscients de la fiabilité. Nous publions notre code à l'adresse suivante : https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.

OverLayBench : Un Benchmark pour la Génération d'Images à partir de Mises en Page avec Chevauchements Denses
OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

Sep 23

ByBingnan Li, Chen-Yu Wang, Haiyang Xu, Xiang Zhang, Ethan Armand, Divyansh Srivastava, Xiaojun Shan, Zeyuan Chen, Jianwen Xie, Zhuowen Tu

Malgré des progrès constants dans la génération d'images à partir de mises en page, les méthodes actuelles rencontrent encore des difficultés avec les mises en page contenant des chevauchements significatifs entre les boîtes englobantes. Nous identifions deux défis principaux : (1) les grandes zones de chevauchement et (2) les instances se chevauchant avec une distinction sémantique minimale. À travers des exemples qualitatifs et une analyse quantitative, nous démontrons comment ces facteurs dégradent la qualité de la génération. Pour évaluer systématiquement ce problème, nous introduisons OverLayScore, une nouvelle métrique qui quantifie la complexité des boîtes englobantes qui se chevauchent. Notre analyse révèle que les benchmarks existants sont biaisés en faveur de cas plus simples avec des valeurs d'OverLayScore faibles, limitant leur efficacité pour évaluer les performances des modèles dans des conditions plus difficiles. Pour combler cette lacune, nous présentons OverLayBench, un nouveau benchmark comportant des annotations de haute qualité et une distribution équilibrée à travers différents niveaux d'OverLayScore. Comme première étape vers l'amélioration des performances sur les chevauchements complexes, nous proposons également CreatiLayout-AM, un modèle affiné sur un ensemble de données de masques amodaux soigneusement sélectionné. Ensemble, nos contributions posent les bases d'une génération d'images à partir de mises en page plus robuste dans des scénarios réalistes et difficiles. Lien du projet : https://mlpc-ucsd.github.io/OverLayBench.

MOSS-ChatV : Apprentissage par renforcement avec récompense de raisonnement processuel pour le raisonnement temporel vidéo
MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning

Sep 25

BySicheng Tao, Jungang Li, Yibo Yan, Junyan Zhang, Yubo Gao, Hanqian Li, ShuHang Xun, Yuxuan Fan, Hong Chen, Jianxiang He, Xuming Hu

Le raisonnement vidéo est devenu une capacité essentielle pour les modèles de langage multimodaux de grande taille (MLLMs), exigeant que ces modèles dépassent la perception statique pour atteindre une compréhension cohérente des dynamiques temporelles dans des scènes complexes. Cependant, les MLLMs existants présentent souvent une incohérence de processus, où le raisonnement intermédiaire s'écarte des dynamiques vidéo même lorsque la réponse finale est correcte, compromettant ainsi l'interprétabilité et la robustesse. Pour résoudre ce problème, nous introduisons MOSS-ChatV, un cadre d'apprentissage par renforcement avec une récompense de processus basée sur le Dynamic Time Warping (DTW). Cette récompense basée sur des règles aligne les traces de raisonnement avec des références temporellement ancrées, permettant une supervision efficace du processus sans modèles de récompense auxiliaires. Nous identifions également la prédiction d'état dynamique comme une mesure clé du raisonnement vidéo et construisons MOSS-Video, un benchmark avec des traces de raisonnement annotées, où la partie d'entraînement est utilisée pour affiner MOSS-ChatV et la partie réservée est utilisée pour l'évaluation. MOSS-ChatV atteint 87,2\% sur MOSS-Video (test) et améliore les performances sur des benchmarks vidéo généraux tels que MVBench et MMVU. Le cadre produit systématiquement des gains à travers différentes architectures, y compris Qwen2.5-VL et Phi-2, confirmant son applicabilité large. Les évaluations avec GPT-4o-comme-juge montrent en outre que MOSS-ChatV génère des traces de raisonnement plus cohérentes et stables.

CompLLM : Compression pour les questions-réponses en contexte long
CompLLM: Compression for Long Context Q&A

Sep 23

ByGabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah

Les modèles de langage de grande taille (LLMs) rencontrent des défis computationnels significatifs lors du traitement de contextes longs en raison de la complexité quadratique de l'auto-attention. Bien que les méthodes de compression douce du contexte, qui transforment le texte d'entrée en représentations latentes plus petites, aient montré des résultats prometteurs, leur adoption dans le monde réel reste limitée. Les techniques existantes compressent généralement le contexte en une seule unité, ce qui entraîne une complexité de compression quadratique et une incapacité à réutiliser les calculs pour des requêtes avec des contextes qui se chevauchent. Dans ce travail, nous présentons CompLLM, une technique de compression douce conçue pour un déploiement pratique. Au lieu de traiter le contexte de manière holistique, CompLLM le divise en segments et compresse chacun indépendamment. Ce choix de conception simple confère trois propriétés critiques : l'efficacité, car l'étape de compression évolue linéairement avec la longueur du contexte ; la scalabilité, permettant aux modèles entraînés sur des séquences courtes (par exemple, 1 000 tokens) de généraliser à des contextes de 100 000 tokens ; et la réutilisabilité, permettant aux segments compressés d'être mis en cache et réutilisés pour différentes requêtes. Nos expériences montrent qu'avec un taux de compression de 2x, pour des contextes longs, CompLLM accélère le temps jusqu'au premier token (TTFT) jusqu'à 4x et réduit la taille du cache KV de 50%. De plus, CompLLM atteint des performances comparables à celles obtenues avec le contexte non compressé, et les dépasse même pour des séquences très longues, démontrant ainsi son efficacité et son utilité pratique.

StyleBench : Évaluation des styles de pensée dans les modèles de langage de grande taille
StyleBench: Evaluating thinking styles in Large Language Models

Sep 25

ByJunyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

L'efficacité des modèles de langage à grande échelle (LLMs) est fortement influencée par les stratégies de raisonnement, ou styles de pensée, utilisés dans leurs prompts. Cependant, l'interaction entre ces styles de raisonnement, l'architecture des modèles et le type de tâche reste mal comprise. Pour remédier à cela, nous introduisons StyleBench, un benchmark complet pour évaluer systématiquement les styles de raisonnement à travers diverses tâches et modèles. Nous évaluons cinq styles de raisonnement représentatifs, incluant la Chaîne de Pensée (CoT), l'Arbre de Pensée (ToT), l'Algorithme de Pensée (AoT), l'Esquisse de Pensée (SoT) et la Chaîne de Brouillon (CoD) sur cinq tâches de raisonnement, en utilisant 15 modèles open-source issus des principales familles (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi et DeepSeek) allant de 270M à 120B paramètres. Notre analyse à grande échelle révèle qu'aucun style n'est universellement optimal. Nous démontrons que l'efficacité des stratégies dépend fortement à la fois de l'échelle du modèle et du type de tâche : les méthodes basées sur la recherche (AoT, ToT) excellent dans les problèmes ouverts mais nécessitent des modèles à grande échelle, tandis que les styles concis (SoT, CoD) obtiennent des gains d'efficacité radicaux sur des tâches bien définies. De plus, nous identifions des schémas comportementaux clés : les modèles plus petits échouent souvent à suivre les instructions de sortie et se rabattent sur des suppositions, tandis que la robustesse du raisonnement émerge en fonction de l'échelle. Nos résultats offrent une feuille de route cruciale pour sélectionner les stratégies de raisonnement optimales en fonction de contraintes spécifiques, et nous ouvrons le benchmark à l'adresse https://github.com/JamesJunyuGuo/Style_Bench.

Diffusion discrète pour les modèles vision-langage-action réflexifs dans la conduite autonome
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

Sep 24

ByPengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

Les solutions de bout en bout (End-to-End, E2E) sont devenues une approche dominante pour les systèmes de conduite autonome, avec les modèles Vision-Langage-Action (VLA) représentant un nouveau paradigme qui exploite les connaissances multimodales pré-entraînées des modèles Vision-Langage (VLM) pour interpréter et interagir avec des environnements réels complexes. Cependant, ces méthodes restent limitées par les contraintes de l'apprentissage par imitation, qui peine à encoder intrinsèquement les règles physiques pendant l'entraînement. Les approches existantes reposent souvent sur un post-affinement complexe basé sur des règles, utilisent un apprentissage par renforcement largement confiné à la simulation, ou emploient une guidance par diffusion nécessitant des calculs de gradient coûteux en termes de calcul. Pour relever ces défis, nous introduisons ReflectDrive, un nouveau cadre d'apprentissage intégrant un mécanisme de réflexion pour la génération de trajectoires sûres via une diffusion discrète. Nous commençons par discrétiser l'espace de conduite bidimensionnel pour construire un codebook d'actions, permettant l'utilisation de modèles de diffusion de langage pré-entraînés pour les tâches de planification grâce à un ajustement fin. Au cœur de notre approche se trouve un mécanisme de réflexion axé sur la sécurité, qui effectue une auto-correction itérative sans calcul de gradient. Notre méthode commence par la génération de trajectoires conditionnées par un objectif pour modéliser des comportements de conduite multimodaux. Sur cette base, nous appliquons des méthodes de recherche locale pour identifier les tokens non sécurisés et déterminer des solutions réalisables, qui servent ensuite d'ancres sûres pour une régénération basée sur l'inpainting. Évalué sur le benchmark NAVSIM, ReflectDrive démontre des avantages significatifs dans la génération de trajectoires critiques pour la sécurité, offrant une solution évolutive et fiable pour les systèmes de conduite autonome.

Penser en écoutant : mise à l'échelle simple au moment du test pour la classification audio
Thinking While Listening: Simple Test Time Scaling For Audio Classification

Sep 24

ByPrateek Verma, Mert Pilanci

Nous proposons un cadre permettant aux modèles neuronaux de "penser en écoutant" des sons quotidiens, améliorant ainsi les performances de classification audio. Motivés par les récents progrès dans les capacités de raisonnement des grands modèles de langage, nous abordons deux questions centrales : (i) comment intégrer la pensée dans les pipelines existants de classification audio pour permettre un raisonnement dans l'espace des catégories et améliorer les performances, et (ii) peut-on concevoir une nouvelle architecture dès la base pour supporter à la fois la pensée et la mise à l'échelle au moment du test ? Nous démontrons que dans les deux cas, nos modèles présentent une précision de classification améliorée. En exploitant la mise à l'échelle au moment du test, nous observons des gains constants à mesure que le nombre de traces échantillonnées augmente. De plus, nous évaluons deux modèles de raisonnement open-source, GPT-OSS-20B et Qwen3-14B, montrant que bien que ces modèles soient capables de raisonnement zero-shot, une approche légère—réentraînant uniquement la matrice d'embedding d'un modèle plus petit et figé comme GPT-2—peut surpasser les performances des modèles de raisonnement basés sur le texte avec des milliards de paramètres.

L'asymétrie imprévue entre l'optimisation perceptuelle et l'évaluation
The Unanticipated Asymmetry Between Perceptual Optimization and Assessment

Sep 25

ByJiabei Zhang, Qi Wang, Siyu Wu, Du Chen, Tianhe Wu

L'optimisation perceptuelle est principalement guidée par l'objectif de fidélité, qui impose à la fois la cohérence sémantique et le réalisme visuel global, tandis que l'objectif adversarial apporte un raffinement complémentaire en améliorant la netteté perceptuelle et les détails fins. Malgré leur rôle central, la corrélation entre leur efficacité en tant qu'objectifs d'optimisation et leur capacité en tant que métriques d'évaluation de la qualité d'image (IQA) reste peu explorée. Dans ce travail, nous menons une analyse systématique et révélons une asymétrie inattendue entre l'optimisation perceptuelle et l'évaluation : les métriques de fidélité qui excellent en IQA ne sont pas nécessairement efficaces pour l'optimisation perceptuelle, ce désalignement apparaissant plus distinctement dans le cadre de l'entraînement adversarial. De plus, bien que les discriminateurs suppriment efficacement les artefacts pendant l'optimisation, leurs représentations apprises n'offrent que des avantages limités lorsqu'elles sont réutilisées comme initialisations de base pour les modèles IQA. Au-delà de cette asymétrie, nos résultats démontrent également que la conception du discriminateur joue un rôle décisif dans la formation de l'optimisation, les architectures par patchs et convolutives permettant une reconstruction des détails plus fidèle que les alternatives classiques ou basées sur les Transformers. Ces avancées approfondissent la compréhension de la conception des fonctions de perte et de leur lien avec la transférabilité en IQA, ouvrant la voie à des approches plus rigoureuses de l'optimisation perceptuelle.

MI-Fuse : Fusion d'étiquettes pour l'adaptation de domaine non supervisée avec un modèle de langage audio de grande envergure à source fermée
MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

Sep 25

ByHsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee

Les grands modèles audio-langage (LALMs) démontrent une forte capacité de généralisation en zero-shot pour les tâches de traitement de la parole, suggérant un potentiel prometteur pour la reconnaissance des émotions dans la parole (SER). Cependant, la SER dans des déploiements réels échoue souvent en cas de décalage de domaine, où les données sources sont indisponibles et où les puissants LALMs ne sont accessibles que via une API. Nous posons la question suivante : étant donné uniquement des audios non étiquetés du domaine cible et un LALM accessible uniquement par API, un modèle étudiant peut-il être adapté pour surpasser le LALM dans le domaine cible ? À cette fin, nous proposons MI-Fuse, un cadre de fusion d'étiquettes débruité qui complète le LALM avec un classificateur SER entraîné sur le domaine source en tant qu'enseignant auxiliaire. Le cadre tire plusieurs prédictions stochastiques des deux enseignants, pondère leurs distributions moyennes par une incertitude basée sur l'information mutuelle, et stabilise l'entraînement avec un enseignant à moyenne mobile exponentielle. Les expériences menées sur trois ensembles de données publics d'émotions et six transferts inter-domaines montrent des gains constants, avec le modèle étudiant surpassant le LALM et dépassant le meilleur modèle de référence de 3,9 %. Cette approche renforce les systèmes de parole sensibles aux émotions sans partager les données sources, permettant une adaptation réaliste.

Plans de Confiance : Cartes Systèmes IA pour une Transparence et une Gouvernance de Bout en Bout
Blueprints of Trust: AI System Cards for End to End Transparency and Governance

Sep 23

ByHuzaifa Sidhpurwala, Emily Fox, Garth Mollett, Florencio Cano Gabarda, Roman Zhukov

Cet article présente le Hazard-Aware System Card (HASC), un cadre novateur conçu pour améliorer la transparence et la responsabilité dans le développement et le déploiement des systèmes d'intelligence artificielle (IA). Le HASC s'appuie sur les concepts existants de fiches de modèle et de fiches de système en intégrant un enregistrement complet et dynamique de la posture de sécurité et de sûreté d'un système d'IA. Le cadre propose un système standardisé d'identifiants, incluant un nouvel identifiant de danger pour la sécurité de l'IA (ASH ID), pour compléter les identifiants de sécurité existants tels que les CVE, permettant une communication claire et cohérente des failles corrigées. En fournissant une source unique et accessible de vérité, le HASC permet aux développeurs et aux parties prenantes de prendre des décisions plus éclairées concernant la sécurité des systèmes d'IA tout au long de leur cycle de vie. Enfin, nous comparons également nos fiches de système d'IA proposées avec la norme ISO/IEC 42001:2023 et discutons de la manière dont elles peuvent se compléter mutuellement, offrant ainsi une plus grande transparence et responsabilité pour les systèmes d'IA.

Évaluation des modèles de langage de grande taille pour la détection de l'antisémitisme
Evaluating Large Language Models for Detecting Antisemitism

Sep 22

ByJay Patel, Hrudayangam Mehta, Jeremy Blackburn

La détection de contenus haineux constitue un problème complexe et crucial. Les outils automatisés, tels que les modèles d'apprentissage automatique, peuvent y contribuer, mais ils nécessitent un entraînement continu pour s'adapter à l'évolution constante des paysages des réseaux sociaux. Dans ce travail, nous évaluons la capacité de huit modèles de langage open source (LLMs) à détecter les contenus antisémites, en exploitant spécifiquement une définition contextuelle comme ligne directrice politique. Nous explorons diverses techniques d'incitation (prompting) et concevons une nouvelle incitation de type chaîne de pensée (CoT), appelée Guided-CoT. Guided-CoT gère efficacement la politique contextuelle, améliorant les performances de tous les modèles évalués, indépendamment de la configuration de décodage, de la taille des modèles ou de leur capacité de raisonnement. Notamment, Llama 3.1 70B surpasse GPT-3.5 affiné. Par ailleurs, nous examinons les erreurs des LLMs et introduisons des métriques pour quantifier la divergence sémantique dans les justifications générées par les modèles, révélant des différences notables et des comportements paradoxaux parmi les LLMs. Nos expériences mettent en lumière les variations observées en termes d'utilité, d'explicabilité et de fiabilité des LLMs.