HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

36 papers found

Le raisonnement en chaîne de pensée des LLM est-il un mirage ? Une perspective par la distribution des données
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Aug 2

ByChengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

236

L'incitation par Chaîne de Pensée (Chain-of-Thought, CoT) a démontré son efficacité pour améliorer les performances des Modèles de Langage à Grande Échelle (Large Language Models, LLM) sur diverses tâches. Avec cette approche, les LLM semblent produire des étapes de raisonnement similaires à celles des humains avant de fournir des réponses (appelé raisonnement CoT), ce qui conduit souvent à l'impression qu'ils s'engagent dans des processus inférentiels délibérés. Cependant, certaines découvertes initiales suggèrent que le raisonnement CoT pourrait être plus superficiel qu'il n'y paraît, ce qui nous motive à explorer davantage. Dans cet article, nous étudions le raisonnement CoT à travers une perspective de distribution de données et examinons si ce raisonnement reflète un biais inductif structuré appris à partir de données intra-distribution, permettant au modèle de générer conditionnellement des chemins de raisonnement qui s'approchent de ceux observés pendant l'entraînement. Ainsi, son efficacité est fondamentalement limitée par le degré de divergence de distribution entre les données d'entraînement et les requêtes de test. Avec cette perspective, nous disséquons le raisonnement CoT selon trois dimensions : la tâche, la longueur et le format. Pour explorer chaque dimension, nous concevons DataAlchemy, un environnement isolé et contrôlé pour entraîner des LLM à partir de zéro et les tester systématiquement sous diverses conditions de distribution. Nos résultats révèlent que le raisonnement CoT est un mirage fragile qui disparaît lorsqu'il est poussé au-delà des distributions d'entraînement. Ce travail offre une compréhension plus approfondie des raisons et des moments où le raisonnement CoT échoue, soulignant le défi permanent d'atteindre un raisonnement authentique et généralisable.

VeriGUI : Ensemble de données vérifiable pour les interfaces graphiques à longue chaîne
VeriGUI: Verifiable Long-Chain GUI Dataset

Aug 6

ByShunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao

157

Des études récentes se sont penchées sur la construction d'agents autonomes capables d'exécuter des tâches informatiques complexes basées sur des interfaces graphiques (GUI), avec le potentiel de révolutionner l'interaction homme-machine. Malgré des résultats encourageants, les efforts existants se concentrent principalement sur des interactions à court terme et reposent sur une vérification basée uniquement sur les résultats, limitant ainsi leur évolutivité dans des applications GUI réelles qui nécessitent une décomposition et une exécution de tâches à long terme. Dans ce travail, nous présentons VeriGUI, un nouveau jeu de données GUI vérifiable à chaîne longue, conçu pour faciliter le développement et l'évaluation d'agents GUI généralistes opérant dans des environnements informatiques réalistes. Notre jeu de données met l'accent sur deux dimensions critiques : (1) la complexité à chaîne longue, avec des tâches décomposées en une séquence de sous-tâches interdépendantes couvrant des centaines d'étapes, explicitement conçues pour permettre à toute sous-tâche de servir de point de départ valide ; et (2) la vérifiabilité au niveau des sous-tâches, qui permet des stratégies d'exploration diversifiées au sein de chaque sous-tâche, tout en garantissant que chaque objectif au niveau des sous-tâches reste vérifiable et cohérent. Le jeu de données comprend des trajectoires de tâches GUI sur des environnements de bureau et web, annotées par des experts humains. Des expériences approfondies sur VeriGUI utilisant divers agents avec différents modèles de base révèlent des écarts de performance significatifs dans la gestion des tâches à long terme, soulignant la nécessité de capacités de planification et de prise de décision plus robustes pour les agents GUI.

Agents efficaces : Développer des agents performants tout en réduisant les coûts
Efficient Agents: Building Effective Agents While Reducing Cost

Jul 24

ByNingning Wang, Xavier Hu, Pai Liu, He Zhu, Yue Hou, Heyuan Huang, Shengyu Zhang, Jian Yang, Jiaheng Liu, Ge Zhang, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou

Les capacités remarquables des agents pilotés par des modèles de langage de grande taille (LLM) ont permis à des systèmes sophistiqués de s'attaquer à des tâches complexes et multi-étapes, mais leurs coûts croissants menacent leur évolutivité et leur accessibilité. Ce travail présente la première étude systématique du compromis entre efficacité et performance dans les systèmes d'agents modernes, répondant au besoin critique de conceptions rentables sans sacrifier les performances. Nous explorons trois questions clés : (1) Quelle complexité les tâches agentiques nécessitent-elles intrinsèquement ? (2) Quand des modules supplémentaires entraînent-ils des rendements décroissants ? (3) Quelle efficacité peut-on gagner grâce à la conception de cadres d'agents optimisés ? À travers une analyse empirique sur le benchmark GAIA, nous évaluons l'impact du choix du modèle LLM de base, des conceptions de cadres d'agents et des stratégies de mise à l'échelle en temps de test. En utilisant la métrique du coût par passage, nous quantifions le compromis efficacité-performance sur ces dimensions. Nos résultats éclairent le développement d'Efficient Agents, un nouveau cadre d'agents doté d'une complexité optimale par rapport aux exigences des tâches. Efficient Agents conserve 96,7 % des performances d'OWL, l'un des principaux cadres d'agents open-source, tout en réduisant les coûts opérationnels de 0,398 à 0,228, ce qui représente une amélioration de 28,4 % du coût par passage. Notre travail fournit des insights actionnables pour concevoir des systèmes d'agents efficaces et performants, faisant progresser l'accessibilité et la durabilité des solutions pilotées par l'IA.

Agent Lightning : Entraînez TOUS les agents IA avec l'apprentissage par renforcement
Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Aug 5

ByXufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang

Nous présentons Agent Lightning, un cadre flexible et extensible qui permet l'entraînement par apprentissage par renforcement (Reinforcement Learning, RL) de modèles de langage de grande taille (Large Language Models, LLMs) pour tout agent d'IA. Contrairement aux méthodes existantes qui couplent étroitement l'entraînement RL avec l'agent ou reposent sur la concaténation de séquences avec masquage, Agent Lightning réalise une découplage complet entre l'exécution et l'entraînement de l'agent, permettant une intégration transparente avec des agents existants développés de diverses manières (par exemple, en utilisant des cadres comme LangChain, OpenAI Agents SDK, AutoGen, ou en partant de zéro) avec quasiment AUCUNE modification de code. En formulant l'exécution de l'agent comme un processus de décision markovien, nous définissons une interface de données unifiée et proposons un algorithme RL hiérarchique, LightningRL, qui inclut un module d'attribution de crédit, nous permettant de décomposer les trajectoires générées par TOUS les agents en transitions d'entraînement. Cela permet au RL de gérer une logique d'interaction complexe, comme les scénarios multi-agents et les workflows dynamiques. Pour la conception du système, nous introduisons une architecture de Disaggregation Entraînement-Agent, et intégrons des cadres d'observabilité des agents dans le runtime de l'agent, fournissant une interface standardisée pour le fine-tuning des agents. Les expériences menées sur des tâches de text-to-SQL, de génération augmentée par récupération, et d'utilisation d'outils mathématiques démontrent des améliorations stables et continues, mettant en évidence le potentiel du cadre pour l'entraînement et le déploiement d'agents dans des scénarios réels.

Entraînement d'Agents de Génie Logiciel à Contexte Long et Tours Multiples avec l'Apprentissage par Renforcement
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

Aug 5

ByAlexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

Les recherches sur les applications de l'apprentissage par renforcement (Reinforcement Learning, RL) aux modèles de langage à grande échelle (Large Language Models, LLMs) se sont principalement concentrées sur des problèmes à tour unique, tels que le raisonnement mathématique ou la génération de code en une seule étape. Bien que ces problèmes puissent être considérés comme des MDP (Processus de Décision Markovien) multi-tours au niveau des tokens, cette perspective correspond à un cas dégénéré d'interaction multi-tours où l'environnement ne fournit aucun retour. Cela contraste avec de nombreux domaines du monde réel, tels que l'ingénierie logicielle (Software Engineering, SWE), qui nécessitent des interactions multi-tours riches avec un environnement étatique qui répond à chaque action par une observation non triviale. Pour combler cette lacune, nous démontrons l'application réussie du RL à ce régime général. En utilisant une version modifiée de l'algorithme Decoupled Advantage Policy Optimization (DAPO), nous entraînons un agent basé sur Qwen2.5-72B-Instruct pour résoudre des tâches d'ingénierie logicielle du monde réel. Notre approche augmente le taux de réussite de l'agent sur le benchmark SWE-bench Verified d'une base de référence ajustée par rejet de 20 % à 39 %, sans recourir à aucun modèle enseignant. Sur SWE-rebench, notre agent égalise ou surpasse les modèles open-weight leaders tels que DeepSeek-V3-0324 et Qwen3-235B-A22B en utilisant un échafaudage identique, offrant ainsi une voie viable pour construire des agents autonomes plus performants pour des problèmes complexes du monde réel basés sur des modèles ouverts.

SEAgent : Agent d'utilisation informatique auto-évolutif avec apprentissage autonome à partir de l'expérience
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Aug 6

ByZeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

Le réemploi des grands modèles vision-langage (LVLMs) en tant qu'agents d'utilisation informatique (CUAs) a conduit à des avancées majeures, principalement alimentées par des données annotées manuellement. Cependant, ces modèles rencontrent souvent des difficultés avec des logiciels nouveaux et spécialisés, en particulier dans des scénarios dépourvus d'annotations humaines. Pour relever ce défi, nous proposons SEAgent, un cadre agentique auto-évolutif permettant aux CUAs d'évoluer de manière autonome grâce à des interactions avec des logiciels inconnus. Plus précisément, SEAgent habilite les agents d'utilisation informatique à maîtriser de manière autonome de nouveaux environnements logiciels via l'apprentissage expérientiel, où les agents explorent de nouveaux logiciels, apprennent par essais et erreurs itératifs, et abordent progressivement des tâches auto-générées organisées du simple au complexe. Pour atteindre cet objectif, nous concevons un modèle d'état du monde pour l'évaluation pas à pas des trajectoires, ainsi qu'un générateur de curriculum qui produit des tâches de plus en plus diversifiées et complexes. La politique de l'agent est mise à jour par l'apprentissage expérientiel, comprenant l'imitation adverse des actions d'échec et l'optimisation relative de politique de groupe (GRPO) sur les actions réussies. De plus, nous introduisons une stratégie de formation spécialiste-généraliste qui intègre les insights expérientiels individuels des agents spécialistes, facilitant le développement d'un CUA généraliste plus robuste capable d'une évolution autonome continue. Cet agent unifié finit par surpasser les performances d'ensembles d'agents spécialistes individuels sur leurs logiciels spécialisés. Nous validons l'efficacité de SEAgent dans cinq environnements logiciels nouveaux au sein d'OS-World. Notre approche réalise une amélioration significative de 23,2 % du taux de réussite, passant de 11,3 % à 34,5 %, par rapport à un CUA open-source concurrent, à savoir UI-TARS.

Amélioration de l'entraînement des modèles vision-langage grâce à l'apprentissage par renforcement dans des mondes synthétiques pour des succès en contexte réel
Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

Aug 6

ByGeorge Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov

Les agents interactifs multimodaux doivent convertir des observations visuelles brutes en séquences cohérentes d'actions conditionnées par le langage — une capacité que les modèles vision-langage (VLMs) actuels ne possèdent pas encore. Les efforts antérieurs en apprentissage par renforcement (RL) pourraient, en principe, doter les VLMs de telles compétences, mais ils ont rarement testé si les comportements appris se généralisent au-delà de leurs simulateurs d'entraînement, et ils dépendent soit d'un réglage hyperparamétrique fragile, soit d'environnements à récompense dense avec une faible variabilité d'état. Nous introduisons Vision-Language Decoupled Actor-Critic (VL-DAC), un algorithme RL léger et sans hyperparamètres. VL-DAC applique des mises à jour PPO aux tokens d'action tout en apprenant la valeur uniquement au niveau de l'étape environnementale : une configuration, à notre connaissance, non explorée auparavant pour les grands VLMs ou LLMs. Ce découplage simple supprime les termes de pondération instables et permet une convergence plus rapide et plus fiable. L'entraînement d'un seul VLM avec VL-DAC dans un simulateur peu coûteux à la fois (MiniWorld, Gym-Cards, ALFWorld ou WebShop) produit déjà des politiques qui se généralisent largement : +50 % relatif sur BALROG (contrôle agentique centré sur le jeu), +5 % relatif sur la partie la plus difficile de VSI-Bench (planification spatiale), et +2 % sur VisualWebBench (navigation web), le tout sans dégrader la précision générale de la compréhension d'images. Ces résultats fournissent la première preuve qu'un algorithme RL simple peut entraîner des VLMs entièrement dans des mondes synthétiques bon marché tout en offrant des gains mesurables sur des benchmarks réels de contrôle agentique, de raisonnement spatial et de navigation web.

LaTCoder : Conversion de la conception de pages web en code avec Layout-as-Thought
LaTCoder: Converting Webpage Design to Code with Layout-as-Thought

Aug 5

ByYi Gui, Zhen Li, Zhongyi Zhang, Guohao Wang, Tianpeng Lv, Gaoyang Jiang, Yi Liu, Dongping Chen, Yao Wan, Hongyu Zhang, Wenbin Jiang, Xuanhua Shi, Hai Jin

La conversion de conceptions de pages web en code (design-to-code) joue un rôle essentiel dans le développement d'interfaces utilisateur (UI) pour les développeurs front-end, en comblant le fossé entre la conception visuelle et l'implémentation fonctionnelle. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) récents aient montré un potentiel significatif dans les tâches de design-to-code, ils échouent souvent à préserver avec précision la mise en page lors de la génération de code. À cette fin, nous nous inspirons du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) dans la cognition humaine et proposons LaTCoder, une approche novatrice qui améliore la préservation de la mise en page dans la conception de pages web lors de la génération de code grâce à la mise en page comme pensée (Layout-as-Thought, LaT). Plus précisément, nous introduisons d'abord un algorithme simple mais efficace pour diviser la conception de la page web en blocs d'images. Ensuite, nous incitons les MLLMs à l'aide d'une approche basée sur le CoT pour générer du code pour chaque bloc. Enfin, nous appliquons deux stratégies d'assemblage—le positionnement absolu et une méthode basée sur les MLLMs—suivies d'une sélection dynamique pour déterminer la sortie optimale. Nous évaluons l'efficacité de LaTCoder en utilisant plusieurs MLLMs de base (c'est-à-dire DeepSeek-VL2, Gemini et GPT-4o) sur un benchmark public et sur un nouveau benchmark plus exigeant (CC-HARD) qui présente des mises en page complexes. Les résultats expérimentaux sur les métriques automatiques montrent des améliorations significatives. Plus précisément, les scores TreeBLEU ont augmenté de 66,67 % et l'erreur absolue moyenne (MAE) a diminué de 38 % lors de l'utilisation de DeepSeek-VL2, par rapport à l'incitation directe. De plus, les résultats de l'évaluation des préférences humaines indiquent que les annotateurs préfèrent les pages web générées par LaTCoder dans plus de 60 % des cas, fournissant une preuve solide de l'efficacité de notre méthode.

Sotopia-RL : Conception de récompenses pour l'intelligence sociale
Sotopia-RL: Reward Design for Social Intelligence

Aug 5

ByHaofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao Zhu, Paul Pu Liang, Jiaxuan You

L'intelligence sociale est devenue une capacité cruciale pour les grands modèles de langage (LLMs), leur permettant de s'engager efficacement dans des tâches sociales du monde réel telles que l'adaptation, la persuasion, la collaboration et la négociation. L'apprentissage par renforcement (RL) est naturellement adapté pour entraîner des agents socialement intelligents, car il permet aux modèles d'apprendre des stratégies sophistiquées directement à travers des interactions sociales. Cependant, les interactions sociales présentent deux caractéristiques clés qui posent des obstacles à l'entraînement par RL : (1) l'observabilité partielle, où les énoncés ont des effets indirects et retardés qui compliquent l'attribution des crédits, et (2) la multi-dimensionnalité, où des comportements tels que l'établissement de relations ou la recherche de connaissances contribuent indirectement à la réalisation des objectifs. Ces caractéristiques rendent inefficace et instable le RL basé sur les processus de décision markoviens (MDP) avec des récompenses unidimensionnelles au niveau de l'épisode. Pour relever ces défis, nous proposons Sotopia-RL, un cadre novateur qui affine les retours bruts au niveau de l'épisode en récompenses multi-dimensionnelles au niveau des énoncés. L'attribution des crédits au niveau des énoncés atténue l'observabilité partielle en attribuant les résultats à des énoncés individuels, tandis que les récompenses multi-dimensionnelles capturent toute la richesse des interactions sociales et réduisent le détournement de récompenses. Les expériences dans Sotopia, un environnement d'apprentissage social ouvert, démontrent que Sotopia-RL atteint des scores de réalisation d'objectifs sociaux de pointe (7,17 sur Sotopia-hard et 8,31 sur Sotopia-full), surpassant significativement les approches existantes. Les études d'ablation confirment la nécessité à la fois de l'attribution des crédits au niveau des énoncés et de la conception de récompenses multi-dimensionnelles pour l'entraînement par RL. Notre implémentation est disponible publiquement à l'adresse : https://github.com/sotopia-lab/sotopia-rl.

CoTox : Raisonnement et prédiction de la toxicité moléculaire basés sur la chaîne de pensée
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

Aug 5

ByJueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang

La toxicité des médicaments reste un défi majeur dans le développement pharmaceutique. Les récents modèles d'apprentissage automatique ont amélioré la prédiction in silico de la toxicité, mais leur dépendance aux données annotées et leur manque d'interprétabilité limitent leur applicabilité. Cela restreint leur capacité à capturer les toxicités spécifiques aux organes, influencées par des mécanismes biologiques complexes. Les grands modèles de langage (LLMs) offrent une alternative prometteuse grâce à un raisonnement étape par étape et à l'intégration de données textuelles, mais les approches précédentes manquent de contexte biologique et de justification transparente. Pour résoudre ce problème, nous proposons CoTox, un cadre novateur qui intègre un LLM avec un raisonnement en chaîne de pensée (CoT) pour la prédiction multi-toxicité. CoTox combine des données de structure chimique, des voies biologiques et des termes d'ontologie génique (GO) pour générer des prédictions de toxicité interprétables via un raisonnement étape par étape. En utilisant GPT-4o, nous montrons que CoTox surpasse à la fois les modèles d'apprentissage automatique traditionnels et les modèles d'apprentissage profond. Nous examinons également ses performances sur divers LLMs pour identifier où CoTox est le plus efficace. De plus, nous constatons que la représentation des structures chimiques avec des noms IUPAC, plus faciles à comprendre pour les LLMs que les SMILES, améliore la capacité de raisonnement du modèle et ses performances prédictives. Pour démontrer son utilité pratique dans le développement de médicaments, nous simulons le traitement de types cellulaires pertinents avec un médicament et intégrons le contexte biologique résultant dans le cadre CoTox. Cette approche permet à CoTox de générer des prédictions de toxicité alignées avec les réponses physiologiques, comme le montre une étude de cas. Ce résultat met en évidence le potentiel des cadres basés sur les LLMs pour améliorer l'interprétabilité et soutenir l'évaluation précoce de la sécurité des médicaments. Le code et les prompts utilisés dans ce travail sont disponibles à l'adresse https://github.com/dmis-lab/CoTox.

Web-CogReasoner : Vers un raisonnement cognitif induit par la connaissance pour les agents Web
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

Aug 3

ByYuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai

Les modèles multimodaux à grande échelle ont considérablement fait progresser le développement des agents web, permettant une perception et une interaction avec les environnements numériques similaires à la cognition humaine. Dans cet article, nous soutenons que les agents web doivent d'abord acquérir des connaissances suffisantes pour s'engager efficacement dans un raisonnement cognitif. Par conséquent, nous décomposons les capacités d'un agent web en deux étapes essentielles : l'apprentissage du contenu des connaissances et les processus cognitifs. Pour formaliser cela, nous proposons le cadre Web-CogKnowledge, qui catégorise les connaissances en Factuelles, Conceptuelles et Procédurales. Dans ce cadre, l'apprentissage du contenu des connaissances correspond aux processus de Mémorisation et de Compréhension de l'agent, qui reposent sur les deux premiers types de connaissances, représentant le "quoi" de l'apprentissage. À l'inverse, les processus cognitifs correspondent à l'Exploration, basée sur les connaissances Procédurales, définissant le "comment" du raisonnement et de l'action. Pour faciliter l'acquisition des connaissances, nous construisons le Web-CogDataset, une ressource structurée issue de 14 sites web réels, conçue pour inculquer systématiquement les connaissances fondamentales nécessaires à un agent web. Ce jeu de données sert de base conceptuelle à l'agent — les "noms" sur lesquels la compréhension est construite — ainsi que de fondement pour apprendre à raisonner et à agir. Sur cette base, nous opérationnalisons ces processus à travers un nouveau cadre de raisonnement en chaîne de pensée (Chain-of-Thought, CoT) piloté par les connaissances, développant et entraînant notre agent proposé, le Web-CogReasoner. Des expérimentations approfondies révèlent sa supériorité significative par rapport aux modèles existants, en particulier dans la généralisation à des tâches inédites où les connaissances structurées sont déterminantes. Pour permettre une évaluation rigoureuse, nous introduisons le Web-CogBench, une suite d'évaluation complète conçue pour mesurer et comparer les performances des agents à travers les domaines de connaissances et les capacités cognitives définis. Notre code et nos données sont open source à l'adresse https://github.com/Gnonymous/Web-CogReasoner.

HPSv3 : Vers une mesure large spectre des préférences humaines
HPSv3: Towards Wide-Spectrum Human Preference Score

Aug 5

ByYuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li

L'évaluation des modèles de génération texte-image nécessite un alignement avec la perception humaine, mais les métriques centrées sur l'homme existantes sont limitées par une couverture de données restreinte, une extraction de caractéristiques sous-optimale et des fonctions de perte inefficaces. Pour relever ces défis, nous introduisons le Human Preference Score v3 (HPSv3). (1) Nous publions HPDv3, le premier ensemble de données à large spectre sur les préférences humaines, intégrant 1,08 million de paires texte-image et 1,17 million de comparaisons par paires annotées, provenant de modèles génératifs de pointe et d'images réelles de qualité variée. (2) Nous présentons un modèle de préférence basé sur un VLM (Vision-Language Model), entraîné à l'aide d'une fonction de perte de classement prenant en compte l'incertitude pour un classement fin. Par ailleurs, nous proposons Chain-of-Human-Preference (CoHP), une méthode itérative de raffinement d'images qui améliore la qualité sans données supplémentaires, en utilisant HPSv3 pour sélectionner la meilleure image à chaque étape. Des expériences approfondies démontrent que HPSv3 constitue une métrique robuste pour l'évaluation d'images à large spectre, et que CoHP offre une approche efficace et alignée sur les préférences humaines pour améliorer la qualité de la génération d'images. Le code et l'ensemble de données sont disponibles sur la page d'accueil de HPSv3.

Champ de variation gaussien pour la diffusion et la synthèse haute fidélité de vidéo vers 4D
Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

Jul 31

ByBowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo

Dans cet article, nous présentons un nouveau cadre pour la génération vidéo-à-4D qui crée du contenu 3D dynamique de haute qualité à partir d'entrées vidéo uniques. La modélisation directe de la diffusion 4D est extrêmement complexe en raison du coût élevé de la construction des données et de la nature haute dimensionnelle de la représentation conjointe de la forme 3D, de l'apparence et du mouvement. Nous relevons ces défis en introduisant un VAE de champ de variation Direct 4DMesh-to-GS qui encode directement les éclats gaussiens canoniques (GS) et leurs variations temporelles à partir de données d'animation 3D sans ajustement par instance, et compresse les animations haute dimensionnelle dans un espace latent compact. En nous appuyant sur cette représentation efficace, nous entraînons un modèle de diffusion de champ de variation gaussien avec un Transformer de diffusion temporellement conscient conditionné sur les vidéos d'entrée et les GS canoniques. Entraîné sur des objets 3D animables soigneusement sélectionnés du jeu de données Objaverse, notre modèle démontre une qualité de génération supérieure par rapport aux méthodes existantes. Il montre également une généralisation remarquable pour les entrées vidéo en conditions réelles, malgré un entraînement exclusivement sur des données synthétiques, ouvrant la voie à la génération de contenu 3D animé de haute qualité. Page du projet : https://gvfdiffusion.github.io/.

Sculptor : Renforcer les capacités cognitives des LLM grâce à une gestion active du contexte
Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

Aug 6

ByMo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

Les grands modèles de langage (LLMs) subissent une dégradation significative de leurs performances lorsqu'ils traitent des contextes longs, en raison d'interférences proactives où des informations non pertinentes dans les parties antérieures du contexte perturbent le raisonnement et la récupération en mémoire. Alors que la plupart des recherches se concentrent sur des systèmes de mémoire externe pour augmenter les capacités des LLMs, nous proposons une approche complémentaire : doter les LLMs d'outils de Gestion Active du Contexte (ACM) pour façonner activement leur mémoire de travail interne. Nous présentons Sculptor, un cadre qui équipe les LLMs de trois catégories d'outils : (1) fragmentation du contexte, (2) résumé, masquage et restauration, et (3) recherche intelligente. Notre approche permet aux LLMs de gérer proactivement leur attention et leur mémoire de travail, de manière analogue à la façon dont les humains se concentrent sélectivement sur les informations pertinentes tout en filtrant les distractions. L'évaluation expérimentale sur des benchmarks à faible densité d'information—PI-LLM (interférence proactive) et NeedleBench Multi-Needle Reasoning—démontre que Sculptor améliore significativement les performances même sans entraînement spécifique, en exploitant les capacités inhérentes des LLMs à généraliser l'appel d'outils. En permettant une Gestion Active du Contexte, Sculptor non seulement atténue les interférences proactives, mais fournit également une fondation cognitive pour un raisonnement plus fiable dans diverses tâches à contexte long—soulignant que des stratégies explicites de contrôle du contexte, plutôt que de simples fenêtres de tokens plus larges, sont essentielles pour une robustesse à grande échelle.

DreamVVT : Maîtriser l'essayage virtuel vidéo réaliste en conditions réelles grâce à un cadre de transformateur à diffusion par étapes
DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

Aug 4

ByTongchun Zuo, Zaiyu Huang, Shuliang Ning, Ente Lin, Chao Liang, Zerong Zheng, Jianwen Jiang, Yuan Zhang, Mingyuan Gao, Xin Dong

La technologie d'essayage virtuel vidéo (VVT) a suscité un intérêt académique considérable en raison de ses applications prometteuses dans la publicité e-commerce et le divertissement. Cependant, la plupart des méthodes end-to-end existantes reposent fortement sur des ensembles de données appariés centrés sur les vêtements, qui sont rares, et ne parviennent pas à exploiter efficacement les connaissances préalables des modèles visuels avancés et des entrées au moment du test, ce qui rend difficile la préservation précise des détails fins des vêtements et le maintien de la cohérence temporelle dans des scénarios non contraints. Pour relever ces défis, nous proposons DreamVVT, un cadre en deux étapes soigneusement conçu, basé sur les Transformers de Diffusion (DiTs), qui est intrinsèquement capable d'exploiter des données non appariées centrées sur l'humain pour améliorer l'adaptabilité dans des scénarios réels. Pour exploiter davantage les connaissances préalables des modèles pré-entraînés et des entrées au moment du test, dans la première étape, nous échantillonnons des images représentatives de la vidéo d'entrée et utilisons un modèle d'essayage multi-images intégré à un modèle vision-langage (VLM) pour synthétiser des images d'essayage de haute fidélité et sémantiquement cohérentes. Ces images servent de guide d'apparence complémentaire pour la génération vidéo ultérieure. Dans la deuxième étape, des cartes de squelette ainsi que des descriptions fines du mouvement et de l'apparence sont extraites du contenu d'entrée, et celles-ci, ainsi que les images d'essayage clés, sont ensuite introduites dans un modèle de génération vidéo pré-entraîné amélioré avec des adaptateurs LoRA. Cela assure une cohérence temporelle à long terme pour les régions non vues et permet des mouvements dynamiques hautement plausibles. Des expériences quantitatives et qualitatives approfondies démontrent que DreamVVT surpasse les méthodes existantes en préservant le contenu détaillé des vêtements et la stabilité temporelle dans des scénarios réels. Notre page de projet est disponible à l'adresse https://virtu-lab.github.io/

Position : Le modèle actuel des conférences en IA est insoutenable ! Diagnostic de la crise des conférences centralisées en IA.
Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

Aug 6

ByNuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He

Les conférences sur l'intelligence artificielle (IA) sont essentielles pour faire progresser la recherche, partager les connaissances et renforcer la communauté académique. Cependant, leur expansion rapide a rendu le modèle de conférence centralisé de plus en plus insoutenable. Cet article propose un diagnostic fondé sur les données d'une crise structurelle qui menace les objectifs fondamentaux de la diffusion scientifique, de l'équité et du bien-être communautaire. Nous identifions quatre domaines clés de tension : (1) sur le plan scientifique, avec des taux de publication par auteur ayant plus que doublé au cours de la dernière décennie pour dépasser 4,5 articles par an ; (2) sur le plan environnemental, avec l'empreinte carbone d'une seule conférence dépassant les émissions quotidiennes de la ville hôte ; (3) sur le plan psychologique, avec 71 % des discussions en ligne de la communauté reflétant un sentiment négatif et 35 % faisant référence à des préoccupations liées à la santé mentale ; et (4) sur le plan logistique, avec la participation à des conférences majeures comme NeurIPS 2024 commençant à dépasser la capacité des lieux d'accueil. Ces pressions indiquent un système en décalage avec sa mission fondamentale. En réponse, nous proposons le modèle de Conférence Fédérée par la Communauté (CFC), qui sépare l'évaluation par les pairs, la présentation et le réseautage en composantes coordonnées à l'échelle mondiale mais organisées localement, offrant ainsi une voie plus durable, inclusive et résiliente pour la recherche en IA.

LeanK : Élagage des canaux du cache K apprenable pour un décodage efficace
LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

Aug 4

ByYike Zhang, Zhiyuan He, Huiqiang Jiang, Chengruidong Zhang, Yuqing Yang, Jianyong Wang, Lili Qiu

Les grands modèles de langage (LLMs) permettent de réaliser des tâches à contexte long, mais rencontrent des défis d'efficacité en raison de la croissance du cache clé-valeur (KV). Nous proposons LeanK, une méthode basée sur l'apprentissage qui élimine les canaux de cache clé (K) non importants en exploitant la sparsité statique des canaux. Grâce à un processus d'entraînement en deux étapes innovant, LeanK apprend un masque statique par canal qui peut satisfaire un ratio de sparsité spécifique et les exigences d'alignement matériel. LeanK réduit la mémoire GPU et accélère le décodage sans sacrifier la précision. Les expériences démontrent une réduction allant jusqu'à 70 % du cache K et de 16 % à 18 % du cache V. Un noyau de décodage personnalisé permet une accélération de 1,3x pour le calcul de l'attention. Nous fournissons également des insights sur les canaux du modèle et les têtes d'attention lors de l'inférence à contexte long en analysant la distribution d'importance apprise. Notre code est disponible à l'adresse https://aka.ms/LeanK.

StepFun-Formalizer : Libérer le potentiel d'autoformalisation des LLM grâce à la fusion connaissance-raisonnement
StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion

Aug 6

ByYutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

L'autoformalisation vise à traduire des énoncés mathématiques en langage naturel dans un langage formel. Bien que les modèles de langage de grande taille (LLMs) aient accéléré les progrès dans ce domaine, les méthodes existantes souffrent encore d'une faible précision. Nous identifions deux compétences clés pour une autoformalisation efficace : une maîtrise approfondie des connaissances du domaine du langage formel, et une capacité de raisonnement pour la compréhension des problèmes en langage naturel et l'alignement informel-formel. Sans la première, un modèle ne peut pas identifier les objets formels corrects ; sans la seconde, il peine à interpréter les contextes réels et à les mapper précisément en expressions formelles. Pour combler ces lacunes, nous introduisons ThinkingF, un pipeline de synthèse de données et d'entraînement qui améliore ces deux compétences. D'abord, nous construisons deux ensembles de données : l'un en distillant et en sélectionnant des exemples à grande échelle riches en connaissances formelles, et l'autre en générant des trajectoires de raisonnement informel-formel guidées par des modèles conçus par des experts. Nous appliquons ensuite l'apprentissage supervisé fin (SFT) et le renforcement par récompense verbale (RLVR) avec ces ensembles de données pour fusionner et affiner davantage ces deux compétences. Les modèles résultants de 7B et 32B montrent à la fois une connaissance formelle complète et un raisonnement solide de l'informel au formel. Notamment, StepFun-Formalizer-32B atteint des scores BEq@1 de pointe de 40,5 % sur FormalMATH-Lite et de 26,7 % sur ProverBench, surpassant tous les modèles généralistes et spécialisés précédents.

MiDashengLM : Compréhension audio efficace avec des légendes audio générales
MiDashengLM: Efficient Audio Understanding with General Audio Captions

Aug 6

ByHeinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou

Les approches actuelles pour les grands modèles de langage audio (LALMs) reposent souvent sur des sources de données fermées ou des modèles propriétaires, limitant ainsi leur généralisation et leur accessibilité. Cet article présente MiDashengLM, un nouveau modèle audio-langage ouvert conçu pour une compréhension audio efficace et complète grâce à l'utilisation de légendes audio générales via notre nouvel ensemble de données d'entraînement ACAVCaps. MiDashengLM s'appuie exclusivement sur des ensembles de données de pré-entraînement et de fine-tuning supervisé (SFT) disponibles publiquement, garantissant une transparence et une reproductibilité totales. Au cœur de MiDashengLM se trouve Dasheng, un encodeur audio open-source, spécifiquement conçu pour traiter efficacement des informations auditives variées. Contrairement aux travaux précédents principalement axés sur l'alignement audio-texte basé sur la reconnaissance automatique de la parole (ASR), notre stratégie se concentre sur les légendes audio générales, fusionnant les informations de parole, de son et de musique en une seule représentation textuelle, permettant ainsi une représentation textuelle holistique de scènes audio complexes. Enfin, MiDashengLM offre une accélération allant jusqu'à 4x en termes de temps jusqu'au premier jeton (TTFT) et un débit jusqu'à 20x supérieur par rapport aux modèles comparables. Les points de contrôle sont disponibles en ligne à l'adresse https://huggingface.co/mispeech/midashenglm-7b et https://github.com/xiaomi-research/dasheng-lm.

OpenMed NER : Transformers Open-Source, Adaptés au Domaine et à la Pointe de la Technologie pour la Reconnaissance d'Entités Nommées Biomédicales sur 12 Jeux de Données Publics
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets

Aug 3

ByMaziyar Panahi

La reconnaissance d'entités nommées (NER) est fondamentale pour extraire des informations structurées des plus de 80 % de données de santé résidant dans les notes cliniques non structurées et la littérature biomédicale. Malgré les récents progrès des grands modèles de langage, atteindre des performances de pointe sur divers types d'entités tout en maintenant une efficacité computationnelle reste un défi majeur. Nous présentons OpenMed NER, une suite de modèles transformateurs open source adaptés au domaine, combinant un pré-entraînement léger adaptatif au domaine (DAPT) avec l'adaptation efficace en paramètres Low-Rank Adaptation (LoRA). Notre approche effectue un DAPT rentable sur un corpus de 350 000 passages compilé à partir de dépôts de recherche éthiquement sourcés et accessibles au public, ainsi que de notes cliniques anonymisées (PubMed, arXiv et MIMIC-III), en utilisant les architectures DeBERTa-v3, PubMedBERT et BioELECTRA. Cela est suivi d'un ajustement spécifique à la tâche avec LoRA, qui met à jour moins de 1,5 % des paramètres du modèle. Nous évaluons nos modèles sur 12 benchmarks établis de NER biomédicale couvrant les produits chimiques, les maladies, les gènes et les espèces. OpenMed NER atteint de nouveaux scores micro-F1 de pointe sur 10 de ces 12 ensembles de données, avec des gains substantiels sur divers types d'entités. Nos modèles améliorent l'état de l'art sur des benchmarks fondamentaux pour les maladies et les produits chimiques (par exemple, BC5CDR-Disease, +2,70 pp), tout en offrant des améliorations encore plus importantes de plus de 5,3 et 9,7 points de pourcentage sur des corpus plus spécialisés de gènes et de lignées cellulaires cliniques. Ce travail démontre que des modèles open source stratégiquement adaptés peuvent surpasser les solutions propriétaires. Cette performance est atteinte avec une efficacité remarquable : l'entraînement se termine en moins de 12 heures sur un seul GPU avec une faible empreinte carbone (< 1,2 kg CO2e), produisant des points de contrôle open source sous licence permissive conçus pour aider les praticiens à se conformer aux réglementations émergentes sur la protection des données et l'IA, telles que la loi européenne sur l'IA.

HarmonyGuard : Vers la sécurité et l'utilité des agents web grâce à l'amélioration adaptative des politiques et à l'optimisation à double objectif
HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization

Aug 6

ByYurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang

Les grands modèles de langage permettent aux agents d'exécuter des tâches de manière autonome dans des environnements web ouverts. Cependant, à mesure que les menaces cachées sur le web évoluent, les agents web sont confrontés au défi d'équilibrer la performance des tâches avec les risques émergents lors d'opérations à longues séquences. Bien que ce défi soit crucial, les recherches actuelles se limitent à l'optimisation mono-objectif ou à des scénarios en un seul tour, manquant ainsi de la capacité d'optimisation collaborative de la sécurité et de l'utilité dans les environnements web. Pour combler cette lacune, nous proposons HarmonyGuard, un cadre collaboratif multi-agents qui exploite l'amélioration des politiques et l'optimisation des objectifs pour améliorer conjointement l'utilité et la sécurité. HarmonyGuard se caractérise par une architecture multi-agents dotée de deux capacités fondamentales : (1) Amélioration Adaptative des Politiques : Nous introduisons l'Agent de Politique au sein de HarmonyGuard, qui extrait et maintient automatiquement des politiques de sécurité structurées à partir de documents externes non structurés, tout en mettant à jour continuellement les politiques en réponse aux menaces évolutives. (2) Optimisation Duale des Objectifs : Basée sur les deux objectifs de sécurité et d'utilité, l'Agent d'Utilité intégré dans HarmonyGuard effectue un raisonnement en temps réel de type Markovien pour évaluer les objectifs et utilise des capacités métacognitives pour leur optimisation. Des évaluations approfondies sur plusieurs benchmarks montrent que HarmonyGuard améliore la conformité aux politiques jusqu'à 38 % et la réalisation des tâches jusqu'à 20 % par rapport aux bases de référence existantes, tout en atteignant plus de 90 % de conformité aux politiques pour toutes les tâches. Notre projet est disponible ici : https://github.com/YurunChen/HarmonyGuard.

IAUNet : U-Net Conscient des Instances
IAUNet: Instance-Aware U-Net

Aug 3

ByYaroslav Prytula, Illia Tsiporenko, Ali Zeynalli, Dmytro Fishman

La segmentation d’instances est essentielle en imagerie biomédicale pour distinguer avec précision des objets individuels tels que les cellules, qui se chevauchent souvent et varient en taille. Les méthodes récentes basées sur des requêtes, où des requêtes d’objets guident la segmentation, ont démontré des performances solides. Bien que l’U-Net soit une architecture de référence en segmentation d’images médicales, son potentiel dans les approches basées sur des requêtes reste largement inexploré. Dans ce travail, nous présentons IAUNet, une nouvelle architecture U-Net basée sur des requêtes. La conception centrale repose sur une architecture U-Net complète, améliorée par un nouveau décodeur de pixels convolutif léger, rendant le modèle plus efficace et réduisant le nombre de paramètres. De plus, nous proposons un décodeur Transformer qui affine les caractéristiques spécifiques aux objets à travers plusieurs échelles. Enfin, nous introduisons le jeu de données 2025 Revvity Full Cell Segmentation Dataset, une ressource unique avec des annotations détaillées du cytoplasme cellulaire se chevauchant dans des images en champ clair, établissant un nouveau référentiel pour la segmentation d’instances biomédicales. Les expériences sur plusieurs jeux de données publics et nos propres données montrent qu’IAUNet surpasse la plupart des modèles à convolution complète, basés sur des transformateurs et des requêtes, ainsi que les modèles spécifiques à la segmentation cellulaire, établissant une base solide pour les tâches de segmentation d’instances cellulaires. Le code est disponible à l’adresse suivante : https://github.com/SlavkoPrytula/IAUNet.

EVOC2RUST : Un cadre guidé par des squelettes pour la traduction de projets C vers Rust
EVOC2RUST: A Skeleton-guided Framework for Project-Level C-to-Rust Translation

Aug 6

ByChaofan Wang, Tingrui Yu, Jie Wang, Dong Chen, Wenrui Zhang, Yuling Shi, Xiaodong Gu, Beijun Shen

Les garanties de sécurité à la compilation de Rust en font un choix idéal pour les systèmes critiques, créant une demande pour la traduction de bases de code C héritées vers Rust. Bien que diverses approches aient émergé pour cette tâche, elles se heurtent à des compromis inhérents : les solutions basées sur des règles rencontrent des difficultés à répondre aux exigences de sécurité et d'idiomaticité du code, tandis que les solutions basées sur des modèles de langage (LLM) échouent souvent à générer du code Rust sémantiquement équivalent, en raison des dépendances lourdes entre les modules à travers l'ensemble de la base de code. Des études récentes ont révélé que ces deux solutions sont limitées à des programmes de petite taille. Dans cet article, nous proposons EvoC2Rust, un cadre automatisé pour convertir des projets C entiers en projets Rust équivalents. EvoC2Rust emploie une stratégie de traduction guidée par un squelette pour la traduction au niveau du projet. Le pipeline se compose de trois étapes évolutives : 1) il décompose d'abord le projet C en modules fonctionnels, utilise un LLM amélioré par une cartographie des fonctionnalités pour transformer les définitions et les macros, et génère des squelettes de fonctions vérifiés par type, formant ainsi un squelette Rust compilable ; 2) il traduit ensuite progressivement les fonctions, en remplaçant les espaces réservés correspondants dans le squelette ; 3) enfin, il corrige les erreurs de compilation en intégrant le LLM et l'analyse statique. Grâce à l'augmentation évolutive, EvoC2Rust combine les avantages des solutions basées sur des règles et des LLM. Notre évaluation sur des benchmarks open source et six projets industriels démontre la performance supérieure d'EvoC2Rust dans la traduction de projets C vers Rust. En moyenne, il obtient des améliorations de 17,24 % et 14,32 % en précision syntaxique et sémantique par rapport aux approches basées sur des LLM, ainsi qu'un taux de sécurité du code 96,79 % plus élevé que les outils basés sur des règles. Au niveau des modules, EvoC2Rust atteint des taux de compilation de 92,25 % et de réussite aux tests de 89,53 % sur des projets industriels, même pour des bases de code complexes et des fonctions longues.

DPoser-X : Modèle de diffusion comme a priori robuste pour la pose corporelle humaine 3D
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Aug 1

ByJunzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu

Nous présentons DPoser-X, un modèle de priorité basé sur la diffusion pour les poses humaines 3D du corps entier. La construction d'un modèle de priorité robuste et polyvalent pour les poses humaines complètes reste un défi en raison de la complexité inhérente des poses articulées humaines et de la rareté des ensembles de données de haute qualité sur les poses du corps entier. Pour surmonter ces limitations, nous introduisons un modèle de Diffusion comme priorité de pose corporelle (DPoser) et l'étendons à DPoser-X pour la modélisation expressive des poses humaines du corps entier. Notre approche unifie diverses tâches centrées sur les poses en tant que problèmes inverses, les résolvant par échantillonnage variationnel de diffusion. Pour améliorer les performances dans les applications en aval, nous introduisons une nouvelle méthode de planification des pas de temps tronqués, spécifiquement conçue pour les caractéristiques des données de pose. Nous proposons également un mécanisme d'entraînement masqué qui combine efficacement les ensembles de données du corps entier et spécifiques à des parties, permettant à notre modèle de capturer les interdépendances entre les parties du corps tout en évitant le surajustement à des actions spécifiques. Des expériences approfondies démontrent la robustesse et la polyvalence de DPoser-X sur plusieurs benchmarks pour la modélisation des poses du corps, des mains, du visage et du corps entier. Notre modèle surpasse systématiquement les alternatives de pointe, établissant un nouveau standard pour la modélisation des priorités de pose humaine du corps entier.

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM dans l'apprentissage par renforcement grâce à une optimisation hybride des politiques
RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

Jul 31

ByYihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

L'apprentissage par renforcement avec récompense vérifiable (RLVR) a considérablement amélioré les capacités de raisonnement complexe des grands modèles de langage (LLM). Cependant, il peine à dépasser les limites inhérentes du LLM de base, en raison de sa stratégie essentiellement on-policy, couplée à l'immense espace d'actions des LLM et à la rareté des récompenses. De manière critique, le RLVR peut entraîner un effondrement des limites de capacité, réduisant ainsi la portée de résolution de problèmes du LLM. Pour résoudre ce problème, nous proposons RL-PLUS, une nouvelle approche d'optimisation hybride pour les LLM qui combine l'exploitation interne avec des données externes pour atteindre des capacités de raisonnement plus robustes et dépasser les limites des modèles de base. RL-PLUS intègre deux composants clés : l'échantillonnage multiple d'importance pour résoudre le décalage distributionnel des données externes, et la fonction d'avantage basée sur l'exploration pour guider le modèle vers des chemins de raisonnement à haute valeur et inexplorés. Nous fournissons à la fois une analyse théorique et des expériences approfondies pour démontrer la supériorité et la généralisabilité de notre approche. Par rapport aux méthodes RLVR existantes, RL-PLUS obtient 1) des performances de pointe sur six benchmarks de raisonnement mathématique ; 2) des performances supérieures sur six tâches de raisonnement hors distribution ; 3) des gains constants et significatifs à travers diverses familles de modèles, avec des améliorations relatives moyennes allant jusqu'à 69,2 %. De plus, l'analyse des courbes Pass@k indique que RL-PLUS résout efficacement le problème d'effondrement des limites de capacité.

Light-IF : Doter les LLM d'un raisonnement généralisable via la prévisualisation et l'auto-vérification pour le suivi d'instructions complexes
Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

Aug 5

ByChenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu

Bien que les progrès dans les capacités de raisonnement des LLM aient considérablement amélioré leurs performances dans la résolution de problèmes mathématiques, de tâches de codage et de casse-têtes généraux, leur efficacité à respecter avec précision les instructions reste inconstante, en particulier avec des directives plus complexes. Notre étude identifie un raisonnement paresseux lors de la phase de réflexion comme le principal facteur contribuant à une mauvaise adhésion aux instructions. Pour atténuer ce problème, nous proposons un cadre complet conçu pour permettre des processus de raisonnement rigoureux incluant une prévisualisation et une auto-vérification, essentielles pour satisfaire des contraintes d'instructions strictes. Plus précisément, nous générons d'abord des instructions avec des contraintes complexes et appliquons un processus de filtrage pour obtenir des prompts valides, aboutissant à trois ensembles de données de prompts distincts classés comme difficiles, faciles et passables. Ensuite, nous utilisons un échantillonnage par rejet sur les prompts passables pour constituer un petit ensemble de données de haute qualité, permettant une initialisation à froid du modèle et facilitant son adaptation à des schémas de raisonnement efficaces. Par la suite, nous employons une stratégie de fine-tuning supervisé préservant l'entropie (Entropy-SFT) couplée à un apprentissage par renforcement adaptatif à l'entropie par token (TEA-RL) guidé par des récompenses denses basées sur des règles. Cette approche encourage le modèle à transformer son mécanisme de raisonnement, favorisant ainsi des capacités de raisonnement généralisables qui incluent la prévisualisation et l'auto-vérification. Des expériences approfondies menées sur des benchmarks de suivi d'instructions démontrent des améliorations de performances remarquables à différentes échelles de modèles. Notamment, notre modèle Light-IF-32B surpasse à la fois les modèles open-source plus grands comme DeepSeek-R1 et les modèles fermés comme Doubao-1.6.

Une approche grossière à fine pour l'ancrage multimodal de l'occupation 3D
A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

Aug 2

ByZhan Shi, Song Wang, Junbo Chen, Jianke Zhu

L'ancrage visuel vise à identifier des objets ou des régions dans une scène à partir de descriptions en langage naturel, ce qui est essentiel pour une perception spatialement consciente dans la conduite autonome. Cependant, les tâches d'ancrage visuel existantes reposent généralement sur des boîtes englobantes qui échouent souvent à capturer des détails fins. Tous les voxels à l'intérieur d'une boîte englobante ne sont pas occupés, ce qui entraîne des représentations d'objets imprécises. Pour remédier à cela, nous introduisons un benchmark pour l'ancrage d'occupation 3D dans des scènes extérieures complexes. Basé sur le jeu de données nuScenes, il intègre le langage naturel avec des annotations d'occupation au niveau des voxels, offrant une perception d'objet plus précise par rapport à la tâche d'ancrage traditionnelle. De plus, nous proposons GroundingOcc, un modèle end-to-end conçu pour l'ancrage d'occupation 3D grâce à l'apprentissage multimodal. Il combine des caractéristiques visuelles, textuelles et de nuages de points pour prédire la localisation et l'information d'occupation des objets, du grossier au fin. Plus précisément, GroundingOcc comprend un encodeur multimodal pour l'extraction de caractéristiques, une tête d'occupation pour les prédictions voxel par voxel, et une tête d'ancrage pour affiner la localisation. De plus, un module d'ancrage 2D et un module d'estimation de profondeur améliorent la compréhension géométrique, augmentant ainsi les performances du modèle. Des expériences approfondies sur le benchmark démontrent que notre méthode surpasse les baselines existantes en matière d'ancrage d'occupation 3D. Le jeu de données est disponible à l'adresse https://github.com/RONINGOD/GroundingOcc.

FACTORY : Un ensemble de prompts vérifiés par des humains et exigeants pour l'évaluation de la factualité en texte long
FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality

Jul 31

ByMingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Yih

L'évaluation de la factualité sur des textes longs mesure la capacité des modèles à générer des réponses précises et complètes à des prompts courts. Les benchmarks existants manquent souvent de vérification humaine, ce qui peut entraîner des problèmes de qualité. Pour remédier à cette limitation, nous introduisons FACTORY, un ensemble de prompts à grande échelle vérifié par des humains. Développé en utilisant une approche de modèle-en-boucle et affiné par des humains, FACTORY inclut des prompts complexes qui sont factuels, répondables et non ambigus. Nous menons des évaluations humaines sur 6 modèles de langage de pointe en utilisant FACTORY et des jeux de données existants. Nos résultats montrent que FACTORY constitue un benchmark exigeant : environ 40 % des affirmations dans les réponses des modèles de pointe ne sont pas factuelles, contre seulement 10 % pour les autres jeux de données. Notre analyse met en lumière les avantages de FACTORY par rapport aux benchmarks précédents, soulignant sa fiabilité et la nécessité pour les modèles de raisonner sur des faits à longue traîne.

Modèles de Langage de Raisonnement pour l'Analyse des Causes Racines dans les Réseaux Sans Fil 5G
Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks

Jul 29

ByMohamed Sana, Nicola Piovesan, Antonio De Domenico, Yibin Kang, Haozhe Zhang, Merouane Debbah, Fadhel Ayed

L'analyse des causes racines (RCA) dans les réseaux mobiles demeure une tâche complexe en raison du besoin d'interprétabilité, d'expertise domainale et de raisonnement causal. Dans ce travail, nous proposons un cadre léger qui exploite les modèles de langage de grande taille (LLMs) pour la RCA. Pour ce faire, nous introduisons TeleLogs, un ensemble de données annotées de problèmes de dépannage conçu pour évaluer les capacités de RCA. Notre évaluation révèle que les LLMs de raisonnement open-source existants peinent à résoudre ces problèmes, soulignant la nécessité d'une adaptation spécifique au domaine. Pour répondre à cette problématique, nous proposons une méthodologie d'apprentissage en deux étapes combinant un ajustement supervisé avec un apprentissage par renforcement afin d'améliorer la précision et la qualité du raisonnement des LLMs. L'approche proposée affine une série de modèles RCA pour intégrer des connaissances domainales et générer des explications diagnostiques structurées et multi-étapes, améliorant ainsi à la fois l'interprétabilité et l'efficacité. Des expériences approfondies sur plusieurs tailles de LLMs montrent des gains de performance significatifs par rapport aux modèles de raisonnement et non-raisonnement de pointe, y compris une forte généralisation à des variantes de tests randomisées. Ces résultats démontrent le potentiel des LLMs adaptés au domaine et renforcés en raisonnement pour une RCA pratique et explicable dans l'exploitation et la gestion des réseaux.

DiffSemanticFusion : Fusion sémantique raster BEV pour la conduite autonome via la diffusion en ligne de cartes HD
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion

Aug 3

ByZhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun

La conduite autonome nécessite une compréhension précise de la scène, incluant la géométrie de la route, les agents de circulation et leurs relations sémantiques. Dans les scénarios de génération de cartes HD en temps réel, les représentations basées sur des rasters sont bien adaptées aux modèles de vision mais manquent de précision géométrique, tandis que les représentations basées sur des graphes conservent les détails structurels mais deviennent instables sans cartes précises. Pour exploiter les forces complémentaires des deux approches, nous proposons DiffSemanticFusion — un cadre de fusion pour la prédiction de trajectoires multimodales et la planification. Notre méthode raisonne sur un espace BEV fusionné sémantiquement avec des rasters, enrichi par un module de diffusion de carte qui améliore à la fois la stabilité et l'expressivité des représentations de cartes HD en temps réel. Nous validons notre cadre sur deux tâches en aval : la prédiction de trajectoires et la conduite autonome de bout en bout orientée planification. Les expériences sur les benchmarks de conduite autonome du monde réel, nuScenes et NAVSIM, démontrent une amélioration des performances par rapport à plusieurs méthodes de pointe. Pour la tâche de prédiction sur nuScenes, nous intégrons DiffSemanticFusion avec QCNet informé par la carte HD en temps réel, obtenant une amélioration de performance de 5,1 %. Pour la conduite autonome de bout en bout dans NAVSIM, DiffSemanticFusion atteint des résultats de pointe, avec un gain de performance de 15 % dans les scénarios NavHard. De plus, des études approfondies d'ablation et de sensibilité montrent que notre module de diffusion de carte peut être intégré de manière transparente dans d'autres approches basées sur des vecteurs pour améliorer les performances. Tous les artefacts sont disponibles à l'adresse https://github.com/SunZhigang7/DiffSemanticFusion.

Sel3DCraft : Invites visuelles interactives pour une génération conviviale de texte en 3D
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

Aug 1

ByNan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li

La génération de texte-à-3D (T23D) a révolutionné la création de contenu numérique, mais reste freinée par des processus d’incitation par essais et erreurs aveugles qui produisent des résultats imprévisibles. Bien que l’ingénierie des invites visuelles ait progressé dans les domaines du texte-à-image, son application à la génération 3D présente des défis uniques nécessitant une évaluation de la cohérence multi-vues et une compréhension spatiale. Nous présentons Sel3DCraft, un système d’ingénierie des invites visuelles pour la T23D qui transforme l’exploration non structurée en un processus visuel guidé. Notre approche introduit trois innovations clés : une structure à double branche combinant la récupération et la génération pour une exploration diversifiée de candidats ; une méthode de notation hybride multi-vues exploitant des MLLM avec des métriques innovantes de haut niveau pour évaluer les modèles 3D avec une cohérence d’expert humain ; et une suite d’analyse visuelle pilotée par des invites permettant une identification et un affinement intuitifs des défauts. Des tests approfondis et des études utilisateurs démontrent que Sel3DCraft surpasse les autres systèmes T23D en soutenant la créativité des concepteurs.

IFDECORATOR : Encapsulation de l'apprentissage par renforcement basé sur des instructions avec des récompenses vérifiables
IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

Aug 6

ByXu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore les capacités de suivi des instructions des grands modèles de langage (LLMs), mais souffre d'une inefficacité d'entraînement due à une évaluation inadéquate de la difficulté. De plus, le RLVR est sujet à une sur-optimisation, où les LLMs exploitent des raccourcis de vérification sans s'aligner sur l'intention réelle des instructions utilisateur. Nous introduisons Instruction Following Decorator (IFDecorator), un cadre qui intègre l'entraînement RLVR dans un pipeline robuste et économe en échantillons. Il se compose de trois éléments : (1) un volant d'inertie coopératif-adversarial qui co-évolue les instructions et les vérifications hybrides, générant des paires instruction-vérification de plus en plus difficiles ; (2) IntentCheck, un module de contournement qui impose l'alignement sur l'intention ; et (3) des fils de déclenchement, un mécanisme de diagnostic qui détecte le piratage des récompenses via des instructions pièges, qui déclenchent et capturent les comportements d'exploitation de raccourcis. Notre modèle Qwen2.5-32B-Instruct-IFDecorator atteint une précision de 87,43 % sur IFEval, surpassant des modèles propriétaires plus grands comme GPT-4o. De plus, nous démontrons des améliorations substantielles sur FollowBench tout en préservant les capacités générales. Nos fils de déclenchement montrent des réductions significatives des taux de piratage des récompenses. Nous publierons les modèles, le code et les données pour les recherches futures.

SonicMaster : Vers une restauration et un mastering musical tout-en-un contrôlable
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

Aug 5

ByJan Melechovsky, Ambuj Mehrish, Dorien Herremans

Les enregistrements musicaux souffrent souvent de problèmes de qualité audio tels qu'une réverbération excessive, des distorsions, des saturations, des déséquilibres tonaux et une image stéréo rétrécie, en particulier lorsqu'ils sont réalisés dans des contextes non professionnels sans équipement spécialisé ni expertise. Ces problèmes sont généralement corrigés à l'aide d'outils spécialisés distincts et d'ajustements manuels. Dans cet article, nous présentons SonicMaster, le premier modèle génératif unifié pour la restauration et le mastering musical, capable de traiter un large spectre d'artefacts audio avec un contrôle basé sur le texte. SonicMaster est conditionné par des instructions en langage naturel pour appliquer des améliorations ciblées, ou peut fonctionner en mode automatique pour une restauration générale. Pour entraîner ce modèle, nous avons construit le jeu de données SonicMaster, un vaste ensemble de pistes dégradées et de haute qualité appariées, en simulant des types de dégradations courants avec dix-neuf fonctions de dégradation appartenant à cinq groupes d'amélioration : égalisation, dynamique, réverbération, amplitude et stéréo. Notre approche exploite un paradigme d'entraînement génératif par correspondance de flux pour apprendre une transformation audio qui mappe les entrées dégradées vers leurs versions nettoyées et masterisées, guidée par des prompts textuels. Les métriques objectives de qualité audio démontrent que SonicMaster améliore significativement la qualité sonore dans toutes les catégories d'artefacts. De plus, des tests d'écoute subjectifs confirment que les auditeurs préfèrent les sorties améliorées de SonicMaster par rapport à l'audio dégradé d'origine, soulignant l'efficacité de notre approche unifiée.

C3D-AD : Vers une détection continue d'anomalies 3D via l'attention par noyau avec un conseiller apprenable
C3D-AD: Toward Continual 3D Anomaly Detection via Kernel Attention with Learnable Advisor

Aug 2

ByHaoquan Lu, Hanzhe Liang, Jie Zhang, Chenxi Hu, Jinbao Wang, Can Gao

La détection d'anomalies 3D (AD) a démontré un grand potentiel pour identifier les anomalies ou défauts des produits industriels de haute précision. Cependant, les méthodes existantes sont généralement entraînées de manière spécifique à une classe et manquent également de capacité à apprendre à partir de nouvelles classes émergentes. Dans cette étude, nous proposons un cadre d'apprentissage continu nommé Continual 3D Anomaly Detection (C3D-AD), qui permet non seulement d'apprendre des représentations généralisées pour des nuages de points multi-classes, mais aussi de gérer de nouvelles classes apparaissant au fil du temps. Plus précisément, dans le module d'extraction de caractéristiques, pour extraire efficacement des caractéristiques locales généralisées à partir de divers types de produits pour différentes tâches, une couche d'attention à noyau avec caractéristiques aléatoires (KAL) est introduite, qui normalise l'espace des caractéristiques. Ensuite, pour reconstruire les données de manière correcte et continue, un mécanisme efficace d'attention à noyau avec conseiller apprenable (KAA) est proposé, qui apprend les informations des nouvelles catégories tout en éliminant les anciennes informations redondantes, à la fois dans l'encodeur et le décodeur. Enfin, pour maintenir la cohérence des représentations entre les tâches, un module de reconstruction avec perturbation des paramètres (RPP) est proposé en concevant une fonction de perte de répétition des représentations, qui garantit que le modèle se souvient des informations des catégories précédentes et retourne une représentation adaptative aux catégories. Des expériences approfondies sur trois ensembles de données publics démontrent l'efficacité de la méthode proposée, atteignant des performances moyennes de 66,4 %, 83,1 % et 63,4 % AUROC sur Real3D-AD, Anomaly-ShapeNet et MulSen-AD, respectivement.

Gouvernance des données et de l’IA : Promouvoir l’équité, l’éthique et l’équité dans les grands modèles de langage
Data and AI governance: Promoting equity, ethics, and fairness in large language models

Aug 5

ByAlok Abhishek, Lisa Erickson, Tushar Bandopadhyay

Dans cet article, nous abordons des approches pour gouverner, évaluer et quantifier systématiquement les biais tout au long du cycle de vie complet des modèles d'apprentissage automatique, depuis le développement et la validation initiaux jusqu'au suivi en production et à la mise en place de garde-fous. En nous appuyant sur nos travaux fondateurs concernant la suite de tests d'évaluation et d'analyse des biais (BEATS) pour les modèles de langage de grande taille (LLMs), les auteurs partagent les lacunes prévalentes liées aux biais et à l'équité dans les LLMs et discutent d'un cadre de gouvernance des données et de l'IA pour aborder les questions de biais, d'éthique, d'équité et de factualité au sein des LLMs. L'approche de gouvernance des données et de l'IA présentée dans cet article est adaptée à des applications pratiques et réelles, permettant un benchmarking rigoureux des LLMs avant leur déploiement en production, facilitant une évaluation en temps réel continue et gouvernant de manière proactive les réponses générées par les LLMs. En mettant en œuvre cette gouvernance des données et de l'IA tout au long du cycle de développement de l'IA, les organisations peuvent considérablement améliorer la sécurité et la responsabilité de leurs systèmes d'IA générative, atténuant efficacement les risques de discrimination et protégeant contre les dommages potentiels liés à la réputation ou à la marque. Enfin, à travers cet article, nous visons à contribuer à l'avancement de la création et du déploiement d'applications d'intelligence artificielle générative socialement responsables et alignées sur des principes éthiques.

La Vache de Rembrandt - Analyse de l'interprétation des prompts artistiques dans les modèles de génération d'images à partir de texte
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

Jul 31

ByAlfio Ferrara, Sergio Picascia, Elisabetta Rocchetti

Les modèles de diffusion texte-image ont démontré des capacités remarquables dans la génération de contenu artistique en apprenant à partir de milliards d'images, y compris des œuvres d'art populaires. Cependant, la question fondamentale de la manière dont ces modèles représentent en interne des concepts, tels que le contenu et le style dans les peintures, reste inexplorée. La vision par ordinateur traditionnelle suppose que le contenu et le style sont orthogonaux, mais les modèles de diffusion ne reçoivent aucune guidance explicite concernant cette distinction pendant leur entraînement. Dans ce travail, nous étudions comment les modèles de diffusion texte-image basés sur des transformers encodent les concepts de contenu et de style lors de la génération d'œuvres d'art. Nous exploitons des cartes de chaleur d'attention croisée pour attribuer les pixels des images générées à des tokens spécifiques du prompt, nous permettant ainsi d'isoler les régions de l'image influencées par les tokens décrivant le contenu par rapport à ceux décrivant le style. Nos résultats révèlent que les modèles de diffusion montrent des degrés variables de séparation contenu-style en fonction du prompt artistique spécifique et du style demandé. Dans de nombreux cas, les tokens de contenu influencent principalement les régions liées aux objets, tandis que les tokens de style affectent les zones de fond et de texture, suggérant une compréhension émergente de la distinction entre contenu et style. Ces insights contribuent à notre compréhension de la manière dont les modèles génératifs à grande échelle représentent en interne des concepts artistiques complexes sans supervision explicite. Nous partageons le code et le jeu de données, ainsi qu'un outil d'exploration pour visualiser les cartes d'attention à l'adresse https://github.com/umilISLab/artistic-prompt-interpretation.