HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

24 papers found

Matrix-Game : Modèle Fondateur Interactif du Monde
Matrix-Game: Interactive World Foundation Model

Jun 23

ByYifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou

Nous présentons Matrix-Game, un modèle de fondation de monde interactif pour la génération contrôlée de mondes de jeu. Matrix-Game est entraîné à l'aide d'un pipeline en deux étapes qui effectue d'abord un pré-entraînement à grande échelle sans étiquettes pour la compréhension de l'environnement, suivi d'un entraînement avec étiquettes d'actions pour la génération de vidéos interactives. Pour soutenir cela, nous avons constitué Matrix-Game-MC, un ensemble de données Minecraft complet comprenant plus de 2 700 heures de clips vidéo de gameplay non étiquetés et plus de 1 000 heures de clips de haute qualité étiquetés avec des annotations fines des actions du clavier et de la souris. Notre modèle adopte un paradigme de génération contrôlée d'image à monde, conditionné par une image de référence, un contexte de mouvement et les actions de l'utilisateur. Avec plus de 17 milliards de paramètres, Matrix-Game permet un contrôle précis des actions des personnages et des mouvements de la caméra, tout en maintenant une qualité visuelle élevée et une cohérence temporelle. Pour évaluer les performances, nous avons développé GameWorld Score, un benchmark unifié mesurant la qualité visuelle, la qualité temporelle, la contrôlabilité des actions et la compréhension des règles physiques pour la génération de mondes Minecraft. Des expériences approfondies montrent que Matrix-Game surpasse systématiquement les modèles de monde Minecraft open-source précédents (y compris Oasis et MineWorld) sur toutes les métriques, avec des gains particulièrement forts en termes de contrôlabilité et de cohérence physique. Des évaluations humaines en double aveugle confirment en outre la supériorité de Matrix-Game, mettant en évidence sa capacité à générer des vidéos perceptuellement réalistes et précisément contrôlables dans divers scénarios de jeu. Pour faciliter les recherches futures sur la génération interactive d'image à monde, nous mettrons en open-source les poids du modèle Matrix-Game et le benchmark GameWorld Score à l'adresse https://github.com/SkyworkAI/Matrix-Game.

JarvisArt : Libérer la créativité artistique humaine grâce à un agent intelligent de retouche photo
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

Jun 21

ByYunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan

La retouche photo est devenue un élément essentiel de la narration visuelle contemporaine, permettant aux utilisateurs de capturer des esthétiques et d'exprimer leur créativité. Bien que des outils professionnels comme Adobe Lightroom offrent des fonctionnalités puissantes, ils nécessitent une expertise considérable et un effort manuel important. En revanche, les solutions existantes basées sur l'IA proposent une automatisation, mais souffrent souvent d'une ajustabilité limitée et d'une mauvaise généralisation, ne répondant pas aux besoins diversifiés et personnalisés en matière d'édition. Pour combler cette lacune, nous présentons JarvisArt, un agent piloté par un modèle de langage multimodal (MLLM) qui comprend l'intention de l'utilisateur, imite le processus de raisonnement des artistes professionnels et coordonne intelligemment plus de 200 outils de retouche au sein de Lightroom. JarvisArt suit un processus d'entraînement en deux étapes : un fine-tuning supervisé initial basé sur la chaîne de pensée (Chain-of-Thought) pour établir des compétences de base en raisonnement et en utilisation d'outils, suivi d'une optimisation de politique relative par groupe pour la retouche (GRPO-R) afin d'améliorer davantage sa prise de décision et sa maîtrise des outils. Nous proposons également le protocole Agent-to-Lightroom pour faciliter une intégration transparente avec Lightroom. Pour évaluer les performances, nous développons MMArt-Bench, un nouveau benchmark construit à partir de modifications réelles effectuées par des utilisateurs. JarvisArt démontre une interaction conviviale, une généralisation supérieure et un contrôle précis des ajustements globaux et locaux, ouvrant ainsi une nouvelle voie pour la retouche photo intelligente. Il surpasse notamment GPT-4o avec une amélioration de 60 % des métriques moyennes au niveau des pixels sur MMArt-Bench pour la fidélité du contenu, tout en maintenant des capacités comparables de suivi des instructions. Page du projet : https://jarvisart.vercel.app/.

AnimaX : Animer l'inanimé en 3D avec des modèles de diffusion conjoints vidéo-pose
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Jun 24

ByZehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng

Nous présentons AnimaX, un cadre d’animation 3D en flux direct qui relie les a priori de mouvement des modèles de diffusion vidéo à la structure contrôlable de l’animation basée sur des squelettes. Les méthodes traditionnelles de synthèse de mouvement sont soit limitées à des topologies squelettiques fixes, soit nécessitent une optimisation coûteuse dans des espaces de déformation de haute dimension. En revanche, AnimaX transfère efficacement les connaissances de mouvement basées sur la vidéo au domaine 3D, prenant en charge des maillages articulés variés avec des squelettes arbitraires. Notre méthode représente le mouvement 3D sous forme de cartes de poses 2D multi-vues et multi-images, et permet une diffusion conjointe vidéo-pose conditionnée par des rendus de modèles et une invite textuelle de mouvement. Nous introduisons des encodages positionnels partagés et des embeddings conscients des modalités pour assurer l’alignement spatio-temporel entre les séquences vidéo et de poses, transférant efficacement les a priori vidéo à la tâche de génération de mouvement. Les séquences de poses multi-vues résultantes sont triangulées en positions articulaires 3D et converties en animation de maillage via une cinématique inverse. Entraîné sur un nouvel ensemble de données de 160 000 séquences riggées, AnimaX atteint des résultats de pointe sur VBench en termes de généralisation, fidélité du mouvement et efficacité, offrant une solution évolutive pour l’animation 3D indépendante de la catégorie. Page du projet : https://anima-x.github.io/{https://anima-x.github.io/}.

Skywork-SWE : Révéler les lois de mise à l'échelle des données pour l'ingénierie logicielle dans les LLM
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Jun 24

ByLiang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou

L'ingénierie logicielle (SWE) est récemment devenue un banc d'essai crucial pour les agents LLM de nouvelle génération, exigeant des capacités intrinsèques dans deux dimensions critiques : la résolution itérative et soutenue de problèmes (par exemple, >50 tours d'interaction) et la gestion des dépendances contextuelles longues (par exemple, >32k tokens). Cependant, le processus de curation des données en SWE reste notoirement chronophage, car il repose fortement sur l'annotation manuelle pour le filtrage des fichiers de code et la configuration d'environnements d'exécution dédiés pour exécuter et valider les tests unitaires. Par conséquent, la plupart des jeux de données existants se limitent à quelques milliers d'instances provenant de GitHub. À cette fin, nous proposons un pipeline de curation de données automatisé et incrémental qui permet d'augmenter systématiquement le volume et la diversité des jeux de données SWE. Notre jeu de données comprend 10 169 instances de tâches Python issues de 2 531 dépôts GitHub distincts, chacune accompagnée d'une tâche spécifiée en langage naturel et d'une image d'environnement d'exécution dédiée pour la validation automatisée des tests unitaires. Nous avons soigneusement sélectionné plus de 8 000 trajectoires d'entraînement validées avec succès à partir de notre jeu de données SWE proposé. Lors du fine-tuning du modèle Skywork-SWE sur ces trajectoires, nous découvrons un phénomène frappant de mise à l'échelle des données : les performances du modèle entraîné pour les capacités d'ingénierie logicielle dans les LLM continuent de s'améliorer à mesure que la taille des données augmente, sans montrer de signes de saturation. Notamment, notre modèle Skywork-SWE atteint une précision de 38,0 % en pass@1 sur le benchmark SWE-bench Verified sans utiliser de vérificateurs ni de déploiements multiples, établissant un nouvel état de l'art (SOTA) parmi les LLM basés sur Qwen2.5-Coder-32B construits sur le framework d'agent OpenHands. De plus, avec l'intégration de techniques de mise à l'échelle au moment du test, la performance s'améliore encore pour atteindre 47,0 % de précision, surpassant les résultats SOTA précédents pour les modèles de moins de 32B paramètres. Nous publions le checkpoint du modèle Skywork-SWE-32B pour accélérer les recherches futures.

Chain-of-Experts : Libérer la puissance de communication des modèles Mixture-of-Experts
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

Jun 23

ByZihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu

Nous proposons Chain-of-Experts (CoE), une nouvelle architecture de type Mixture-of-Experts (MoE) qui introduit une communication séquentielle entre experts au sein de chaque couche. Contrairement aux modèles MoE traditionnels, où les experts opèrent de manière indépendante et parallèle, CoE traite les tokens de manière itérative à travers une chaîne d'experts à l'intérieur d'une couche. Pour permettre une sélection dynamique des experts à chaque itération, CoE utilise un routeur dédié à chaque étape d'itération dans une couche. Cette conception permet aux tokens de réévaluer et de sélectionner différents experts à chaque itération, plutôt que d'être assignés de manière statique. En conséquence, CoE introduit un mécanisme de routage flexible qui augmente la diversité des combinaisons d'experts et enrichit la capacité de représentation du modèle. CoE démontre une amélioration des performances avec un calcul fixe : sur des tâches de raisonnement mathématique, il réduit la perte de validation de 1,20 à 1,12 par rapport à un MoE standard. Au-delà des performances, CoE offre un nouvel axe de mise à l'échelle : la profondeur par itération d'experts, qui complète les stratégies conventionnelles de mise à l'échelle en largeur/profondeur. Par exemple, l'utilisation de 2x itérations correspond à la performance de 3x sélections d'experts (en largeur), tout en réduisant l'utilisation de la mémoire de 17,6 à 42 % par rapport à d'autres stratégies de mise à l'échelle. Notre analyse révèle que les avantages de CoE découlent de sa structure résiduelle itérative et de la spécialisation accrue des experts permise par le routage itératif, qui ensemble débloquent des représentations plus expressives. Le code est disponible à l'adresse https://github.com/ZihanWang314/coe.

Modèle Unifié Vision-Langue-Action
Unified Vision-Language-Action Model

Jun 24

ByYuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang

Les modèles vision-langage-action (VLA) ont suscité un intérêt considérable pour leur potentiel dans l'amélioration de la manipulation robotique. Cependant, les approches précédentes reposent principalement sur les capacités de compréhension générale des modèles vision-langage (VLM) pour générer des signaux d'action, négligeant souvent la riche structure temporelle et causale intégrée dans les observations visuelles. Dans cet article, nous présentons UniVLA, un modèle VLA multimodal unifié et natif qui modélise de manière autoregressive les signaux visuels, linguistiques et d'action sous forme de séquences de tokens discrètes. Cette formulation permet un apprentissage flexible de tâches multimodales, en particulier à partir de données vidéo à grande échelle. En intégrant la modélisation du monde lors de l'après-entraînement, UniVLA capture les dynamiques causales à partir des vidéos, facilitant ainsi un transfert efficace vers l'apprentissage de politiques en aval—en particulier pour les tâches à long terme. Notre approche établit de nouveaux records de pointe sur plusieurs benchmarks de simulation largement utilisés, notamment CALVIN, LIBERO et Simplenv-Bridge, surpassant significativement les méthodes précédentes. Par exemple, UniVLA atteint un taux de réussite moyen de 95,5 % sur le benchmark LIBERO, dépassant les 85,5 % de pi0-FAST. Nous démontrons également sa large applicabilité dans des contextes réels de manipulation ALOHA et de conduite autonome.

GRPO-CARE : Apprentissage par Renforcement Conscient de la Cohérence pour le Raisonnement Multimodal
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Jun 19

ByYi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu

Les approches récentes d'apprentissage par renforcement, telles que le GRPO supervisé par les résultats, ont fait progresser le raisonnement en chaîne de pensée dans les grands modèles de langage (LLM), mais leur adaptation aux LLM multimodaux (MLLM) reste inexplorée. Pour combler le manque d'évaluation rigoureuse des méthodes de post-formation des MLLM, nous introduisons SEED-Bench-R1, un benchmark comprenant des vidéos complexes du monde réel nécessitant une perception et un raisonnement équilibrés. Il propose un grand ensemble de données d'entraînement et évalue la généralisation à travers trois défis croissants : des scénarios intra-distribution, inter-environnement et inter-environnement-tâche. En utilisant SEED-Bench-R1, nous constatons que le GRPO standard, bien qu'il améliore la précision des réponses, réduit souvent la cohérence logique entre les étapes de raisonnement et les réponses, avec un taux de cohérence de seulement 57,9 %. Cela découle de signaux de récompense se concentrant uniquement sur les réponses finales, encourageant les raccourcis, et de pénalités KL strictes limitant l'exploration. Pour résoudre ce problème, nous proposons GRPO-CARE, un cadre d'apprentissage par renforcement conscient de la cohérence, optimisant à la fois la justesse des réponses et la cohérence du raisonnement sans supervision explicite. GRPO-CARE introduit une récompense à deux niveaux : (1) une récompense de base pour la justesse des réponses, et (2) un bonus de cohérence adaptatif, calculé en comparant la probabilité de raisonnement à réponse du modèle (via un modèle de référence à évolution lente) avec celle de ses pairs. Ce mécanisme dual amplifie les récompenses pour les chemins de raisonnement à la fois corrects et logiquement cohérents. En remplaçant les pénalités KL par ce bonus adaptatif, GRPO-CARE surpasse le GRPO standard sur SEED-Bench-R1, obtenant un gain de performance de 6,7 % au niveau d'évaluation le plus difficile et une amélioration de 24,5 % en cohérence. Il montre également une forte transférabilité, améliorant les performances du modèle sur divers benchmarks de compréhension vidéo. Notre travail contribue à un benchmark conçu de manière systématique et à un cadre de post-formation généralisable, faisant progresser le développement de MLLM plus interprétables et robustes.

ScaleCap : Génération d'images légendées scalable au moment de l'inférence via un débiaisage en double modalité
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Jun 24

ByLong Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin

Cet article présente ScaleCap, une stratégie de génération de légendes d'images scalable au moment de l'inférence, qui produit des descriptions d'images complètes et détaillées. Les principaux défis de la génération de légendes de haute qualité résident dans les biais inhérents des LVLM (modèles de langage et vision multimodaux) : un biais multimodal entraînant une granularité descriptive déséquilibrée, offrant des comptes rendus détaillés de certains éléments tout en survolant d'autres ; un biais linguistique conduisant à des descriptions hallucinées d'objets inexistants. Pour résoudre ces problèmes, nous proposons une stratégie de génération de légendes débiaisée et scalable, qui enrichit et calibre continuellement la légende avec un budget d'inférence accru. Plus précisément, nous proposons deux composants novateurs : la réponse heuristique à des questions et l'évaluation contrastive de phrases. Le premier génère des questions spécifiques au contenu basées sur l'image et y répond pour injecter progressivement des informations pertinentes dans la légende. Le second utilise un décodage contrastif hors ligne au niveau de la phrase pour identifier et éliminer efficacement les hallucinations causées par les biais linguistiques. Avec un coût d'inférence accru, ScaleCap pose davantage de questions heuristiques pour capturer progressivement des détails visuels supplémentaires, générant ainsi des légendes plus précises, équilibrées et informatives. Des expériences approfondies d'alignement multimodal démontrent l'efficacité de ScaleCap. L'annotation de 450 000 images avec ScaleCap et leur utilisation pour le pré-entraînement de LVLM entraîne des gains de performance constants sur 11 benchmarks largement utilisés. De plus, ScaleCap démontre une richesse et une fidélité exceptionnelles des légendes générées avec deux tâches supplémentaires : remplacer les images par des légendes dans une tâche de VQA, et reconstruire des images à partir de légendes pour évaluer la couverture sémantique. Le code est disponible à l'adresse https://github.com/Cooperx521/ScaleCap.

SWE-SQL : Éclairer les voies des LLM pour résoudre les problèmes SQL des utilisateurs dans des applications réelles
SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Jun 23

ByJinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng

La résolution de problèmes SQL complexes reste un goulot d'étranglement majeur dans les applications de bases de données réelles. Les modèles de langage à grande échelle (LLM) actuels, bien que compétents dans la traduction texte-SQL, n'ont pas été rigoureusement évalués sur la tâche plus complexe du débogage de problèmes SQL. Pour combler cette lacune, nous introduisons BIRD-CRITIC, un nouveau benchmark de débogage de problèmes SQL comprenant 530 tâches PostgreSQL (BIRD-CRITIC-PG) et 570 tâches multi-dialectes (BIRD-CRITIC-Multi), extraites de problèmes utilisateurs authentiques et rejouées dans de nouveaux environnements pour faciliter une évaluation rigoureuse. Les évaluations de base soulignent la complexité de la tâche, avec le modèle de raisonnement leader O3-Mini atteignant seulement un taux de réussite de 38,87 % sur BIRD-CRITIC-PG et 33,33 % sur BIRD-CRITIC-Multi. Par ailleurs, l'amélioration des modèles open-source pour les tâches de bases de données est cruciale pour renforcer le développement local tout en protégeant la confidentialité des données. Par conséquent, nous présentons Six-Gym (Sql-fIX-Gym), un environnement d'entraînement pour améliorer les capacités des modèles open-source dans le débogage de problèmes SQL. Cet environnement exploite la stratégie SQL-Rewind, qui génère automatiquement des ensembles de données exécutables de problèmes-solutions en rétro-ingénierie des problèmes à partir de SQL vérifiés. Cependant, les méthodes populaires de fine-tuning basées sur les trajectoires n'explorent pas de signaux de supervision substantiels. Nous proposons en outre f-Plan Boosting, qui extrait des plans de débogage de haut niveau à partir des solutions SQL, permettant aux LLM enseignants de produire 73,7 % de trajectoires réussies supplémentaires pour l'entraînement. Nous intégrons ces composants dans un agent open-source, Bird-Fixer. Basé sur Qwen-2.5-Coder-14B, Bird-Fixer atteint un taux de réussite de 38,11 % sur BIRD-CRITIC-PG et 29,65 % sur BIRD-CRITIC-Multi, surpassant les modèles propriétaires leaders tels que Claude-3.7-Sonnet et GPT-4.1, marquant ainsi une étape significative vers la démocratisation des capacités sophistiquées de débogage SQL. Le classement et le code source sont disponibles à l'adresse : https://bird-critic.github.io/

MMSearch-R1 : Inciter les LMMs à effectuer des recherches
MMSearch-R1: Incentivizing LMMs to Search

Jun 25

ByJinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu

Le déploiement robuste de grands modèles multimodaux (LMMs) dans des scénarios réels nécessite un accès à des sources de connaissances externes, compte tenu de la complexité et de la nature dynamique des informations du monde réel. Les approches existantes, telles que la génération augmentée par récupération (RAG) et les agents de recherche conçus par ingénierie de prompts, reposent sur des pipelines rigides, conduisant souvent à des comportements de recherche inefficaces ou excessifs. Nous présentons MMSearch-R1, le premier cadre d'apprentissage par renforcement de bout en bout qui permet aux LMMs d'effectuer des recherches à la demande et multi-tours dans des environnements Internet réels. Notre cadre intègre à la fois des outils de recherche d'images et de texte, permettant au modèle de raisonner sur le moment et la manière de les invoquer, guidé par une récompense basée sur les résultats avec une pénalité de recherche. Pour soutenir l'entraînement, nous collectons un ensemble de données de questions-réponses visuelles (VQA) multimodales via un pipeline semi-automatisé qui couvre divers besoins de connaissances visuelles et textuelles, et nous sélectionnons un sous-ensemble équilibré en termes de recherche, comprenant à la fois des échantillons nécessitant une recherche et d'autres n'en nécessitant pas, ce qui s'avère essentiel pour façonner un comportement de recherche efficace et à la demande. Des expériences approfondies sur des tâches VQA intensives en connaissances et axées sur la recherche d'informations montrent que notre modèle surpasse non seulement les bases de référence basées sur RAG de la même taille de modèle, mais correspond également aux performances d'un modèle basé sur RAG plus grand tout en réduisant les appels de recherche de plus de 30 %. Nous analysons en outre les principales découvertes empiriques pour offrir des perspectives exploitables afin de faire progresser la recherche dans le domaine de la recherche multimodale.

Les grands modèles de langage peuvent-ils capturer les désaccords entre annotateurs humains ?
Can Large Language Models Capture Human Annotator Disagreements?

Jun 24

ByJingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash

La variation dans les annotations humaines (c'est-à-dire les désaccords d'annotation) est courante en traitement automatique des langues (TAL) et reflète souvent des informations importantes telles que la subjectivité de la tâche et l'ambiguïté des échantillons. Bien que les modèles de langage de grande taille (LLMs) soient de plus en plus utilisés pour l'annotation automatique afin de réduire l'effort humain, leur évaluation se concentre souvent sur la prédiction des étiquettes de "vérité terrain" déterminées par vote majoritaire. Cependant, il reste incertain si ces modèles capturent également la variation informative des annotations humaines. Notre travail comble cette lacune en évaluant de manière approfondie la capacité des LLMs à prédire les désaccords d'annotation sans accès à des annotations humaines répétées. Nos résultats montrent que les LLMs peinent à modéliser les désaccords, ce qui peut être négligé par les évaluations basées sur les étiquettes majoritaires. Notamment, bien que le raisonnement de type RLVR (Reinforcement Learning with Verifiable Rewards) améliore généralement les performances des LLMs, il dégrade la performance dans la prédiction des désaccords. Nos résultats soulignent la nécessité cruciale d'évaluer et d'améliorer les annotateurs LLMs dans la modélisation des désaccords. Code et données disponibles sur https://github.com/EdisonNi-hku/Disagreement_Prediction.

SRFT : Une méthode en une seule étape avec affinage supervisé et par renforcement pour le raisonnement
SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

Jun 24

ByYuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao

Les grands modèles de langage (LLM) ont réalisé des progrès remarquables dans les tâches de raisonnement, mais l'intégration optimale du Fine-Tuning Supervisé (SFT) et de l'Apprentissage par Renforcement (RL) reste un défi fondamental. À travers une analyse approfondie des distributions de tokens, des dynamiques d'apprentissage et des mécanismes d'intégration sous l'angle de l'entropie, nous révélons des différences clés entre ces paradigmes : le SFT induit des changements globaux à granularité grossière dans les distributions de politiques des LLM, tandis que le RL effectue des optimisations sélectives à granularité fine, l'entropie servant d'indicateur critique de l'efficacité de l'entraînement. Sur la base de ces observations, nous proposons le Fine-Tuning Supervisé par Renforcement (SRFT), une méthode en une seule étape qui unifie les deux paradigmes de fine-tuning grâce à des mécanismes de pondération sensibles à l'entropie. Notre approche applique simultanément le SFT et le RL pour optimiser directement le LLM en utilisant des démonstrations et des explorations autonomes plutôt que des méthodes séquentielles en deux étapes. Des expériences approfondies montrent que le SRFT atteint une précision moyenne de 59,1%, surpassant les méthodes sans RL de 9,0% sur cinq benchmarks de raisonnement mathématique et de 10,9% sur trois benchmarks hors distribution.

L'orientation dans le domaine fréquentiel permet un échantillonnage haute fidélité à faible échelle CFG
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales

Jun 24

BySeyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber

La guidance sans classifieur (Classifier-Free Guidance, CFG) est devenue un composant essentiel des modèles de diffusion conditionnels modernes. Bien que très efficace en pratique, les mécanismes sous-jacents par lesquels la CFG améliore la qualité, les détails et l'alignement avec les prompts ne sont pas entièrement compris. Nous proposons une nouvelle perspective sur la CFG en analysant ses effets dans le domaine fréquentiel, montrant que les basses et hautes fréquences ont des impacts distincts sur la qualité de génération. Plus précisément, la guidance en basse fréquence gouverne la structure globale et l'alignement avec la condition, tandis que la guidance en haute fréquence améliore principalement la fidélité visuelle. Cependant, l'application d'une échelle uniforme à toutes les fréquences -- comme c'est le cas dans la CFG standard -- entraîne une sursaturation et une réduction de la diversité à haute échelle, ainsi qu'une dégradation de la qualité visuelle à basse échelle. Sur la base de ces observations, nous proposons la guidance découplée en fréquence (Frequency-Decoupled Guidance, FDG), une approche efficace qui décompose la CFG en composantes de basse et haute fréquences et applique des forces de guidance distinctes à chaque composante. La FDG améliore la qualité des images à faible échelle de guidance et évite par conception les inconvénients des échelles élevées de CFG. À travers des expériences approfondies sur plusieurs jeux de données et modèles, nous démontrons que la FDG améliore systématiquement la fidélité des échantillons tout en préservant la diversité, conduisant à une amélioration des scores FID et de rappel par rapport à la CFG, établissant ainsi notre méthode comme une alternative plug-and-play à la guidance sans classifieur standard.

SimpleGVR : Une base simple pour la super-résolution vidéo à cascades latentes
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

Jun 24

ByLiangbin Xie, Yu Li, Shian Du, Menghan Xia, Xintao Wang, Fanghua Yu, Ziyan Chen, Pengfei Wan, Jiantao Zhou, Chao Dong

Les modèles de diffusion latente sont devenus un paradigme majeur pour la génération efficace de vidéos. Cependant, à mesure que les attentes des utilisateurs évoluent vers des sorties de plus haute résolution, le recours exclusif au calcul latent s’avère insuffisant. Une approche prometteuse consiste à découpler le processus en deux étapes : la génération de contenu sémantique et la synthèse des détails. La première utilise un modèle de base intensif en calcul à des résolutions plus basses, tandis que la seconde exploite un modèle léger de super-résolution vidéo en cascade (VSR) pour obtenir une sortie haute résolution. Dans ce travail, nous nous concentrons sur l’étude des principes clés de conception des modèles VSR en cascade, qui sont actuellement peu explorés. Premièrement, nous proposons deux stratégies de dégradation pour générer des paires d’entraînement qui imitent mieux les caractéristiques de sortie du modèle de base, assurant ainsi un alignement entre le modèle VSR et son générateur en amont. Deuxièmement, nous fournissons des insights critiques sur le comportement des modèles VSR grâce à une analyse systématique de (1) les stratégies d’échantillonnage des pas de temps, (2) les effets de l’augmentation du bruit sur les entrées à basse résolution (LR). Ces résultats éclairent directement nos innovations architecturales et d’entraînement. Enfin, nous introduisons une unité temporelle entrelacée et une attention locale parcimonieuse pour permettre un entraînement et une inférence efficaces, réduisant considérablement la surcharge computationnelle. Des expériences approfondies démontrent la supériorité de notre cadre par rapport aux méthodes existantes, avec des études d’ablation confirmant l’efficacité de chaque choix de conception. Notre travail établit une base simple mais efficace pour la génération de super-résolution vidéo en cascade, offrant des insights pratiques pour guider les avancées futures dans les systèmes de synthèse en cascade efficaces.

Mise à l'échelle du décodage spéculatif avec raisonnement prospectif
Scaling Speculative Decoding with Lookahead Reasoning

Jun 24

ByYichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang

Les modèles de raisonnement excellent en générant de longues chaînes de pensées, mais le décodage des milliers de tokens résultants est lent. Le décodage spéculatif au niveau des tokens (SD) aide, mais son bénéfice est limité, car la probabilité qu'une supposition entière de gamma-tokens soit correcte diminue de manière exponentielle à mesure que gamma augmente. Cela signifie qu'allouer plus de calcul pour des ébauches de tokens plus longues rencontre un plafond algorithmique, rendant l'accélération modeste et indépendante du matériel. Nous relevons ce plafond avec le Raisonnement Prospectif, qui exploite une deuxième couche de parallélisme au niveau des étapes. Notre idée clé est que les modèles de raisonnement génèrent étape par étape, et chaque étape n'a besoin d'être sémantiquement correcte, pas d'une correspondance exacte des tokens. Dans le Raisonnement Prospectif, un modèle d'ébauche léger propose plusieurs étapes futures ; le modèle cible développe chaque proposition en un seul passage groupé, et un vérificateur conserve les étapes sémantiquement correctes tout en permettant au modèle cible de régénérer celles qui échouent. Le SD au niveau des tokens opère toujours dans chaque étape de raisonnement, donc les deux couches de parallélisme se multiplient. Nous montrons que le Raisonnement Prospectif augmente l'accélération maximale du SD à la fois théoriquement et empiriquement. Sur GSM8K, AIME et d'autres benchmarks, le Raisonnement Prospectif améliore l'accélération du SD de 1,4x à 2,1x tout en préservant la qualité des réponses, et son accélération s'adapte mieux à un débit GPU supplémentaire. Notre code est disponible à l'adresse https://github.com/hao-ai-lab/LookaheadReasoning.

USAD : Représentation Universelle de la Parole et de l’Audio par Distillation
USAD: Universal Speech and Audio Representation via Distillation

Jun 23

ByHeng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu

L'apprentissage auto-supervisé (SSL) a révolutionné les représentations audio, mais les modèles restent souvent spécifiques à un domaine, se concentrant soit sur des tâches de parole, soit sur des tâches non liées à la parole. Dans ce travail, nous présentons Universal Speech and Audio Distillation (USAD), une approche unifiée pour l'apprentissage de représentations audio qui intègre divers types de données audio - parole, sons et musique - dans un seul modèle. USAD utilise une distillation efficace de couche à couche à partir de modèles SSL spécifiques à un domaine pour entraîner un étudiant sur un ensemble de données audio complet. USAD offre des performances compétitives sur divers benchmarks et ensembles de données, incluant des tâches de traitement de la parole au niveau des trames et des instances, ainsi que des tâches d'étiquetage audio et de classification de sons, atteignant des résultats proches de l'état de l'art avec un seul encodeur sur les benchmarks SUPERB et HEAR.

Perdus dans le mélange : Évaluation de la compréhension des LLM pour les textes en alternance codique
Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text

Jun 16

ByAmr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang

L'alternance codique (Code-Switching, CSW) désigne l'acte de passer d'une langue à une autre au sein d'un même discours. Ce phénomène est répandu dans les communautés multilingues et devient de plus en plus courant dans les contenus en ligne, où les utilisateurs mélangent naturellement les langues dans leurs communications quotidiennes. Par conséquent, les modèles de langage de grande taille (LLMs), désormais centraux dans le traitement et la génération de contenu, sont fréquemment exposés à des entrées en alternance codique. Étant donné leur utilisation généralisée, il est crucial de comprendre comment les LLMs traitent et raisonnent sur ces textes multilingues. Cet article présente une évaluation systématique de la compréhension des LLMs face à l'alternance codique en générant des variantes CSW de benchmarks établis en raisonnement et compréhension. Bien qu'une dégradation soit évidente lorsque des tokens étrangers perturbent le texte en anglais—même sous contraintes linguistiques—l'intégration de l'anglais dans d'autres langues améliore souvent la compréhension. Si l'utilisation de prompts donne des résultats mitigés, le fine-tuning offre une voie plus stable pour atténuer la dégradation.

L'Affinage Orthogonal Rendu Évolutif
Orthogonal Finetuning Made Scalable

Jun 24

ByZeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Schölkopf

L'ajustement orthogonal (OFT) offre une adaptation hautement efficace en termes de paramètres tout en évitant l'oubli catastrophique, mais ses exigences élevées en temps d'exécution et en mémoire limitent son déploiement pratique. Nous identifions le principal goulot d'étranglement computationnel dans OFT comme son implémentation centrée sur les poids, qui repose sur des multiplications matricielles coûteuses avec une complexité cubique. Pour surmonter cela, nous proposons OFTv2, une reformulation centrée sur les entrées qui utilise à la place des multiplications matrice-vecteur (c'est-à-dire un calcul sans matrice), réduisant ainsi le coût computationnel à une complexité quadratique. Nous introduisons également la paramétrisation de Cayley-Neumann, une paramétrisation orthogonale efficace qui approxime l'inversion matricielle dans la transformation de Cayley via une série de Neumann tronquée. Ces modifications permettent à OFTv2 d'atteindre jusqu'à 10 fois plus de rapidité d'entraînement et une utilisation de mémoire GPU 3 fois plus faible sans compromettre les performances. De plus, nous étendons OFTv2 pour prendre en charge l'ajustement de modèles de base quantifiés et montrons qu'il surpasse la méthode populaire QLoRA en termes de stabilité d'entraînement, d'efficacité et d'utilisation de la mémoire.

Pourquoi les LLM open source peinent-ils dans l'analyse de données ? Une étude empirique systématique
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

Jun 24

ByYuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang

Les grands modèles de langage (LLMs) offrent des perspectives prometteuses pour automatiser les tâches d'analyse de données, mais les modèles open source rencontrent des limitations significatives dans ces scénarios exigeants en raisonnement. Dans ce travail, nous explorons des stratégies pour améliorer les capacités d'analyse de données des LLMs open source. En constituant un jeu de données initial de scénarios diversifiés et réalistes, nous évaluons les modèles selon trois dimensions : compréhension des données, génération de code et planification stratégique. Notre analyse révèle trois conclusions clés : (1) La qualité de la planification stratégique est le principal déterminant de la performance des modèles ; (2) La conception des interactions et la complexité des tâches influencent significativement les capacités de raisonnement ; (3) La qualité des données a un impact plus important que la diversité pour atteindre une performance optimale. Nous exploitons ces insights pour développer une méthodologie de synthèse de données, démontrant des améliorations significatives dans les capacités de raisonnement analytique des LLMs open source.

Amélioration de la génération progressive avec l'appariement de flux décomposable
Improving Progressive Generation with Decomposable Flow Matching

Jun 24

ByMoayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin

La génération de modalités visuelles en haute dimension est une tâche nécessitant une importante puissance de calcul. Une solution courante consiste en une génération progressive, où les sorties sont synthétisées de manière spectrale autorégressive, du grossier au fin. Bien que les modèles de diffusion bénéficient de la nature grossière à fine du débruitage, les architectures explicites en plusieurs étapes sont rarement adoptées. Ces architectures ont accru la complexité de l'approche globale, introduisant la nécessité d'une formulation de diffusion personnalisée, de transitions d'étapes dépendantes de la décomposition, d'échantillonneurs ad hoc ou d'une cascade de modèles. Notre contribution, le *Decomposable Flow Matching* (DFM), est un cadre simple et efficace pour la génération progressive de médias visuels. DFM applique le *Flow Matching* de manière indépendante à chaque niveau d'une représentation multi-échelle définie par l'utilisateur (telle que la pyramide de Laplacian). Comme le montrent nos expériences, notre approche améliore la qualité visuelle pour les images et les vidéos, offrant des résultats supérieurs par rapport aux cadres multi-étapes précédents. Sur Imagenet-1k 512px, DFM atteint une amélioration de 35,2 % des scores FDD par rapport à l'architecture de base et de 26,4 % par rapport à la meilleure référence, avec la même puissance de calcul d'entraînement. Lorsqu'il est appliqué au réglage fin de grands modèles, tels que FLUX, DFM montre une vitesse de convergence plus rapide vers la distribution d'entraînement. De manière cruciale, tous ces avantages sont obtenus avec un seul modèle, une simplicité architecturale et des modifications minimales des pipelines d'entraînement existants.

KnowRL : Exploration de l'apprentissage par renforcement informé pour la factualité
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality

Jun 24

ByBaochang Ren, Shuofei Qiao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Les modèles de langage de grande taille (LLMs), en particulier les modèles à pensée lente, présentent souvent des hallucinations sévères, produisant un contenu incorrect en raison de leur incapacité à reconnaître avec précision les limites des connaissances lors du raisonnement. Bien que l'apprentissage par renforcement (RL) puisse améliorer les capacités de raisonnement complexe, son mécanisme de récompense axé sur les résultats manque souvent de supervision factuelle sur le processus de pensée, exacerbant ainsi le problème d'hallucination. Pour remédier à l'hallucination élevée dans les modèles à pensée lente, nous proposons le RL amélioré par la connaissance, KnowRL. KnowRL guide les modèles à effectuer une pensée lente basée sur les faits en intégrant une récompense de factualité, basée sur la vérification des connaissances, dans le processus de formation RL, les aidant à reconnaître leurs limites de connaissances. KnowRL guide les modèles à effectuer une pensée lente basée sur les faits en intégrant une récompense de factualité, basée sur la vérification des connaissances, dans le processus de formation RL, les aidant à reconnaître leurs limites de connaissances. Cet apport factuel ciblé pendant la formation RL permet au modèle d'apprendre et d'intérioriser des stratégies de raisonnement basées sur les faits. En récompensant directement l'adhésion aux faits dans les étapes de raisonnement, KnowRL favorise un processus de pensée plus fiable. Les résultats expérimentaux sur trois ensembles de données d'évaluation des hallucinations et deux ensembles de données d'évaluation du raisonnement démontrent que KnowRL atténue efficacement les hallucinations dans les modèles à pensée lente tout en maintenant leurs fortes capacités de raisonnement d'origine. Notre code est disponible à l'adresse https://github.com/zjunlp/KnowRL.

Optimisation des modèles de prédiction et de maintenance intelligente pour améliorer l'efficacité de la production d'énergie éolienne
Intelligent Operation and Maintenance and Prediction Model Optimization for Improving Wind Power Generation Efficiency

Jun 19

ByXun Liu, Xiaobin Wu, Jiaqi He, Rajan Das Gupta

Cette étude explore l'efficacité des modèles de maintenance prédictive et l'optimisation des systèmes intelligents d'exploitation et de maintenance (O&M) pour améliorer l'efficacité de la production d'énergie éolienne. À travers une recherche qualitative, des entretiens structurés ont été menés avec cinq ingénieurs et responsables de maintenance de parcs éoliens, chacun disposant d'une expérience approfondie dans les opérations de turbines. En utilisant une analyse thématique, l'étude a révélé que si les modèles de maintenance prédictive réduisent efficacement les temps d'arrêt en identifiant les pannes majeures, ils peinent souvent à détecter les défaillances plus petites et graduelles. Les principaux défis identifiés incluent les faux positifs, les dysfonctionnements des capteurs et les difficultés d'intégration des nouveaux modèles avec les systèmes de turbines plus anciens. Les technologies avancées telles que les jumeaux numériques, les systèmes SCADA et la surveillance de l'état ont considérablement amélioré les pratiques de maintenance des turbines. Cependant, ces technologies nécessitent encore des améliorations, notamment dans le raffinement de l'IA et l'intégration des données en temps réel. Les résultats soulignent la nécessité d'un développement continu pour optimiser pleinement les performances des éoliennes et soutenir l'adoption plus large des énergies renouvelables.

Mem4Nav : Amélioration de la navigation vision-langage en environnements urbains grâce à un système hiérarchique de mémoire à long-court terme avec cognition spatiale
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

Jun 24

ByLixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li

La navigation vision-langage (VLN) dans des environnements urbains à grande échelle exige que les agents incarnés ancrent des instructions linguistiques dans des scènes complexes et se souviennent d'expériences pertinentes sur des horizons temporels étendus. Les pipelines modulaires antérieurs offrent une interprétabilité mais manquent de mémoire unifiée, tandis que les agents (M)LLM de bout en bout excellent dans la fusion de la vision et du langage mais restent limités par des fenêtres de contexte fixes et un raisonnement spatial implicite. Nous présentons Mem4Nav, un système de mémoire hiérarchique à long et court terme pour la cognition spatiale, qui peut enrichir n'importe quelle architecture VLN. Mem4Nav fusionne un octree parcimonieux pour l'indexation fine de voxels avec un graphe topologique sémantique pour la connectivité de points de repère de haut niveau, stockant les deux dans des tokens de mémoire entraînables intégrés via un Transformer réversible. La mémoire à long terme (LTM) compresse et conserve les observations historiques à la fois dans l'octree et les nœuds du graphe, tandis que la mémoire à court terme (STM) met en cache les entrées multimodales récentes en coordonnées relatives pour l'évitement d'obstacles en temps réel et la planification locale. À chaque étape, la récupération de la STM réduit considérablement le contexte dynamique, et, lorsqu'un historique plus profond est nécessaire, les tokens de la LTM sont décodés sans perte pour reconstruire les embeddings passés. Évalué sur Touchdown et Map2Seq avec trois architectures (modulaire, VLN de pointe avec LLM basé sur des prompts, et VLN de pointe avec MLLM à attention étendue), Mem4Nav apporte des gains de 7 à 13 points de pourcentage dans l'achèvement des tâches, une réduction suffisante de la SPD, et une amélioration de plus de 10 points de pourcentage du nDTW. Les ablations confirment l'indispensabilité à la fois de la carte hiérarchique et des modules de mémoire duale. Nos codes sont open-source via https://github.com/tsinghua-fib-lab/Mem4Nav.

Quantifier l'équité dans les LLM au-delà des tokens : une perspective sémantique et statistique
Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective

Jun 23

ByWeijie Xu, Yiwen Wang, Chi Xue, Xiangkun Hu, Xi Fang, Guimin Dong, Chandan K. Reddy

Les modèles de langage de grande taille (LLMs) génèrent souvent des réponses présentant des biais inhérents, compromettant ainsi leur fiabilité dans des applications réelles. Les méthodes d'évaluation existantes négligent souvent les biais dans les réponses longues et la variabilité intrinsèque des sorties des LLMs. Pour relever ces défis, nous proposons FiSCo (Fine-grained Semantic Computation), un cadre statistique novateur visant à évaluer l'équité au niveau des groupes dans les LLMs en détectant des différences sémantiques subtiles dans les réponses longues entre différents groupes démographiques. Contrairement aux travaux antérieurs axés sur le sentiment ou les comparaisons au niveau des tokens, FiSCo va au-delà de l'analyse superficielle en opérant au niveau des affirmations, en exploitant des vérifications d'implication pour évaluer la cohérence sémantique entre les réponses. Nous décomposons les sorties du modèle en affirmations sémantiquement distinctes et appliquons des tests d'hypothèses statistiques pour comparer les similarités inter et intra-groupes, permettant ainsi une détection robuste des biais subtils. Nous formalisons une nouvelle définition de l'équité contrefactuelle au niveau des groupes et validons FiSCo sur des ensembles de données synthétiques et annotés par des humains, couvrant le genre, la race et l'âge. Les expériences montrent que FiSCo identifie de manière plus fiable les biais nuancés tout en réduisant l'impact de la variabilité stochastique des LLMs, surpassant diverses métriques d'évaluation.