HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

20 papers found

Agent-R : Entraînement d'agents de modélisation linguistique pour la réflexion via un auto-entraînement itératif
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Jan 20

BySiyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen

107

Les grands modèles de langage (LLM) sont de plus en plus essentiels pour aborder des tâches complexes dans des environnements interactifs. Les travaux existants se concentrent principalement sur l'amélioration des performances grâce à la clonage de comportement à partir d'experts plus forts, cependant, de telles approches échouent souvent dans des applications du monde réel, principalement en raison de l'incapacité à récupérer des erreurs. Cependant, les données de critique au niveau de l'étape sont difficiles et coûteuses à collecter. Automatiser et construire dynamiquement des ensembles de données d'auto-critique est donc crucial pour doter les modèles de capacités d'agent intelligent. Dans ce travail, nous proposons un cadre d'auto-formation itératif, Agent-R, qui permet à l'agent de langage de réfléchir en temps réel. Contrairement aux méthodes traditionnelles qui récompensent ou pénalisent les actions en fonction de leur correction, Agent-R exploite MCTS pour construire des données d'entraînement qui récupèrent des trajectoires correctes à partir de celles erronées. Un défi clé de la réflexion de l'agent réside dans la nécessité d'une révision rapide plutôt que d'attendre la fin d'un déploiement. Pour y remédier, nous introduisons un mécanisme de construction de critique guidé par le modèle : le modèle d'acteur identifie la première étape d'erreur (dans sa capacité actuelle) dans une trajectoire échouée. À partir de là, nous la fusionnons avec le chemin correct adjacent, qui partage le même nœud parent dans l'arbre. Cette stratégie permet au modèle d'apprendre la réflexion en fonction de sa politique actuelle, offrant ainsi une meilleure efficacité d'apprentissage. Pour explorer davantage la scalabilité de ce paradigme d'auto-amélioration, nous étudions le raffinement itératif des capacités de correction d'erreur et de construction de jeu de données. Nos résultats démontrent qu'Agent-R améliore continuellement la capacité du modèle à récupérer des erreurs et permet une correction d'erreur en temps opportun. Des expériences menées sur trois environnements interactifs montrent qu'Agent-R dote efficacement les agents de la capacité de corriger des actions erronées tout en évitant les boucles, atteignant des performances supérieures par rapport aux méthodes de base (+5,59%).

MMVU : Mesurer la compréhension vidéo multi-disciplinaire de niveau expert
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

Jan 21

ByYilun Zhao, Lujing Xie, Haowei Zhang, Guo Gan, Yitao Long, Zhiyuan Hu, Tongyan Hu, Weiyuan Chen, Chuhan Li, Junyang Song, Zhijian Xu, Chengye Wang, Weifeng Pan, Ziyao Shangguan, Xiangru Tang, Zhenwen Liang, Yixin Liu, Chen Zhao, Arman Cohan

Nous présentons MMVU, un benchmark expert de niveau avancé et multidisciplinaire pour évaluer les modèles fondamentaux en compréhension vidéo. MMVU comprend 3 000 questions annotées par des experts couvrant 27 sujets répartis dans quatre disciplines principales : Sciences, Santé, Sciences humaines et sociales, et Ingénierie. Comparé aux benchmarks précédents, MMVU présente trois avancées clés. Tout d'abord, il met au défi les modèles d'appliquer des connaissances spécifiques au domaine et de réaliser un raisonnement de niveau expert pour analyser des vidéos de domaines spécialisés, allant au-delà de la perception visuelle de base généralement évaluée dans les benchmarks vidéo actuels. Deuxièmement, chaque exemple est annoté par des experts humains à partir de zéro. Nous mettons en place des contrôles stricts de la qualité des données pour garantir la haute qualité de l'ensemble de données. Enfin, chaque exemple est enrichi de justifications annotées par des experts et de connaissances de domaine pertinentes, facilitant l'analyse approfondie. Nous menons une évaluation approfondie de 32 modèles fondamentaux multimodaux de pointe sur MMVU. Les derniers modèles capables de System-2, o1 et Gemini 2.0 Flash Thinking, obtiennent les meilleures performances parmi les modèles testés. Cependant, ils restent encore en deçà de l'expertise humaine. À travers des analyses d'erreurs approfondies et des études de cas, nous proposons des perspectives exploitables pour les avancées futures en compréhension vidéo de niveau expert et intensive en connaissances pour des domaines spécialisés.

Les démons dans les détails : Sur la mise en œuvre de la perte d'équilibrage de charge pour l'entraînement de modèles spécialisés de mélange d'experts.
Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

Jan 21

ByZihan Qiu, Zeyu Huang, Bo Zheng, Kaiyue Wen, Zekun Wang, Rui Men, Ivan Titov, Dayiheng Liu, Jingren Zhou, Junyang Lin

Ce document revisite la mise en œuvre de la perte d'équilibrage de charge (LBL) lors de l'entraînement des modèles de Mélange d'Experts (MoEs). Plus précisément, la LBL pour les MoEs est définie comme la somme de N_E pour i allant de 1 à N_E de f_i p_i, où N_E est le nombre total d'experts, f_i représente la fréquence de sélection de l'expert i, et p_i désigne le score de sélection moyen de l'expert i. Les cadres d'entraînement MoE existants utilisent généralement la stratégie d'entraînement parallèle de sorte que f_i et la LBL sont calculés au sein d'une micro-batch puis moyennés à travers des groupes parallèles. En essence, une micro-batch pour l'entraînement des LLM à l'échelle du milliard contient normalement très peu de séquences. Ainsi, la LBL de la micro-batch est presque au niveau de la séquence, et le routeur est poussé à distribuer le jeton de manière égale au sein de chaque séquence. Sous cette contrainte stricte, même les jetons d'une séquence spécifique au domaine (par exemple, du code) sont acheminés uniformément vers tous les experts, inhibant ainsi la spécialisation des experts. Dans ce travail, nous proposons de calculer la LBL en utilisant une global-batch pour lever cette contrainte. Étant donné qu'une global-batch contient beaucoup plus de séquences diverses qu'une micro-batch, cela encouragera l'équilibrage de charge au niveau du corpus. Plus précisément, nous introduisons une étape de communication supplémentaire pour synchroniser f_i à travers les micro-batches, puis l'utilisons pour calculer la LBL. À travers des expériences sur l'entraînement de LLM basés sur MoEs (jusqu'à 42,8 milliards de paramètres au total et 400 milliards de jetons), nous constatons de manière surprenante que la stratégie de LBL de la global-batch entraîne d'excellents gains de performance à la fois en termes de perplexité de pré-entraînement et de tâches en aval. Notre analyse révèle que la LBL de la global-batch améliore également grandement la spécialisation de domaine des experts MoE.

UI-TARS : Interaction automatisée révolutionnaire avec des agents natifs de l'interface utilisateur graphique
UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Jan 21

ByYujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang, Shizuo Tian, Junda Zhang, Jiahao Li, Yunxin Li, Shijue Huang, Wanjun Zhong, Kuanye Li, Jiale Yang, Yu Miao, Woyu Lin, Longxiang Liu, Xu Jiang, Qianli Ma, Jingyu Li, Xiaojun Xiao, Kai Cai, Chuang Li, Yaowei Zheng, Chaolin Jin, Chen Li, Xiao Zhou, Minchao Wang, Haoli Chen, Zhaojian Li, Haihua Yang, Haifeng Liu, Feng Lin, Tao Peng, Xin Liu, Guang Shi

Cet article présente UI-TARS, un modèle d'agent GUI natif qui perçoit uniquement les captures d'écran en entrée et effectue des interactions semblables à celles des humains (par exemple, des opérations au clavier et à la souris). Contrairement aux cadres d'agents prédominants qui dépendent fortement de modèles commerciaux fortement encapsulés (par exemple, GPT-4o) avec des invites et des flux de travail expertement conçus, UI-TARS est un modèle de bout en bout qui surpasse ces cadres sophistiqués. Les expériences démontrent ses performances supérieures : UI-TARS atteint des performances de pointe dans plus de 10 benchmarks d'agents GUI évaluant la perception, l'ancrage et l'exécution des tâches GUI. Notamment, dans le benchmark OSWorld, UI-TARS obtient des scores de 24,6 avec 50 étapes et de 22,7 avec 15 étapes, surpassant Claude (22,0 et 14,9 respectivement). Dans AndroidWorld, UI-TARS atteint 46,6, dépassant GPT-4o (34,5). UI-TARS intègre plusieurs innovations clés : (1) Perception Améliorée : en tirant parti d'un ensemble de données à grande échelle de captures d'écran GUI pour une compréhension contextuelle des éléments GUI et une légende précise ; (2) Modélisation d'Action Unifiée, qui normalise les actions dans un espace unifié à travers les plateformes et atteint un ancrage précis et une interaction à travers des traces d'actions à grande échelle ; (3) Raisonnement Système-2, qui intègre un raisonnement délibéré dans la prise de décision en plusieurs étapes, impliquant plusieurs schémas de raisonnement tels que la décomposition des tâches, la réflexion, la reconnaissance des étapes, etc. ; (4) Entraînement Itératif avec Traces Réfléchies en Ligne, qui aborde le goulot d'étranglement des données en collectant automatiquement, en filtrant et en affinant de manière réfléchie de nouvelles traces d'interaction sur des centaines de machines virtuelles. Grâce à l'entraînement itératif et à l'ajustement réfléchi, UI-TARS apprend continuellement de ses erreurs et s'adapte aux situations imprévues avec une intervention humaine minimale. Nous analysons également le chemin d'évolution des agents GUI pour guider le développement ultérieur de ce domaine.

Hunyuan3D 2.0 : Mise à l'échelle des modèles de diffusion pour la génération d'actifs 3D texturés haute résolution
Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation

Jan 21

ByZibo Zhao, Zeqiang Lai, Qingxiang Lin, Yunfei Zhao, Haolin Liu, Shuhui Yang, Yifei Feng, Mingxin Yang, Sheng Zhang, Xianghui Yang, Huiwen Shi, Sicong Liu, Junta Wu, Yihang Lian, Fan Yang, Ruining Tang, Zebin He, Xinzhou Wang, Jian Liu, Xuhui Zuo, Zhuo Chen, Biwen Lei, Haohan Weng, Jing Xu, Yiling Zhu, Xinhai Liu, Lixin Xu, Changrong Hu, Tianyu Huang, Lifu Wang, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Yulin Cai, Jiaao Yu, Yixuan Tang, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Chao Zhang, Yonghao Tan, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Zhichao Hu, Lei Qin, Jianbing Peng, Zhan Li, Minghui Chen, Xipeng Zhang, Lin Niu, Paige Wang, Yingkai Wang, Haozhao Kuang, Zhongyi Fan, Xu Zheng, Weihao Zhuang, YingPing He, Tian Liu, Yong Yang, Di Wang, Yuhong Liu, Jie Jiang, Jingwei Huang, Chunchao Guo

Nous présentons Hunyuan3D 2.0, un système avancé de synthèse 3D à grande échelle pour générer des actifs 3D texturés haute résolution. Ce système comprend deux composants fondamentaux : un modèle de génération de forme à grande échelle - Hunyuan3D-DiT, et un modèle de synthèse de texture à grande échelle - Hunyuan3D-Paint. Le modèle de génération de forme, basé sur un transformateur de diffusion à flux évolutif, vise à créer une géométrie qui s'aligne correctement avec une image de condition donnée, posant ainsi des bases solides pour les applications en aval. Le modèle de synthèse de texture, bénéficiant de forts a priori géométriques et de diffusion, produit des cartes de texture haute résolution et vibrantes pour des maillages générés ou fabriqués à la main. De plus, nous avons développé Hunyuan3D-Studio - une plateforme de production polyvalente et conviviale qui simplifie le processus de recréation des actifs 3D. Elle permet aux utilisateurs professionnels et amateurs de manipuler voire d'animer efficacement leurs maillages. Nous évaluons systématiquement nos modèles, démontrant que Hunyuan3D 2.0 surpasse les modèles précédents de pointe, y compris les modèles open-source et les modèles propriétaires en termes de détails géométriques, d'alignement des conditions, de qualité de texture, etc. Hunyuan3D 2.0 est publié publiquement afin de combler les lacunes dans la communauté open-source 3D pour les modèles génératifs de base à grande échelle. Le code et les poids pré-entraînés de nos modèles sont disponibles sur : https://github.com/Tencent/Hunyuan3D-2

TokenVerse : Personnalisation polyvalente multi-conceptuelle dans l'espace de modulation de jetons
TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space

Jan 21

ByDaniel Garibi, Shahar Yadin, Roni Paiss, Omer Tov, Shiran Zada, Ariel Ephrat, Tomer Michaeli, Inbar Mosseri, Tali Dekel

Nous présentons TokenVerse - une méthode de personnalisation multi-concepts, exploitant un modèle de diffusion texte-image pré-entraîné. Notre cadre peut démêler des éléments visuels et des attributs complexes à partir d'une seule image, tout en permettant la génération plug-and-play sans heurt de combinaisons de concepts extraits de plusieurs images. Contrairement aux travaux existants, TokenVerse peut gérer plusieurs images avec plusieurs concepts chacune, et prend en charge une large gamme de concepts, y compris les objets, accessoires, matériaux, poses et éclairages. Notre travail exploite un modèle texte-image basé sur DiT, dans lequel le texte d'entrée influence la génération à la fois par l'attention et la modulation (décalage et échelle). Nous observons que l'espace de modulation est sémantique et permet un contrôle localisé sur des concepts complexes. En nous appuyant sur cette observation, nous concevons un cadre basé sur l'optimisation qui prend en entrée une image et une description textuelle, et trouve pour chaque mot une direction distincte dans l'espace de modulation. Ces directions peuvent ensuite être utilisées pour générer de nouvelles images combinant les concepts appris dans une configuration souhaitée. Nous démontrons l'efficacité de TokenVerse dans des paramètres de personnalisation complexes, et mettons en avant ses avantages par rapport aux méthodes existantes. Page web du projet : https://token-verse.github.io/

InternLM-XComposer2.5-Récompense : un modèle de récompense multimodal simple mais efficace
InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

Jan 21

ByYuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Ziyu Liu, Shengyuan Ding, Shenxi Wu, Yubo Ma, Haodong Duan, Wenwei Zhang, Kai Chen, Dahua Lin, Jiaqi Wang

Malgré les performances prometteuses des Grands Modèles de Langage et de Vision (LVLM) dans la compréhension visuelle, ils génèrent parfois des sorties incorrectes. Alors que les modèles de récompense (RMs) avec l'apprentissage par renforcement ou l'ajustement à l'échelle au moment du test offrent le potentiel d'améliorer la qualité de génération, une lacune critique persiste : les RMs multimodaux disponibles publiquement pour les LVLM sont rares, et les détails de mise en œuvre des modèles propriétaires sont souvent peu clairs. Nous comblons cette lacune avec InternLM-XComposer2.5-Reward (IXC-2.5-Reward), un modèle de récompense multimodal simple mais efficace qui aligne les LVLM sur les préférences humaines. Pour garantir la robustesse et la polyvalence de l'IXC-2.5-Reward, nous avons mis en place un corpus de préférences multimodal de haute qualité couvrant des entrées textuelles, d'image et vidéo dans divers domaines, tels que le suivi des instructions, la compréhension générale, les documents riches en texte, le raisonnement mathématique et la compréhension vidéo. L'IXC-2.5-Reward obtient d'excellents résultats sur le dernier banc d'essai de modèles de récompense multimodaux et montre des performances compétitives sur les bancs d'essai de modèles de récompense textuels uniquement. Nous démontrons en outre trois applications clés de l'IXC-2.5-Reward : (1) Fournir un signal de supervision pour l'entraînement par RL. Nous intégrons l'IXC-2.5-Reward avec l'Optimisation de Politique Proximale (PPO) pour obtenir l'IXC-2.5-Chat, qui montre des améliorations constantes dans le suivi des instructions et le dialogue multimodal ouvert ; (2) Sélectionner la meilleure réponse parmi les réponses candidates pour l'ajustement à l'échelle au moment du test ; et (3) Filtrer les échantillons aberrants ou bruyants des données d'entraînement existantes pour l'ajustement des instructions d'image et de vidéo. Pour garantir la reproductibilité et faciliter les recherches ultérieures, nous avons rendu tous les poids des modèles et les recettes d'entraînement disponibles en open source sur https://github.com/InternLM/InternLM-XComposer.

Modèles de langage de raisonnement : un plan directeur
Reasoning Language Models: A Blueprint

Jan 20

ByMaciej Besta, Julia Barth, Eric Schreiber, Ales Kubicek, Afonso Catarino, Robert Gerstenberger, Piotr Nyczyk, Patrick Iff, Yueling Li, Sam Houliston, Tomasz Sternal, Marcin Copik, Grzegorz Kwaśniewski, Jürgen Müller, Łukasz Flis, Hannes Eberhard, Hubert Niewiadomski, Torsten Hoefler

Les modèles de langage de raisonnement (RLM), également connus sous le nom de grands modèles de raisonnement (LRM), tels que o1 et o3 d'OpenAI, DeepSeek-V3 et QwQ d'Alibaba, ont redéfini les capacités de résolution de problèmes de l'IA en étendant les grands modèles de langage (LLM) avec des mécanismes de raisonnement avancés. Cependant, leurs coûts élevés, leur nature propriétaire et leurs architectures complexes - combinant de manière unique l'apprentissage par renforcement (RL), des heuristiques de recherche et des LLM - présentent des défis en termes d'accessibilité et de scalabilité. Pour y remédier, nous proposons un plan détaillé qui organise les composants des RLM dans un cadre modulaire, basé sur une enquête et une analyse de tous les travaux sur les RLM. Ce plan intègre diverses structures de raisonnement (chaînes, arbres, graphes et formes imbriquées), des stratégies de raisonnement (par exemple, Monte Carlo Tree Search, Beam Search), des concepts de RL (modèles de politique, de valeur et autres) et des schémas de supervision (supervision basée sur la sortie et basée sur le processus). Nous fournissons également des formulations mathématiques détaillées et des spécifications algorithmiques pour simplifier la mise en œuvre des RLM. En montrant comment des schémas comme LLaMA-Berry, QwQ, Journey Learning et Graph of Thoughts s'intègrent en tant que cas spéciaux, nous démontrons la polyvalence et le potentiel unificateur du plan. Pour illustrer son utilité, nous présentons x1, une implémentation modulaire pour un prototypage et une expérimentation rapides des RLM. En utilisant x1 et une revue de la littérature, nous fournissons des idées clés, telles que l'entraînement en plusieurs phases pour les modèles de politique et de valeur, et l'importance des distributions d'entraînement familières. Enfin, nous décrivons comment les RLM peuvent s'intégrer dans un écosystème LLM plus large, y compris des outils et des bases de données. Notre travail démystifie la construction des RLM, démocratise les capacités de raisonnement avancées et favorise l'innovation, visant à atténuer l'écart entre l'IA "riche" et l'IA "pauvre" en réduisant les obstacles au développement et à l'expérimentation des RLM.

Agent Mobile-E : Assistant Mobile Auto-Évolutif pour les Tâches Complexes
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

Jan 20

ByZhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji

Les smartphones sont devenus indispensables dans la vie moderne, cependant, la réalisation de tâches complexes sur les appareils mobiles reste souvent frustrante. Les récents progrès des agents mobiles basés sur de grands modèles multimodaux (LMM) ont démontré la capacité de percevoir et d'agir dans des environnements mobiles. Cependant, les approches actuelles présentent des limitations significatives : elles peinent à répondre aux besoins humains réels, rencontrent des difficultés avec les tâches nécessitant un raisonnement intensif et à long terme, et manquent de mécanismes pour apprendre et s'améliorer à partir d'expériences antérieures. Pour surmonter ces défis, nous présentons Mobile-Agent-E, un cadre multi-agent hiérarchique capable d'auto-évolution à travers l'expérience passée. Par hiérarchique, nous entendons une séparation explicite entre la planification haut-niveau et l'exécution d'actions bas-niveau. Le cadre comprend un Gestionnaire, chargé d'élaborer des plans globaux en décomposant des tâches complexes en sous-objectifs, et quatre agents subordonnés - Percepteur, Opérateur, Réflecteur d'Action et Preneur de Notes - qui gèrent respectivement la perception visuelle fine, l'exécution d'actions immédiates, la vérification d'erreurs et l'agrégation d'informations. Mobile-Agent-E comprend également un module d'auto-évolution novateur qui maintient une mémoire à long terme persistante comprenant des Astuces et des Raccourcis. Les Astuces sont des conseils généraux et des leçons apprises à partir de tâches antérieures sur la manière d'interagir efficacement avec l'environnement. Les Raccourcis sont des séquences réutilisables et exécutables d'opérations atomiques adaptées à des sous-routines spécifiques. L'inclusion des Astuces et des Raccourcis facilite un affinement continu des performances et de l'efficacité. En parallèle de ce cadre, nous présentons Mobile-Eval-E, un nouvel banc d'essai comprenant des tâches mobiles complexes nécessitant des interactions multi-applications à long terme. Les résultats empiriques montrent que Mobile-Agent-E réalise une amélioration absolue de 22 % par rapport aux approches précédentes de pointe sur trois bases de modèles fondamentaux. Page du projet : https://x-plug.github.io/MobileAgent.

Apprentissage par interaction : un cadre centré sur les données pour les agents auto-adaptatifs dans des environnements réalistes
Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments

Jan 18

ByHongjin Su, Ruoxi Sun, Jinsung Yoon, Pengcheng Yin, Tao Yu, Sercan Ö. Arık

Les agents autonomes alimentés par de grands modèles de langage (LLM) ont le potentiel d'améliorer les capacités humaines, en assistant dans des tâches numériques allant de l'envoi d'e-mails à l'analyse de données. Les capacités des LLM existants dans de telles tâches sont souvent entravées par le manque de données d'agent de haute qualité provenant des environnements correspondants avec lesquels ils interagissent. Nous proposons l'approche d'apprentissage par interaction, un cadre centré sur les données pour adapter les agents LLM à n'importe quel environnement donné sans annotations humaines. L'apprentissage par interaction synthétise des trajectoires d'interactions agent-environnement basées sur des documentations, et construit des instructions en résumant ou en abstrayant les historiques d'interaction, un processus appelé construction rétrograde. Nous évaluons la qualité de nos données synthétiques en les utilisant à la fois dans des scénarios basés sur l'entraînement et dans l'apprentissage en contexte sans entraînement (ICL), où nous concevons des approches de récupération innovantes optimisées pour les agents. Des expériences approfondies sur SWE-bench, WebArena, OSWorld et Spider2-V couvrant des environnements de codage, web et de bureau réalistes montrent l'efficacité de l'approche d'apprentissage par interaction dans diverses tâches agentic en aval -- les résultats de base sont améliorés jusqu'à 12,2\% pour l'ICL avec Claude-3.5 et 19,5\% pour l'entraînement avec Codestral-22B. Nous démontrons en outre le rôle critique de la construction rétrograde, qui offre jusqu'à 14,0\% d'amélioration pour l'entraînement. Nos études d'ablation montrent l'efficacité fournie par nos données synthétisées dans l'ICL et la supériorité de notre pipeline de récupération par rapport à des approches alternatives comme la génération augmentée par récupération conventionnelle (RAG). Nous prévoyons que l'approche d'apprentissage par interaction servira de base pour la synthèse de données d'agent alors que les LLM sont de plus en plus déployés dans des environnements réels.

Vidéo Profondeur Illimitée : Estimation Cohérente de la Profondeur pour les Vidéos Très Longues
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Jan 21

BySili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang

Depth Anything a connu un succès remarquable dans l'estimation de profondeur monoculaire avec une forte capacité de généralisation. Cependant, il souffre d'incohérences temporelles dans les vidéos, ce qui entrave ses applications pratiques. Diverses méthodes ont été proposées pour atténuer ce problème en exploitant des modèles de génération vidéo ou en introduisant des prédictions issues du flux optique et des poses de caméra. Néanmoins, ces méthodes ne s'appliquent qu'aux courtes vidéos (< 10 secondes) et nécessitent un compromis entre qualité et efficacité computationnelle. Nous proposons Video Depth Anything pour une estimation de profondeur de haute qualité et cohérente dans des vidéos super longues (plusieurs minutes) sans sacrifier l'efficacité. Nous basons notre modèle sur Depth Anything V2 et remplaçons sa tête par une tête spatiale-temporelle efficace. Nous concevons une perte de cohérence temporelle simple mais efficace en contraignant le gradient de profondeur temporelle, éliminant ainsi le besoin de prédictions géométriques supplémentaires. Le modèle est entraîné sur un ensemble de données conjoint de profondeur vidéo et d'images non étiquetées, similaire à Depth Anything V2. De plus, une nouvelle stratégie basée sur les images clés est développée pour l'inférence de vidéos longues. Les expériences montrent que notre modèle peut être appliqué à des vidéos de longueur arbitraire sans compromettre la qualité, la cohérence ou la capacité de généralisation. Des évaluations approfondies sur plusieurs référentiels vidéo démontrent que notre approche établit un nouvel état de l'art en matière d'estimation de profondeur vidéo sans apprentissage préalable. Nous proposons des modèles de différentes échelles pour prendre en charge divers scénarios, notre plus petit modèle étant capable de performances en temps réel à 30 FPS.

Suivez le courant : Modèles de diffusion vidéo contrôlables par le mouvement utilisant du bruit déformé en temps réel
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

Jan 14

ByRyan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu

La modélisation générative vise à transformer du bruit aléatoire en sorties structurées. Dans ce travail, nous améliorons les modèles de diffusion vidéo en permettant le contrôle du mouvement via un échantillonnage de bruit latent structuré. Cela est réalisé en modifiant simplement les données : nous prétraitons les vidéos d'entraînement pour obtenir un bruit structuré. Par conséquent, notre méthode est agnostique par rapport à la conception du modèle de diffusion, ne nécessitant aucune modification des architectures de modèle ou des pipelines d'entraînement. Plus précisément, nous proposons un nouvel algorithme de déformation du bruit, suffisamment rapide pour s'exécuter en temps réel, qui remplace la gaussienne temporelle aléatoire par un bruit déformé corrélé provenant des champs de flux optique, tout en préservant la gaussienne spatiale. L'efficacité de notre algorithme nous permet d'affiner les modèles de base de diffusion vidéo modernes en utilisant un bruit déformé avec un surcoût minimal, et de fournir une solution complète pour un large éventail de contrôles de mouvement conviviaux : contrôle du mouvement local d'objets, contrôle du mouvement global de la caméra et transfert de mouvement. L'harmonisation entre la cohérence temporelle et la gaussienne spatiale dans notre bruit déformé permet un contrôle efficace du mouvement tout en maintenant la qualité des pixels par image. Des expériences approfondies et des études utilisateur démontrent les avantages de notre méthode, en faisant une approche robuste et évolutive pour le contrôle du mouvement dans les modèles de diffusion vidéo. Les résultats vidéo sont disponibles sur notre page web : https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Le code source et les points de contrôle du modèle sont disponibles sur GitHub : https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.

GPS comme signal de contrôle pour la génération d'images.
GPS as a Control Signal for Image Generation

Jan 21

ByChao Feng, Ziyang Chen, Aleksander Holynski, Alexei A. Efros, Andrew Owens

Nous montrons que les balises GPS contenues dans les métadonnées des photos fournissent un signal de contrôle utile pour la génération d'images. Nous entraînons des modèles de GPS vers image et les utilisons pour des tâches nécessitant une compréhension fine de la variation des images à l'intérieur d'une ville. En particulier, nous entraînons un modèle de diffusion pour générer des images conditionnées à la fois par le GPS et le texte. Le modèle appris génère des images qui capturent l'apparence distinctive des différents quartiers, parcs et monuments. Nous extrayons également des modèles 3D à partir de modèles de GPS vers image 2D grâce à un échantillonnage de distillation de score, en utilisant le conditionnement GPS pour contraindre l'apparence de la reconstruction depuis chaque point de vue. Nos évaluations suggèrent que nos modèles conditionnés par GPS apprennent avec succès à générer des images variant en fonction de l'emplacement, et que le conditionnement GPS améliore la structure 3D estimée.

Condor : Améliorer l'alignement LLM avec la synthèse et le raffinement des données basés sur la connaissance.
Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement

Jan 21

ByMaosong Cao, Taolin Zhang, Mo Li, Chuyu Zhang, Yunxin Liu, Haodong Duan, Songyang Zhang, Kai Chen

La qualité des données de Fine-Tuning Supervisé (FTS) joue un rôle crucial dans l'amélioration des capacités conversationnelles des Grands Modèles de Langage (GML). Cependant, à mesure que les GML deviennent plus avancés, la disponibilité de données de FTS de haute qualité annotées par des humains est devenue un goulot d'étranglement significatif, nécessitant une plus grande dépendance à l'égard de données d'entraînement synthétiques. Dans ce travail, nous présentons Condor, un nouveau cadre de génération de données synthétiques en deux étapes qui intègre l'Arbre de Connaissances Mondial et le Raffinement par Auto-Réflexion pour produire des données de FTS de haute qualité à grande échelle. Nos résultats expérimentaux démontrent qu'un modèle de base affiné sur seulement 20 000 échantillons générés par Condor atteint des performances supérieures par rapport à ses homologues. L'étape de raffinement supplémentaire dans Condor permet en outre une auto-amélioration itérative des GML à différentes échelles (jusqu'à 72 milliards), validant l'efficacité de notre approche. De plus, notre étude sur la mise à l'échelle des données synthétiques en post-entraînement révèle un potentiel substantiel non exploré pour des améliorations de performances, ouvrant des perspectives prometteuses pour la recherche future.

EMO2 : Génération de vidéos d'avatar guidée par audio et dirigée par l'effecteur final
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation

Jan 18

ByLinrui Tian, Siqi Hu, Qi Wang, Bang Zhang, Liefeng Bo

Dans cet article, nous proposons une nouvelle méthode de génération de tête parlante pilotée par l'audio capable de générer simultanément des expressions faciales et des gestes de la main hautement expressifs. Contrairement aux méthodes existantes qui se concentrent sur la génération de poses de corps entier ou de demi-corps, nous examinons les défis de la génération de gestes co-verbaux et identifions la faible correspondance entre les caractéristiques audio et les gestes de corps entier comme une limitation clé. Pour y remédier, nous redéfinissons la tâche comme un processus en deux étapes. Dans la première étape, nous générons directement des poses de main à partir de l'entrée audio, en exploitant la forte corrélation entre les signaux audio et les mouvements de la main. Dans la deuxième étape, nous utilisons un modèle de diffusion pour synthétiser des images vidéo, en incorporant les poses de main générées dans la première étape pour produire des expressions faciales réalistes et des mouvements corporels. Nos résultats expérimentaux démontrent que la méthode proposée surpasse les approches de pointe, telles que CyberHost et Vlogger, en termes de qualité visuelle et de précision de synchronisation. Ce travail offre une nouvelle perspective sur la génération de gestes pilotée par l'audio et un cadre robuste pour créer des animations de tête parlante expressives et naturelles.

MSTS : Une suite de tests de sécurité multimodale pour les modèles vision-langage
MSTS: A Multimodal Safety Test Suite for Vision-Language Models

Jan 17

ByPaul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen

Les modèles vision-langage (VLM), qui traitent des entrées d'images et de texte, sont de plus en plus intégrés dans les assistants de discussion et d'autres applications d'IA grand public. Cependant, sans les protections adéquates, les VLM peuvent donner des conseils nuisibles (par exemple, sur l'automutilation) ou encourager des comportements dangereux (par exemple, la consommation de drogues). Malgré ces risques évidents, peu de travaux ont évalué jusqu'à présent la sécurité des VLM et les nouveaux risques créés par les entrées multimodales. Pour combler cette lacune, nous présentons MSTS, une Suite de Tests de Sécurité Multimodale pour les VLM. MSTS comprend 400 invitations de test réparties dans 40 catégories de risques détaillées. Chaque invitation de test se compose d'un texte et d'une image qui, seulement en combinaison, révèlent pleinement leur sens dangereux. Avec MSTS, nous identifions des problèmes de sécurité évidents dans plusieurs VLM ouverts. Nous constatons également que certains VLM sont sûrs par accident, c'est-à-dire qu'ils sont sûrs car ils échouent à comprendre même des invitations de test simples. Nous traduisons MSTS en dix langues, en présentant des invitations non anglaises pour augmenter le taux de réponses dangereuses des modèles. Nous montrons également que les modèles sont plus sûrs lorsqu'ils sont testés uniquement avec du texte plutôt qu'avec des invitations multimodales. Enfin, nous explorons l'automatisation des évaluations de sécurité des VLM, constatant que même les meilleurs classificateurs de sécurité sont insuffisants.

Apprivoiser l'enseignement forcé pour la génération vidéo autoregressive masquée
Taming Teacher Forcing for Masked Autoregressive Video Generation

Jan 21

ByDeyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum

Nous introduisons MAGI, un cadre hybride de génération vidéo qui combine la modélisation masquée pour la génération intra-trame avec la modélisation causale pour la génération de la trame suivante. Notre innovation clé, l'Enseignement Complet Forcé (ECF), conditionne les trames masquées sur des trames d'observation complètes plutôt que masquées (à savoir l'Enseignement Masqué Forcé, EMF), permettant une transition fluide de la génération autorégressive au niveau du token (niveau du patch) à celui de la trame. L'ECF surpasse significativement l'EMF, réalisant une amélioration de +23% des scores FVD sur la prédiction vidéo conditionnée à la première trame. Pour résoudre des problèmes tels que le biais d'exposition, nous utilisons des stratégies d'entraînement ciblées, établissant une nouvelle référence en matière de génération vidéo autorégressive. Les expériences montrent que MAGI peut générer de longues séquences vidéo cohérentes dépassant 100 trames, même lorsqu'il est entraîné sur aussi peu que 16 trames, mettant en évidence son potentiel pour une génération vidéo évolutive et de haute qualité.

La Géométrie des Tokens dans les Représentations Internes des Grands Modèles de Langage
The Geometry of Tokens in Internal Representations of Large Language Models

Jan 17

ByKarthik Viswanathan, Yuri Gardinazzi, Giada Panerai, Alberto Cazzaniga, Matteo Biagetti

Nous étudions la relation entre la géométrie des plongements de jetons et leur rôle dans la prédiction du jeton suivant au sein des modèles de transformateurs. Un aspect important de cette connexion utilise la notion de mesure empirique, qui encode la distribution des nuages de points de jetons à travers les couches de transformateurs et influence l'évolution des représentations de jetons dans l'image d'interaction de champ moyen. Nous utilisons des métriques telles que la dimension intrinsèque, le chevauchement de voisinage et la similarité cosinus pour sonder observationnellement ces mesures empiriques à travers les couches. Pour valider notre approche, nous comparons ces métriques à un ensemble de données où les jetons sont mélangés, ce qui perturbe la structure syntaxique et sémantique. Nos résultats révèlent une corrélation entre les propriétés géométriques des plongements de jetons et la perte d'entropie croisée des prédictions de jeton suivant, ce qui implique que les instructions avec des valeurs de perte plus élevées ont des jetons représentés dans des espaces de dimensions supérieures.

Intérêts panoramiques : Génération de titres personnalisés sensibles au style et au contenu
Panoramic Interests: Stylistic-Content Aware Personalized Headline Generation

Jan 21

ByJunhong Lian, Xiang Ao, Xinyu Liu, Yang Liu, Qing He

La génération de titres d'actualités personnalisés vise à fournir aux utilisateurs des titres accrocheurs adaptés à leurs préférences. Les méthodes actuelles se concentrent sur les préférences de contenu des utilisateurs, mais la plupart d'entre elles négligent le fait que des préférences stylistiques diverses sont essentielles aux intérêts panoramiques des utilisateurs, ce qui conduit à une personnalisation sous-optimale. Dans ce contexte, nous proposons un nouveau cadre de génération de titres personnalisés conscient du style et du contenu (SCAPE). SCAPE extrait à la fois les caractéristiques du contenu et du style des titres à l'aide d'une collaboration de grands modèles linguistiques (LLM). Il intègre en outre de manière adaptative les intérêts à long et à court terme des utilisateurs grâce à un réseau de fusion hiérarchique basé sur l'apprentissage contrastif. En incorporant les intérêts panoramiques dans le générateur de titres, SCAPE reflète les préférences de style et de contenu des utilisateurs pendant le processus de génération. Des expériences approfondies sur l'ensemble de données du monde réel PENS démontrent la supériorité de SCAPE par rapport aux méthodes de référence.

Correction de l'attention déséquilibrée pour atténuer l'hallucination contextuelle des grands modèles de vision-langage
Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model

Jan 21

ByKazi Hasan Ibn Arif, Sajib Acharjee Dip, Khizar Hussain, Lang Zhang, Chris Thomas

Les grands modèles de langage et de vision (LVLM) ont démontré des capacités remarquables dans la compréhension et la description du contenu visuel, atteignant des performances de pointe dans diverses tâches vision-langage. Cependant, ces modèles présentent fréquemment un comportement hallucinatoire, générant des descriptions contenant des objets ou des détails absents dans l'image d'entrée. Notre travail examine ce phénomène en analysant les schémas d'attention à travers les couches et les têtes du transformeur, révélant que les hallucinations découlent souvent d'une dégradation progressive de l'ancrage visuel dans les couches plus profondes. Nous proposons une nouvelle approche de modification de l'attention qui combine l'accentuation sélective des jetons et la modulation spécifique à la tête pour maintenir l'ancrage visuel tout au long du processus de génération. Notre méthode introduit deux composantes clés : (1) un mécanisme de sélection de jetons à double flux qui identifie et priorise à la fois les jetons visuels localement informatifs et spatialement significatifs, et (2) une stratégie de modulation spécifique à la tête de l'attention qui amplifie différemment le traitement de l'information visuelle en fonction de la sensibilité visuelle mesurée des têtes d'attention individuelles. À travers des expérimentations approfondies sur l'ensemble de données MSCOCO, nous démontrons que notre approche réduit les taux d'hallucination jusqu'à 62,3\% par rapport aux modèles de référence tout en maintenant des performances de tâche comparables. Notre analyse révèle que la modulation sélective des jetons à travers les têtes d'attention avec des niveaux de sensibilité visuelle variables peut améliorer significativement l'ancrage visuel sans nécessiter de reformation du modèle.

UI-TARS : Interaction automatisée révolutionnaire avec des agents natifs de l'interface utilisateur graphique
UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Jan 21