Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLM) sont de plus en plus essentiels pour aborder des tâches complexes dans des environnements interactifs. Les travaux existants se concentrent principalement sur l'amélioration des performances grâce à la clonage de comportement à partir d'experts plus forts, cependant, de telles approches échouent souvent dans des applications du monde réel, principalement en raison de l'incapacité à récupérer des erreurs. Cependant, les données de critique au niveau de l'étape sont difficiles et coûteuses à collecter. Automatiser et construire dynamiquement des ensembles de données d'auto-critique est donc crucial pour doter les modèles de capacités d'agent intelligent. Dans ce travail, nous proposons un cadre d'auto-formation itératif, Agent-R, qui permet à l'agent de langage de réfléchir en temps réel. Contrairement aux méthodes traditionnelles qui récompensent ou pénalisent les actions en fonction de leur correction, Agent-R exploite MCTS pour construire des données d'entraînement qui récupèrent des trajectoires correctes à partir de celles erronées. Un défi clé de la réflexion de l'agent réside dans la nécessité d'une révision rapide plutôt que d'attendre la fin d'un déploiement. Pour y remédier, nous introduisons un mécanisme de construction de critique guidé par le modèle : le modèle d'acteur identifie la première étape d'erreur (dans sa capacité actuelle) dans une trajectoire échouée. À partir de là, nous la fusionnons avec le chemin correct adjacent, qui partage le même nœud parent dans l'arbre. Cette stratégie permet au modèle d'apprendre la réflexion en fonction de sa politique actuelle, offrant ainsi une meilleure efficacité d'apprentissage. Pour explorer davantage la scalabilité de ce paradigme d'auto-amélioration, nous étudions le raffinement itératif des capacités de correction d'erreur et de construction de jeu de données. Nos résultats démontrent qu'Agent-R améliore continuellement la capacité du modèle à récupérer des erreurs et permet une correction d'erreur en temps opportun. Des expériences menées sur trois environnements interactifs montrent qu'Agent-R dote efficacement les agents de la capacité de corriger des actions erronées tout en évitant les boucles, atteignant des performances supérieures par rapport aux méthodes de base (+5,59%).
Nous présentons MMVU, un benchmark expert de niveau avancé et multidisciplinaire pour évaluer les modèles fondamentaux en compréhension vidéo. MMVU comprend 3 000 questions annotées par des experts couvrant 27 sujets répartis dans quatre disciplines principales : Sciences, Santé, Sciences humaines et sociales, et Ingénierie. Comparé aux benchmarks précédents, MMVU présente trois avancées clés. Tout d'abord, il met au défi les modèles d'appliquer des connaissances spécifiques au domaine et de réaliser un raisonnement de niveau expert pour analyser des vidéos de domaines spécialisés, allant au-delà de la perception visuelle de base généralement évaluée dans les benchmarks vidéo actuels. Deuxièmement, chaque exemple est annoté par des experts humains à partir de zéro. Nous mettons en place des contrôles stricts de la qualité des données pour garantir la haute qualité de l'ensemble de données. Enfin, chaque exemple est enrichi de justifications annotées par des experts et de connaissances de domaine pertinentes, facilitant l'analyse approfondie. Nous menons une évaluation approfondie de 32 modèles fondamentaux multimodaux de pointe sur MMVU. Les derniers modèles capables de System-2, o1 et Gemini 2.0 Flash Thinking, obtiennent les meilleures performances parmi les modèles testés. Cependant, ils restent encore en deçà de l'expertise humaine. À travers des analyses d'erreurs approfondies et des études de cas, nous proposons des perspectives exploitables pour les avancées futures en compréhension vidéo de niveau expert et intensive en connaissances pour des domaines spécialisés.
Ce document revisite la mise en œuvre de la perte d'équilibrage de charge (LBL) lors de l'entraînement des modèles de Mélange d'Experts (MoEs). Plus précisément, la LBL pour les MoEs est définie comme la somme de N_E pour i allant de 1 à N_E de f_i p_i, où N_E est le nombre total d'experts, f_i représente la fréquence de sélection de l'expert i, et p_i désigne le score de sélection moyen de l'expert i. Les cadres d'entraînement MoE existants utilisent généralement la stratégie d'entraînement parallèle de sorte que f_i et la LBL sont calculés au sein d'une micro-batch puis moyennés à travers des groupes parallèles. En essence, une micro-batch pour l'entraînement des LLM à l'échelle du milliard contient normalement très peu de séquences. Ainsi, la LBL de la micro-batch est presque au niveau de la séquence, et le routeur est poussé à distribuer le jeton de manière égale au sein de chaque séquence. Sous cette contrainte stricte, même les jetons d'une séquence spécifique au domaine (par exemple, du code) sont acheminés uniformément vers tous les experts, inhibant ainsi la spécialisation des experts. Dans ce travail, nous proposons de calculer la LBL en utilisant une global-batch pour lever cette contrainte. Étant donné qu'une global-batch contient beaucoup plus de séquences diverses qu'une micro-batch, cela encouragera l'équilibrage de charge au niveau du corpus. Plus précisément, nous introduisons une étape de communication supplémentaire pour synchroniser f_i à travers les micro-batches, puis l'utilisons pour calculer la LBL. À travers des expériences sur l'entraînement de LLM basés sur MoEs (jusqu'à 42,8 milliards de paramètres au total et 400 milliards de jetons), nous constatons de manière surprenante que la stratégie de LBL de la global-batch entraîne d'excellents gains de performance à la fois en termes de perplexité de pré-entraînement et de tâches en aval. Notre analyse révèle que la LBL de la global-batch améliore également grandement la spécialisation de domaine des experts MoE.
Cet article présente UI-TARS, un modèle d'agent GUI natif qui perçoit uniquement les captures d'écran en entrée et effectue des interactions semblables à celles des humains (par exemple, des opérations au clavier et à la souris). Contrairement aux cadres d'agents prédominants qui dépendent fortement de modèles commerciaux fortement encapsulés (par exemple, GPT-4o) avec des invites et des flux de travail expertement conçus, UI-TARS est un modèle de bout en bout qui surpasse ces cadres sophistiqués. Les expériences démontrent ses performances supérieures : UI-TARS atteint des performances de pointe dans plus de 10 benchmarks d'agents GUI évaluant la perception, l'ancrage et l'exécution des tâches GUI. Notamment, dans le benchmark OSWorld, UI-TARS obtient des scores de 24,6 avec 50 étapes et de 22,7 avec 15 étapes, surpassant Claude (22,0 et 14,9 respectivement). Dans AndroidWorld, UI-TARS atteint 46,6, dépassant GPT-4o (34,5). UI-TARS intègre plusieurs innovations clés : (1) Perception Améliorée : en tirant parti d'un ensemble de données à grande échelle de captures d'écran GUI pour une compréhension contextuelle des éléments GUI et une légende précise ; (2) Modélisation d'Action Unifiée, qui normalise les actions dans un espace unifié à travers les plateformes et atteint un ancrage précis et une interaction à travers des traces d'actions à grande échelle ; (3) Raisonnement Système-2, qui intègre un raisonnement délibéré dans la prise de décision en plusieurs étapes, impliquant plusieurs schémas de raisonnement tels que la décomposition des tâches, la réflexion, la reconnaissance des étapes, etc. ; (4) Entraînement Itératif avec Traces Réfléchies en Ligne, qui aborde le goulot d'étranglement des données en collectant automatiquement, en filtrant et en affinant de manière réfléchie de nouvelles traces d'interaction sur des centaines de machines virtuelles. Grâce à l'entraînement itératif et à l'ajustement réfléchi, UI-TARS apprend continuellement de ses erreurs et s'adapte aux situations imprévues avec une intervention humaine minimale. Nous analysons également le chemin d'évolution des agents GUI pour guider le développement ultérieur de ce domaine.
Nous présentons TokenVerse - une méthode de personnalisation multi-concepts, exploitant un modèle de diffusion texte-image pré-entraîné. Notre cadre peut démêler des éléments visuels et des attributs complexes à partir d'une seule image, tout en permettant la génération plug-and-play sans heurt de combinaisons de concepts extraits de plusieurs images. Contrairement aux travaux existants, TokenVerse peut gérer plusieurs images avec plusieurs concepts chacune, et prend en charge une large gamme de concepts, y compris les objets, accessoires, matériaux, poses et éclairages. Notre travail exploite un modèle texte-image basé sur DiT, dans lequel le texte d'entrée influence la génération à la fois par l'attention et la modulation (décalage et échelle). Nous observons que l'espace de modulation est sémantique et permet un contrôle localisé sur des concepts complexes. En nous appuyant sur cette observation, nous concevons un cadre basé sur l'optimisation qui prend en entrée une image et une description textuelle, et trouve pour chaque mot une direction distincte dans l'espace de modulation. Ces directions peuvent ensuite être utilisées pour générer de nouvelles images combinant les concepts appris dans une configuration souhaitée. Nous démontrons l'efficacité de TokenVerse dans des paramètres de personnalisation complexes, et mettons en avant ses avantages par rapport aux méthodes existantes. Page web du projet : https://token-verse.github.io/
Malgré les performances prometteuses des Grands Modèles de Langage et de Vision (LVLM) dans la compréhension visuelle, ils génèrent parfois des sorties incorrectes. Alors que les modèles de récompense (RMs) avec l'apprentissage par renforcement ou l'ajustement à l'échelle au moment du test offrent le potentiel d'améliorer la qualité de génération, une lacune critique persiste : les RMs multimodaux disponibles publiquement pour les LVLM sont rares, et les détails de mise en œuvre des modèles propriétaires sont souvent peu clairs. Nous comblons cette lacune avec InternLM-XComposer2.5-Reward (IXC-2.5-Reward), un modèle de récompense multimodal simple mais efficace qui aligne les LVLM sur les préférences humaines. Pour garantir la robustesse et la polyvalence de l'IXC-2.5-Reward, nous avons mis en place un corpus de préférences multimodal de haute qualité couvrant des entrées textuelles, d'image et vidéo dans divers domaines, tels que le suivi des instructions, la compréhension générale, les documents riches en texte, le raisonnement mathématique et la compréhension vidéo. L'IXC-2.5-Reward obtient d'excellents résultats sur le dernier banc d'essai de modèles de récompense multimodaux et montre des performances compétitives sur les bancs d'essai de modèles de récompense textuels uniquement. Nous démontrons en outre trois applications clés de l'IXC-2.5-Reward : (1) Fournir un signal de supervision pour l'entraînement par RL. Nous intégrons l'IXC-2.5-Reward avec l'Optimisation de Politique Proximale (PPO) pour obtenir l'IXC-2.5-Chat, qui montre des améliorations constantes dans le suivi des instructions et le dialogue multimodal ouvert ; (2) Sélectionner la meilleure réponse parmi les réponses candidates pour l'ajustement à l'échelle au moment du test ; et (3) Filtrer les échantillons aberrants ou bruyants des données d'entraînement existantes pour l'ajustement des instructions d'image et de vidéo. Pour garantir la reproductibilité et faciliter les recherches ultérieures, nous avons rendu tous les poids des modèles et les recettes d'entraînement disponibles en open source sur https://github.com/InternLM/InternLM-XComposer.
Nous présentons Hunyuan3D 2.0, un système avancé de synthèse 3D à grande échelle pour générer des actifs 3D texturés haute résolution. Ce système comprend deux composants fondamentaux : un modèle de génération de forme à grande échelle - Hunyuan3D-DiT, et un modèle de synthèse de texture à grande échelle - Hunyuan3D-Paint. Le modèle de génération de forme, basé sur un transformateur de diffusion à flux évolutif, vise à créer une géométrie qui s'aligne correctement avec une image de condition donnée, posant ainsi des bases solides pour les applications en aval. Le modèle de synthèse de texture, bénéficiant de forts a priori géométriques et de diffusion, produit des cartes de texture haute résolution et vibrantes pour des maillages générés ou fabriqués à la main. De plus, nous avons développé Hunyuan3D-Studio - une plateforme de production polyvalente et conviviale qui simplifie le processus de recréation des actifs 3D. Elle permet aux utilisateurs professionnels et amateurs de manipuler voire d'animer efficacement leurs maillages. Nous évaluons systématiquement nos modèles, démontrant que Hunyuan3D 2.0 surpasse les modèles précédents de pointe, y compris les modèles open-source et les modèles propriétaires en termes de détails géométriques, d'alignement des conditions, de qualité de texture, etc. Hunyuan3D 2.0 est publié publiquement afin de combler les lacunes dans la communauté open-source 3D pour les modèles génératifs de base à grande échelle. Le code et les poids pré-entraînés de nos modèles sont disponibles sur : https://github.com/Tencent/Hunyuan3D-2
Les modèles de langage de raisonnement (RLM), également connus sous le nom de grands modèles de raisonnement (LRM), tels que o1 et o3 d'OpenAI, DeepSeek-V3 et QwQ d'Alibaba, ont redéfini les capacités de résolution de problèmes de l'IA en étendant les grands modèles de langage (LLM) avec des mécanismes de raisonnement avancés. Cependant, leurs coûts élevés, leur nature propriétaire et leurs architectures complexes - combinant de manière unique l'apprentissage par renforcement (RL), des heuristiques de recherche et des LLM - présentent des défis en termes d'accessibilité et de scalabilité. Pour y remédier, nous proposons un plan détaillé qui organise les composants des RLM dans un cadre modulaire, basé sur une enquête et une analyse de tous les travaux sur les RLM. Ce plan intègre diverses structures de raisonnement (chaînes, arbres, graphes et formes imbriquées), des stratégies de raisonnement (par exemple, Monte Carlo Tree Search, Beam Search), des concepts de RL (modèles de politique, de valeur et autres) et des schémas de supervision (supervision basée sur la sortie et basée sur le processus). Nous fournissons également des formulations mathématiques détaillées et des spécifications algorithmiques pour simplifier la mise en œuvre des RLM. En montrant comment des schémas comme LLaMA-Berry, QwQ, Journey Learning et Graph of Thoughts s'intègrent en tant que cas spéciaux, nous démontrons la polyvalence et le potentiel unificateur du plan. Pour illustrer son utilité, nous présentons x1, une implémentation modulaire pour un prototypage et une expérimentation rapides des RLM. En utilisant x1 et une revue de la littérature, nous fournissons des idées clés, telles que l'entraînement en plusieurs phases pour les modèles de politique et de valeur, et l'importance des distributions d'entraînement familières. Enfin, nous décrivons comment les RLM peuvent s'intégrer dans un écosystème LLM plus large, y compris des outils et des bases de données. Notre travail démystifie la construction des RLM, démocratise les capacités de raisonnement avancées et favorise l'innovation, visant à atténuer l'écart entre l'IA "riche" et l'IA "pauvre" en réduisant les obstacles au développement et à l'expérimentation des RLM.
Les smartphones sont devenus indispensables dans la vie moderne, cependant, la réalisation de tâches complexes sur les appareils mobiles reste souvent frustrante. Les récents progrès des agents mobiles basés sur de grands modèles multimodaux (LMM) ont démontré la capacité de percevoir et d'agir dans des environnements mobiles. Cependant, les approches actuelles présentent des limitations significatives : elles peinent à répondre aux besoins humains réels, rencontrent des difficultés avec les tâches nécessitant un raisonnement intensif et à long terme, et manquent de mécanismes pour apprendre et s'améliorer à partir d'expériences antérieures. Pour surmonter ces défis, nous présentons Mobile-Agent-E, un cadre multi-agent hiérarchique capable d'auto-évolution à travers l'expérience passée. Par hiérarchique, nous entendons une séparation explicite entre la planification haut-niveau et l'exécution d'actions bas-niveau. Le cadre comprend un Gestionnaire, chargé d'élaborer des plans globaux en décomposant des tâches complexes en sous-objectifs, et quatre agents subordonnés - Percepteur, Opérateur, Réflecteur d'Action et Preneur de Notes - qui gèrent respectivement la perception visuelle fine, l'exécution d'actions immédiates, la vérification d'erreurs et l'agrégation d'informations. Mobile-Agent-E comprend également un module d'auto-évolution novateur qui maintient une mémoire à long terme persistante comprenant des Astuces et des Raccourcis. Les Astuces sont des conseils généraux et des leçons apprises à partir de tâches antérieures sur la manière d'interagir efficacement avec l'environnement. Les Raccourcis sont des séquences réutilisables et exécutables d'opérations atomiques adaptées à des sous-routines spécifiques. L'inclusion des Astuces et des Raccourcis facilite un affinement continu des performances et de l'efficacité. En parallèle de ce cadre, nous présentons Mobile-Eval-E, un nouvel banc d'essai comprenant des tâches mobiles complexes nécessitant des interactions multi-applications à long terme. Les résultats empiriques montrent que Mobile-Agent-E réalise une amélioration absolue de 22 % par rapport aux approches précédentes de pointe sur trois bases de modèles fondamentaux. Page du projet : https://x-plug.github.io/MobileAgent.
Les agents autonomes alimentés par de grands modèles de langage (LLM) ont le potentiel d'améliorer les capacités humaines, en assistant dans des tâches numériques allant de l'envoi d'e-mails à l'analyse de données. Les capacités des LLM existants dans de telles tâches sont souvent entravées par le manque de données d'agent de haute qualité provenant des environnements correspondants avec lesquels ils interagissent. Nous proposons l'approche d'apprentissage par interaction, un cadre centré sur les données pour adapter les agents LLM à n'importe quel environnement donné sans annotations humaines. L'apprentissage par interaction synthétise des trajectoires d'interactions agent-environnement basées sur des documentations, et construit des instructions en résumant ou en abstrayant les historiques d'interaction, un processus appelé construction rétrograde. Nous évaluons la qualité de nos données synthétiques en les utilisant à la fois dans des scénarios basés sur l'entraînement et dans l'apprentissage en contexte sans entraînement (ICL), où nous concevons des approches de récupération innovantes optimisées pour les agents. Des expériences approfondies sur SWE-bench, WebArena, OSWorld et Spider2-V couvrant des environnements de codage, web et de bureau réalistes montrent l'efficacité de l'approche d'apprentissage par interaction dans diverses tâches agentic en aval -- les résultats de base sont améliorés jusqu'à 12,2\% pour l'ICL avec Claude-3.5 et 19,5\% pour l'entraînement avec Codestral-22B. Nous démontrons en outre le rôle critique de la construction rétrograde, qui offre jusqu'à 14,0\% d'amélioration pour l'entraînement. Nos études d'ablation montrent l'efficacité fournie par nos données synthétisées dans l'ICL et la supériorité de notre pipeline de récupération par rapport à des approches alternatives comme la génération augmentée par récupération conventionnelle (RAG). Nous prévoyons que l'approche d'apprentissage par interaction servira de base pour la synthèse de données d'agent alors que les LLM sont de plus en plus déployés dans des environnements réels.
Depth Anything a connu un succès remarquable dans l'estimation de profondeur monoculaire avec une forte capacité de généralisation. Cependant, il souffre d'incohérences temporelles dans les vidéos, ce qui entrave ses applications pratiques. Diverses méthodes ont été proposées pour atténuer ce problème en exploitant des modèles de génération vidéo ou en introduisant des prédictions issues du flux optique et des poses de caméra. Néanmoins, ces méthodes ne s'appliquent qu'aux courtes vidéos (< 10 secondes) et nécessitent un compromis entre qualité et efficacité computationnelle. Nous proposons Video Depth Anything pour une estimation de profondeur de haute qualité et cohérente dans des vidéos super longues (plusieurs minutes) sans sacrifier l'efficacité. Nous basons notre modèle sur Depth Anything V2 et remplaçons sa tête par une tête spatiale-temporelle efficace. Nous concevons une perte de cohérence temporelle simple mais efficace en contraignant le gradient de profondeur temporelle, éliminant ainsi le besoin de prédictions géométriques supplémentaires. Le modèle est entraîné sur un ensemble de données conjoint de profondeur vidéo et d'images non étiquetées, similaire à Depth Anything V2. De plus, une nouvelle stratégie basée sur les images clés est développée pour l'inférence de vidéos longues. Les expériences montrent que notre modèle peut être appliqué à des vidéos de longueur arbitraire sans compromettre la qualité, la cohérence ou la capacité de généralisation. Des évaluations approfondies sur plusieurs référentiels vidéo démontrent que notre approche établit un nouvel état de l'art en matière d'estimation de profondeur vidéo sans apprentissage préalable. Nous proposons des modèles de différentes échelles pour prendre en charge divers scénarios, notre plus petit modèle étant capable de performances en temps réel à 30 FPS.
La modélisation générative vise à transformer du bruit aléatoire en sorties structurées. Dans ce travail, nous améliorons les modèles de diffusion vidéo en permettant le contrôle du mouvement via un échantillonnage de bruit latent structuré. Cela est réalisé en modifiant simplement les données : nous prétraitons les vidéos d'entraînement pour obtenir un bruit structuré. Par conséquent, notre méthode est agnostique par rapport à la conception du modèle de diffusion, ne nécessitant aucune modification des architectures de modèle ou des pipelines d'entraînement. Plus précisément, nous proposons un nouvel algorithme de déformation du bruit, suffisamment rapide pour s'exécuter en temps réel, qui remplace la gaussienne temporelle aléatoire par un bruit déformé corrélé provenant des champs de flux optique, tout en préservant la gaussienne spatiale. L'efficacité de notre algorithme nous permet d'affiner les modèles de base de diffusion vidéo modernes en utilisant un bruit déformé avec un surcoût minimal, et de fournir une solution complète pour un large éventail de contrôles de mouvement conviviaux : contrôle du mouvement local d'objets, contrôle du mouvement global de la caméra et transfert de mouvement. L'harmonisation entre la cohérence temporelle et la gaussienne spatiale dans notre bruit déformé permet un contrôle efficace du mouvement tout en maintenant la qualité des pixels par image. Des expériences approfondies et des études utilisateur démontrent les avantages de notre méthode, en faisant une approche robuste et évolutive pour le contrôle du mouvement dans les modèles de diffusion vidéo. Les résultats vidéo sont disponibles sur notre page web : https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Le code source et les points de contrôle du modèle sont disponibles sur GitHub : https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
Nous montrons que les balises GPS contenues dans les métadonnées des photos fournissent un signal de contrôle utile pour la génération d'images. Nous entraînons des modèles de GPS vers image et les utilisons pour des tâches nécessitant une compréhension fine de la variation des images à l'intérieur d'une ville. En particulier, nous entraînons un modèle de diffusion pour générer des images conditionnées à la fois par le GPS et le texte. Le modèle appris génère des images qui capturent l'apparence distinctive des différents quartiers, parcs et monuments. Nous extrayons également des modèles 3D à partir de modèles de GPS vers image 2D grâce à un échantillonnage de distillation de score, en utilisant le conditionnement GPS pour contraindre l'apparence de la reconstruction depuis chaque point de vue. Nos évaluations suggèrent que nos modèles conditionnés par GPS apprennent avec succès à générer des images variant en fonction de l'emplacement, et que le conditionnement GPS améliore la structure 3D estimée.
La qualité des données de Fine-Tuning Supervisé (FTS) joue un rôle crucial dans l'amélioration des capacités conversationnelles des Grands Modèles de Langage (GML). Cependant, à mesure que les GML deviennent plus avancés, la disponibilité de données de FTS de haute qualité annotées par des humains est devenue un goulot d'étranglement significatif, nécessitant une plus grande dépendance à l'égard de données d'entraînement synthétiques. Dans ce travail, nous présentons Condor, un nouveau cadre de génération de données synthétiques en deux étapes qui intègre l'Arbre de Connaissances Mondial et le Raffinement par Auto-Réflexion pour produire des données de FTS de haute qualité à grande échelle. Nos résultats expérimentaux démontrent qu'un modèle de base affiné sur seulement 20 000 échantillons générés par Condor atteint des performances supérieures par rapport à ses homologues. L'étape de raffinement supplémentaire dans Condor permet en outre une auto-amélioration itérative des GML à différentes échelles (jusqu'à 72 milliards), validant l'efficacité de notre approche. De plus, notre étude sur la mise à l'échelle des données synthétiques en post-entraînement révèle un potentiel substantiel non exploré pour des améliorations de performances, ouvrant des perspectives prometteuses pour la recherche future.
Dans cet article, nous proposons une nouvelle méthode de génération de tête parlante pilotée par l'audio capable de générer simultanément des expressions faciales et des gestes de la main hautement expressifs. Contrairement aux méthodes existantes qui se concentrent sur la génération de poses de corps entier ou de demi-corps, nous examinons les défis de la génération de gestes co-verbaux et identifions la faible correspondance entre les caractéristiques audio et les gestes de corps entier comme une limitation clé. Pour y remédier, nous redéfinissons la tâche comme un processus en deux étapes. Dans la première étape, nous générons directement des poses de main à partir de l'entrée audio, en exploitant la forte corrélation entre les signaux audio et les mouvements de la main. Dans la deuxième étape, nous utilisons un modèle de diffusion pour synthétiser des images vidéo, en incorporant les poses de main générées dans la première étape pour produire des expressions faciales réalistes et des mouvements corporels. Nos résultats expérimentaux démontrent que la méthode proposée surpasse les approches de pointe, telles que CyberHost et Vlogger, en termes de qualité visuelle et de précision de synchronisation. Ce travail offre une nouvelle perspective sur la génération de gestes pilotée par l'audio et un cadre robuste pour créer des animations de tête parlante expressives et naturelles.
Nous introduisons MAGI, un cadre hybride de génération vidéo qui combine la modélisation masquée pour la génération intra-trame avec la modélisation causale pour la génération de la trame suivante. Notre innovation clé, l'Enseignement Complet Forcé (ECF), conditionne les trames masquées sur des trames d'observation complètes plutôt que masquées (à savoir l'Enseignement Masqué Forcé, EMF), permettant une transition fluide de la génération autorégressive au niveau du token (niveau du patch) à celui de la trame. L'ECF surpasse significativement l'EMF, réalisant une amélioration de +23% des scores FVD sur la prédiction vidéo conditionnée à la première trame. Pour résoudre des problèmes tels que le biais d'exposition, nous utilisons des stratégies d'entraînement ciblées, établissant une nouvelle référence en matière de génération vidéo autorégressive. Les expériences montrent que MAGI peut générer de longues séquences vidéo cohérentes dépassant 100 trames, même lorsqu'il est entraîné sur aussi peu que 16 trames, mettant en évidence son potentiel pour une génération vidéo évolutive et de haute qualité.
Nous étudions la relation entre la géométrie des plongements de jetons et leur rôle dans la prédiction du jeton suivant au sein des modèles de transformateurs. Un aspect important de cette connexion utilise la notion de mesure empirique, qui encode la distribution des nuages de points de jetons à travers les couches de transformateurs et influence l'évolution des représentations de jetons dans l'image d'interaction de champ moyen. Nous utilisons des métriques telles que la dimension intrinsèque, le chevauchement de voisinage et la similarité cosinus pour sonder observationnellement ces mesures empiriques à travers les couches. Pour valider notre approche, nous comparons ces métriques à un ensemble de données où les jetons sont mélangés, ce qui perturbe la structure syntaxique et sémantique. Nos résultats révèlent une corrélation entre les propriétés géométriques des plongements de jetons et la perte d'entropie croisée des prédictions de jeton suivant, ce qui implique que les instructions avec des valeurs de perte plus élevées ont des jetons représentés dans des espaces de dimensions supérieures.
Les modèles vision-langage (VLM), qui traitent des entrées d'images et de texte, sont de plus en plus intégrés dans les assistants de discussion et d'autres applications d'IA grand public. Cependant, sans les protections adéquates, les VLM peuvent donner des conseils nuisibles (par exemple, sur l'automutilation) ou encourager des comportements dangereux (par exemple, la consommation de drogues). Malgré ces risques évidents, peu de travaux ont évalué jusqu'à présent la sécurité des VLM et les nouveaux risques créés par les entrées multimodales. Pour combler cette lacune, nous présentons MSTS, une Suite de Tests de Sécurité Multimodale pour les VLM. MSTS comprend 400 invitations de test réparties dans 40 catégories de risques détaillées. Chaque invitation de test se compose d'un texte et d'une image qui, seulement en combinaison, révèlent pleinement leur sens dangereux. Avec MSTS, nous identifions des problèmes de sécurité évidents dans plusieurs VLM ouverts. Nous constatons également que certains VLM sont sûrs par accident, c'est-à-dire qu'ils sont sûrs car ils échouent à comprendre même des invitations de test simples. Nous traduisons MSTS en dix langues, en présentant des invitations non anglaises pour augmenter le taux de réponses dangereuses des modèles. Nous montrons également que les modèles sont plus sûrs lorsqu'ils sont testés uniquement avec du texte plutôt qu'avec des invitations multimodales. Enfin, nous explorons l'automatisation des évaluations de sécurité des VLM, constatant que même les meilleurs classificateurs de sécurité sont insuffisants.
La génération de titres d'actualités personnalisés vise à fournir aux utilisateurs des titres accrocheurs adaptés à leurs préférences. Les méthodes actuelles se concentrent sur les préférences de contenu des utilisateurs, mais la plupart d'entre elles négligent le fait que des préférences stylistiques diverses sont essentielles aux intérêts panoramiques des utilisateurs, ce qui conduit à une personnalisation sous-optimale. Dans ce contexte, nous proposons un nouveau cadre de génération de titres personnalisés conscient du style et du contenu (SCAPE). SCAPE extrait à la fois les caractéristiques du contenu et du style des titres à l'aide d'une collaboration de grands modèles linguistiques (LLM). Il intègre en outre de manière adaptative les intérêts à long et à court terme des utilisateurs grâce à un réseau de fusion hiérarchique basé sur l'apprentissage contrastif. En incorporant les intérêts panoramiques dans le générateur de titres, SCAPE reflète les préférences de style et de contenu des utilisateurs pendant le processus de génération. Des expériences approfondies sur l'ensemble de données du monde réel PENS démontrent la supériorité de SCAPE par rapport aux méthodes de référence.
Les grands modèles de langage et de vision (LVLM) ont démontré des capacités remarquables dans la compréhension et la description du contenu visuel, atteignant des performances de pointe dans diverses tâches vision-langage. Cependant, ces modèles présentent fréquemment un comportement hallucinatoire, générant des descriptions contenant des objets ou des détails absents dans l'image d'entrée. Notre travail examine ce phénomène en analysant les schémas d'attention à travers les couches et les têtes du transformeur, révélant que les hallucinations découlent souvent d'une dégradation progressive de l'ancrage visuel dans les couches plus profondes. Nous proposons une nouvelle approche de modification de l'attention qui combine l'accentuation sélective des jetons et la modulation spécifique à la tête pour maintenir l'ancrage visuel tout au long du processus de génération. Notre méthode introduit deux composantes clés : (1) un mécanisme de sélection de jetons à double flux qui identifie et priorise à la fois les jetons visuels localement informatifs et spatialement significatifs, et (2) une stratégie de modulation spécifique à la tête de l'attention qui amplifie différemment le traitement de l'information visuelle en fonction de la sensibilité visuelle mesurée des têtes d'attention individuelles. À travers des expérimentations approfondies sur l'ensemble de données MSCOCO, nous démontrons que notre approche réduit les taux d'hallucination jusqu'à 62,3\% par rapport aux modèles de référence tout en maintenant des performances de tâche comparables. Notre analyse révèle que la modulation sélective des jetons à travers les têtes d'attention avec des niveaux de sensibilité visuelle variables peut améliorer significativement l'ancrage visuel sans nécessiter de reformation du modèle.