Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les modèles vision-langage ont amélioré les performances en augmentant la longueur des jetons visuels, les rendant beaucoup plus longs que les jetons de texte et augmentant considérablement les coûts de calcul. Cependant, nous observons que les jetons visuels générés par des encodeurs visuels populaires, tels que CLIP et SigLIP, contiennent une redondance significative. Pour remédier à cela, nous introduisons VisionZip, une méthode simple mais efficace qui sélectionne un ensemble de jetons informatifs pour l'entrée du modèle de langage, réduisant la redondance des jetons visuels et améliorant l'efficacité tout en maintenant les performances du modèle. Le VisionZip proposé peut être largement appliqué aux tâches de compréhension d'images et de vidéos et est bien adapté aux dialogues multi-tours dans des scénarios réels, où les méthodes précédentes ont tendance à sous-performer. Les résultats expérimentaux montrent que VisionZip surpasse la méthode précédente de pointe d'au moins 5% de gains de performance dans presque tous les paramètres. De plus, notre méthode améliore significativement la vitesse d'inférence du modèle, en améliorant le temps de préremplissage de 8 fois et permettant au modèle LLaVA-Next 13B d'inférer plus rapidement que le modèle LLaVA-Next 7B tout en obtenant de meilleurs résultats. En outre, nous analysons les causes de cette redondance et encourageons la communauté à se concentrer sur l'extraction de meilleures caractéristiques visuelles plutôt que simplement d'augmenter la longueur des jetons. Notre code est disponible sur https://github.com/dvlab-research/VisionZip.
Nous introduisons une nouvelle méthode de génération 3D pour la création polyvalente et de haute qualité d'actifs 3D. La pierre angulaire est une représentation unifiée de Latence Structurée (SLAT) qui permet le décodage vers différents formats de sortie, tels que les champs de radiance, les gaussiennes 3D et les maillages. Cela est réalisé en intégrant une grille 3D peu peuplée avec des fonctionnalités visuelles multivues denses extraites d'un puissant modèle de fondation visuelle, capturant de manière exhaustive à la fois les informations structurelles (géométriques) et texturales (d'apparence) tout en maintenant la flexibilité lors du décodage. Nous utilisons des transformateurs de flux rectifiés adaptés pour SLAT en tant que nos modèles de génération 3D et formons des modèles avec jusqu'à 2 milliards de paramètres sur un grand ensemble de données d'actifs 3D de 500 000 objets divers. Notre modèle génère des résultats de haute qualité avec des conditions textuelles ou d'image, surpassant significativement les méthodes existantes, y compris les récentes à des échelles similaires. Nous présentons une sélection flexible de formats de sortie et des capacités d'édition 3D locales qui n'étaient pas offertes par les modèles précédents. Le code, le modèle et les données seront publiés.
Les Interfaces Utilisateur Graphiques (IUG) sont essentielles pour l'interaction homme-machine, mais l'automatisation des tâches des IUG reste difficile en raison de la complexité et de la variabilité des environnements visuels. Les approches existantes reposent souvent sur des représentations textuelles des IUG, ce qui introduit des limitations en termes de généralisation, d'efficacité et de scalabilité. Dans cet article, nous présentons Aguvis, un cadre unifié basé uniquement sur la vision pour les agents IUG autonomes qui fonctionne sur différentes plateformes. Notre approche exploite les observations basées sur l'image, et l'ancrage des instructions dans le langage naturel aux éléments visuels, et utilise un espace d'actions cohérent pour assurer une généralisation interplateforme. Pour pallier aux limitations des travaux précédents, nous intégrons une planification explicite et un raisonnement dans le modèle, améliorant ainsi sa capacité à naviguer et interagir de manière autonome avec des environnements numériques complexes. Nous construisons un ensemble de données à grande échelle des trajectoires des agents IUG, en incorporant un raisonnement multimodal et un ancrage, et utilisons un pipeline d'entraînement en deux étapes qui se concentre d'abord sur l'ancrage général des IUG, suivi de la planification et du raisonnement. À travers des expériences approfondies, nous démontrons qu'Aguvis surpasse les méthodes précédentes de pointe à la fois dans des scénarios hors ligne et en ligne du monde réel, atteignant, à notre connaissance, le premier agent IUG purement basé sur la vision entièrement autonome capable d'accomplir des tâches de manière indépendante sans collaboration avec des modèles externes propriétaires. Nous avons rendu open source tous les ensembles de données, modèles et recettes d'entraînement pour faciliter les futures recherches sur https://aguvis-project.github.io/.
Nous présentons Florence-VL, une nouvelle famille de grands modèles de langage multimodaux (MLLMs) avec des représentations visuelles enrichies produites par Florence-2, un modèle de vision générative de base. Contrairement au transformer de vision de style CLIP largement utilisé, entraîné par apprentissage contrastif, Florence-2 peut capturer différents niveaux et aspects des caractéristiques visuelles, qui sont plus polyvalents pour être adaptés à diverses tâches en aval. Nous proposons une architecture de fusion de caractéristiques novatrice et une recette d'entraînement innovante qui intègre efficacement les caractéristiques visuelles de Florence-2 dans des MLLMs pré-entraînés, tels que Phi 3.5 et LLama 3. En particulier, nous proposons la "fusion en profondeur-largeur (DBFusion)" pour fusionner les caractéristiques visuelles extraites de différentes profondeurs et sous plusieurs invitations. Notre entraînement de modèle est composé d'un pré-entraînement de bout en bout de l'ensemble du modèle suivi d'un affinage de la couche de projection et du LLM, selon une recette soigneusement conçue de divers ensembles de données open source comprenant des légendes d'images de haute qualité et des paires d'ajustement d'instructions. Notre analyse quantitative et la visualisation des caractéristiques visuelles de Florence-VL montrent ses avantages par rapport aux encodeurs de vision populaires sur l'alignement vision-langage, où la profondeur et la largeur enrichies jouent des rôles importants. Florence-VL réalise des améliorations significatives par rapport aux MLLMs de pointe existants sur divers bancs d'essai multimodaux et centrés sur la vision couvrant la VQA générale, la perception, l'hallucination, l'OCR, les graphiques, la compréhension intensive des connaissances, etc. Pour faciliter la recherche future, nos modèles et la recette d'entraînement complète sont disponibles en open source. https://github.com/JiuhaiChen/Florence-VL
Les modèles de langage visuel (VLM), ont réalisé des progrès significatifs en termes de précision ces dernières années. Cependant, leur efficacité a reçu beaucoup moins d'attention. Ce document présente NVILA, une famille de VLM ouverts conçus pour optimiser à la fois l'efficacité et la précision. En s'appuyant sur VILA, nous améliorons son architecture de modèle en augmentant d'abord les résolutions spatiales et temporelles, puis en compressant les jetons visuels. Cette approche "échelle-puis-compression" permet à NVILA de traiter efficacement des images haute résolution et de longues vidéos. Nous menons également une investigation systématique pour améliorer l'efficacité de NVILA tout au long de son cycle de vie, de l'entraînement et du peaufinage au déploiement. NVILA égale ou dépasse la précision de nombreux VLM ouverts et propriétaires de premier plan sur un large éventail de référentiels d'images et de vidéos. Dans le même temps, il réduit les coûts d'entraînement de 4,5 fois, l'utilisation de la mémoire pour le peaufinage de 3,4 fois, la latence de pré-remplissage de 1,6 à 2,2 fois, et la latence de décodage de 1,2 à 2,8 fois. Nous rendrons bientôt notre code et nos modèles disponibles pour faciliter la reproductibilité.
Étant donné l'utilisation croissante de données synthétiques dans le post-entraînement des modèles de langage (LM), la capacité d'un LM à générer des données de haute qualité est devenue presque aussi cruciale que sa capacité à résoudre directement des problèmes. Alors que les travaux antérieurs se sont concentrés sur le développement de méthodes efficaces de génération de données, ils manquent d'une comparaison systématique des différents LMs en tant que générateurs de données dans un cadre unifié. Pour combler cette lacune, nous proposons AgoraBench, un banc d'essai qui fournit des paramètres et des métriques standardisés pour évaluer les capacités de génération de données des LMs. En synthétisant 1,26 million d'instances d'entraînement à l'aide de 6 LMs et en formant 99 modèles étudiants, nous mettons en lumière des informations clés sur les capacités de génération de données des LMs. Tout d'abord, nous observons que les LMs présentent des forces distinctes. Par exemple, GPT-4o excelle dans la génération de nouveaux problèmes, tandis que Claude-3.5-Sonnet performe mieux dans l'amélioration de ceux existants. De plus, notre analyse révèle que la capacité de génération de données d'un LM ne correle pas nécessairement avec sa capacité à résoudre des problèmes. Au lieu de cela, plusieurs caractéristiques intrinsèques de la qualité des données - y compris la qualité des réponses, la perplexité et la difficulté des instructions - servent collectivement de meilleurs indicateurs. Enfin, nous démontrons que des choix stratégiques dans le format de sortie et la sélection de modèles économiques ont un impact significatif sur l'efficacité de la génération de données.
La détection automatique et la prévention des défaillances en mode ouvert sont cruciales dans les systèmes robotiques en boucle fermée. Les études récentes ont souvent du mal à identifier simultanément de manière réactive les défaillances inattendues après leur survenue et à prévenir de manière proactive celles prévisibles. À cette fin, nous proposons Code-as-Monitor (CaM), un nouveau paradigme exploitant le modèle vision-langage (VLM) pour la détection de défaillances réactives et proactives en mode ouvert. Le cœur de notre méthode consiste à formuler ces deux tâches comme un ensemble unifié de problèmes de satisfaction de contraintes spatio-temporelles et à utiliser du code généré par le VLM pour les évaluer en temps réel. Pour améliorer la précision et l'efficacité de la surveillance, nous introduisons en outre des éléments de contrainte qui abstraient les entités liées aux contraintes ou leurs parties en éléments géométriques compacts. Cette approche offre une plus grande généralité, simplifie le suivi et facilite la programmation visuelle consciente des contraintes en utilisant ces éléments comme indicateurs visuels. Les expériences montrent que CaM atteint un taux de réussite supérieur de 28,7 % et réduit le temps d'exécution de 31,8 % en cas de perturbations sévères par rapport aux références à travers trois simulateurs et un environnement réel. De plus, CaM peut être intégré à des politiques de contrôle en boucle ouverte pour former des systèmes en boucle fermée, permettant des tâches à longue portée dans des scènes encombrées avec des environnements dynamiques.
Les modèles de diffusion excellent dans la génération d'images de haute qualité. Cependant, les modèles de diffusion actuels ont du mal à produire des images fiables sans méthodes de guidage, telles que le guidage sans classificateur (CFG). Les méthodes de guidage sont-elles vraiment nécessaires ? En observant que le bruit obtenu via l'inversion de la diffusion peut reconstruire des images de haute qualité sans guidage, nous nous concentrons sur le bruit initial du pipeline de débruitage. En cartographiant le bruit gaussien en "bruit sans guidage", nous découvrons que de petits composants de basse fréquence de faible magnitude améliorent significativement le processus de débruitage, éliminant ainsi le besoin de guidage et améliorant à la fois le débit d'inférence et la mémoire. Pour approfondir ce sujet, nous proposons \ours, une méthode novatrice qui remplace les méthodes de guidage par un seul affinement du bruit initial. Ce bruit affiné permet la génération d'images de haute qualité sans guidage, au sein du même pipeline de diffusion. Notre modèle de raffinement du bruit exploite l'apprentissage efficace de l'espace de bruit, atteignant une convergence rapide et de fortes performances avec seulement 50 000 paires texte-image. Nous validons son efficacité à travers diverses mesures et analysons comment le bruit affiné peut éliminer le besoin de guidage. Consultez notre page de projet : https://cvlab-kaist.github.io/NoiseRefine/.
Les méthodes existantes de génération d'images multi-vues modifient souvent de manière invasive les modèles texte-vers-image (T2I) pré-entraînés et nécessitent un réglage fin complet, entraînant (1) des coûts computationnels élevés, notamment avec de grands modèles de base et des images haute résolution, et (2) une dégradation de la qualité des images en raison de difficultés d'optimisation et d'un manque de données 3D de haute qualité. Dans cet article, nous proposons la première solution basée sur des adaptateurs pour la génération d'images multi-vues, et introduisons MV-Adapter, un adaptateur polyvalent plug-and-play qui améliore les modèles T2I et leurs dérivés sans altérer la structure réseau d'origine ou l'espace des caractéristiques. En mettant à jour moins de paramètres, MV-Adapter permet un entraînement efficace et préserve les connaissances antérieures intégrées dans les modèles pré-entraînés, atténuant les risques de surajustement. Pour modéliser efficacement les connaissances géométriques 3D au sein de l'adaptateur, nous introduisons des conceptions innovantes qui incluent des couches d'auto-attention dupliquées et une architecture d'attention parallèle, permettant à l'adaptateur d'hériter des puissantes connaissances antérieures des modèles pré-entraînés pour modéliser les nouvelles connaissances 3D. De plus, nous présentons un encodeur de conditions unifié qui intègre de manière transparente les paramètres de la caméra et les informations géométriques, facilitant des applications telles que la génération 3D basée sur du texte et des images et la texturation. MV-Adapter réalise une génération multi-vues à une résolution de 768 sur Stable Diffusion XL (SDXL), et démontre son adaptabilité et sa polyvalence. Il peut également être étendu à la génération de vues arbitraires, permettant des applications plus larges. Nous démontrons que MV-Adapter établit une nouvelle norme de qualité pour la génération d'images multi-vues, et ouvre de nouvelles possibilités en raison de son efficacité, de son adaptabilité et de sa polyvalence.
Les récents progrès dans la génération d'images centrées sur les vêtements à partir de textes et de prompts d'images basés sur des modèles de diffusion sont impressionnants. Cependant, les méthodes existantes manquent de support pour diverses combinaisons de tenues et ont du mal à préserver les détails des vêtements tout en restant fidèles aux prompts textuels, limitant ainsi leurs performances dans des scénarios variés. Dans cet article, nous nous concentrons sur une nouvelle tâche, à savoir l'Habillage Virtuel Multi-Vêtements, et nous proposons une nouvelle méthode appelée AnyDressing pour personnaliser des personnages en fonction de toute combinaison de vêtements et de prompts textuels personnalisés. AnyDressing comprend deux réseaux principaux nommés GarmentsNet et DressingNet, respectivement dédiés à l'extraction de caractéristiques détaillées des vêtements et à la génération d'images personnalisées. Plus précisément, nous proposons un module efficace et évolutif appelé Extracteur de Caractéristiques Spécifiques aux Vêtements dans GarmentsNet pour encoder individuellement les textures des vêtements en parallèle. Cette conception évite la confusion des vêtements tout en assurant l'efficacité du réseau. Parallèlement, nous concevons un mécanisme d'Attention à l'Habillage adaptatif et une nouvelle stratégie d'Apprentissage de Localisation des Vêtements au Niveau de l'Instance dans DressingNet pour injecter avec précision les caractéristiques multi-vêtements dans leurs régions correspondantes. Cette approche intègre efficacement les indices de texture multi-vêtements dans les images générées et renforce davantage la cohérence texte-image. De plus, nous introduisons une stratégie d'Apprentissage de Texture Améliorée par les Vêtements pour améliorer les détails de texture fins des vêtements. Grâce à notre conception bien pensée, AnyDressing peut servir de module plug-in pour s'intégrer facilement à toutes les extensions de contrôle communautaire pour les modèles de diffusion, améliorant ainsi la diversité et la contrôlabilité des images synthétisées. Des expériences approfondies montrent qu'AnyDressing atteint des résultats de pointe.
L'orientation adversaire basée sur du texte en utilisant une incitation négative s'est imposée comme une approche largement adoptée pour éloigner les caractéristiques de sortie des concepts indésirables. Bien que utile, effectuer une orientation adversaire en se basant uniquement sur du texte peut être insuffisant pour saisir des concepts visuels complexes et éviter des éléments visuels indésirables tels que des personnages protégés par des droits d'auteur. Dans cet article, nous explorons pour la première fois une modalité alternative dans cette direction en effectuant une orientation adversaire directement en utilisant des caractéristiques visuelles issues d'une image de référence ou d'autres images dans un lot. En particulier, nous introduisons la fusion de jetons négatifs (NegToMe), une approche simple mais efficace, sans entraînement, qui effectue une orientation adversaire en écartant sélectivement les caractéristiques sémantiques correspondantes (entre la référence et la génération de sortie) lors du processus de diffusion inverse. Lorsqu'elle est utilisée par rapport à d'autres images dans le même lot, nous observons que NegToMe augmente significativement la diversité des sorties (raciale, de genre, visuelle) sans sacrifier la qualité de l'image de sortie. De même, lorsqu'elle est utilisée par rapport à un actif protégé par des droits d'auteur de référence, NegToMe aide à réduire la similarité visuelle avec le contenu protégé par des droits d'auteur de 34,57%. NegToMe est simple à mettre en œuvre en utilisant seulement quelques lignes de code, utilise des temps d'inférence légèrement plus élevés (<4%) et se généralise à différentes architectures de diffusion comme Flux, qui ne prennent pas en charge nativement l'utilisation d'une incitation négative distincte. Le code est disponible sur https://negtome.github.io
Les grands modèles de langage (GML), se sont imposés comme une étape importante dans le domaine de l'intelligence artificielle, et leurs performances peuvent s'améliorer à mesure que la taille du modèle augmente. Cependant, cette mise à l'échelle pose de grands défis en termes d'efficacité d'entraînement et d'inférence, notamment pour le déploiement des GML dans des environnements aux ressources limitées, et la tendance à la mise à l'échelle devient de plus en plus insoutenable. Ce document introduit le concept de "densité de capacité" comme nouvelle métrique pour évaluer la qualité des GML à différentes échelles et décrit la tendance des GML en termes d'efficacité et d'efficience. Pour calculer la densité de capacité d'un GML cible donné, nous introduisons d'abord un ensemble de modèles de référence et développons une loi d'échelle pour prédire les performances ultérieures de ces modèles de référence en fonction de leurs tailles de paramètres. Nous définissons ensuite la taille de paramètre effective du GML cible comme la taille de paramètre requise par un modèle de référence pour atteindre des performances équivalentes, et formalisons la densité de capacité comme le ratio de la taille de paramètre effective à la taille de paramètre réelle du GML cible. La densité de capacité fournit un cadre unifié pour évaluer à la fois l'efficacité et l'efficience du modèle. Notre analyse approfondie des récents GML de base open-source révèle une loi empirique (la loi de densification) selon laquelle la densité de capacité des GML croît de manière exponentielle au fil du temps. Plus précisément, en utilisant certains benchmarks largement utilisés pour l'évaluation, la densité de capacité des GML double environ tous les trois mois. Cette loi offre de nouvelles perspectives pour guider le développement futur des GML, en soulignant l'importance d'améliorer la densité de capacité pour obtenir des résultats optimaux avec un minimum de surcharge computationnelle.
Les biais culturels dans les ensembles de données multilingues posent des défis significatifs pour leur efficacité en tant que références mondiales. Ces biais proviennent non seulement de la langue, mais aussi des connaissances culturelles nécessaires pour interpréter les questions, réduisant ainsi l'utilité pratique des ensembles de données traduits tels que le MMLU. De plus, la traduction introduit souvent des artefacts qui peuvent déformer le sens ou la clarté des questions dans la langue cible. Une pratique courante dans l'évaluation multilingue est de s'appuyer sur des ensembles d'évaluation traduits par machine, mais la simple traduction d'un ensemble de données est insuffisante pour relever ces défis. Dans ce travail, nous examinons l'impact de ces deux problèmes sur les évaluations multilingues et les performances des modèles qui en découlent. Notre évaluation à grande échelle des modèles ouverts et propriétaires de pointe illustre que les progrès sur le MMLU dépendent fortement de l'apprentissage de concepts centrés sur l'Occident, avec 28 % de toutes les questions nécessitant des connaissances culturellement sensibles. De plus, pour les questions nécessitant des connaissances géographiques, un impressionnant 84,9 % se concentrent sur les régions nord-américaines ou européennes. Les classements des évaluations des modèles changent en fonction de s'ils sont évalués sur la totalité ou le sous-ensemble des questions annotées comme culturellement sensibles, montrant la distorsion des classements des modèles lorsqu'on se fie aveuglément au MMLU traduit. Nous publions Global-MMLU, un MMLU amélioré avec une couverture d'évaluation dans 42 langues -- avec une qualité globale améliorée en collaborant avec des annotateurs professionnels et communautaires rémunérés pour vérifier la qualité de la traduction tout en évaluant rigoureusement les biais culturels présents dans l'ensemble de données d'origine. Cet ensemble Global-MMLU complet comprend également des sous-ensembles désignés comme culturellement sensibles et culturellement agnostiques pour permettre une évaluation plus holistique et complète.
Nous présentons Infinity, un modèle auto-régressif visuel par bits capable de générer des images haute résolution et photoréalistes en suivant des instructions linguistiques. Infinity redéfinit le modèle auto-régressif visuel dans le cadre d'une prédiction de jeton par bits avec un tokeniseur et un classifieur à vocabulaire infini, ainsi qu'un mécanisme d'auto-correction par bits, améliorant de manière remarquable la capacité de génération et les détails. En mettant théoriquement à l'échelle la taille du vocabulaire du tokeniseur à l'infini et en mettant simultanément à l'échelle la taille du transformateur, notre méthode libère significativement des capacités de mise à l'échelle puissantes par rapport au VAR classique. Infinity établit un nouveau record pour les modèles texte-image auto-régressifs, surpassant des modèles de diffusion de premier plan tels que SD3-Medium et SDXL. Notamment, Infinity dépasse SD3-Medium en améliorant le score du banc d'essai GenEval de 0,62 à 0,73 et le score du banc d'essai ImageReward de 0,87 à 0,96, atteignant un taux de réussite de 66%. Sans optimisation supplémentaire, Infinity génère une image de haute qualité de 1024x1024 en 0,8 seconde, le rendant 2,6 fois plus rapide que SD3-Medium et l'établissant comme le modèle texte-image le plus rapide. Les modèles et les codes seront publiés pour promouvoir une exploration plus poussée d'Infinity pour la génération visuelle et la modélisation de tokeniseur unifiée.
Nous présentons HumanEdit, un ensemble de données de haute qualité récompensé par des humains spécifiquement conçu pour l'édition d'images guidée par des instructions, permettant des manipulations d'images précises et diverses à travers des instructions en langage ouvert. Les ensembles de données d'édition à grande échelle précédents intègrent souvent un minimum de rétroaction humaine, ce qui pose des défis pour aligner les ensembles de données avec les préférences humaines. HumanEdit comble cette lacune en faisant appel à des annotateurs humains pour construire des paires de données et des administrateurs pour fournir des retours. Avec une curation méticuleuse, HumanEdit comprend 5 751 images et nécessite plus de 2 500 heures d'effort humain à travers quatre étapes, garantissant à la fois précision et fiabilité pour une large gamme de tâches d'édition d'images. L'ensemble de données comprend six types distincts d'instructions d'édition : Action, Ajouter, Compter, Relation, Retirer et Remplacer, englobant un large éventail de scénarios du monde réel. Toutes les images de l'ensemble de données sont accompagnées de masques, et pour un sous-ensemble des données, nous nous assurons que les instructions sont suffisamment détaillées pour prendre en charge l'édition sans masque. De plus, HumanEdit offre une diversité complète et un contenu haute résolution de 1024 fois 1024 provenant de divers domaines, établissant ainsi une nouvelle référence polyvalente pour les ensembles de données d'édition d'images guidées par des instructions. Dans le but de faire progresser la recherche future et d'établir des références d'évaluation dans le domaine de l'édition d'images, nous publions HumanEdit sur https://huggingface.co/datasets/BryanW/HumanEdit.
Les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) sont devenus de plus en plus importants en raison de leurs performances de pointe et de leur capacité à intégrer plusieurs modalités de données, telles que le texte, les images et l'audio, pour réaliser des tâches complexes avec une grande précision. Cet article présente une étude approfondie sur les modèles de langage multimodaux personnalisés, en mettant l'accent sur leur architecture, leurs méthodes d'entraînement et leurs applications. Nous proposons une taxonomie intuitive pour classer les techniques utilisées pour personnaliser les MLLMs pour les utilisateurs individuels, et discutons des techniques en conséquence. De plus, nous discutons de la manière dont de telles techniques peuvent être combinées ou adaptées lorsque cela est approprié, en mettant en avant leurs avantages et leur justification sous-jacente. Nous fournissons également un résumé succinct des tâches de personnalisation étudiées dans les recherches existantes, ainsi que des métriques d'évaluation couramment utilisées. De plus, nous résumons les ensembles de données utiles pour le benchmarking des MLLMs personnalisés. Enfin, nous présentons les défis ouverts critiques. Cette étude vise à servir de ressource précieuse pour les chercheurs et les praticiens cherchant à comprendre et à faire progresser le développement de modèles de langage multimodaux à grande échelle personnalisés.
La compréhension des calculs internes des grands modèles de langage (GML) est cruciale pour les aligner avec les valeurs humaines et prévenir les comportements indésirables tels que la génération de contenu toxique. Cependant, l'interprétabilité mécaniste est entravée par la polysémie - où des neurones individuels répondent à de multiples concepts non liés. Alors que les Autoencodeurs Épars (SAEs) ont tenté de démêler ces caractéristiques grâce à l'apprentissage de dictionnaires épars, ils ont compromis les performances des GML en raison de leur dépendance à la perte de reconstruction a posteriori. Pour résoudre ce problème, nous introduisons l'architecture Mélange d'Experts Monosémantiques pour les Transformers (Monet), qui intègre l'apprentissage de dictionnaires épars directement dans la préformation en bout en bout du Mélange d'Experts. Notre nouvelle méthode de décomposition des experts permet de faire évoluer le nombre d'experts à 262 144 par couche, tandis que les paramètres totaux évoluent de manière proportionnelle à la racine carrée du nombre d'experts. Nos analyses démontrent l'exclusivité mutuelle des connaissances entre les experts et mettent en valeur les connaissances paramétriques encapsulées au sein de chaque expert. De plus, Monet permet la manipulation des connaissances sur les domaines, les langues et l'atténuation de la toxicité sans dégrader les performances générales. Notre recherche de GML transparents met en lumière le potentiel d'augmenter le nombre d'experts pour améliorer l'interprétabilité mécaniste et restructurer directement les connaissances internes pour ajuster fondamentalement le comportement du modèle. Le code source et les points de contrôle pré-entraînés sont disponibles sur https://github.com/dmis-lab/Monet.
Nous présentons OmniFlow, un nouveau modèle génératif conçu pour des tâches de génération de tout type, telles que texte-vers-image, texte-vers-audio et audio-vers-image. OmniFlow fait progresser le cadre de flux rectifié (RF) utilisé dans les modèles texte-vers-image pour traiter la distribution conjointe de multiples modalités. Il surpasse les modèles tout-type précédents sur un large éventail de tâches, telles que la synthèse texte-vers-image et texte-vers-audio. Notre travail offre trois contributions clés : Premièrement, nous étendons RF à un cadre multi-modal et introduisons un nouveau mécanisme de guidage, permettant aux utilisateurs de contrôler de manière flexible l'alignement entre différentes modalités dans les sorties générées. Deuxièmement, nous proposons une architecture novatrice qui étend l'architecture MMDiT texte-vers-image de Stable Diffusion 3 et permet la génération audio et textuelle. Les modules étendus peuvent être pré-entraînés individuellement de manière efficace et fusionnés avec le MMDiT texte-vers-image de base pour un affinage. Enfin, nous menons une étude approfondie sur les choix de conception des transformateurs de flux rectifié pour la génération audio et textuelle à grande échelle, fournissant des perspectives précieuses pour optimiser les performances à travers diverses modalités. Le code sera disponible sur https://github.com/jacklishufan/OmniFlows.
En tant que sport mondialement célébré, le football a suscité un vif intérêt de la part des fans du monde entier. Cet article vise à développer un cadre multimodal complet pour la compréhension des vidéos de football. Plus précisément, nous apportons les contributions suivantes dans cet article : (i) nous introduisons SoccerReplay-1988, le plus grand ensemble de données multimodal sur le football à ce jour, comprenant des vidéos et des annotations détaillées de 1 988 matchs complets, avec un pipeline d'annotation automatisé ; (ii) nous présentons le premier modèle fondamental visuel-langage dans le domaine du football, MatchVision, qui exploite les informations spatiotemporelles à travers les vidéos de football et excelle dans diverses tâches ultérieures ; (iii) nous menons des expériences approfondies et des études d'ablation sur la classification des événements, la génération de commentaires et la reconnaissance des fautes en multi-vues. MatchVision démontre des performances de pointe sur tous ces aspects, surpassant largement les modèles existants, ce qui souligne la supériorité de nos données et de notre modèle proposés. Nous pensons que ce travail offrira un paradigme standard pour la recherche en compréhension des sports.
Les Modèles Vision-Language entraînés de manière contrastive (VLM), tels que CLIP, sont devenus l'approche de facto pour l'apprentissage de représentations discriminatives vision-language. Cependant, ces modèles ont une compréhension limitée du langage, présentant souvent un comportement de "sac de mots". En même temps, les Grands Modèles Vision-Language (LVLM), qui combinent des encodeurs de vision avec des LLM, ont montré qu'ils étaient capables de raisonnement détaillé vision-language, mais leur nature autorégressive les rend moins adaptés aux tâches discriminatives. Dans ce travail, nous proposons de combiner "le meilleur des deux mondes" : une nouvelle approche d'entraînement pour l'ajustement fin discriminatif des LVLM qui se traduit par de fortes capacités discriminatives et compositionnelles. Essentiellement, notre approche convertit un LVLM génératif en un LVLM discriminatif, débloquant sa capacité pour une discrimination image-texte puissante combinée à une compréhension linguistique améliorée. Nos contributions comprennent : (1) Un cadre d'entraînement/optimisation soigneusement conçu qui utilise des paires image-texte de longueur et de granularité variables pour entraîner le modèle avec à la fois des pertes de prédiction contrastive et de prédiction du prochain jeton. Cela est accompagné d'études d'ablation qui justifient la nécessité des composants de notre cadre. (2) Une méthode d'adaptation efficace en termes de paramètres utilisant une combinaison de prompting doux et d'adaptateurs LoRA. (3) Des améliorations significatives par rapport aux modèles similaires à CLIP de pointe en termes de taille, y compris des référentiels d'images-textes standard et des gains notables en termes de compositionnalité.
Les grands modèles de langage (LLM) ont réalisé des progrès remarquables ces dernières années; cependant, leur excellente performance est encore largement limitée aux grandes langues du monde, principalement l'anglais. De nombreux LLM continuent de rencontrer des défis avec les tâches multilingues, surtout lorsqu'il s'agit de langues à faibles ressources. Pour résoudre ce problème, nous avons introduit Marco-LLM : Entraînement massif multilingue pour l'amélioration interlingue des LLM. Nous avons collecté une quantité substantielle de données multilingues pour plusieurs langues à faibles ressources et mené une pré-formation continue approfondie en utilisant les modèles Qwen2. Cet effort a abouti à un LLM multilingue nommé Marco-LLM. À travers des évaluations approfondies sur divers bancs d'essai multilingues, incluant MMMLU, AGIEval, Belebele, Flores-200, XCOPA et bien d'autres, Marco-LLM a démontré des améliorations substantielles par rapport aux LLM de pointe. De plus, Marco-LLM a obtenu des améliorations substantielles dans les tâches de traduction automatique de n'importe quelle langue vers n'importe quelle langue, montrant ainsi l'efficacité de notre LLM multilingue. Marco-LLM est un LLM multilingue pionnier conçu non seulement pour performer de manière exceptionnelle dans les tâches multilingues, incluant les langues à faibles ressources, mais aussi pour maintenir de solides performances en anglais et dans d'autres grandes langues, comblant ainsi l'écart de performance entre les capacités linguistiques à ressources élevées et faibles. En reliant les langues, cet effort démontre notre engagement à garantir que les LLM fonctionnent de manière précise à travers différentes langues.
Les récents progrès dans les modèles de diffusion vidéo ont ouvert de nouvelles perspectives pour la génération réaliste de vidéos parlantes pilotées par l'audio. Cependant, parvenir à une synchronisation audio-lèvres sans faille, maintenir une cohérence d'identité à long terme et produire des expressions naturelles et alignées sur l'audio dans les vidéos parlantes générées restent des défis importants. Pour relever ces défis, nous proposons MEMO (Memory-guided EMOtion-aware diffusion), une approche d'animation de portrait pilotée par l'audio de bout en bout pour générer des vidéos parlantes cohérentes en termes d'identité et expressives. Notre approche repose sur deux modules clés : (1) un module temporel guidé par la mémoire, qui améliore la cohérence d'identité à long terme et la fluidité du mouvement en développant des états de mémoire pour stocker des informations d'un contexte passé plus long afin de guider la modélisation temporelle via une attention linéaire ; et (2) un module audio conscient des émotions, qui remplace l'attention croisée traditionnelle par une attention multi-modale pour améliorer l'interaction audio-vidéo, tout en détectant les émotions à partir de l'audio pour affiner les expressions faciales via une normalisation de couche adaptative aux émotions. Des résultats quantitatifs et qualitatifs approfondis démontrent que MEMO génère des vidéos parlantes plus réalistes à travers divers types d'images et d'audio, surpassant les méthodes de pointe en termes de qualité globale, de synchronisation audio-lèvres, de cohérence d'identité et d'alignement expression-émotion.
Dans cet article, nous proposons ZipAR, un cadre de décodage parallèle plug-and-play sans entraînement pour accélérer la génération visuelle auto-régressive (AR). La motivation découle de l'observation selon laquelle les images présentent des structures locales, et que les régions spatialement éloignées ont tendance à avoir un minimum d'interdépendance. Étant donné un ensemble partiellement décodé de jetons visuels, en plus du schéma de prédiction du prochain jeton original dans la dimension de la ligne, les jetons correspondant à des régions spatialement adjacentes dans la dimension de la colonne peuvent être décodés en parallèle, permettant le paradigme de la "prédiction du prochain ensemble". En décodant plusieurs jetons simultanément en une seule passe avant, le nombre de passes avant nécessaires pour générer une image est considérablement réduit, entraînant une amélioration substantielle de l'efficacité de génération. Les expériences démontrent que ZipAR peut réduire le nombre de passes avant du modèle jusqu'à 91% sur le modèle Emu3-Gen sans nécessiter de nouveau retraitement.
Les modèles de langage actuels reposent principalement sur des transformateurs à structure de décodage uniquement, qui présentent de grandes capacités d'apprentissage en contexte (ICL). Il est généralement admis que la base importante de sa capacité ICL est le mécanisme des têtes inductives, qui nécessite au moins deux couches d'attention. Afin de mettre en œuvre de manière plus efficace la capacité d'induction du modèle, nous revisitons le mécanisme des têtes inductives et proposons une attention à décalage KV. Nous démontrons théoriquement que l'attention à décalage KV réduit les exigences du modèle en termes de profondeur et de largeur du mécanisme des têtes inductives. Nos résultats expérimentaux montrent que l'attention à décalage KV est bénéfique pour l'apprentissage des têtes inductives et de la modélisation linguistique, ce qui se traduit par de meilleures performances ou une convergence plus rapide, des modèles jouets aux modèles de pré-entraînement avec plus de 10 milliards de paramètres.
Nous proposons 4Real-Video, un nouveau cadre pour générer des vidéos 4D, organisées sous forme de grille de trames vidéo avec des axes temporels et de points de vue. Dans cette grille, chaque ligne contient des trames partageant le même pas de temps, tandis que chaque colonne contient des trames du même point de vue. Nous proposons une architecture à deux flux novatrice. Un flux effectue des mises à jour de points de vue sur les colonnes, et l'autre flux effectue des mises à jour temporelles sur les lignes. Après chaque couche de transformateur de diffusion, une couche de synchronisation échange des informations entre les deux flux de jetons. Nous proposons deux implémentations de la couche de synchronisation, utilisant soit une synchronisation dure, soit une synchronisation douce. Cette architecture feedforward améliore les travaux précédents de trois manières : une vitesse d'inférence plus élevée, une qualité visuelle améliorée (mesurée par FVD, CLIP et VideoScore), et une meilleure cohérence temporelle et de points de vue (mesurée par VideoScore et Dust3R-Confidence).
Malgré les performances remarquables des grands modèles de langage multimodaux (MLLMs) dans diverses tâches, les coûts substantiels d'entraînement et d'inférence freinent leur avancée. La majorité des calculs provient du volume écrasant de jetons visuels traités par le décodeur transformateur. Dans cet article, nous proposons de construire des MLLMs efficaces en exploitant le mécanisme de Mélange de Profondeurs (MoD), où chaque couche de décodeur transformateur sélectionne des jetons visuels essentiels à traiter tout en sautant ceux redondants. Cependant, l'intégration de MoD dans les MLLMs est complexe. Pour relever les défis de la stabilité de l'entraînement et de l'inférence ainsi que du manque de données d'entraînement, nous adaptons le module MoD avec deux conceptions novatrices : la normalisation des poids à portes tanh (TanhNorm) et la repondération symétrique des jetons (STRing). De plus, nous observons que les jetons visuels présentent une redondance plus élevée dans les couches plus profondes et concevons donc une stratégie de décroissance progressive du ratio (PRD), qui réduit progressivement le ratio de rétention des jetons couche par couche, en utilisant un calendrier cosinus décalé. Cette conception cruciale libère pleinement le potentiel de MoD, améliorant significativement l'efficacité et les performances de nos modèles. Pour valider l'efficacité de notre approche, nous menons des expériences approfondies avec deux modèles de référence sur 14 bancs d'essai. Notre modèle, p-MoD, égale voire dépasse les performances des modèles de référence, avec seulement 55,6 % de TFLOPs et 53,8 % de stockage cache KV lors de l'inférence, et 77,7 % d'heures GPU lors de l'entraînement.
Malgré les avancées significatives dans les modèles vision-langage (VLM), il existe un manque d'approches efficaces pour améliorer la qualité des réponses en augmentant le calcul au moment de l'inférence. Cette capacité est reconnue comme une étape clé vers les modèles auto-améliorants dans les récentes études sur les grands modèles de langage. Dans cet article, nous présentons le Modèle de Valeur Visuelle (VisVM) qui peut guider la recherche au moment de l'inférence des VLM pour générer des réponses avec une meilleure compréhension visuelle. Plus précisément, VisVM évalue non seulement la qualité de la phrase générée à l'étape de recherche actuelle, mais anticipe également la qualité des phrases suivantes qui pourraient résulter de l'étape actuelle, offrant ainsi une valeur à long terme. De cette manière, VisVM guide les VLM pour éviter de générer des phrases sujettes à des hallucinations ou à un manque de détails, produisant ainsi des réponses de meilleure qualité. Les résultats expérimentaux démontrent que la recherche guidée par VisVM améliore significativement la capacité des VLM à générer des légendes descriptives avec des détails visuels plus riches et moins d'hallucinations, par rapport au décodage glouton et aux méthodes de recherche avec d'autres signaux de récompense visuelle. De plus, nous constatons que l'auto-entraînement du modèle avec les légendes guidées par VisVM améliore les performances des VLM sur un large éventail de benchmarks multimodaux, indiquant le potentiel de développement de VLM auto-améliorants. Notre modèle de valeur et le code sont disponibles sur https://github.com/si0wang/VisVM.
La segmentation d'images médicales a récemment montré des progrès impressionnants avec les réseaux neuronaux profonds, cependant les modalités hétérogènes et la rareté des annotations de masques limitent le développement de modèles de segmentation sur des modalités non annotées. Cet article explore un nouveau paradigme pour exploiter les modèles génératifs dans les applications médicales : la synthèse contrôlable de données pour des modalités non annotées, sans nécessiter de paires de données enregistrées. Plus précisément, nous apportons les contributions suivantes dans cet article : (i) nous collectons et organisons un ensemble de données image-texte en radiologie à grande échelle, MedGen-1M, comprenant des étiquettes de modalité, des attributs, des informations sur la région et les organes, ainsi qu'un sous-ensemble d'annotations de masques d'organes, pour soutenir la recherche en génération d'images médicales contrôlable ; (ii) nous proposons un moteur de données basé sur la diffusion, appelé MRGen, qui permet la génération conditionnée par des instructions textuelles et des masques, en synthétisant des images IRM pour diverses modalités manquant d'annotations de masques, pour entraîner des modèles de segmentation sur des modalités non annotées ; (iii) nous menons des expériences approfondies sur diverses modalités, illustrant que notre moteur de données peut synthétiser efficacement des échantillons d'entraînement et étendre la segmentation par IRM vers des modalités non annotées.
L'extraction de table à partir d'images de documents est un problème complexe en IA, et les données étiquetées pour de nombreux domaines de contenu sont difficiles à obtenir. Les ensembles de données d'extraction de table existants se concentrent souvent sur les tables scientifiques en raison de la grande quantité d'articles académiques facilement disponibles, ainsi que de leur code source. Cependant, il existe des différences significatives de mise en page et de typographie entre les tables trouvées dans les domaines scientifiques, financiers et autres. Les ensembles de données actuels manquent souvent des mots et de leurs positions contenus dans les tables, en se reposant plutôt sur une OCR peu fiable pour extraire ces caractéristiques afin d'entraîner des modèles d'apprentissage automatique modernes sur des tâches de traitement du langage naturel. Par conséquent, il est nécessaire de disposer d'une méthode plus générale pour obtenir des données étiquetées. Nous présentons SynFinTabs, un ensemble de données étiquetées à grande échelle de tables financières synthétiques. Nous espérons que notre méthode de génération de ces tables synthétiques est transférable à d'autres domaines. Pour démontrer l'efficacité de notre ensemble de données dans la formation de modèles pour extraire des informations à partir d'images de table, nous créons FinTabQA, un grand modèle de langage de mise en page entraîné sur une tâche d'extraction de questions-réponses. Nous testons notre modèle en utilisant des tables financières du monde réel, le comparons à un modèle génératif de pointe et discutons des résultats. Nous mettons l'ensemble de données, le modèle et le code de génération d'ensemble de données à disposition du public.
Des plateformes ouvertes et collaboratives telles que Chatbot Arena, qui collectent des données de préférence des utilisateurs visiteurs du site, ont acquis une réputation en tant que l'un des benchmarks publiquement disponibles les plus fiables pour la performance des LLM. Bien que désormais standard, il est délicat de mettre en place des garde-fous efficaces pour collecter des annotations de haute qualité de la part des humains. Dans cet article, nous démontrons que trois sources d'annotations de mauvaise qualité, à la fois malveillantes et autres, peuvent corrompre la fiabilité des classements des tableaux de bord ouverts. En particulier, nous montrons que seulement 10\% des votes de mauvaise qualité par des annotateurs apathiques (visiteurs du site non incités de manière appropriée à donner des votes corrects) ou adversaires (mauvais acteurs cherchant à gonfler le classement d'un modèle cible) peuvent modifier les classements des modèles jusqu'à 5 places sur le tableau de bord. Enfin, nous discutons des défis ouverts pour garantir des annotations humaines de haute qualité.
Nous développons des lois d'échelle des tâches et des modèles d'échelles pour prédire les performances individuelles des modèles de langage pré-entraînés (LM) dans le cadre de la sur-entraînement. Les lois de puissance standard pour la perte de modélisation de langage ne peuvent pas modéliser précisément les performances des tâches. Par conséquent, nous exploitons une approche de prédiction en deux étapes : d'abord utiliser la taille du modèle et des données pour prédire une perte spécifique à la tâche, puis utiliser cette perte de tâche pour prédire la performance de la tâche. Nous entraînons un ensemble de "modèles échelle" à petite échelle, collectons des points de données pour ajuster les fonctions paramétrées des deux étapes de prédiction, et faisons des prédictions pour deux modèles cibles : un modèle 7B entraîné avec 4T jetons et un modèle 13B entraîné avec 5T jetons. Entraîner les modèles échelle ne coûte que 1 % du calcul utilisé pour les modèles cibles. Sur quatre tâches à choix multiples rédigées au format de classification classée, nous pouvons prédire l'exactitude des deux modèles cibles avec une erreur absolue de 2 points. Nous avons une erreur de prédiction plus élevée sur quatre autres tâches (erreur absolue moyenne de 6,9) et constatons que ce sont souvent des tâches avec une plus grande variance dans les métriques de tâche. Nous constatons également que l'utilisation de moins de calcul pour entraîner moins de modèles échelle a tendance à détériorer les prédictions. Enfin, nous montrons empiriquement que nos choix de conception et l'approche en deux étapes conduisent à des performances supérieures pour établir des lois d'échelle.