papers.description
Le domaine des modèles vision-langage (VLM), qui prennent des images et des textes en entrée et produisent des textes en sortie, évolue rapidement et n'a pas encore trouvé de consensus sur plusieurs aspects clés du processus de développement, notamment les données, l'architecture et les méthodes d'entraînement. Ce document peut être considéré comme un tutoriel pour la construction d'un VLM. Nous commençons par fournir un aperçu complet des approches de pointe actuelles, en mettant en avant les forces et les faiblesses de chacune, en abordant les principaux défis du domaine, et en suggérant des orientations de recherche prometteuses pour les domaines peu explorés. Nous passons ensuite en revue les étapes pratiques pour construire Idefics3-8B, un puissant VLM qui surpasse significativement son prédécesseur Idefics2-8B, tout en étant entraîné de manière efficace, exclusivement sur des ensembles de données ouverts, et en utilisant un processus simple. Ces étapes comprennent la création de Docmatix, un ensemble de données pour améliorer les capacités de compréhension des documents, qui est 240 fois plus grand que les ensembles de données précédemment disponibles. Nous publions le modèle ainsi que les ensembles de données créés pour son entraînement.
L'évaluation approfondie des Grands Modèles de Langage Multimodaux (MLLMs) a récemment suscité une attention généralisée au sein de la communauté de recherche. Cependant, nous constatons que les benchmarks existants présentent plusieurs obstacles communs qui rendent difficile la mesure des défis significatifs auxquels les modèles sont confrontés dans le monde réel, notamment : 1) une petite échelle de données entraîne une grande variance de performance ; 2) la dépendance aux annotations basées sur le modèle entraîne une qualité de données restreinte ; 3) une difficulté de tâche insuffisante, notamment causée par la résolution limitée des images. Pour relever ces défis, nous introduisons MME-RealWorld. Plus précisément, nous collectons plus de 300 000 images à partir de jeux de données publics et d'Internet, filtrant 13 366 images de haute qualité pour annotation. Cela implique les efforts de 25 annotateurs professionnels et de 7 experts en MLLMs, contribuant à 29 429 paires question-réponse couvrant 43 sous-tâches à travers 5 scénarios réels, extrêmement difficiles même pour les humains. À notre connaissance, MME-RealWorld est le plus grand benchmark annoté manuellement à ce jour, offrant la plus haute résolution et se concentrant sur des applications réelles. Nous menons en outre une évaluation approfondie impliquant 28 MLLMs de premier plan, tels que GPT-4o, Gemini 1.5 Pro et Claude 3.5 Sonnet. Nos résultats montrent que même les modèles les plus avancés peinent avec nos benchmarks, aucun d'entre eux n'atteignant une précision de 60 %. Les défis de perception des images haute résolution et de compréhension des scénarios réels complexes restent des problèmes urgents à résoudre. Les données et le code d'évaluation sont disponibles sur https://mme-realworld.github.io/.
La génération de scènes immersives en 3D est une tâche complexe mais cruciale en vision par ordinateur et en graphisme. Une scène virtuelle 3D souhaitée devrait 1) présenter une cohérence de vue omnidirectionnelle, et 2) permettre une exploration libre dans des hiérarchies de scènes complexes. Les méthodes existantes reposent soit sur l'expansion successive de scènes via l'inpainting, soit utilisent une représentation panoramique pour représenter de vastes environnements de scènes à champ de vision large. Cependant, la scène générée souffre d'une dérive sémantique pendant l'expansion et ne peut pas gérer l'occultation entre les hiérarchies de scènes. Pour relever ces défis, nous introduisons LayerPano3D, un nouveau cadre pour la génération de scènes panoramiques 3D explorables à vue complète à partir d'une seule instruction textuelle. Notre idée clé est de décomposer un panorama 2D de référence en plusieurs couches à différents niveaux de profondeur, où chaque couche révèle l'espace invisible des vues de référence via une diffusion préalable. LayerPano3D comprend plusieurs conceptions dédiées : 1) nous introduisons un nouveau pipeline de synthèse de vue d'ancrage guidée par le texte pour une génération de panoramas de haute qualité et cohérente. 2) Nous lançons le Panorama 3D en couches comme représentation sous-jacente pour gérer des hiérarchies de scènes complexes et le transformons en Gaussiennes 3D pour projeter des scènes omnidirectionnelles détaillées sur 360 degrés avec des trajectoires de vision non contraintes. Des expériences approfondies démontrent que notre cadre génère des scènes panoramiques 3D de pointe à la fois en termes de cohérence de vue complète et d'expérience immersive d'exploration. Nous pensons que LayerPano3D offre des perspectives pour faire progresser la création de scènes panoramiques 3D avec de nombreuses applications.
La complexité computationnelle quadratique dans le mécanisme d'auto-attention des architectures de transformer populaires pose des défis importants pour l'entraînement et l'inférence, notamment en termes d'efficacité et d'exigences en mémoire. Pour relever ces défis, cet article présente une nouvelle méthode de calcul rapide des gradients dans les modèles de transformer à plusieurs couches. Notre approche permet le calcul des gradients pour l'ensemble du modèle de transformer à plusieurs couches en un temps presque linéaire n^{1+o(1)}, où n est la longueur de la séquence d'entrée. Cette percée réduit considérablement le goulot d'étranglement computationnel associé à la complexité temporelle quadratique traditionnelle. Notre théorie est valable pour toute fonction de perte et maintient une erreur d'approximation bornée sur l'ensemble du modèle. De plus, notre analyse peut être appliquée lorsque le modèle de transformer à plusieurs couches contient de nombreux sous-modules pratiques, tels que la connexion résiduelle, le masque causal et l'attention multi-têtes. En améliorant l'efficacité du calcul des gradients dans les grands modèles de langage, nous espérons que notre travail facilitera l'entraînement et le déploiement plus efficaces de modèles de langage à long contexte basés sur nos résultats théoriques.
Récemment, une large gamme d'algorithmes d'entraînement LLM efficaces en mémoire a gagné une popularité substantielle. Ces méthodes exploitent la structure de bas rang des gradients pour projeter les états de l'optimiseur dans un sous-espace en utilisant une matrice de projection trouvée par décomposition en valeurs singulières (SVD). Cependant, la convergence de ces algorithmes dépend fortement des règles de mise à jour de leur matrice de projection. Dans ce travail, nous fournissons la première garantie de convergence pour des règles de mise à jour arbitraires de la matrice de projection. Cette garantie s'applique généralement aux optimiseurs pouvant être analysés avec la Descente Hamiltonienne, y compris les plus courants tels que LION, Adam. Inspirés par notre compréhension théorique, nous proposons la Descente en Sous-espace en Ligne, une nouvelle famille d'optimiseurs de descente en sous-espace sans SVD. Au lieu de mettre à jour la matrice de projection avec des vecteurs propres, la Descente en Sous-espace en Ligne met à jour la matrice de projection avec une PCA en ligne. La Descente en Sous-espace en Ligne est flexible et n'introduit qu'un minimum de surcharge à l'entraînement. Nous montrons que pour la tâche de pré-entraînement des modèles LLaMA allant de 60M à 7B de paramètres sur l'ensemble de données C4, la Descente en Sous-espace en Ligne atteint une perplexité plus faible et de meilleures performances dans les tâches ultérieures que les méthodes d'entraînement de bas rang de pointe dans différents contextes, réduisant ainsi l'écart avec les références de rang complet.
La synthèse de mouvement 3D pilotée par la parole vise à créer des animations réalistes basées sur la parole humaine, avec des utilisations potentielles en réalité virtuelle, dans les jeux vidéo et dans la production cinématographique. Les approches existantes se basent uniquement sur l'audio de la parole pour la génération de mouvement, ce qui entraîne des résultats de synthèse inexactes et rigides. Pour atténuer ce problème, nous introduisons une nouvelle méthode novatrice de synthèse de mouvement humain en 3D guidée par le texte, appelée T3M. Contrairement aux approches traditionnelles, T3M permet un contrôle précis de la synthèse de mouvement via une entrée textuelle, améliorant le degré de diversité et de personnalisation de l'utilisateur. Les résultats des expériences démontrent que T3M peut largement surpasser les méthodes de pointe à la fois en termes de mesures quantitatives et d'évaluations qualitatives. Nous avons rendu notre code public sur https://github.com/Gloria2tt/T3M.git.
La génération de vidéos personnalisées vise à produire des vidéos de haute qualité guidées par des instructions textuelles et des images de référence du sujet. Cependant, étant donné qu'elle est uniquement entraînée sur des images statiques, le processus de fine-tuning de l'apprentissage du sujet perturbe les capacités des modèles de diffusion vidéo (VDM) à combiner des concepts et à générer des mouvements. Pour restaurer ces capacités, certaines méthodes utilisent une vidéo supplémentaire similaire à l'instruction pour affiner ou guider le modèle. Cela nécessite des changements fréquents de vidéos guides et même une nouvelle mise au point du modèle lors de la génération de différents mouvements, ce qui est très contraignant pour les utilisateurs. Dans cet article, nous proposons CustomCrafter, un nouveau cadre qui préserve la génération de mouvements du modèle et les capacités de combinaison conceptuelle sans vidéo supplémentaire et sans réglage fin pour la récupération. Pour préserver la capacité de combinaison conceptuelle, nous concevons un module plug-and-play pour mettre à jour quelques paramètres dans les VDM, améliorant la capacité du modèle à capturer les détails d'apparence et la capacité de combinaison de concepts pour de nouveaux sujets. Pour la génération de mouvements, nous avons observé que les VDM ont tendance à restaurer le mouvement de la vidéo au début du débruitage, tout en se concentrant sur la récupération des détails du sujet à un stade ultérieur. Par conséquent, nous proposons une Stratégie d'Échantillonnage Vidéo Dynamique Pondérée. En utilisant la modularité de nos modules d'apprentissage du sujet, nous réduisons l'impact de ce module sur la génération de mouvements au début du débruitage, préservant ainsi la capacité de générer des mouvements des VDM. À un stade ultérieur du débruitage, nous réactivons ce module pour réparer les détails d'apparence du sujet spécifié, garantissant ainsi la fidélité de l'apparence du sujet. Les résultats expérimentaux montrent que notre méthode présente une amélioration significative par rapport aux méthodes précédentes.
Les modèles Vision-Language à haute résolution (VLM) sont largement utilisés dans les tâches multimodales pour améliorer la précision en préservant les informations détaillées de l'image. Cependant, ces modèles génèrent souvent un excès de jetons visuels en raison de l'encodage de multiples partitions de l'image d'entrée. Le traitement de ces jetons visuels excessifs est un défi computationnel, en particulier dans des environnements contraints en ressources avec des GPU grand public. Pour prendre en charge les images à haute résolution tout en respectant les contraintes de ressources, nous proposons le mécanisme de suppression précoce à haute résolution (HiRED), un schéma de suppression de jetons qui fonctionne dans le cadre d'un budget de jetons fixe avant l'étape du Grand Modèle de Langage (LLM). HiRED peut être intégré aux VLM à haute résolution existants de manière plug-and-play, car il ne nécessite aucun entraînement supplémentaire tout en maintenant une précision supérieure. Nous utilisons stratégiquement l'attention de l'encodeur de vision dans les couches initiales pour évaluer le contenu visuel de chaque partition d'image et allouer le budget de jetons en conséquence. Ensuite, en utilisant l'attention dans la couche finale, nous sélectionnons les jetons visuels les plus importants de chaque partition dans le budget alloué, en supprimant le reste. Empiriquement, lorsqu'appliqué à LLaVA-Next-7B sur un GPU NVIDIA TESLA P40, HiRED avec un budget de jetons de 20 % augmente le débit de génération de jetons de 4,7, réduit la latence de génération du premier jeton de 15 secondes et économise 2,3 Go de mémoire GPU pour une seule inférence.
L'apprentissage fédéré (FL) offre une approche prometteuse pour l'apprentissage machine collaboratif sur des appareils distribués. Cependant, son adoption est entravée par la complexité de la construction d'architectures de communication fiables et le besoin d'expertise à la fois en apprentissage machine et en programmation réseau. Cet article présente une solution complète qui simplifie l'orchestration des tâches FL tout en intégrant l'automatisation basée sur l'intention. Nous avons développé une application web conviviale prenant en charge l'algorithme de moyenne fédérée (FedAvg), permettant aux utilisateurs de configurer les paramètres via une interface intuitive. La solution backend gère efficacement la communication entre le serveur de paramètres et les nœuds périphériques. Nous avons également mis en œuvre des algorithmes de compression de modèle et de planification pour optimiser les performances de l'apprentissage fédéré. De plus, nous explorons l'automatisation basée sur l'intention dans l'apprentissage fédéré en utilisant un Modèle de Langage (LLM) affiné, entraîné sur un ensemble de données adapté, permettant aux utilisateurs d'effectuer des tâches FL à l'aide de commandes de haut niveau. Nous constatons que la solution automatisée basée sur le LLM atteint une précision de test comparable à la solution basée sur le web standard tout en réduisant le nombre d'octets transférés jusqu'à 64 % et le temps CPU jusqu'à 46 % pour les tâches FL. De plus, nous exploitons la recherche d'architecture neuronale (NAS) et l'optimisation des hyperparamètres (HPO) en utilisant le LLM pour améliorer les performances. Nous constatons qu'en utilisant cette approche, la précision du test peut être améliorée de 10 à 20 % pour les tâches FL effectuées.
Le Splatting Gaussien en 3D (3DGS) permet d'obtenir des rendus rapides et de haute qualité en utilisant de nombreux petits Gaussiens, ce qui entraîne une consommation de mémoire significative. Cette dépendance à un grand nombre de Gaussiens restreint l'application des modèles basés sur le 3DGS sur des appareils bon marché en raison de limitations de mémoire. Cependant, simplement réduire le nombre de Gaussiens pour s'adapter aux appareils avec moins de capacité mémoire conduit à une qualité inférieure par rapport à celle qui peut être obtenue sur du matériel haut de gamme. Pour pallier ce manque de scalabilité, nous proposons d'intégrer un Niveau de Détail Flexible (FLoD) au 3DGS, permettant à une scène d'être rendue à différents niveaux de détail en fonction des capacités matérielles. Alors que les 3DGS existants avec LoD se concentrent sur une reconstruction détaillée, notre méthode fournit des reconstructions en utilisant un petit nombre de Gaussiens pour des besoins mémoire réduits, et un plus grand nombre de Gaussiens pour plus de détails. Des expériences démontrent nos différentes options de rendu avec des compromis entre la qualité de rendu et l'utilisation mémoire, permettant ainsi un rendu en temps réel à travers différentes contraintes mémoire. De plus, nous montrons que notre méthode se généralise à différents cadres 3DGS, indiquant son potentiel d'intégration dans les développements futurs de pointe. Page du projet : https://3dgs-flod.github.io/flod.github.io/
Avec les progrès des Modèles de Langage de Grande Taille (LLM), un cas d'utilisation majeur qui a émergé est la requête de bases de données en anglais courant, traduisant les questions des utilisateurs en requêtes de base de données exécutables, ce qui s'est considérablement amélioré. Cependant, les ensembles de données du monde réel présentent souvent une vaste gamme d'attributs et de valeurs complexes, compliquant la tâche des LLMs d'identifier avec précision les colonnes ou valeurs pertinentes à partir des requêtes en langage naturel. Les méthodes traditionnelles ne parviennent pas à transmettre pleinement la taille et la complexité des ensembles de données au LLM. Pour relever ces défis, nous proposons un cadre novateur qui exploite la Recherche en Texte Intégral (FTS) sur la table d'entrée. Cette approche permet non seulement une détection précise des valeurs et colonnes spécifiques, mais réduit également l'espace de recherche pour les modèles de langage, améliorant ainsi la précision des requêtes. De plus, elle prend en charge une fonctionnalité d'auto-complétion personnalisée qui suggère des requêtes basées sur les données de la table. Cette intégration affine considérablement l'interaction entre l'utilisateur et les ensembles de données complexes, offrant une solution sophistiquée aux limitations auxquelles sont confrontées les capacités actuelles de requête de table. Ce travail est accompagné d'une application pour les plateformes Mac et Windows, que les lecteurs peuvent essayer eux-mêmes avec leurs propres données.
La génération d'images conditionnée facilite l'édition transparente et la création d'images photoréalistes. Cependant, le conditionnement sur des images bruyantes ou hors distribution (Out-of-Distribution, OoD) pose des défis importants, notamment en termes d'équilibre entre la fidélité à l'entrée et le réalisme de la sortie. Nous introduisons Confident Ordinary Differential Editing (CODE), une approche novatrice pour la synthèse d'images qui gère efficacement les images de guidage OoD. En utilisant un modèle de diffusion comme prior générateur, CODE améliore les images grâce à des mises à jour basées sur les scores le long de la trajectoire de l'Équation Différentielle Ordinaire (ODE) de flux de probabilité. Cette méthode ne nécessite pas d'entraînement spécifique à une tâche, de modules artisanaux ni d'hypothèses concernant les corruptions affectant l'image de conditionnement. Notre méthode est compatible avec n'importe quel modèle de diffusion. Positionné à l'intersection de la génération d'images conditionnée et de la restauration d'images aveugle, CODE fonctionne de manière entièrement aveugle, s'appuyant uniquement sur un modèle génératif pré-entraîné. Notre méthode introduit une approche alternative à la restauration aveugle : au lieu de cibler une image de vérité terrain spécifique basée sur des hypothèses concernant la corruption sous-jacente, CODE vise à augmenter la probabilité de l'image d'entrée tout en maintenant la fidélité. Cela aboutit à l'image la plus probable dans la distribution autour de l'entrée. Nos contributions sont doubles. Premièrement, CODE introduit une méthode d'édition novatrice basée sur les ODE, offrant un contrôle amélioré, un réalisme et une fidélité supérieurs par rapport à son homologue basé sur les SDE. Deuxièmement, nous introduisons une méthode de rognage basée sur l'intervalle de confiance, qui améliore l'efficacité de CODE en lui permettant d'ignorer certains pixels ou informations, améliorant ainsi le processus de restauration de manière aveugle. Les résultats expérimentaux démontrent l'efficacité de CODE par rapport aux méthodes existantes, notamment dans les scénarios impliquant une dégradation sévère ou des entrées OoD.