Articles de recherche en IA sélectionnés quotidiennement avec traductions
Suite à la popularité récente des modèles de langage à grande échelle (LLMs), plusieurs tentatives ont été faites pour les étendre au domaine visuel. Qu'il s'agisse d'un assistant visuel capable de nous guider dans des environnements inconnus ou de modèles génératifs produisant des images à partir d'une simple description textuelle de haut niveau, les applications des modèles vision-langage (VLM) auront un impact significatif sur notre relation avec la technologie. Cependant, de nombreux défis doivent être relevés pour améliorer la fiabilité de ces modèles. Alors que le langage est discret, la vision évolue dans un espace de bien plus haute dimension où les concepts ne peuvent pas toujours être facilement discrétisés. Pour mieux comprendre les mécanismes sous-jacents à la cartographie de la vision vers le langage, nous présentons cette introduction aux VLMs, que nous espérons utile à toute personne souhaitant s'engager dans ce domaine. Tout d'abord, nous introduisons ce que sont les VLMs, leur fonctionnement et leur entraînement. Ensuite, nous présentons et discutons des approches pour évaluer les VLMs. Bien que ce travail se concentre principalement sur la cartographie d'images vers le langage, nous abordons également l'extension des VLMs aux vidéos.
La faible performance des transformers sur les tâches arithmétiques semble provenir en grande partie de leur incapacité à suivre avec précision la position exacte de chaque chiffre au sein d'une longue séquence de chiffres. Nous corrigeons ce problème en ajoutant à chaque chiffre un embedding qui encode sa position relative par rapport au début du nombre. En plus de l'amélioration apportée par ces embeddings eux-mêmes, nous montrons que cette correction permet à des modifications architecturales telles que l'injection d'entrée et les couches récurrentes d'améliorer encore davantage les performances. Une fois les positions résolues, nous pouvons étudier la capacité d'extrapolation logique des transformers. Peuvent-ils résoudre des problèmes arithmétiques plus grands et plus complexes que ceux présents dans leurs données d'entraînement ? Nous constatons qu'en nous entraînant uniquement sur des nombres de 20 chiffres avec un seul GPU pendant une journée, nous pouvons atteindre des performances de pointe, obtenant jusqu'à 99 % de précision sur des problèmes d'addition de 100 chiffres. Enfin, nous montrons que ces gains en numératie débloquent également des améliorations sur d'autres tâches de raisonnement multi-étapes, y compris le tri et la multiplication.
Les grands modèles multimodaux (LMMs) tels que LLaVA ont démontré des performances solides dans le raisonnement visio-linguistique. Ces modèles intègrent d'abord les images dans un nombre fixe et élevé de tokens visuels, puis les alimentent dans un grand modèle de langage (LLM). Cependant, cette conception entraîne un nombre excessif de tokens pour des scénarios visuels denses, tels que les images et vidéos haute résolution, ce qui engendre une grande inefficacité. Bien que des méthodes d'élagage/fusion de tokens existent, elles produisent une sortie de longueur unique pour chaque image et n'offrent pas de flexibilité dans l'arbitrage entre densité d'information et efficacité. Inspirés par le concept des poupées russes, nous proposons M3 : Matryoshka Multimodal Models, qui apprend à représenter le contenu visuel sous forme d'ensembles imbriqués de tokens visuels capturant l'information à plusieurs niveaux de granularité, du plus grossier au plus fin. Notre approche offre plusieurs avantages uniques pour les LMMs : (1) On peut contrôler explicitement la granularité visuelle par instance de test lors de l'inférence, par exemple en ajustant le nombre de tokens utilisés pour représenter une image en fonction de la complexité ou simplicité anticipée du contenu ; (2) M3 fournit un cadre pour analyser la granularité nécessaire pour les jeux de données existants, où nous constatons que les benchmarks de type COCO n'ont besoin que d'environ ~9 tokens visuels pour obtenir une précision similaire à celle obtenue avec les 576 tokens ; (3) Notre approche offre une base pour explorer le meilleur compromis entre performance et longueur des tokens visuels au niveau de l'échantillon, où notre investigation révèle qu'un grand écart existe entre la borne supérieure oracle et les représentations à échelle fixe actuelles.
Dans ce rapport technique, nous présentons Zamba, un nouveau modèle hybride SSM-transformer de 7 milliards de paramètres qui atteint des performances compétitives par rapport aux modèles open-weight leaders à une échelle comparable. Zamba est entraîné sur 1 000 milliards de tokens provenant de jeux de données ouvertement disponibles et constitue le meilleur modèle non-transformer à cette échelle. Zamba innove avec une architecture unique combinant une structure principale de type Mamba avec un module d'attention partagé unique, permettant ainsi de bénéficier des avantages de l'attention à un coût en paramètres minimal. Grâce à son architecture, Zamba est significativement plus rapide en inférence que les modèles transformer comparables et nécessite beaucoup moins de mémoire pour la génération de longues séquences. Zamba est pré-entraîné en deux phases : la première phase repose sur des jeux de données web existants, tandis que la seconde consiste à affiner le modèle sur des jeux de données d'instructions de haute qualité et des données synthétiques, caractérisée par une décroissance rapide du taux d'apprentissage. Nous rendons open-source les poids et tous les points de contrôle de Zamba, couvrant à la fois la phase 1 et les phases d'affinage.
Les modèles d'embedding basés sur des grands modèles de langage (LLM) de type decoder-only commencent à surpasser les modèles d'embedding basés sur BERT ou T5 dans les tâches générales d'embedding de texte, y compris la recherche basée sur des vecteurs denses. Dans ce travail, nous présentons le modèle NV-Embed, qui intègre diverses conceptions architecturales et procédures d'entraînement pour améliorer significativement les performances des LLM en tant que modèles d'embedding polyvalents, tout en conservant leur simplicité et reproductibilité. Pour l'architecture du modèle, nous proposons une couche d'attention latente pour obtenir des embeddings regroupés, ce qui améliore systématiquement la précision de la recherche et des tâches en aval par rapport au regroupement moyen ou à l'utilisation de l'embedding du dernier token <EOS> des LLM. Pour améliorer l'apprentissage des représentations, nous supprimons le masque d'attention causal des LLM pendant l'entraînement contrastif. Pour l'entraînement du modèle, nous introduisons une méthode d'ajustement par instruction contrastive en deux étapes. La première étape applique un entraînement contrastif avec des instructions sur des ensembles de données de recherche, en utilisant des négatifs intra-lot et des exemples négatifs difficiles sélectionnés. À la deuxième étape, elle intègre divers ensembles de données non liés à la recherche dans l'ajustement par instruction, ce qui améliore non seulement la précision des tâches non liées à la recherche, mais aussi les performances de recherche. En combinant ces techniques, notre modèle NV-Embed, utilisant uniquement des données publiquement disponibles, a atteint un score record de 69,32, se classant premier au Massive Text Embedding Benchmark (MTEB) (au 24 mai 2024), avec 56 tâches couvrant la recherche, le reranking, la classification, le clustering et les tâches de similarité textuelle sémantique. Notamment, notre modèle obtient également le score le plus élevé de 59,36 sur 15 tâches de recherche dans le benchmark MTEB (également connu sous le nom de BEIR). Nous rendrons le modèle open-source à l'adresse suivante : https://huggingface.co/nvidia/NV-Embed-v1.
Les capacités génératives remarquables des modèles de diffusion ont motivé des recherches approfondies dans les domaines de l'édition d'images et de vidéos. Par rapport à l'édition de vidéos, qui fait face à des défis supplémentaires liés à la dimension temporelle, l'édition d'images a vu le développement d'approches plus diversifiées et de haute qualité, ainsi que de logiciels plus performants comme Photoshop. Face à cet écart, nous introduisons une solution novatrice et générique qui étend l'applicabilité des outils d'édition d'images aux vidéos en propageant les modifications d'une seule image à l'ensemble de la vidéo à l'aide d'un modèle pré-entraîné image-à-vidéo. Notre méthode, baptisée I2VEdit, préserve de manière adaptative l'intégrité visuelle et motrice de la vidéo source en fonction de l'étendue des modifications, gérant efficacement les modifications globales, locales et les changements de forme modérés, ce que les méthodes existantes ne parviennent pas à réaliser pleinement. Au cœur de notre méthode se trouvent deux processus principaux : l'Extraction Grossière du Mouvement pour aligner les motifs de mouvement de base avec la vidéo originale, et le Raffinement de l'Apparence pour des ajustements précis grâce à une correspondance d'attention fine. Nous intégrons également une stratégie d'intervalle sautée pour atténuer la dégradation de la qualité due à la génération auto-régressive sur plusieurs clips vidéo. Les résultats expérimentaux démontrent la performance supérieure de notre cadre dans l'édition fine de vidéos, prouvant sa capacité à produire des résultats de haute qualité et temporellement cohérents.
Nous présentons une nouvelle approche pour générer des vidéos humaines de haute qualité, cohérentes spatio-temporellement, à partir d'une seule image sous des angles de vue arbitraires. Notre framework combine les avantages des U-Nets pour l'injection précise de conditions et des transformers de diffusion pour capturer les corrélations globales à travers les angles de vue et le temps. Le cœur de cette architecture est un transformer 4D en cascade qui factorise l'attention à travers les vues, le temps et les dimensions spatiales, permettant une modélisation efficace de l'espace 4D. Un conditionnement précis est réalisé en injectant l'identité humaine, les paramètres de la caméra et les signaux temporels dans les transformers respectifs. Pour entraîner ce modèle, nous avons constitué un ensemble de données multidimensionnel couvrant des images, des vidéos, des données multi-vues et des scans 3D/4D, ainsi qu'une stratégie d'entraînement multidimensionnelle. Notre approche surmonte les limitations des méthodes précédentes basées sur les GAN ou les modèles de diffusion à base d'UNet, qui peinent à gérer les mouvements complexes et les changements de point de vue. À travers des expériences approfondies, nous démontrons la capacité de notre méthode à synthétiser des vidéos humaines réalistes, cohérentes et en vue libre, ouvrant la voie à des applications multimédias avancées dans des domaines tels que la réalité virtuelle et l'animation. Notre site web de projet est https://human4dit.github.io.
Les adaptateurs à faible rang (LoRA) et leurs variantes sont des techniques populaires de fine-tuning efficace en paramètres (PEFT) qui atteignent des performances proches du fine-tuning complet du modèle tout en nécessitant seulement un petit nombre de paramètres supplémentaires. Ces paramètres LoRA supplémentaires sont spécifiques au modèle de base adapté. Lorsque le modèle de base doit être abandonné et remplacé par un nouveau, tous les modules LoRA associés doivent être ré-entraînés. Ce ré-entraînement nécessite l'accès aux données utilisées pour entraîner le LoRA du modèle de base d'origine. Cela pose particulièrement problème pour les applications cloud commerciales où les modules LoRA et les modèles de base sont hébergés par des fournisseurs de services qui ne sont pas autorisés à héberger les données propriétaires des clients. Pour relever ce défi, nous proposons Trans-LoRA -- une méthode novatrice pour le transfert sans perte et quasi sans données des LoRA entre modèles de base. Notre approche repose sur des données synthétiques pour transférer les modules LoRA. En utilisant des modèles de langage de grande taille, nous concevons un générateur de données synthétiques pour approximer le processus de génération de données du sous-ensemble de données de la tâche observée. L'entraînement sur l'ensemble de données synthétiques résultant transfère les modules LoRA vers de nouveaux modèles. Nous démontrons l'efficacité de notre approche en utilisant les familles de modèles LLama et Gemma. Notre méthode permet un transfert de LoRA sans perte (et souvent amélioré) entre modèles au sein d'une même famille de modèles de base, entre différentes familles de modèles de base, et même entre différentes méthodes PEFT, sur une grande variété de tâches.
Cet article présente StreamV2V, un modèle de diffusion qui réalise une traduction vidéo-à-vidéo (V2V) en temps réel avec des invites utilisateur. Contrairement aux méthodes V2V antérieures qui utilisent des lots pour traiter un nombre limité d'images, nous choisissons de traiter les images en flux continu, afin de supporter un nombre illimité d'images. Au cœur de StreamV2V se trouve un principe rétrospectif qui relie le présent au passé. Cela est réalisé en maintenant une banque de caractéristiques, qui archive les informations des images passées. Pour les images entrantes, StreamV2V étend l'auto-attention pour inclure les clés et valeurs archivées et fusionne directement les caractéristiques passées similaires dans la sortie. La banque de caractéristiques est continuellement mise à jour en fusionnant les caractéristiques stockées et nouvelles, la rendant compacte mais informative. StreamV2V se distingue par son adaptabilité et son efficacité, s'intégrant de manière transparente avec les modèles de diffusion d'images sans nécessiter de réglage fin. Il peut fonctionner à 20 FPS sur une seule GPU A100, étant respectivement 15x, 46x, 108x et 158x plus rapide que FlowVid, CoDeF, Rerender et TokenFlow. Les métriques quantitatives et les études utilisateurs confirment la capacité exceptionnelle de StreamV2V à maintenir la cohérence temporelle.
La recherche sur la génération vidéo a récemment accompli des progrès considérables, permettant de produire des vidéos de haute qualité à partir de prompts textuels ou d'images. L'ajout de contrôle au processus de génération vidéo constitue un objectif important pour l'avenir, et les approches récentes qui conditionnent les modèles de génération vidéo sur des trajectoires de caméra marquent des avancées significatives dans cette direction. Cependant, il reste difficile de générer une vidéo de la même scène à partir de multiples trajectoires de caméra différentes. Des solutions à ce problème de génération multi-vidéo pourraient permettre la génération à grande échelle de scènes 3D avec des trajectoires de caméra modifiables, entre autres applications. Nous introduisons la diffusion vidéo collaborative (Collaborative Video Diffusion, CVD) comme une étape importante vers cette vision. Le cadre CVD inclut un module innovant de synchronisation inter-vidéo qui favorise la cohérence entre les images correspondantes d'une même vidéo rendues à partir de différentes poses de caméra, en utilisant un mécanisme d'attention épipolaire. Entraîné sur un module de contrôle de caméra de pointe pour la génération vidéo, CVD génère plusieurs vidéos rendues à partir de différentes trajectoires de caméra avec une cohérence nettement supérieure aux méthodes de référence, comme le démontrent des expériences approfondies. Page du projet : https://collaborativevideodiffusion.github.io/.
Récemment, l'émergence des modèles de diffusion a ouvert de nouvelles perspectives pour la reconstruction à partir d'une seule vue. Cependant, toutes les méthodes existantes représentent l'objet cible sous forme d'un maillage fermé dépourvu de toute information structurelle, négligeant ainsi la structure basée sur les parties, pourtant cruciale pour de nombreuses applications en aval de la forme reconstruite. De plus, les maillages générés souffrent généralement de bruits importants, de surfaces irrégulières et de textures floues, rendant difficile l'obtention de segments de parties satisfaisants à l'aide de techniques de segmentation 3D. Dans cet article, nous présentons Part123, un nouveau cadre pour la reconstruction 3D consciente des parties à partir d'une image à vue unique. Nous utilisons d'abord des modèles de diffusion pour générer des images cohérentes en multivues à partir d'une image donnée, puis nous exploitons le Segment Anything Model (SAM), qui démontre une puissante capacité de généralisation sur des objets arbitraires, pour générer des masques de segmentation en multivues. Pour intégrer efficacement les informations basées sur les parties 2D dans la reconstruction 3D et gérer les incohérences, nous introduisons l'apprentissage contrastif dans un cadre de rendu neuronal pour apprendre un espace de caractéristiques conscient des parties basé sur les masques de segmentation en multivues. Un algorithme basé sur le clustering est également développé pour dériver automatiquement les résultats de segmentation 3D des parties à partir des modèles reconstruits. Les expériences montrent que notre méthode peut générer des modèles 3D avec des parties segmentées de haute qualité sur divers objets. Par rapport aux méthodes de reconstruction non structurées existantes, les modèles 3D conscients des parties de notre méthode profitent à certaines applications importantes, notamment la reconstruction préservant les caractéristiques, l'ajustement de primitives et l'édition de formes 3D.
Bien que les modèles de diffusion puissent apprendre des distributions complexes, l'échantillonnage nécessite un processus itératif coûteux en calcul. Les méthodes de distillation existantes permettent un échantillonnage efficace, mais présentent des limitations notables, telles qu'une dégradation des performances avec très peu d'étapes d'échantillonnage, une dépendance à l'accès aux données d'entraînement, ou une optimisation axée sur les modes qui peut échouer à capturer la distribution complète. Nous proposons EM Distillation (EMD), une approche basée sur le maximum de vraisemblance qui distille un modèle de diffusion en un modèle générateur en une seule étape avec une perte minimale de qualité perceptuelle. Notre approche est dérivée à travers le prisme de l'algorithme Expectation-Maximization (EM), où les paramètres du générateur sont mis à jour en utilisant des échantillons issus de la distribution conjointe du modèle de diffusion enseignant et des latents inférés du générateur. Nous développons un schéma d'échantillonnage reparamétré et une technique d'annulation du bruit qui stabilisent ensemble le processus de distillation. Nous révélons également une connexion intéressante de notre méthode avec les méthodes existantes qui minimisent le KL axé sur les modes. EMD surpasse les méthodes génératives en une étape existantes en termes de scores FID sur ImageNet-64 et ImageNet-128, et se compare favorablement aux travaux antérieurs sur la distillation de modèles de diffusion texte-image.
Les modèles génératifs vidéo suscitent un intérêt particulier en raison de leur capacité à produire des images réalistes et imaginatives. De plus, ces modèles montrent également une forte cohérence 3D, ce qui renforce considérablement leur potentiel en tant que simulateurs de mondes. Dans ce travail, nous présentons Vidu4D, un nouveau modèle de reconstruction qui excelle dans la reconstruction précise de représentations 4D (c'est-à-dire des séquences 3D) à partir de vidéos générées uniques, en abordant les défis liés à la non-rigidité et à la distorsion des images. Cette capacité est essentielle pour créer des contenus virtuels de haute fidélité qui maintiennent à la fois la cohérence spatiale et temporelle. Au cœur de Vidu4D se trouve notre technique proposée, les Dynamic Gaussian Surfels (DGS). Les DGS optimisent des fonctions de déformation variant dans le temps pour transformer les surfels gaussiens (éléments de surface) d'un état statique à un état dynamiquement déformé. Cette transformation permet une représentation précise du mouvement et de la déformation au fil du temps. Pour préserver l'intégrité structurelle des surfels gaussiens alignés sur la surface, nous concevons une régularisation géométrique de l'état déformé basée sur des champs de déformation continus pour estimer les normales. De plus, nous apprenons des ajustements sur les paramètres de rotation et d'échelle des surfels gaussiens, ce qui atténue grandement le scintillement des textures pendant le processus de déformation et améliore la capture des détails d'apparence fins. Vidu4D intègre également un nouvel état d'initialisation qui fournit un point de départ approprié pour les champs de déformation dans les DGS. En équipant Vidu4D d'un modèle génératif vidéo existant, le cadre global démontre une génération texte-à-4D de haute fidélité, tant en apparence qu'en géométrie.
Une bonne initialisation des modèles d'apprentissage profond est essentielle, car elle peut les aider à converger plus efficacement et plus rapidement. Cependant, le pré-entraînement de grands modèles est inaccessible pour de nombreux chercheurs, ce qui rend une prédiction souhaitable des paramètres initiaux plus nécessaire de nos jours. Les Graph HyperNetworks (GHNs), une approche pour prédire les paramètres des modèles, ont récemment démontré de solides performances dans l'initialisation de grands modèles de vision. Malheureusement, la prédiction des paramètres de réseaux très larges repose sur la copie répétée de petits blocs de paramètres et nécessite un nombre extrêmement élevé de paramètres pour supporter une prédiction complète, ce qui entrave grandement son adoption en pratique. Pour résoudre cette limitation, nous proposons LoGAH (Low-rank GrAph Hypernetworks), un GHN avec un décodeur de paramètres de faible rang qui s'étend à des réseaux significativement plus larges sans nécessiter une augmentation aussi excessive des paramètres que dans les tentatives précédentes. LoGAH nous permet de prédire les paramètres de réseaux neuronaux de 774 millions de paramètres de manière économe en mémoire. Nous montrons que les modèles de vision et de langage (c'est-à-dire ViT et GPT-2) initialisés avec LoGAH obtiennent de meilleures performances que ceux initialisés aléatoirement ou en utilisant des hypernetworks existants. De plus, nous montrons des résultats prometteurs en apprentissage par transfert en entraînant LoGAH sur de petits ensembles de données et en utilisant les paramètres prédits pour initialiser des tâches plus grandes. Nous fournissons les codes sur https://github.com/Blackzxy/LoGAH.
Nous abordons le problème de longue date de l'apprentissage de modèles de diffusion d'images basés sur les pixels à grande échelle, en introduisant une méthode de croissance gloutonne remarquablement simple pour l'entraînement stable de modèles à grande échelle et haute résolution, sans nécessiter de composants en cascade de super-résolution. L'idée clé découle d'un pré-entraînement minutieux des composants essentiels, à savoir ceux responsables de l'alignement texte-image {\it vs.} le rendu haute résolution. Nous démontrons d'abord les avantages de la mise à l'échelle d'un {\it Shallow UNet}, sans encodeur (décodeur) de sous( sur)-échantillonnage. La mise à l'échelle de ses couches profondes améliore l'alignement, la structure des objets et la composition. En nous appuyant sur ce modèle de base, nous proposons un algorithme glouton qui développe l'architecture en modèles end-to-end haute résolution, tout en préservant l'intégrité de la représentation pré-entraînée, stabilisant l'entraînement et réduisant le besoin de grands ensembles de données haute résolution. Cela permet un modèle à une seule étape capable de générer des images haute résolution sans nécessiter de cascade de super-résolution. Nos principaux résultats s'appuient sur des ensembles de données publics et montrent que nous sommes capables d'entraîner des modèles non en cascade jusqu'à 8 milliards de paramètres sans schémas de régularisation supplémentaires. Vermeer, notre modèle de pipeline complet entraîné avec des ensembles de données internes pour produire des images 1024x1024, sans cascades, est préféré par 44,0% contre 21,4% des évaluateurs humains par rapport à SDXL.