Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'entraînement de modèles texte-image avec des paires image-texte à l'échelle du web permet la génération d'une large gamme de concepts visuels à partir de texte. Cependant, ces modèles pré-entraînés rencontrent souvent des difficultés pour générer des images hautement esthétiques. Cela crée un besoin d'alignement esthétique après le pré-entraînement. Dans cet article, nous proposons un ajustement de qualité pour guider efficacement un modèle pré-entraîné à générer exclusivement des images visuellement attrayantes, tout en maintenant une généralité à travers les concepts visuels. Notre idée clé est qu'un fine-tuning supervisé avec un ensemble étonnamment petit mais extrêmement visuellement attrayant d'images peut considérablement améliorer la qualité de génération. Nous pré-entraînons un modèle de diffusion latente sur 1,1 milliard de paires image-texte et l'ajustons avec seulement quelques milliers d'images soigneusement sélectionnées pour leur haute qualité. Le modèle résultant, Emu, atteint un taux de victoire de 82,9 % par rapport à sa version uniquement pré-entraînée. Comparé au modèle de pointe SDXLv1.0, Emu est préféré 68,4 % et 71,3 % du temps pour son attrait visuel sur les benchmarks standard PartiPrompts et notre Open User Input basé sur l'utilisation réelle des modèles texte-image. De plus, nous montrons que l'ajustement de qualité est une approche générique qui est également efficace pour d'autres architectures, y compris les modèles de diffusion sur pixels et les transformateurs génératifs masqués.
Nous proposons de remplacer la quantification vectorielle (VQ) dans la représentation latente des VQ-VAEs par un schéma simple appelé quantification scalaire finie (FSQ), où nous projetons la représentation du VAE sur quelques dimensions (typiquement moins de 10). Chaque dimension est quantifiée sur un petit ensemble de valeurs fixes, conduisant à un codebook (implicite) donné par le produit de ces ensembles. En choisissant judicieusement le nombre de dimensions et les valeurs que chaque dimension peut prendre, nous obtenons la même taille de codebook que dans la VQ. Sur de telles représentations discrètes, nous pouvons entraîner les mêmes modèles qui ont été entraînés sur les représentations des VQ-VAEs. Par exemple, des modèles autoregressifs et des transformers masqués pour la génération d'images, la génération multimodale et les tâches de vision par ordinateur de prédiction dense. Concrètement, nous utilisons FSQ avec MaskGIT pour la génération d'images, et avec UViM pour l'estimation de profondeur, la colorisation et la segmentation panoptique. Malgré la conception beaucoup plus simple de FSQ, nous obtenons des performances compétitives dans toutes ces tâches. Nous soulignons que FSQ ne souffre pas de l'effondrement du codebook et n'a pas besoin de la machinerie complexe employée dans la VQ (pertes d'engagement, réinitialisation du codebook, division du code, pénalités d'entropie, etc.) pour apprendre des représentations discrètes expressives.
Nous proposons un système de modélisation du langage neuronal basé sur l'adaptation de faible rang (LoRA) pour le réétiquetage des sorties de reconnaissance vocale. Bien que les modèles de langage pré-entraînés (LM) comme BERT aient démontré des performances supérieures dans le réétiquetage en deuxième passe, le coût computationnel élevé de la mise à l'échelle de la phase de pré-entraînement et de l'adaptation des modèles pré-entraînés à des domaines spécifiques limite leur utilisation pratique dans le réétiquetage. Nous présentons ici une méthode basée sur la décomposition de faible rang pour entraîner un modèle BERT de réétiquetage et l'adapter à de nouveaux domaines en utilisant seulement une fraction (0,08 %) des paramètres pré-entraînés. Ces matrices insérées sont optimisées via un objectif d'entraînement discriminatif ainsi qu'une fonction de régularisation basée sur la corrélation. L'architecture proposée de réétiquetage BERT par adaptation de faible rang (LoRB) est évaluée sur les ensembles de données LibriSpeech et internes, avec des temps d'entraînement réduits par des facteurs compris entre 5,4 et 3,6.
Des avancées significatives ont été réalisées dans le domaine des modèles de diffusion texte-vidéo pré-entraînés à grande échelle (VDMs). Cependant, les méthodes précédentes reposent soit uniquement sur des VDMs basés sur les pixels, qui entraînent des coûts de calcul élevés, soit sur des VDMs basés sur des représentations latentes, qui peinent souvent à aligner précisément le texte et la vidéo. Dans cet article, nous sommes les premiers à proposer un modèle hybride, baptisé Show-1, qui combine des VDMs basés sur les pixels et des VDMs basés sur des représentations latentes pour la génération de vidéos à partir de texte. Notre modèle utilise d'abord des VDMs basés sur les pixels pour produire une vidéo de faible résolution avec une forte corrélation texte-vidéo. Ensuite, nous proposons une nouvelle méthode de traduction experte qui emploie des VDMs basés sur des représentations latentes pour suréchantillonner la vidéo de faible résolution en haute résolution. Par rapport aux VDMs latents, Show-1 peut produire des vidéos de haute qualité avec un alignement texte-vidéo précis ; par rapport aux VDMs basés sur les pixels, Show-1 est beaucoup plus efficace (l'utilisation de mémoire GPU lors de l'inférence est de 15 Go contre 72 Go). Nous validons également notre modèle sur des benchmarks standard de génération de vidéos. Notre code et les poids du modèle sont disponibles publiquement à l'adresse https://github.com/showlab/Show-1.
Nous présentons un nouveau type de champs neuronaux qui utilise des bases radiales générales pour la représentation de signaux. Les champs neuronaux de pointe reposent généralement sur des représentations basées sur des grilles pour stocker des caractéristiques neuronales locales et sur des noyaux linéaires à N dimensions pour interpoler les caractéristiques à des points de requête continus. Les positions spatiales de leurs caractéristiques neuronales sont fixées sur les nœuds de la grille et ne peuvent pas s'adapter efficacement aux signaux cibles. Notre méthode, en revanche, s'appuie sur des bases radiales générales avec une position et une forme de noyau flexibles, offrant une meilleure adaptabilité spatiale et permettant de mieux s'ajuster aux signaux cibles. Pour améliorer davantage la capacité par canal des fonctions de base radiale, nous proposons de les composer avec des fonctions sinusoidales à multi-fréquences. Cette technique étend une base radiale à plusieurs bases radiales de Fourier de différentes bandes de fréquence sans nécessiter de paramètres supplémentaires, facilitant ainsi la représentation des détails. De plus, en combinant des bases radiales adaptatives avec des bases basées sur des grilles, notre combinaison hybride hérite à la fois de l'adaptabilité et de la fluidité d'interpolation. Nous avons soigneusement conçu des schémas de pondération pour permettre aux bases radiales de s'adapter efficacement à différents types de signaux. Nos expériences sur la représentation d'images 2D et de champs de distance signée 3D démontrent la plus grande précision et compacité de notre méthode par rapport aux techniques antérieures. Lorsqu'elle est appliquée à la reconstruction de champs de radiance neuronaux, notre méthode atteint une qualité de rendu de pointe, avec une taille de modèle réduite et une vitesse d'entraînement comparable.
Ces dernières années, les avancées dans le pré-entraînement à grande échelle des modèles de langage et de génération texte-image ont révolutionné le domaine de l'apprentissage automatique. Cependant, l'intégration de ces deux modalités dans un modèle unique et robuste capable de produire des sorties multimodales fluides reste un défi majeur. Pour combler cette lacune, nous présentons le cadre Joint Autoregressive Mixture (JAM), une approche modulaire qui fusionne systématiquement les modèles existants de génération de texte et d'images. Nous introduisons également une stratégie spécialisée d'ajustement par instruction, efficace en termes de données, conçue pour les tâches de génération multimodale mixte. Notre modèle final, ajusté par instruction, démontre des performances inégalées dans la génération de sorties multimodales de haute qualité et représente le premier modèle explicitement conçu à cet effet.
Comprendre comment les humains utilisent le contact physique pour interagir avec le monde est essentiel pour développer une intelligence artificielle centrée sur l'humain. Bien que l'inférence de contacts 3D soit cruciale pour modéliser des interactions humain-objet réalistes et physiquement plausibles, les méthodes existantes se concentrent soit sur des données 2D, considèrent les articulations du corps plutôt que la surface, utilisent des régions corporelles 3D grossières, ou ne généralisent pas aux images en conditions réelles. En revanche, nous nous concentrons sur l'inférence de contacts 3D denses entre la surface complète du corps et les objets dans des images arbitraires. Pour y parvenir, nous collectons d'abord DAMON, un nouveau jeu de données contenant des annotations de contacts denses au niveau des sommets, associées à des images RGB présentant des contacts complexes humain-objet et humain-scène. Ensuite, nous entraînons DECO, un nouveau détecteur de contacts 3D qui utilise à la fois une attention guidée par les parties du corps et par le contexte de la scène pour estimer les contacts au niveau des sommets sur le corps SMPL. DECO s'appuie sur l'idée que les observateurs humains reconnaissent les contacts en raisonnant sur les parties du corps en contact, leur proximité avec les objets de la scène et le contexte environnant. Nous réalisons des évaluations approfondies de notre détecteur sur DAMON ainsi que sur les jeux de données RICH et BEHAVE. Nous surpassons significativement les méthodes de pointe existantes sur tous les benchmarks. Nous montrons également de manière qualitative que DECO généralise bien à des interactions humaines diverses et complexes dans des images naturelles. Le code, les données et les modèles sont disponibles à l'adresse https://deco.is.tue.mpg.de.
Récemment, un afflux d'études affirme l'émergence de capacités cognitives dans les grands modèles de langage (LLM). Cependant, la plupart s'appuient sur des anecdotes, négligent la contamination des ensembles d'entraînement, ou manquent d'une évaluation systématique impliquant plusieurs tâches, des conditions de contrôle, des itérations multiples et des tests de robustesse statistique. Nous apportons ici deux contributions majeures. Premièrement, nous proposons CogEval, un protocole inspiré des sciences cognitives pour l'évaluation systématique des capacités cognitives dans les grands modèles de langage. Le protocole CogEval peut être suivi pour évaluer diverses compétences. Deuxièmement, nous suivons ici CogEval pour évaluer systématiquement les cartes cognitives et la capacité de planification à travers huit LLM (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B et Alpaca-7B). Nous basons nos prompts de tâches sur des expériences humaines, qui offrent à la fois une validité de construit établie pour évaluer la planification et sont absentes des ensembles d'entraînement des LLM. Nous constatons que, bien que les LLM montrent une compétence apparente dans quelques tâches de planification avec des structures plus simples, une évaluation systématique révèle des modes d'échec frappants dans les tâches de planification, y compris des hallucinations de trajectoires invalides et des blocages dans des boucles. Ces résultats ne soutiennent pas l'idée d'une capacité de planification émergente prête à l'emploi dans les LLM. Cela pourrait être dû au fait que les LLM ne comprennent pas les structures relationnelles latentes sous-jacentes aux problèmes de planification, connues sous le nom de cartes cognitives, et échouent à dérouler des trajectoires orientées vers un but basées sur la structure sous-jacente. Les implications pour l'application et les directions futures sont discutées.
L'ajustement par prompt textuel a démontré des améliorations significatives des performances dans l'adaptation des modèles de traitement du langage naturel à diverses tâches en aval, en traitant les prompts conçus manuellement comme des paramètres entraînables. Inspirés par le succès des prompts textuels, plusieurs études ont exploré l'efficacité de l'ajustement par prompt visuel. Dans ce travail, nous présentons l'Adaptation par Prompt Visuel (VPA), le premier cadre généralisant l'utilisation des prompts visuels avec une adaptation au moment du test. VPA introduit un petit nombre de jetons apprenables, permettant une adaptation entièrement au moment du test et efficace en termes de stockage, sans nécessiter d'informations sur le domaine source. Nous examinons notre conception de VPA dans divers contextes d'adaptation, incluant l'adaptation sur une seule image, sur un lot d'images, et par pseudo-étiquettes. Nous évaluons VPA sur plusieurs tâches, incluant la généralisation hors distribution (OOD), la robustesse face aux corruptions, et l'adaptation de domaine. Les résultats expérimentaux révèlent que VPA améliore efficacement la généralisation OOD de 3,3 % à travers divers modèles, surpassant les approches précédentes au moment du test. De plus, nous montrons que VPA améliore la robustesse face aux corruptions de 6,5 % par rapport à des bases de référence solides. Enfin, nous démontrons que VPA améliore également les performances d'adaptation de domaine de 5,2 % de manière relative. Notre VPA montre également une efficacité marquée dans l'amélioration de la robustesse de la reconnaissance zero-shot pour les modèles vision-langage.