Articles de recherche en IA sélectionnés quotidiennement avec traductions
La complexité du problème d'alignement découle du fait que les méthodes existantes sont instables. Les chercheurs inventent continuellement diverses astuces pour pallier cette lacune. Par exemple, dans la technique fondamentale de Reinforcement Learning From Human Feedback (RLHF) pour l'alignement des modèles de langage, en plus de la maximisation de la récompense, la divergence de Kullback-Leibler entre la politique entraînable et la politique SFT est minimisée. Cette addition empêche le modèle de sur-apprendre le modèle de récompense (RM) et de générer des textes hors du domaine du RM. La méthode Direct Preference Optimization (DPO) reformule la tâche d'optimisation de RLHF et élimine le modèle de récompense tout en maintenant tacitement l'exigence que la politique reste proche de la politique SFT. Dans notre article, nous soutenons que cette limitation implicite dans la méthode DPO conduit à des résultats sous-optimaux. Nous proposons une nouvelle méthode appelée Trust Region DPO (TR-DPO), qui met à jour la politique de référence pendant l'entraînement. Avec une telle mise à jour simple, nous démontrons l'efficacité de TR-DPO par rapport à DPO sur les ensembles de données Anthropic HH et TLDR. Nous montrons que TR-DPO surpasse DPO jusqu'à 19 %, mesuré par évaluation automatique avec GPT-4. La nouvelle approche d'alignement que nous proposons nous permet d'améliorer la qualité des modèles sur plusieurs paramètres à la fois, tels que la cohérence, l'exactitude, le niveau de détail, l'utilité et l'innocuité.
La complexité quadratique et la faible extrapolation de longueur des Transformers limitent leur capacité à s'adapter à des séquences longues. Bien que des solutions sous-quadratiques comme l'attention linéaire et les modèles à espace d'état existent, elles sous-performent empiriquement les Transformers en termes d'efficacité de pré-entraînement et de précision sur les tâches en aval. Nous présentons Megalodon, une architecture neuronale pour la modélisation efficace de séquences avec une longueur de contexte illimitée. Megalodon hérite de l'architecture de Mega (moyenne mobile exponentielle avec attention gated) et introduit en outre plusieurs composants techniques pour améliorer ses capacités et sa stabilité, notamment la moyenne mobile exponentielle complexe (CEMA), la couche de normalisation temporelle, le mécanisme d'attention normalisé et la pré-normalisation avec une configuration résiduelle à deux sauts. Dans une comparaison directe contrôlée avec Llama2, Megalodon atteint une meilleure efficacité que le Transformer à l'échelle de 7 milliards de paramètres et 2 000 milliards de tokens d'entraînement. Megalodon atteint une perte d'entraînement de 1,70, se situant à mi-chemin entre Llama2-7B (1,75) et 13B (1,67). Code : https://github.com/XuezheMax/megalodon
Alors que les Transformers ont révolutionné l'apprentissage profond, leur complexité d'attention quadratique limite leur capacité à traiter des entrées de longueur infinie. Nous proposons Feedback Attention Memory (FAM), une nouvelle architecture de Transformer qui exploite une boucle de rétroaction pour permettre au réseau de prêter attention à ses propres représentations latentes. Cette conception favorise l'émergence d'une mémoire de travail au sein du Transformer, lui permettant de traiter des séquences de longueur indéfinie. TransformerFAM ne nécessite aucun poids supplémentaire, permettant une intégration transparente avec des modèles pré-entraînés. Nos expériences montrent que TransformerFAM améliore significativement les performances des Transformers sur des tâches à contexte long, et ce pour différentes tailles de modèles (1B, 8B et 24B). Ces résultats démontrent le potentiel de permettre aux grands modèles de langage (LLMs) de traiter des séquences de longueur illimitée.
La création d'environnements virtuels de haute qualité et interactifs, tels que des jeux et des simulateurs, implique souvent des processus de modélisation manuelle complexes et coûteux. Dans cet article, nous présentons Video2Game, une approche novatrice qui convertit automatiquement des vidéos de scènes du monde réel en environnements de jeu réalistes et interactifs. Au cœur de notre système se trouvent trois composants principaux : (i) un module de champs de rayonnement neuronaux (NeRF) qui capture efficacement la géométrie et l'apparence visuelle de la scène ; (ii) un module de maillage qui distille les connaissances du NeRF pour un rendu plus rapide ; et (iii) un module de physique qui modélise les interactions et la dynamique physique entre les objets. En suivant le pipeline soigneusement conçu, il est possible de construire une réplique numérique interactive et actionnable du monde réel. Nous évaluons notre système sur des scènes intérieures et extérieures à grande échelle. Nous montrons que nous pouvons non seulement produire des rendus hautement réalistes en temps réel, mais aussi créer des jeux interactifs par-dessus.
Il existe une croyance selon laquelle apprendre à bien compresser mènerait à l'intelligence. Récemment, il a été démontré que la modélisation du langage est équivalente à la compression, ce qui offre une justification convaincante pour le succès des grands modèles de langage (LLMs) : le développement de modèles de langage plus avancés améliore essentiellement la compression, ce qui facilite l'intelligence. Malgré ces discussions séduisantes, peu de preuves empiriques existent concernant l'interaction entre la compression et l'intelligence. Dans ce travail, nous examinons leur relation dans le contexte des LLMs, en traitant ces derniers comme des compresseurs de données. Étant donné le concept abstrait d'"intelligence", nous adoptons les scores moyens des benchmarks en aval comme un substitut, en ciblant spécifiquement l'intelligence liée à la connaissance et au bon sens, au codage, et au raisonnement mathématique. Sur 12 benchmarks, notre étude rassemble 30 LLMs publics provenant de diverses organisations. De manière remarquable, nous constatons que l'intelligence des LLMs -- reflétée par les scores moyens des benchmarks -- corrèle presque linéairement avec leur capacité à compresser des corpus de texte externes. Ces résultats fournissent des preuves concrètes soutenant la croyance qu'une compression supérieure indique une plus grande intelligence. De plus, nos découvertes suggèrent que l'efficacité de compression, en tant que métrique non supervisée dérivée de corpus de texte bruts, sert de mesure d'évaluation fiable qui est linéairement associée aux capacités du modèle. Nous mettons en open-source nos ensembles de données de compression ainsi que nos pipelines de collecte de données pour permettre aux futurs chercheurs d'évaluer correctement la compression.
Les ControlNets sont largement utilisés pour ajouter un contrôle spatial dans la génération d'images avec différentes conditions, telles que les cartes de profondeur, les contours de Canny et les poses humaines. Cependant, plusieurs défis se posent lors de l'utilisation des ControlNets pré-entraînés pour la génération contrôlée de vidéos. Premièrement, un ControlNet pré-entraîné ne peut pas être directement intégré à de nouveaux modèles de base en raison de l'incompatibilité des espaces de caractéristiques, et le coût de l'entraînement des ControlNets pour de nouveaux modèles de base représente une charge importante. Deuxièmement, les caractéristiques des ControlNets pour différentes images peuvent ne pas gérer efficacement la cohérence temporelle. Pour relever ces défis, nous introduisons Ctrl-Adapter, un cadre efficace et polyvalent qui ajoute divers contrôles à tout modèle de diffusion d'images/vidéos, en adaptant les ControlNets pré-entraînés (et en améliorant l'alignement temporel pour les vidéos). Ctrl-Adapter offre diverses capacités, notamment le contrôle d'images, le contrôle de vidéos, le contrôle de vidéos avec des images clés, le contrôle multi-conditions, la compatibilité avec différents modèles de base, l'adaptation à des conditions de contrôle inédites et l'édition de vidéos. Dans Ctrl-Adapter, nous entraînons des couches d'adaptation qui fusionnent les caractéristiques des ControlNets pré-entraînés avec différents modèles de diffusion d'images/vidéos, tout en gardant les paramètres des ControlNets et des modèles de diffusion figés. Ctrl-Adapter est composé de modules temporels et spatiaux pour gérer efficacement la cohérence temporelle des vidéos. Nous proposons également le saut latent et l'échantillonnage inverse des pas de temps pour une adaptation robuste et un contrôle clairsemé. De plus, Ctrl-Adapter permet un contrôle à partir de multiples conditions en prenant simplement la moyenne (pondérée) des sorties des ControlNets. Avec divers modèles de diffusion d'images/vidéos (SDXL, Hotshot-XL, I2VGen-XL et SVD), Ctrl-Adapter correspond aux performances des ControlNets pour le contrôle d'images et surpasse toutes les méthodes de référence pour le contrôle de vidéos (atteignant la meilleure précision sur le jeu de données DAVIS 2017) avec des coûts de calcul significativement réduits (moins de 10 heures GPU).
Cette étude présente HQ-Edit, un ensemble de données de haute qualité pour l'édition d'images basée sur des instructions, comprenant environ 200 000 modifications. Contrairement aux approches antérieures qui reposaient sur des attributs guidés ou des retours humains pour la construction de jeux de données, nous concevons un pipeline de collecte de données scalable en exploitant des modèles de fondation avancés, à savoir GPT-4V et DALL-E 3. Pour garantir sa haute qualité, des exemples diversifiés sont d'abord collectés en ligne, puis enrichis et utilisés pour créer des diptyques de haute qualité présentant des images d'entrée et de sortie accompagnées de prompts textuels détaillés, suivis d'un alignement précis assuré par un post-traitement. En outre, nous proposons deux métriques d'évaluation, Alignement et Cohérence, pour évaluer quantitativement la qualité des paires d'images éditées à l'aide de GPT-4V. Les images haute résolution de HQ-Edit, riches en détails et accompagnées de prompts d'édition complets, améliorent considérablement les capacités des modèles d'édition d'images existants. Par exemple, un InstructPix2Pix affiné avec HQ-Edit peut atteindre des performances d'édition d'images de pointe, surpassant même les modèles affinés avec des données annotées par des humains. La page du projet est disponible à l'adresse suivante : https://thefllood.github.io/HQEdit_web.
L'inférence avec les modèles de langage multimodaux de grande taille (MLLMs) est lente en raison de leur architecture de modèle de langage volumineux, qui souffre d'un goulot d'étranglement lié à la bande passante mémoire et génère des tokens de manière auto-régressive. Dans cet article, nous explorons l'application du décodage spéculatif pour améliorer l'efficacité de l'inférence des MLLMs, en particulier le modèle LLaVA 7B. Nous montrons qu'un modèle de langage uniquement textuel peut servir de bon modèle d'ébauche pour le décodage spéculatif avec LLaVA 7B, évitant ainsi la nécessité des tokens d'image et des composants de traitement associés dans le modèle d'ébauche. Nos expériences sur trois tâches différentes montrent que le décodage spéculatif peut atteindre une accélération limitée par la mémoire allant jusqu'à 2,37 fois en utilisant un modèle de langage de 115 millions de paramètres que nous avons entraîné à partir de zéro. De plus, nous introduisons un modèle d'ébauche compact pour LLaVA intégrant un adaptateur d'image, qui montre des gains de performance marginaux en légendage d'images tout en maintenant des résultats comparables dans d'autres tâches.
Le contenu multimodal génératif devient de plus en plus répandu dans le domaine de la création de contenu, car il offre la possibilité aux artistes et aux professionnels des médias de créer des maquettes de préproduction en donnant rapidement vie à leurs idées. La génération d'audio à partir de prompts textuels est un aspect crucial de ces processus dans les industries de la musique et du cinéma. De nombreux modèles récents de text-to-audio basés sur la diffusion se concentrent sur l'entraînement de modèles de diffusion de plus en plus sophistiqués sur un vaste ensemble de données de paires prompt-audio. Ces modèles ne se focalisent pas explicitement sur la présence de concepts ou d'événements, ni sur leur ordre temporel dans l'audio généré par rapport au prompt d'entrée. Notre hypothèse est que l'attention portée à ces aspects de la génération audio pourrait améliorer les performances de génération audio en présence de données limitées. Ainsi, dans ce travail, en utilisant un modèle text-to-audio existant, Tango, nous créons synthétiquement un ensemble de données de préférences où chaque prompt est associé à une sortie audio gagnante et à plusieurs sorties audio perdantes, afin que le modèle de diffusion puisse apprendre. Les sorties perdantes, en théorie, omettent certains concepts du prompt ou les présentent dans un ordre incorrect. Nous affinons le modèle text-to-audio Tango, disponible publiquement, en utilisant la perte de diffusion-DPO (optimisation directe des préférences) sur notre ensemble de données de préférences, et montrons que cela conduit à une amélioration de la sortie audio par rapport à Tango et AudioLDM2, tant en termes de métriques d'évaluation automatiques que manuelles.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des résultats impressionnants sur diverses tâches multimodales. Cependant, la plupart des MLLMs existants ne sont pas bien adaptés aux tâches orientées document, qui nécessitent une perception fine des images et une compression d'information. Dans cet article, nous présentons TextHawk, un MLLM spécialement conçu pour les tâches orientées document, tout en préservant les capacités générales des MLLMs. TextHawk vise à explorer une perception fine efficace en concevant quatre composants dédiés. Tout d'abord, un module de Rééchantillonnage et Réarrangement (ReSA) est proposé pour réduire la redondance dans les textes des documents et diminuer le coût computationnel du MLLM. Nous explorons l'encodage des positions de chaque caractéristique locale en présentant des Embeddings Positionnels Scalables (SPEs), qui peuvent préserver l'évolutivité de différentes tailles d'images. Un Réseau de Proposition de Requêtes (QPN) est ensuite adopté pour initialiser dynamiquement les requêtes parmi différentes sous-images. Pour renforcer davantage la capacité de perception visuelle fine du MLLM, nous concevons un mécanisme d'Attention Croisée Multi-Niveaux (MLCA) qui capture la structure hiérarchique et les relations sémantiques des images de documents. De plus, nous créons un nouveau jeu de données d'ajustement d'instructions pour les tâches orientées document en enrichissant les données multimodales de documents avec Gemini Pro. Nous menons des expériences approfondies sur des benchmarks généraux et orientés document pour les MLLMs, et montrons que TextHawk surpasse les méthodes de pointe, démontrant son efficacité et sa supériorité dans la perception fine des documents et ses capacités générales.
Le Neural Radiance Field (NeRF) est une représentation pour la reconstruction 3D à partir d'images multivues. Bien que certains travaux récents aient montré un succès préliminaire dans l'édition d'un NeRF reconstruit avec un prior de diffusion, ils continuent de rencontrer des difficultés à synthétiser une géométrie raisonnable dans les régions complètement non couvertes. Une raison majeure est la grande diversité des contenus synthétiques générés par le modèle de diffusion, ce qui empêche le champ de radiance de converger vers une géométrie nette et déterministe. De plus, l'application de modèles de diffusion latente sur des données réelles entraîne souvent un décalage textuel incohérent avec la condition de l'image en raison d'erreurs d'auto-encodage. Ces deux problèmes sont encore renforcés par l'utilisation de pertes basées sur la distance des pixels. Pour résoudre ces problèmes, nous proposons de tempérer la stochasticité du modèle de diffusion par une personnalisation par scène et d'atténuer le décalage textuel par un entraînement adversarial masqué. Au cours des analyses, nous avons également constaté que les pertes de pixels et perceptuelles couramment utilisées sont néfastes pour la tâche de réparation de NeRF. Grâce à des expériences rigoureuses, notre cadre produit des résultats de réparation de NeRF de pointe sur diverses scènes du monde réel. Page du projet : https://hubert0527.github.io/MALD-NeRF
Le Gaussian splatting, reconnu pour sa qualité de rendu exceptionnelle et son efficacité, s'est imposé comme une technique majeure dans la représentation de scènes 3D. Cependant, le volume de données important associé au Gaussian splatting limite son utilité pratique dans des applications réelles. Nous proposons ici une représentation efficace de scènes 3D, nommée Compressed Gaussian Splatting (CompGS), qui exploite des primitives gaussiennes compactes pour modéliser fidèlement des scènes 3D avec une taille de données considérablement réduite. Pour garantir la compacité des primitives gaussiennes, nous concevons une structure hybride de primitives qui capture les relations prédictives entre elles. Ensuite, nous utilisons un petit ensemble de primitives d'ancrage pour la prédiction, permettant à la majorité des primitives d'être encapsulées sous des formes résiduelles hautement compactes. De plus, nous développons un schéma d'optimisation contraint par le débit pour éliminer les redondances au sein de ces primitives hybrides, orientant notre CompGS vers un compromis optimal entre la consommation de débit et l'efficacité de la représentation. Les résultats expérimentaux montrent que la méthode CompGS proposée surpasse significativement les méthodes existantes, atteignant une compacité supérieure dans la représentation de scènes 3D sans compromettre la précision du modèle et la qualité du rendu. Notre code sera publié sur GitHub pour des recherches ultérieures.