Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de diffusion sont le principal moteur de progrès dans la synthèse d'images et de vidéos, mais souffrent d'une vitesse d'inférence lente. Les méthodes de distillation, comme la récente distillation de diffusion adversarial (ADD), visent à faire passer le modèle d'une inférence en plusieurs étapes à une inférence en une seule étape, bien qu'au prix d'une optimisation coûteuse et difficile en raison de sa dépendance à un discriminateur DINOv2 prétraîné et fixe. Nous introduisons la Distillation de Diffusion Adversarial Latente (LADD), une nouvelle approche de distillation qui surmonte les limitations de l'ADD. Contrairement à l'ADD basée sur les pixels, LADD utilise des caractéristiques génératives issues de modèles de diffusion latente prétraînés. Cette approche simplifie l'entraînement et améliore les performances, permettant une synthèse d'images haute résolution avec des ratios d'aspect multiples. Nous appliquons LADD à Stable Diffusion 3 (8B) pour obtenir SD3-Turbo, un modèle rapide qui rivalise avec les performances des meilleurs générateurs texte-image en utilisant seulement quatre étapes d'échantillonnage non guidées. De plus, nous étudions systématiquement son comportement de mise à l'échelle et démontrons l'efficacité de LADD dans diverses applications telles que l'édition d'images et l'inpainting.
L'apprentissage par renforcement à partir de retours humains (RLHF) s'est avéré être une méthode puissante pour aligner les grands modèles de langage pré-entraînés (LLMs) avec les préférences humaines. Cependant, l'entraînement des modèles avec RLHF est coûteux en calcul et constitue un processus globalement complexe. Dans ce travail, nous étudions RLHF où les modèles sous-jacents sont entraînés en utilisant la méthode efficace en paramètres de l'Adaptation de Bas Rang (LoRA) introduite par Hu et al. [2021]. Nous explorons le cadre de "l'Apprentissage par Renforcement Efficace en Paramètres" (PERL), dans lequel nous effectuons l'entraînement du modèle de récompense et l'apprentissage par renforcement en utilisant LoRA. Nous comparons PERL au réglage fin conventionnel (réglage complet) à travers diverses configurations pour 7 benchmarks, incluant 2 nouveaux ensembles de données, de modélisation de récompense et d'apprentissage par renforcement. Nous constatons que PERL performe aussi bien que le cadre RLHF conventionnel, tout en s'entraînant plus rapidement et avec moins de mémoire. Cela permet d'atteindre les hautes performances de RLHF, tout en réduisant le fardeau computationnel qui limite son adoption comme technique d'alignement pour les grands modèles de langage. Nous publions également 2 nouveaux ensembles de données de préférences "pouce en haut/pouce en bas" : "Taskmaster Coffee" et "Taskmaster Ticketing" pour promouvoir la recherche autour de RLHF.
La mise à jour efficace et précise des connaissances stockées dans les modèles de langage de grande taille (LLMs) constitue l'un des défis de recherche les plus pressants à l'heure actuelle. Cet article présente Larimar - une architecture novatrice inspirée du cerveau, conçue pour enrichir les LLMs avec une mémoire épisodique distribuée. La mémoire de Larimar permet des mises à jour dynamiques et en une seule étape des connaissances, sans nécessiter de ré-entraînement ou de réglage fin coûteux en termes de calcul. Les résultats expérimentaux sur plusieurs benchmarks de modification de faits démontrent que Larimar atteint une précision comparable aux approches les plus compétitives, même dans le cadre difficile des modifications séquentielles, tout en excellant en vitesse - offrant des accélérations de 4 à 10 fois selon le LLM de base - ainsi qu'en flexibilité grâce à une architecture simple, indépendante du LLM, et donc générale. Nous proposons également des mécanismes pour l'oubli sélectif de faits et la généralisation de la longueur du contexte d'entrée avec Larimar, et en démontrons l'efficacité.
Nous présentons Stable Video 3D (SV3D) — un modèle de diffusion vidéo latent pour la génération haute résolution d'images vers des vues multiples, produisant des vidéos orbitales autour d'un objet 3D. Les travaux récents sur la génération 3D proposent des techniques pour adapter des modèles génératifs 2D à la synthèse de nouvelles vues (NVS) et à l'optimisation 3D. Cependant, ces méthodes présentent plusieurs inconvénients, notamment des vues limitées ou une synthèse de nouvelles vues incohérente, ce qui affecte les performances de la génération d'objets 3D. Dans ce travail, nous proposons SV3D, qui adapte un modèle de diffusion image-à-vidéo pour la synthèse de nouvelles vues multiples et la génération 3D, tirant ainsi parti de la généralisation et de la cohérence multi-vues des modèles vidéo, tout en ajoutant un contrôle explicite de la caméra pour la NVS. Nous proposons également des techniques améliorées d'optimisation 3D pour utiliser SV3D et ses sorties NVS dans la génération image-à-3D. Des résultats expérimentaux approfondis sur plusieurs ensembles de données, avec des métriques 2D et 3D ainsi qu'une étude utilisateur, démontrent que SV3D atteint des performances de pointe en NVS ainsi qu'en reconstruction 3D par rapport aux travaux antérieurs.
S'appuyant sur les récents progrès des modèles de diffusion pour la génération d'images à partir de texte, la personnalisation préservant l'identité a réalisé des avancées significatives dans la capture précise d'identités spécifiques avec une seule image de référence. Cependant, les méthodes existantes intègrent principalement les images de référence dans l'espace d'encodage textuel, entraînant un enchevêtrement complexe des informations d'image et de texte, ce qui pose des défis pour préserver à la fois la fidélité de l'identité et la cohérence sémantique. Pour relever ce défi, nous proposons Infinite-ID, un paradigme de découplage ID-sémantique pour la personnalisation préservant l'identité. Plus précisément, nous introduisons un entraînement renforcé par l'identité, incorporant un module supplémentaire de cross-attention d'image pour capturer suffisamment d'informations d'identité tout en désactivant le module de cross-attention textuel original du modèle de diffusion. Cela garantit que le flux d'image représente fidèlement l'identité fournie par l'image de référence tout en atténuant les interférences de l'entrée textuelle. De plus, nous introduisons un mécanisme d'interaction de caractéristiques qui combine un module d'attention mixte avec une opération AdaIN-moyenne pour fusionner de manière transparente les deux flux. Ce mécanisme améliore non seulement la fidélité de l'identité et la cohérence sémantique, mais permet également un contrôle pratique des styles des images générées. Les résultats expérimentaux approfondis sur la génération de photos brutes et d'images stylisées démontrent la performance supérieure de notre méthode proposée.
L'encodage visuel constitue la base des modèles multimodaux de grande taille (LMMs) pour la compréhension du monde visuel. Les LMMs conventionnels traitent les images dans des tailles fixes et des résolutions limitées, tandis que les explorations récentes dans cette direction sont restreintes en termes d'adaptabilité, d'efficacité et même de justesse. Dans ce travail, nous prenons d'abord GPT-4V et LLaVA-1.5 comme exemples représentatifs et exposons les défauts systématiques inhérents à leur stratégie d'encodage visuel. Pour relever ces défis, nous présentons LLaVA-UHD, un modèle multimodal de grande taille capable de percevoir efficacement des images dans n'importe quel rapport d'aspect et à haute résolution. LLaVA-UHD comprend trois composants clés : (1) Une stratégie de modularisation des images qui divise les images en résolution native en tranches plus petites de taille variable pour un encodage efficace et extensible, (2) un module de compression qui condense davantage les tokens d'images issus des encodeurs visuels, et (3) un schéma spatial pour organiser les tokens des tranches pour les LLMs. Des expériences approfondies montrent que LLaVA-UHD surpasse les LMMs établis entraînés avec 2 à 3 ordres de grandeur de données supplémentaires sur 9 benchmarks. Notamment, notre modèle basé sur LLaVA-1.5 336x336 supporte des images 6 fois plus grandes (c'est-à-dire 672x1088) en utilisant seulement 94% du calcul d'inférence, et obtient une amélioration de 6,4 points de précision sur TextVQA. De plus, le modèle peut être entraîné efficacement dans des contextes académiques, en moins de 23 heures sur 8 GPU A100 (contre 26 heures pour LLaVA-1.5). Nous mettons les données et le code à disposition publiquement à l'adresse https://github.com/thunlp/LLaVA-UHD.
Nous présentons LightIt, une méthode pour le contrôle explicite de l'éclairage dans la génération d'images. Les méthodes génératives récentes manquent de contrôle sur l'éclairage, pourtant crucial pour de nombreux aspects artistiques de la génération d'images, tels que la définition de l'ambiance générale ou de l'apparence cinématographique. Pour surmonter ces limitations, nous proposons de conditionner la génération sur des cartes d'ombrage et de normales. Nous modélisons l'éclairage avec un ombrage à un rebond, incluant les ombres portées. Nous entraînons d'abord un module d'estimation d'ombrage pour générer un ensemble de données d'images réelles et de paires d'ombrage. Ensuite, nous entraînons un réseau de contrôle utilisant l'ombrage et les normales estimés comme entrées. Notre méthode démontre une génération d'images de haute qualité et un contrôle de l'éclairage dans de nombreuses scènes. De plus, nous utilisons notre ensemble de données généré pour entraîner un modèle de rééclairage préservant l'identité, conditionné sur une image et un ombrage cible. Notre méthode est la première à permettre la génération d'images avec un éclairage contrôlable et cohérent, et elle rivalise avec les méthodes de rééclairage spécialisées de pointe.
La synthèse d'objets 3D en domaine ouvert a pris du retard par rapport à la synthèse d'images en raison de données limitées et d'une complexité computationnelle plus élevée. Pour combler cet écart, des travaux récents ont exploré la diffusion multi-vues, mais ils peinent souvent à atteindre une cohérence 3D, une qualité visuelle ou une efficacité satisfaisantes. Cet article propose MVEdit, qui fonctionne comme un équivalent 3D de SDEdit, utilisant un échantillonnage ancestral pour débruiter conjointement des images multi-vues et produire des maillages texturés de haute qualité. Basé sur des modèles de diffusion 2D existants, MVEdit atteint la cohérence 3D grâce à un adaptateur 3D sans apprentissage, qui transforme les vues 2D du dernier pas de temps en une représentation 3D cohérente, puis conditionne les vues 2D du pas de temps suivant à l'aide de vues rendues, sans compromettre la qualité visuelle. Avec un temps d'inférence de seulement 2 à 5 minutes, ce framework offre un meilleur compromis entre qualité et vitesse que la distillation de scores. MVEdit est très polyvalent et extensible, avec une large gamme d'applications incluant la génération texte/image-vers-3D, l'édition 3D-vers-3D et la synthèse de textures de haute qualité. En particulier, les évaluations démontrent des performances de pointe dans les tâches de génération image-vers-3D et de génération de textures guidée par texte. De plus, nous introduisons une méthode pour affiner des modèles de diffusion latente 2D sur de petits ensembles de données 3D avec des ressources limitées, permettant une initialisation rapide en basse résolution pour la génération texte-vers-3D.
Les reconstructions de la perception visuelle à partir de l'activité cérébrale se sont considérablement améliorées, mais l'utilité pratique de ces méthodes reste limitée. Cela s'explique par le fait que ces modèles sont entraînés indépendamment pour chaque sujet, nécessitant des dizaines d'heures de données d'entraînement coûteuses issues de l'IRMf pour obtenir des résultats de haute qualité. Ce travail présente des reconstructions de haute qualité en utilisant seulement 1 heure de données d'entraînement par IRMf. Nous pré-entraînons notre modèle sur 7 sujets, puis l'affinons avec un minimum de données provenant d'un nouveau sujet. Notre nouvelle procédure d'alignement fonctionnel projette linéairement toutes les données cérébrales dans un espace latent partagé entre les sujets, suivi d'une transformation non linéaire commune vers l'espace d'images CLIP. Nous effectuons ensuite une transition de l'espace CLIP vers l'espace pixel en affinant Stable Diffusion XL pour qu'il accepte des latents CLIP comme entrées au lieu de texte. Cette approche améliore la généralisation hors-sujet avec des données d'entraînement limitées et atteint également des performances de pointe en matière de recherche et de reconstruction d'images par rapport aux méthodes centrées sur un seul sujet. MindEye2 démontre que des reconstructions précises de la perception sont possibles à partir d'une seule visite dans un centre d'IRM. L'intégralité du code est disponible sur GitHub.
Nous explorons comment la réconciliation de plusieurs modèles de base (grands modèles de langage et modèles vision-langage) avec un nouveau mécanisme de mémoire unifié pourrait aborder le problème complexe de la compréhension vidéo, en particulier la capture des relations temporelles à long terme dans des vidéos de longue durée. Plus précisément, l'agent multimodal proposé, VideoAgent : 1) construit une mémoire structurée pour stocker à la fois les descriptions génériques d'événements temporels et les états de suivi centrés sur les objets de la vidéo ; 2) face à une requête de tâche donnée, il utilise des outils tels que la localisation de segments vidéo et l'interrogation de la mémoire des objets, ainsi que d'autres modèles de base visuels, pour résoudre la tâche de manière interactive, en exploitant la capacité des grands modèles de langage à utiliser des outils en mode zero-shot. VideoAgent démontre des performances impressionnantes sur plusieurs benchmarks de compréhension vidéo à long terme, avec une augmentation moyenne de 6,6 % sur NExT-QA et de 26,0 % sur EgoSchema par rapport aux modèles de référence, réduisant ainsi l'écart entre les modèles open-source et leurs homologues privés, y compris Gemini 1.5 Pro.
Les progrès en apprentissage automatique (ML) ont été alimentés par la mise à l'échelle des modèles de réseaux neuronaux. Cette mise à l'échelle a été rendue possible par des prouesses techniques toujours plus impressionnantes, nécessaires pour accueillir des approches de ML qui requièrent une communication à haut débit entre des dispositifs fonctionnant en parallèle. Dans ce travail, nous proposons une architecture modulaire et une approche d'entraînement co-conçues pour les modèles de ML, baptisées DIstributed PAth COmposition (DiPaCo). Pendant l'entraînement, DiPaCo répartit le calcul par chemins à travers un ensemble de modules partagés. Associée à une optimisation inspirée de Local-SGD (DiLoCo) qui maintient les modules synchronisés avec une communication drastiquement réduite, notre approche facilite l'entraînement sur des travailleurs faiblement connectés et hétérogènes, avec une conception qui garantit la robustesse aux défaillances et interruptions des travailleurs. Au moment de l'inférence, un seul chemin doit être exécuté pour chaque entrée, sans nécessiter de compression du modèle. Nous considérons cette approche comme un premier prototype vers un nouveau paradigme d'apprentissage à grande échelle, moins synchrone et plus modulaire. Nos expériences sur le benchmark largement utilisé C4 montrent que, pour le même nombre d'étapes d'entraînement mais moins de temps écoulé, DiPaCo dépasse les performances d'un modèle de langage transformateur dense de 1 milliard de paramètres en choisissant l'un des 256 chemins possibles, chacun ayant une taille de 150 millions de paramètres.
Le domaine du rendu neuronal a connu des progrès significatifs grâce aux avancées des modèles génératifs et des techniques de rendu différentiable. Bien que la diffusion 2D ait connu du succès, un pipeline unifié de diffusion 3D reste à établir. Cet article présente un nouveau cadre appelé LN3Diff pour combler cette lacune et permettre une génération 3D conditionnelle rapide, de haute qualité et générique. Notre approche exploite une architecture 3D-aware et un autoencodeur variationnel (VAE) pour encoder l'image d'entrée dans un espace latent structuré, compact et 3D. Le latent est décodé par un décodeur basé sur un transformateur en un champ neuronal 3D à haute capacité. En entraînant un modèle de diffusion sur cet espace latent 3D-aware, notre méthode atteint des performances de pointe sur ShapeNet pour la génération 3D et démontre une performance supérieure en reconstruction 3D monoculaire et en génération 3D conditionnelle sur divers jeux de données. De plus, elle surpasse les méthodes existantes de diffusion 3D en termes de vitesse d'inférence, ne nécessitant aucune optimisation par instance. Notre proposition LN3Diff représente une avancée significative dans la modélisation générative 3D et promet diverses applications dans les tâches de vision et de graphisme 3D.
Cet article présente un nouveau paradigme pour construire des modèles génératifs 3D scalables en exploitant des modèles de diffusion vidéo pré-entraînés. Le principal obstacle au développement de modèles génératifs 3D de base est la disponibilité limitée des données 3D. Contrairement aux images, aux textes ou aux vidéos, les données 3D ne sont pas facilement accessibles et sont difficiles à acquérir. Cela entraîne une disparité significative en termes d'échelle par rapport aux vastes quantités d'autres types de données. Pour résoudre ce problème, nous proposons d'utiliser un modèle de diffusion vidéo, entraîné avec de grands volumes de textes, d'images et de vidéos, comme source de connaissances pour les données 3D. En déverrouillant ses capacités génératives multi-vues par le biais d'un ajustement fin, nous générons un ensemble de données synthétiques multi-vues à grande échelle pour entraîner un modèle génératif 3D à propagation avant. Le modèle proposé, VFusion3D, entraîné sur près de 3 millions de données multi-vues synthétiques, peut générer un actif 3D à partir d'une seule image en quelques secondes et obtient des performances supérieures par rapport aux modèles génératifs 3D à propagation avant actuels de l'état de l'art, avec une préférence des utilisateurs pour nos résultats dans plus de 70 % des cas.