Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que le développement des grands modèles de langage (LLM) progresse, leur alignement avec les préférences humaines est devenu de plus en plus crucial. Nous proposons le DPO par étapes (sDPO), une extension de l'optimisation directe des préférences (DPO) récemment popularisée pour le réglage de l'alignement. Cette approche consiste à diviser les ensembles de données de préférences disponibles et à les utiliser de manière progressive, plutôt que de les employer simultanément. Nous démontrons que cette méthode facilite l'utilisation de modèles de référence plus précisément alignés dans le cadre d'entraînement du DPO. De plus, le sDPO permet d'entraîner le modèle final pour qu'il soit plus performant, surpassant même d'autres LLM populaires dotés de davantage de paramètres.
Le 3D Gaussian Splatting (GS) a permis des améliorations significatives par rapport aux Neural Radiance Fields en termes de fidélité d'ajustement 3D et de vitesse de rendu. Cependant, cette représentation non structurée avec des Gaussiennes dispersées présente un défi majeur pour la modélisation générative. Pour résoudre ce problème, nous introduisons GaussianCube, une représentation structurée du GS qui est à la fois puissante et efficace pour la modélisation générative. Nous y parvenons en proposant d'abord un algorithme d'ajustement GS modifié avec contrainte de densification, capable de produire des résultats d'ajustement de haute qualité en utilisant un nombre fixe de Gaussiennes libres, puis en réorganisant les Gaussiennes dans une grille voxel prédéfinie via le Transport Optimal. La représentation structurée en grille nous permet d'utiliser un U-Net 3D standard comme architecture principale dans la modélisation générative par diffusion, sans nécessiter de conceptions élaborées. Des expériences approfondies menées sur ShapeNet et OmniObject3D montrent que notre modèle atteint des résultats de génération à la pointe de l'état de l'art, tant qualitativement que quantitativement, soulignant le potentiel de GaussianCube comme une représentation 3D puissante et polyvalente.
Les modèles de langage multimodaux de grande taille (LLMs) ont connu des progrès considérables. Des travaux récents ont étendu ces modèles à l'entrée vidéo, démontrant des capacités prometteuses de suivi d'instructions. Cependant, un élément crucial manquant est la localisation temporelle. Ces modèles ne peuvent pas répondre avec précision aux questions de type "Quand ?". Nous identifions trois aspects clés qui limitent leurs capacités de localisation temporelle : (i) la représentation du temps, (ii) l'architecture, et (iii) les données. Nous abordons ces lacunes en proposant l'assistant de localisation temporelle guidé par le langage (LITA) avec les caractéristiques suivantes : (1) Nous introduisons des tokens temporels qui encodent les horodatages relatifs à la durée de la vidéo pour mieux représenter le temps dans les vidéos. (2) Nous introduisons des tokens SlowFast dans l'architecture pour capturer l'information temporelle à une résolution temporelle fine. (3) Nous mettons l'accent sur les données de localisation temporelle pour LITA. En plus d'exploiter les ensembles de données vidéo existants avec des horodatages, nous proposons une nouvelle tâche, la localisation temporelle raisonnée (RTL), ainsi qu'un ensemble de données, ActivityNet-RTL, pour l'apprentissage et l'évaluation de cette tâche. La localisation temporelle raisonnée nécessite à la fois le raisonnement et la localisation temporelle des LLMs vidéo. LITA démontre des performances solides sur cette tâche difficile, doublant presque le score moyen d'intersection sur union (mIoU) temporel des modèles de référence. De plus, nous montrons que notre accent sur la localisation temporelle améliore également considérablement la génération de texte basée sur la vidéo par rapport aux LLMs vidéo existants, y compris une amélioration relative de 36 % dans la compréhension temporelle. Le code est disponible à l'adresse suivante : https://github.com/NVlabs/LITA
Les modèles génératifs de texte-à-image basés sur la diffusion, comme Stable Diffusion, ont révolutionné le domaine de la génération de contenu, permettant des avancées significatives dans des domaines tels que l'édition d'images et la synthèse vidéo. Malgré leurs capacités impressionnantes, ces modèles ne sont pas sans limites. Il reste difficile de synthétiser une image qui s'aligne parfaitement avec le texte d'entrée, et plusieurs exécutions avec des prompts soigneusement conçus sont nécessaires pour obtenir des résultats satisfaisants. Pour atténuer ces limitations, de nombreuses études se sont efforcées d'affiner les modèles de diffusion pré-entraînés, comme l'UNet, en utilisant diverses technologies. Pourtant, au milieu de ces efforts, une question cruciale concernant l'entraînement des modèles de diffusion texte-à-image est restée largement inexplorée : est-il possible et réalisable d'affiner l'encodeur de texte pour améliorer les performances des modèles de diffusion texte-à-image ? Nos résultats révèlent qu'au lieu de remplacer l'encodeur de texte CLIP utilisé dans Stable Diffusion par d'autres grands modèles de langage, nous pouvons l'améliorer grâce à notre approche d'affinage proposée, TextCraftor, conduisant à des améliorations substantielles dans les benchmarks quantitatifs et les évaluations humaines. Fait intéressant, notre technique permet également une génération d'images contrôlable grâce à l'interpolation de différents encodeurs de texte affinés avec diverses récompenses. Nous démontrons également que TextCraftor est orthogonal à l'affinage de l'UNet et peut être combiné pour améliorer davantage la qualité générative.
Nous présentons Mesh2NeRF, une approche permettant de dériver des champs de radiance de référence à partir de maillages texturés pour des tâches de génération 3D. De nombreuses méthodes génératives 3D représentent les scènes 3D sous forme de champs de radiance pour l'entraînement. Leurs champs de radiance de référence sont généralement ajustés à partir de rendus multi-vues issus d'un grand ensemble de données synthétiques 3D, ce qui entraîne souvent des artefacts dus à des occlusions ou à des problèmes de sous-ajustement. Dans Mesh2NeRF, nous proposons une solution analytique pour obtenir directement des champs de radiance de référence à partir de maillages 3D, caractérisant le champ de densité par une fonction d'occupation dotée d'une épaisseur de surface définie, et déterminant la couleur dépendante de la vue via une fonction de réflexion prenant en compte à la fois le maillage et l'éclairage de l'environnement. Mesh2NeRF extrait des champs de radiance précis qui fournissent une supervision directe pour l'entraînement de NeRFs génératifs et la représentation de scènes uniques. Nous validons l'efficacité de Mesh2NeRF sur diverses tâches, obtenant une amélioration notable de 3,12 dB en PSNR pour la synthèse de vues dans la représentation de scènes uniques sur le jeu de données ABO, une augmentation de 0,69 PSNR dans la génération conditionnelle à vue unique de ShapeNet Cars, et une extraction de maillage nettement améliorée à partir de NeRF dans la génération inconditionnelle d'Objaverse Mugs.