Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous proposons le premier Large Reconstruction Model (LRM) capable de prédire un modèle 3D d'un objet à partir d'une seule image d'entrée en seulement 5 secondes. Contrairement à de nombreuses méthodes précédentes qui sont entraînées sur des ensembles de données à petite échelle tels que ShapeNet de manière spécifique à une catégorie, LRM adopte une architecture basée sur des transformers hautement scalable avec 500 millions de paramètres apprenables pour prédire directement un champ de radiance neuronale (NeRF) à partir de l'image d'entrée. Nous entraînons notre modèle de bout en bout sur des données multivues massives contenant environ 1 million d'objets, incluant à la fois des rendus synthétiques d'Objaverse et des captures réelles de MVImgNet. Cette combinaison d'un modèle à haute capacité et de données d'entraînement à grande échelle permet à notre modèle d'être hautement généralisable et de produire des reconstructions 3D de haute qualité à partir de diverses entrées de test, y compris des captures réelles en conditions réelles et des images provenant de modèles génératifs. Des démonstrations vidéo et des maillages 3D interactifs sont disponibles sur ce site web : https://yiconghong.me/LRM/.
Bien que les modèles de langage multi-modaux de grande taille (MM-LLMs) aient réalisé des progrès récents prometteurs, ils peinent encore à modéliser efficacement les interactions entre les entrées multi-modales et la génération dans des modalités non textuelles. Dans ce travail, nous proposons TEAL (Tokenize and Embed ALl), une approche qui traite l'entrée de toute modalité comme une séquence de tokens et apprend un espace d'embedding commun pour toutes les modalités. Plus précisément, pour une entrée de n'importe quelle modalité, TEAL commence par la discrétiser en une séquence de tokens à l'aide d'un tokenizer standard, puis intègre cette séquence dans un espace d'embedding commun via une matrice d'embedding apprenable. Les MM-LLMs n'ont alors qu'à prédire les tokens multi-modaux de manière autoregressive, comme le font les LLMs textuels. Enfin, un détokenizer correspondant est appliqué pour générer la sortie dans chaque modalité à partir de la séquence de tokens prédite. Grâce à l'espace d'embedding commun, TEAL permet aux LLMs figés d'exécuter des tâches de compréhension et de génération impliquant des modalités non textuelles, telles que l'image et l'audio. Ainsi, le LLM textuel peut simplement servir d'interface tout en conservant ses performances élevées en compréhension et génération textuelles. Les expériences montrent que TEAL obtient des améliorations substantielles en compréhension multi-modale et met en œuvre un schéma simple pour la génération multi-modale.
Le développement des grands modèles de langage (LLMs) a considérablement fait progresser le domaine de la compréhension multimodale, conduisant à l'émergence de grands modèles multimodaux (LMMs). Afin d'améliorer le niveau de compréhension visuelle, des études récentes ont doté les LMMs de capacités de compréhension au niveau des régions en représentant les coordonnées des boîtes englobantes des objets sous forme de séquences textuelles (pixel2seq). Dans cet article, nous introduisons un nouveau paradigme pour la modélisation de la localisation des objets, appelé méthode pixel2emb, où nous demandons au LMM de produire des embeddings de localisation qui sont ensuite décodés par différents décodeurs. Ce paradigme permet l'utilisation de différents formats de localisation (tels que les boîtes englobantes et les masques) dans les conversations multimodales. De plus, ce type de modélisation de localisation basée sur les embeddings permet d'exploiter les pratiques existantes dans les tâches de localisation, telles que la détection et la segmentation. Dans des scénarios à ressources limitées, notre méthode pixel2emb démontre des performances supérieures par rapport aux approches de pointe (SOTA) existantes, tant dans les tâches d'entrée que de sortie de localisation, dans des conditions de comparaison équitables. En exploitant la méthode pixel2emb proposée, nous entraînons un LMM nommé NExT-Chat et démontrons sa capacité à gérer plusieurs tâches telles que l'ancrage visuel, la description de région et le raisonnement ancré.
L'amélioration qualitative impressionnante des récents modèles de génération d'images à partir de texte a suscité une attention et une adoption généralisées. Cependant, nous manquons d'une compréhension quantitative exhaustive de leurs capacités et de leurs risques. Pour combler cette lacune, nous introduisons un nouveau benchmark, l'Évaluation Holistique des Modèles de Génération d'Images à partir de Texte (HEIM). Alors que les évaluations précédentes se concentraient principalement sur l'alignement texte-image et la qualité de l'image, nous identifions 12 aspects, incluant l'alignement texte-image, la qualité de l'image, l'esthétique, l'originalité, le raisonnement, les connaissances, les biais, la toxicité, l'équité, la robustesse, le multilinguisme et l'efficacité. Nous avons conçu 62 scénarios couvrant ces aspects et évalué 26 modèles de pointe de génération d'images à partir de texte sur ce benchmark. Nos résultats révèlent qu'aucun modèle unique n'excelle dans tous les aspects, différents modèles démontrant des forces variées. Nous publions les images générées et les résultats d'évaluation humaine pour une transparence totale à l'adresse https://crfm.stanford.edu/heim/v1.1.0, ainsi que le code à l'adresse https://github.com/stanford-crfm/helm, qui est intégré à la base de code HELM.
Nous présentons 3DiffTection, une méthode de pointe pour la détection d'objets 3D à partir d'images uniques, exploitant les caractéristiques d'un modèle de diffusion conscient de la 3D. L'annotation de données d'images à grande échelle pour la détection 3D est coûteuse en ressources et chronophage. Récemment, les modèles de diffusion d'images pré-entraînés à grande échelle sont devenus des extracteurs de caractéristiques efficaces pour les tâches de perception 2D. Cependant, ces caractéristiques sont initialement entraînées sur des données d'images et de texte appariées, qui ne sont pas optimisées pour les tâches 3D, et présentent souvent un écart de domaine lorsqu'elles sont appliquées aux données cibles. Notre approche comble ces écarts grâce à deux stratégies de réglage spécialisées : géométrique et sémantique. Pour le réglage géométrique, nous affinons un modèle de diffusion pour effectuer la synthèse de nouvelles vues conditionnée par une seule image, en introduisant un nouvel opérateur de déformation épipolaire. Cette tâche répond à deux critères essentiels : la nécessité d'une conscience 3D et la dépendance uniquement aux données d'images posées, qui sont facilement disponibles (par exemple, à partir de vidéos) et ne nécessitent pas d'annotation manuelle. Pour l'affinement sémantique, nous entraînons davantage le modèle sur les données cibles avec une supervision de détection. Les deux phases de réglage utilisent ControlNet pour préserver l'intégrité des capacités de caractéristiques originales. Dans l'étape finale, nous exploitons ces capacités améliorées pour effectuer un ensemble de prédictions au moment du test à travers plusieurs points de vue virtuels. Grâce à notre méthodologie, nous obtenons des caractéristiques conscientes de la 3D qui sont adaptées à la détection 3D et excellent dans l'identification des correspondances de points entre les vues. Par conséquent, notre modèle se révèle être un détecteur 3D puissant, surpassant largement les références précédentes, par exemple, Cube-RCNN, un précédent dans la détection 3D à vue unique de 9,43 % en AP3D sur le jeu de données Omni3D-ARkitscene. De plus, 3DiffTection démontre une robuste efficacité des données et une généralisation aux données inter-domaines.
Les travaux récents ont démontré que les grands modèles de langage (LLMs) pourraient renforcer les modèles neuro-symboliques traditionnels grâce à des capacités de programmation permettant de traduire le langage en descriptions de modules, obtenant ainsi des résultats solides en raisonnement visuel tout en maintenant la transparence et l'efficacité du modèle. Cependant, ces modèles génèrent généralement de manière exhaustive l'intégralité du snippet de code pour chaque nouvelle instance d'une tâche, ce qui est extrêmement inefficace. Nous proposons un raisonnement visuel neuro-symbolique génératif en développant et en réutilisant des modules. Plus précisément, notre modèle se compose de trois étapes distinctes : l'initialisation des modules, la génération des modules et l'exécution des modules. Tout d'abord, étant donné une tâche vision-langage, nous utilisons des LLMs pour déterminer si nous pouvons réutiliser et étendre des modules existants pour traiter cette nouvelle tâche. Si ce n'est pas le cas, nous initialisons un nouveau module nécessaire à la tâche et spécifions les entrées et sorties de ce nouveau module. Ensuite, le nouveau module est créé en interrogeant les LLMs pour générer des snippets de code correspondant aux exigences. Afin de mieux évaluer les capacités du nouveau module, nous utilisons des exemples d'entraînement few-shot comme cas tests pour vérifier si notre nouveau module peut les réussir. Si c'est le cas, le nouveau module est ajouté à la bibliothèque de modules pour une réutilisation future. Enfin, nous évaluons la performance de notre modèle sur l'ensemble de test en exécutant les programmes analysés avec les nouveaux modules visuels pour obtenir les résultats. Nous constatons que le modèle proposé présente plusieurs avantages. Premièrement, il performe de manière compétitive sur des tâches standard comme la réponse à des questions visuelles et la compréhension d'expressions référentielles ; deuxièmement, les modules appris à partir d'une tâche peuvent être transférés de manière transparente à de nouvelles tâches ; enfin et surtout, il est capable de s'adapter à de nouvelles tâches de raisonnement visuel en observant quelques exemples d'entraînement et en réutilisant des modules.