ChatPaper.aiChatPaper

Alignement texte, images et structure 3D token par token

Aligning Text, Images, and 3D Structure Token-by-Token

June 9, 2025
papers.authors: Aadarsh Sahoo, Vansh Tibrewal, Georgia Gkioxari
cs.AI

papers.abstract

Créer des machines capables de comprendre le monde en 3D est essentiel pour assister les concepteurs qui construisent et modifient des environnements 3D, ainsi que les robots qui naviguent et interagissent dans un espace tridimensionnel. Inspirés par les avancées en modélisation du langage et des images, nous explorons le potentiel des modèles autorégressifs pour une nouvelle modalité : les scènes 3D structurées. À cette fin, nous proposons un cadre unifié de modèle de langage (LLM) qui aligne le langage, les images et les scènes 3D, et fournissons un « guide pratique » détaillant les choix de conception critiques pour optimiser l'entraînement et les performances, en abordant des questions clés liées à la représentation des données, aux objectifs spécifiques à chaque modalité, et plus encore. Nous évaluons les performances sur quatre tâches 3D fondamentales — rendu, reconnaissance, suivi d'instructions et réponse à des questions — ainsi que sur quatre jeux de données 3D, synthétiques et réels. Nous étendons notre approche pour reconstruire des formes complexes d'objets 3D en enrichissant notre modalité 3D avec des encodages de formes quantifiés, et démontrons l'efficacité de notre modèle sur des tâches de reconnaissance d'objets 3D dans le monde réel. Page web du projet : https://glab-caltech.github.io/kyvo/
English
Creating machines capable of understanding the world in 3D is essential in assisting designers that build and edit 3D environments and robots navigating and interacting within a three-dimensional space. Inspired by advances in language and image modeling, we investigate the potential of autoregressive models for a new modality: structured 3D scenes. To this end, we propose a unified LLM framework that aligns language, images, and 3D scenes and provide a detailed ''cookbook'' outlining critical design choices for achieving optimal training and performance addressing key questions related to data representation, modality-specific objectives, and more. We evaluate performance across four core 3D tasks -- rendering, recognition, instruction-following, and question-answering -- and four 3D datasets, synthetic and real-world. We extend our approach to reconstruct complex 3D object shapes by enriching our 3D modality with quantized shape encodings, and show our model's effectiveness on real-world 3D object recognition tasks. Project webpage: https://glab-caltech.github.io/kyvo/
PDF192June 11, 2025