Tekst, Afbeeldingen en 3D-Structuur Token-voor-Token Uitlijnen
Aligning Text, Images, and 3D Structure Token-by-Token
June 9, 2025
Auteurs: Aadarsh Sahoo, Vansh Tibrewal, Georgia Gkioxari
cs.AI
Samenvatting
Het creëren van machines die de wereld in 3D kunnen begrijpen, is essentieel om ontwerpers te ondersteunen die 3D-omgevingen bouwen en bewerken, en om robots te helpen navigeren en interacteren in een driedimensionale ruimte. Geïnspireerd door vooruitgang in taal- en beeldmodellering, onderzoeken we het potentieel van autoregressieve modellen voor een nieuwe modaliteit: gestructureerde 3D-scènes. Hiertoe stellen we een geïntegreerd LLM-framework voor dat taal, beelden en 3D-scènes op elkaar afstemt, en bieden we een gedetailleerd 'kookboek' met kritieke ontwerpkeuzes voor optimale training en prestaties, waarbij we belangrijke vragen behandelen met betrekking tot datarepresentatie, modaliteit-specifieke doelstellingen en meer. We evalueren de prestaties op vier kern 3D-taken – rendering, herkenning, instructie-opvolging en vraag-beantwoording – en vier 3D-datasets, zowel synthetisch als uit de echte wereld. We breiden onze aanpak uit om complexe 3D-objectvormen te reconstrueren door onze 3D-modaliteit te verrijken met gekwantiseerde vormcoderingen, en tonen de effectiviteit van ons model aan bij 3D-objectherkenningstaken in de echte wereld. Projectwebpagina: https://glab-caltech.github.io/kyvo/
English
Creating machines capable of understanding the world in 3D is essential in
assisting designers that build and edit 3D environments and robots navigating
and interacting within a three-dimensional space. Inspired by advances in
language and image modeling, we investigate the potential of autoregressive
models for a new modality: structured 3D scenes. To this end, we propose a
unified LLM framework that aligns language, images, and 3D scenes and provide a
detailed ''cookbook'' outlining critical design choices for achieving optimal
training and performance addressing key questions related to data
representation, modality-specific objectives, and more. We evaluate performance
across four core 3D tasks -- rendering, recognition, instruction-following, and
question-answering -- and four 3D datasets, synthetic and real-world. We extend
our approach to reconstruct complex 3D object shapes by enriching our 3D
modality with quantized shape encodings, and show our model's effectiveness on
real-world 3D object recognition tasks. Project webpage:
https://glab-caltech.github.io/kyvo/