ChatPaper.aiChatPaper

Ausrichtung von Text, Bildern und 3D-Strukturen Token für Token

Aligning Text, Images, and 3D Structure Token-by-Token

June 9, 2025
papers.authors: Aadarsh Sahoo, Vansh Tibrewal, Georgia Gkioxari
cs.AI

papers.abstract

Die Entwicklung von Maschinen, die in der Lage sind, die Welt in 3D zu verstehen, ist entscheidend, um Designer zu unterstützen, die 3D-Umgebungen erstellen und bearbeiten, sowie Roboter, die sich in einem dreidimensionalen Raum bewegen und interagieren. Inspiriert durch Fortschritte in der Sprach- und Bildmodellierung untersuchen wir das Potenzial von autoregressiven Modellen für eine neue Modalität: strukturierte 3D-Szenen. Zu diesem Zweck schlagen wir ein einheitliches LLM-Framework vor, das Sprache, Bilder und 3D-Szenen ausrichtet, und stellen ein detailliertes „Kochbuch“ bereit, das kritische Designentscheidungen für optimales Training und Leistung beschreibt und Schlüsselfragen zu Datenrepräsentation, modalitätsspezifischen Zielen und mehr behandelt. Wir bewerten die Leistung in vier zentralen 3D-Aufgaben – Rendering, Erkennung, Befolgung von Anweisungen und Frage-Antwort – sowie in vier 3D-Datensätzen, sowohl synthetischen als auch realen. Wir erweitern unseren Ansatz, um komplexe 3D-Objektformen zu rekonstruieren, indem wir unsere 3D-Modalität mit quantisierten Formkodierungen anreichern, und zeigen die Effektivität unseres Modells bei realen 3D-Objekterkennungsaufgaben. Projektwebseite: https://glab-caltech.github.io/kyvo/
English
Creating machines capable of understanding the world in 3D is essential in assisting designers that build and edit 3D environments and robots navigating and interacting within a three-dimensional space. Inspired by advances in language and image modeling, we investigate the potential of autoregressive models for a new modality: structured 3D scenes. To this end, we propose a unified LLM framework that aligns language, images, and 3D scenes and provide a detailed ''cookbook'' outlining critical design choices for achieving optimal training and performance addressing key questions related to data representation, modality-specific objectives, and more. We evaluate performance across four core 3D tasks -- rendering, recognition, instruction-following, and question-answering -- and four 3D datasets, synthetic and real-world. We extend our approach to reconstruct complex 3D object shapes by enriching our 3D modality with quantized shape encodings, and show our model's effectiveness on real-world 3D object recognition tasks. Project webpage: https://glab-caltech.github.io/kyvo/
PDF192June 11, 2025