CoRe3D: Kollaboratives Schließen als Grundlage für 3D-Intelligenz
CoRe3D: Collaborative Reasoning as a Foundation for 3D Intelligence
December 14, 2025
papers.authors: Tianjiao Yu, Xinzhuo Li, Yifan Shen, Yuanzhe Liu, Ismini Lourentzou
cs.AI
papers.abstract
Jüngste Fortschritte bei großen multimodalen Modellen deuten darauf hin, dass explizite Reasoning-Mechanismen eine entscheidende Rolle bei der Verbesserung von Modellzuverlässigkeit, Interpretierbarkeit und cross-modaler Abstimmung spielen. Während sich solche reasoning-zentrierten Ansätze bei Sprach- und Vision-Aufgaben als wirksam erwiesen haben, ist ihre Erweiterung auf 3D-Bereiche noch unterentwickelt. CoRe3D stellt ein einheitliches Reasoning-Framework für 3D-Verständnis und -Generierung vor, das gemeinsam über semantische und räumliche Abstraktionen operiert und es ermöglicht, dass hochrangige Absichten aus Sprache direkt die niederrangige 3D-Inhaltsformation steuern. Zentrale Elemente dieses Designs sind eine räumlich verankerte Reasoning-Repräsentation, die den 3D-Latenzraum in lokalisierte Regionen zerlegt, sowie die Fähigkeit des Modells, geometrische Zusammenhänge auf compositionelle und prozedurale Weise zu erfassen. Durch die enge Kopplung semantischer Ketten-Schlussfolgerungen mit strukturiertem räumlichem Reasoning erzeugt CoRe3D 3D-Ergebnisse mit starker lokaler Konsistenz und treuer Ausrichtung an sprachlichen Beschreibungen.
English
Recent advances in large multimodal models suggest that explicit reasoning mechanisms play a critical role in improving model reliability, interpretability, and cross-modal alignment. While such reasoning-centric approaches have been proven effective in language and vision tasks, their extension to 3D remains underdeveloped. CoRe3D introduces a unified 3D understanding and generation reasoning framework that jointly operates over semantic and spatial abstractions, enabling high-level intent inferred from language to directly guide low-level 3D content formation. Central to this design is a spatially grounded reasoning representation that decomposes 3D latent space into localized regions, allowing the model to reason over geometry in a compositional and procedural manner. By tightly coupling semantic chain-of-thought inference with structured spatial reasoning, CoRe3D produces 3D outputs that exhibit strong local consistency and faithful alignment with linguistic descriptions.