CoRe3D: 3D 인텔리전스의 기초로서의 협력적 추론
CoRe3D: Collaborative Reasoning as a Foundation for 3D Intelligence
December 14, 2025
저자: Tianjiao Yu, Xinzhuo Li, Yifan Shen, Yuanzhe Liu, Ismini Lourentzou
cs.AI
초록
대규모 멀티모달 모델의 최근 발전은 명시적 추론 메커니즘이 모델의 신뢰성, 해석 가능성, 그리고 크로스모달 정렬 향상에 중요한 역할을 한다는 것을 시사합니다. 이러한 추론 중심 접근법이 언어 및 비전 작업에서 효과적임이 입증되었지만, 3D 영역으로의 확장은 아직 미흡한 실정입니다. CoRe3D는 의미론적 및 공간적 추상화를 함께 연산하는 통합 3D 이해 및 생성 추론 프레임워크를 제안하며, 언어로부터 추론된 높은 수준의 의도가 낮은 수준의 3D 콘텐츠 형성을 직접 안내할 수 있게 합니다. 이 설계의 핵심은 3D 잠재 공간을 지역화된 영역으로 분해하여 모델이 구성적 및 절차적 방식으로 기하학적 구조에 대해 추론할 수 있게 하는 공간적으로 기반을 둔 추론 표현입니다. 의미론적 사고의 연쇄 추론과 구조화된 공간 추론을 긴밀하게 결합함으로써, CoRe3D는 강력한 지역적 일관성과 언어적 설명에 대한 충실한 정렬을 보여주는 3D 출력 결과를 생성합니다.
English
Recent advances in large multimodal models suggest that explicit reasoning mechanisms play a critical role in improving model reliability, interpretability, and cross-modal alignment. While such reasoning-centric approaches have been proven effective in language and vision tasks, their extension to 3D remains underdeveloped. CoRe3D introduces a unified 3D understanding and generation reasoning framework that jointly operates over semantic and spatial abstractions, enabling high-level intent inferred from language to directly guide low-level 3D content formation. Central to this design is a spatially grounded reasoning representation that decomposes 3D latent space into localized regions, allowing the model to reason over geometry in a compositional and procedural manner. By tightly coupling semantic chain-of-thought inference with structured spatial reasoning, CoRe3D produces 3D outputs that exhibit strong local consistency and faithful alignment with linguistic descriptions.