CoRe3D: Коллективное рассуждение как основа 3D-интеллекта

Аннотация

Последние достижения в области больших мультимодальных моделей свидетельствуют о том, что явные механизмы логического вывода играют ключевую роль в повышении надежности, интерпретируемости и межмодальной согласованности моделей. Хотя такие подходы, ориентированные на рассуждения, доказали свою эффективность для задач обработки языка и изображений, их применение к трехмерным данным остается недостаточно развитым. CoRe3D представляет собой унифицированную систему логического вывода для понимания и генерации 3D-контента, которая совместно оперирует семантическими и пространственными абстракциями, позволяя высокоуровневым интенциям, выведенным из языка, напрямую направлять формирование низкоуровневого 3D-содержания. Центральным элементом данной архитектуры является пространственно-обоснованное представление для рассуждений, которое декомпозирует латентное пространство 3D на локализованные области, позволяя модели рассуждать о геометрии композиционным и процедурным способом. Благодаря тесной интеграции семантических цепочек рассуждений со структурированным пространственным выводом, CoRe3D генерирует 3D-результаты, которые демонстрируют высокую локальную согласованность и точное соответствие лингвистическим описаниям.

English

Recent advances in large multimodal models suggest that explicit reasoning mechanisms play a critical role in improving model reliability, interpretability, and cross-modal alignment. While such reasoning-centric approaches have been proven effective in language and vision tasks, their extension to 3D remains underdeveloped. CoRe3D introduces a unified 3D understanding and generation reasoning framework that jointly operates over semantic and spatial abstractions, enabling high-level intent inferred from language to directly guide low-level 3D content formation. Central to this design is a spatially grounded reasoning representation that decomposes 3D latent space into localized regions, allowing the model to reason over geometry in a compositional and procedural manner. By tightly coupling semantic chain-of-thought inference with structured spatial reasoning, CoRe3D produces 3D outputs that exhibit strong local consistency and faithful alignment with linguistic descriptions.

CoRe3D: Коллективное рассуждение как основа 3D-интеллекта

CoRe3D: Collaborative Reasoning as a Foundation for 3D Intelligence

Аннотация

Support