ChatPaper.aiChatPaper

CoRe3D: Ragionamento Collaborativo come Fondamento per l'Intelligenza 3D

CoRe3D: Collaborative Reasoning as a Foundation for 3D Intelligence

December 14, 2025
Autori: Tianjiao Yu, Xinzhuo Li, Yifan Shen, Yuanzhe Liu, Ismini Lourentzou
cs.AI

Abstract

I recenti progressi nei modelli multimodali di grandi dimensioni suggeriscono che i meccanismi di ragionamento esplicito svolgono un ruolo cruciale nel migliorare l'affidabilità, l'interpretabilità e l'allineamento cross-modale dei modelli. Sebbene questi approcci incentrati sul ragionamento si siano dimostrati efficaci per compiti linguistici e visivi, la loro estensione al 3D rimane poco sviluppata. CoRe3D introduce un framework di ragionamento unificato per la comprensione e la generazione 3D che opera congiuntamente su astrazioni semantiche e spaziali, consentendo all'intento di alto livello inferito dal linguaggio di guidare direttamente la formazione di contenuti 3D di basso livello. Elemento centrale di questo design è una rappresentazione di ragionamento ancorata allo spazio che scompone lo spazio latente 3D in regioni localizzate, permettendo al modello di ragionare sulla geometria in modo compositivo e procedurale. Accoppiando strettamente l'inferenza a catena del pensiero semantica con un ragionamento spaziale strutturato, CoRe3D produce output 3D che mostrano una forte consistenza locale e un fedele allineamento con le descrizioni linguistiche.
English
Recent advances in large multimodal models suggest that explicit reasoning mechanisms play a critical role in improving model reliability, interpretability, and cross-modal alignment. While such reasoning-centric approaches have been proven effective in language and vision tasks, their extension to 3D remains underdeveloped. CoRe3D introduces a unified 3D understanding and generation reasoning framework that jointly operates over semantic and spatial abstractions, enabling high-level intent inferred from language to directly guide low-level 3D content formation. Central to this design is a spatially grounded reasoning representation that decomposes 3D latent space into localized regions, allowing the model to reason over geometry in a compositional and procedural manner. By tightly coupling semantic chain-of-thought inference with structured spatial reasoning, CoRe3D produces 3D outputs that exhibit strong local consistency and faithful alignment with linguistic descriptions.
PDF22December 19, 2025