CoRe3D : Le raisonnement collaboratif comme fondement de l'intelligence 3D

Résumé

Les récentes avancées des grands modèles multimodaux suggèrent que les mécanismes de raisonnement explicite jouent un rôle crucial dans l'amélioration de la fiabilité, de l'interprétabilité et de l'alignement intermodal des modèles. Bien que ces approches centrées sur le raisonnement aient fait leurs preuves dans les tâches linguistiques et visuelles, leur extension au domaine 3D reste sous-développée. CoRe3D introduit un cadre de raisonnement unifié pour la compréhension et la génération 3D, opérant conjointement sur des abstractions sémantiques et spatiales, permettant à l'intention de haut niveau inférée du langage de guider directement la formation de contenu 3D de bas niveau. Au cœur de cette conception se trouve une représentation de raisonnement spatialement ancrée qui décompose l'espace latent 3D en régions localisées, permettant au modèle de raisonner sur la géométrie de manière compositionnelle et procédurale. En couplant étroitement l'inférence par chaîne de pensée sémantique avec un raisonnement spatial structuré, CoRe3D produit des sorties 3D qui présentent une forte cohérence locale et un alignement fidèle avec les descriptions linguistiques.

English

Recent advances in large multimodal models suggest that explicit reasoning mechanisms play a critical role in improving model reliability, interpretability, and cross-modal alignment. While such reasoning-centric approaches have been proven effective in language and vision tasks, their extension to 3D remains underdeveloped. CoRe3D introduces a unified 3D understanding and generation reasoning framework that jointly operates over semantic and spatial abstractions, enabling high-level intent inferred from language to directly guide low-level 3D content formation. Central to this design is a spatially grounded reasoning representation that decomposes 3D latent space into localized regions, allowing the model to reason over geometry in a compositional and procedural manner. By tightly coupling semantic chain-of-thought inference with structured spatial reasoning, CoRe3D produces 3D outputs that exhibit strong local consistency and faithful alignment with linguistic descriptions.

CoRe3D : Le raisonnement collaboratif comme fondement de l'intelligence 3D

CoRe3D: Collaborative Reasoning as a Foundation for 3D Intelligence

Résumé

Support