EVA01 : Compréhension et génération 3D natives unifiées via mélange de Transformers

Résumé

Cet article aborde le défi d’intégrer les maillages 3D comme modalité native au sein des Modèles de Langage Multimodaux de Grande Taille (MLLM). Les grands modèles de reconstruction basés sur la diffusion découplent la compréhension sémantique du raisonnement géométrique, fonctionnant comme des reconstructeurs sans état conditionnés par des a priori denses de pixels 2D. Les méthodes récentes fondées sur les MLLM traitent la modalité 3D comme une sortie externe plutôt que comme une composante native de la séquence multimodale, apportant des adaptations incrémentales sans analyse systématique de la façon dont les variétés géométriques s’alignent sur les espaces de caractéristiques des MLLM. Nous présentons EVA01, un cadre unifié qui étend la frontière modale des MLLM pour incorporer nativement la compréhension, la génération et l’édition sensible au contexte de maillages 3D. Construit sur une architecture de Mélange de Transformateurs (MoT), EVA01 découple le modèle en un Expert de Compréhension pré-entraîné (E_{und}) et un Expert de Génération structurellement miroir (E_{gen}), couplés par une auto-attention globale partagée avec un routage strict par modalité. Cette conception aligne l’espace latent sémantique du backbone MLLM avec la variété géométrique, permettant un transfert direct des a priori multimodaux sans représentations 2D intermédiaires. Les résultats montrent qu’EVA01 atteint une fidélité de génération native texte-vers-3D à l’état de l’art et déverrouille une édition géométrique robuste en contexte long et multi-tours avec préservation de l’identité, une capacité fondamentalement inaccessible aux pipelines de reconstruction sans état. Nos résultats offrent en outre des perspectives architecturales pour intégrer les modèles fondamentaux 2D aux tâches 3D, éclairant la conception de systèmes multimodaux natifs 3D. Page du projet : https://www.seeles.ai/research/pages/EVA01

English

This paper addresses the challenge of integrating 3D meshes as a native modality within Multimodal Large Language Models (MLLMs). Diffusion-based large reconstruction models decouple semantic understanding from geometric reasoning, operating as stateless reconstructors conditioned on dense 2D pixel priors. Recent MLLM-based methods treat the 3D modality as an external output rather than a native component of the multimodal sequence, making incremental adaptations without a systematic analysis of how geometric manifolds align with MLLM feature spaces. We introduce EVA01, a unified framework that extends the modality boundary of MLLMs to natively incorporate 3D mesh understanding, generation, and context-aware editing. Built upon a Mixture-of-Transformers (MoT) architecture, EVA01 decouples the model into a pre-trained Understanding Expert (E_{und}) and a structurally mirrored Generation Expert (E_{gen}), coupled through shared global self-attention with hard modality routing. This design aligns the semantic latent space of the MLLM backbone with the geometric manifold, enabling direct transfer of multimodal priors without intermediate 2D representations. Results show that EVA01 achieves state-of-the-art native text-to-3D generation fidelity and unlocks robust long-context multi-turn geometric editing with identity preservation, a capability fundamentally inaccessible to stateless reconstruction pipelines. Our findings further offer architectural insights for integrating 2D foundation models with 3D tasks, informing the design of 3D-native multimodal systems. Project Page: https://www.seeles.ai/research/pages/EVA01