EVA01: Comprensión y Generación 3D Nativa Unificada mediante Mixture-of-Transformers

Resumen

Este artículo aborda el desafío de integrar mallas 3D como una modalidad nativa en Modelos de Lenguaje Grandes Multimodales (MLLMs). Los modelos de reconstrucción grandes basados en difusión separan la comprensión semántica del razonamiento geométrico, operando como reconstructores sin estado condicionados a priores densos de píxeles 2D. Los métodos recientes basados en MLLMs tratan la modalidad 3D como una salida externa en lugar de un componente nativo de la secuencia multimodal, realizando adaptaciones incrementales sin un análisis sistemático de cómo las variedades geométricas se alinean con los espacios de características de los MLLMs. Presentamos EVA01, un marco unificado que amplía el límite de modalidad de los MLLMs para incorporar de forma nativa la comprensión, generación y edición sensible al contexto de mallas 3D. Construido sobre una arquitectura de Mezcla de Transformers (MoT), EVA01 desacopla el modelo en un Experto de Comprensión preentrenado (E_{und}) y un Experto de Generación estructuralmente reflejado (E_{gen}), acoplados a través de una autoatención global compartida con enrutamiento de modalidad estricto. Este diseño alinea el espacio latente semántico del backbone del MLLM con la variedad geométrica, permitiendo la transferencia directa de priores multimodales sin representaciones 2D intermedias. Los resultados muestran que EVA01 logra una fidelidad de vanguardia en la generación nativa de texto a 3D y desbloquea una edición geométrica robusta de múltiples turnos con contexto largo y preservación de identidad, una capacidad fundamentalmente inaccesible para los pipelines de reconstrucción sin estado. Nuestros hallazgos además ofrecen ideas arquitectónicas para integrar modelos base 2D con tareas 3D, informando el diseño de sistemas multimodales nativos en 3D. Página del proyecto: https://www.seeles.ai/research/pages/EVA01

English

This paper addresses the challenge of integrating 3D meshes as a native modality within Multimodal Large Language Models (MLLMs). Diffusion-based large reconstruction models decouple semantic understanding from geometric reasoning, operating as stateless reconstructors conditioned on dense 2D pixel priors. Recent MLLM-based methods treat the 3D modality as an external output rather than a native component of the multimodal sequence, making incremental adaptations without a systematic analysis of how geometric manifolds align with MLLM feature spaces. We introduce EVA01, a unified framework that extends the modality boundary of MLLMs to natively incorporate 3D mesh understanding, generation, and context-aware editing. Built upon a Mixture-of-Transformers (MoT) architecture, EVA01 decouples the model into a pre-trained Understanding Expert (E_{und}) and a structurally mirrored Generation Expert (E_{gen}), coupled through shared global self-attention with hard modality routing. This design aligns the semantic latent space of the MLLM backbone with the geometric manifold, enabling direct transfer of multimodal priors without intermediate 2D representations. Results show that EVA01 achieves state-of-the-art native text-to-3D generation fidelity and unlocks robust long-context multi-turn geometric editing with identity preservation, a capability fundamentally inaccessible to stateless reconstruction pipelines. Our findings further offer architectural insights for integrating 2D foundation models with 3D tasks, informing the design of 3D-native multimodal systems. Project Page: https://www.seeles.ai/research/pages/EVA01