EVA01: Compreensão e Geração 3D Nativas Unificadas via Mixture-of-Transformers

Resumo

Este artigo aborda o desafio de integrar malhas 3D como uma modalidade nativa em Modelos de Linguagem Grandes e Multimodais (MLLMs). Modelos de reconstrução grandes baseados em difusão dissociam a compreensão semântica do raciocínio geométrico, operando como reconstrutores sem estado condicionados a priores densos de pixel 2D. Métodos recentes baseados em MLLMs tratam a modalidade 3D como uma saída externa, em vez de um componente nativo da sequência multimodal, realizando adaptações incrementais sem uma análise sistemática de como as variedades geométricas se alinham com os espaços de características dos MLLMs. Apresentamos o EVA01, uma estrutura unificada que expande o limite de modalidade dos MLLMs para incorporar nativamente a compreensão, geração e edição sensível ao contexto de malhas 3D. Construído sobre uma arquitetura de Mistura de Transformers (MoT), o EVA01 dissocia o modelo em um Especialista em Compreensão pré-treinado (E_{und}) e um Especialista em Geração estruturalmente espelhado (E_{gen}), acoplados por meio de autoatenção global compartilhada com roteamento de modalidade rígido. Este design alinha o espaço latente semântico da espinha dorsal do MLLM com a variedade geométrica, permitindo a transferência direta de priores multimodais sem representações 2D intermediárias. Os resultados mostram que o EVA01 alcança fidelidade de geração nativa texto-para-3D de última geração e desbloqueia edição geométrica robusta em contexto longo e de múltiplas rodadas com preservação de identidade, uma capacidade fundamentalmente inacessível para pipelines de reconstrução sem estado. Nossas descobertas oferecem ainda insights arquiteturais para integrar modelos fundamentais 2D com tarefas 3D, informando o design de sistemas multimodais nativos em 3D. Página do Projeto: https://www.seeles.ai/research/pages/EVA01

English

This paper addresses the challenge of integrating 3D meshes as a native modality within Multimodal Large Language Models (MLLMs). Diffusion-based large reconstruction models decouple semantic understanding from geometric reasoning, operating as stateless reconstructors conditioned on dense 2D pixel priors. Recent MLLM-based methods treat the 3D modality as an external output rather than a native component of the multimodal sequence, making incremental adaptations without a systematic analysis of how geometric manifolds align with MLLM feature spaces. We introduce EVA01, a unified framework that extends the modality boundary of MLLMs to natively incorporate 3D mesh understanding, generation, and context-aware editing. Built upon a Mixture-of-Transformers (MoT) architecture, EVA01 decouples the model into a pre-trained Understanding Expert (E_{und}) and a structurally mirrored Generation Expert (E_{gen}), coupled through shared global self-attention with hard modality routing. This design aligns the semantic latent space of the MLLM backbone with the geometric manifold, enabling direct transfer of multimodal priors without intermediate 2D representations. Results show that EVA01 achieves state-of-the-art native text-to-3D generation fidelity and unlocks robust long-context multi-turn geometric editing with identity preservation, a capability fundamentally inaccessible to stateless reconstruction pipelines. Our findings further offer architectural insights for integrating 2D foundation models with 3D tasks, informing the design of 3D-native multimodal systems. Project Page: https://www.seeles.ai/research/pages/EVA01