EVA01: Einheitliches natives 3D-Verständnis und -Generierung mittels Mixture-of-Transformers

Zusammenfassung

Diese Arbeit befasst sich mit der Herausforderung, 3D-Netze als native Modalität in multimodale große Sprachmodelle (MLLMs) zu integrieren. Diffusionsbasierte große Rekonstruktionsmodelle entkoppeln semantisches Verständnis von geometrischem Denken und arbeiten als zustandslose Rekonstrukteure, die auf dichten 2D-Pixel-Priors basieren. Neuere MLLM-basierte Methoden behandeln die 3D-Modalität als externen Output statt als native Komponente der multimodalen Sequenz und nehmen inkrementelle Anpassungen vor, ohne systematisch zu analysieren, wie geometrische Mannigfaltigkeiten mit MLLM-Feature-Räumen ausgerichtet werden. Wir stellen EVA01 vor, ein einheitliches Framework, das die Modalitätsgrenzen von MLLMs erweitert, um 3D-Netzverständnis, -generierung und kontextbewusste Bearbeitung nativ zu integrieren. Aufbauend auf einer Mixture-of-Transformers (MoT)-Architektur entkoppelt EVA01 das Modell in einen vortrainierten Verständnis-Experten (E_{und}) und einen strukturell gespiegelten Generierungs-Experten (E_{gen}), die durch gemeinsam genutzte globale Selbstaufmerksamkeit mit harter Modalitätslenkung verbunden sind. Dieses Design stimmt den semantischen latenten Raum des MLLM-Backbones mit der geometrischen Mannigfaltigkeit ab und ermöglicht die direkte Übertragung multimodaler Priors ohne Zwischenrepräsentationen in 2D. Ergebnisse zeigen, dass EVA01 eine State-of-the-Art-native Text-zu-3D-Generierungstreue erreicht und robuste Langzeit-Mehrfachbearbeitung mit Identitätserhaltung ermöglicht – eine Fähigkeit, die für zustandslose Rekonstruktionspipelines grundsätzlich unzugänglich ist. Unsere Erkenntnisse bieten zudem architektonische Einblicke für die Integration von 2D-Grundlagenmodellen mit 3D-Aufgaben und informieren das Design 3D-nativer multimodaler Systeme. Projektseite: https://www.seeles.ai/research/pages/EVA01

English

This paper addresses the challenge of integrating 3D meshes as a native modality within Multimodal Large Language Models (MLLMs). Diffusion-based large reconstruction models decouple semantic understanding from geometric reasoning, operating as stateless reconstructors conditioned on dense 2D pixel priors. Recent MLLM-based methods treat the 3D modality as an external output rather than a native component of the multimodal sequence, making incremental adaptations without a systematic analysis of how geometric manifolds align with MLLM feature spaces. We introduce EVA01, a unified framework that extends the modality boundary of MLLMs to natively incorporate 3D mesh understanding, generation, and context-aware editing. Built upon a Mixture-of-Transformers (MoT) architecture, EVA01 decouples the model into a pre-trained Understanding Expert (E_{und}) and a structurally mirrored Generation Expert (E_{gen}), coupled through shared global self-attention with hard modality routing. This design aligns the semantic latent space of the MLLM backbone with the geometric manifold, enabling direct transfer of multimodal priors without intermediate 2D representations. Results show that EVA01 achieves state-of-the-art native text-to-3D generation fidelity and unlocks robust long-context multi-turn geometric editing with identity preservation, a capability fundamentally inaccessible to stateless reconstruction pipelines. Our findings further offer architectural insights for integrating 2D foundation models with 3D tasks, informing the design of 3D-native multimodal systems. Project Page: https://www.seeles.ai/research/pages/EVA01