HYDRA-X: Native vereinheitlichte multimodale Modelle mit holistischen visuellen Tokenisierern

Zusammenfassung

Ganzheitliche visuelle Tokenisierer sind grundlegend für vereinheitlichte multimodale Modelle (UMMs), da sie verschiedene visuelle Eingaben in einen einheitlichen Repräsentationsraum abbilden. In diesem Papier stellen wir HYDRA-X vor, das erste UMM, das Bild- und Videotokenisierung innerhalb eines einzigen Vision Transformers (ViT) vereint. Unser Design wird von zwei zentralen Herausforderungen getrieben: der effizienten Integration raumzeitlicher Rekonstruktionsfähigkeit in einen nativen ViT und der Einbettung von bild- und videoebenen semantischen Bewusstsein in den latenten Raum. Zur Bewältigung der ersten Herausforderung zeigen umfassende Ablationen zwei wesentliche Erkenntnisse: (1) Eine frame-level kausale zeitliche Aufmerksamkeit reicht für die visuelle Rekonstruktion aus, während eine vollständige raumzeitliche Aufmerksamkeit diese verschlechtert; und (2) hierarchische zeitliche Kompression übertrifft einstufige Alternativen erheblich. Für die zweite Herausforderung schlagen wir einen leichten Dekompressor vor, der zeitlich komprimierte Merkmale unter gemeinsamer Bild-Video-Lehrersupervision hochskaliert und damit komplementäre semantische Strukturen in dem kompakten latenten Raum erzwingt. Aufbauend auf diesem ganzheitlichen Tokenisierer schlagen wir eine grundlegende Verbesserung der Bearbeitungspipeline vor: Die Quell-Ziel-Interaktion sollte auf der latenten Ebene innerhalb des Tokenisierers stattfinden, nicht auf der semantischen Ebene innerhalb des LLM, was die Bearbeitungskonsistenz erheblich verbessert und die Konvergenz beschleunigt. Als 7B dichtes Modell implementiert, erzielt HYDRA-X starke Leistungen in Bild- und Video-Verständnis- und Generierungsaufgaben und ebnet den Weg für zukünftige UMMs mit einheitlichem Tokenisierer.

English

Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is driven by two core challenges: efficiently injecting spatiotemporal reconstruction capability into a native ViT, and embedding image- and video-level semantic awareness into the latent space. To address the first, comprehensive ablations reveal two key findings: (1) frame-level causal temporal attention suffices for visual reconstruction, whereas full spatiotemporal attention degrades it; and (2) hierarchical temporal compression substantially outperforms single-step alternatives. To tackle the second, we propose a lightweight decompressor that upsamples temporally compressed features under joint image-video teacher supervision, thereby enforcing complementary semantic structures within the compact latent space. Building on this holistic tokenizer, we further propose a principled improvement of the editing pipeline: source-target interaction should occur at the latent level inside the tokenizer rather than at the semantic level inside the LLM, substantially improving editing consistency and accelerating convergence. Instantiated at the 7B dense model, HYDRA-X achieves strong performance across image and video understanding and generation tasks, paving the way for future unified-tokenizer UMMs.