HYDRA-X : Modèles Multimodaux Unifiés Natifs avec des Tokeniseurs Visuels Holistiques

Résumé

Les tokeniseurs visuels holistiques sont fondamentaux pour les modèles multimodaux unifiés (UMM) car ils projettent des entrées visuelles diverses dans un espace de représentation unifié. Dans cet article, nous présentons HYDRA-X, le premier UMM qui unifie la tokenisation des images et des vidéos au sein d'un unique Vision Transformer (ViT). Notre conception est motivée par deux défis principaux : injecter efficacement une capacité de reconstruction spatiotemporelle dans un ViT natif, et intégrer une conscience sémantique à la fois au niveau de l'image et de la vidéo dans l'espace latent. Pour relever le premier défi, des ablations exhaustives révèlent deux résultats clés : (1) une attention temporelle causale au niveau des trames suffit pour la reconstruction visuelle, tandis qu'une attention spatiotemporelle complète la dégrade ; et (2) une compression temporelle hiérarchique surpasse nettement les alternatives en une seule étape. Pour aborder le second défi, nous proposons un décompresseur léger qui sur-échantillonne les caractéristiques temporellement compressées sous une supervision conjointe par un enseignant image-vidéo, imposant ainsi des structures sémantiques complémentaires au sein de l'espace latent compact. En nous appuyant sur ce tokeniseur holistique, nous proposons en outre une amélioration raisonnée du pipeline d'édition : l'interaction source-cible devrait se produire au niveau latent à l'intérieur du tokeniseur plutôt qu'au niveau sémantique à l'intérieur du LLM, améliorant considérablement la cohérence de l'édition et accélérant la convergence. Instancié dans un modèle dense de 7 milliards de paramètres, HYDRA-X atteint des performances solides sur des tâches de compréhension et de génération d'images et de vidéos, ouvrant la voie à de futurs UMM à tokeniseur unifié.

English

Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is driven by two core challenges: efficiently injecting spatiotemporal reconstruction capability into a native ViT, and embedding image- and video-level semantic awareness into the latent space. To address the first, comprehensive ablations reveal two key findings: (1) frame-level causal temporal attention suffices for visual reconstruction, whereas full spatiotemporal attention degrades it; and (2) hierarchical temporal compression substantially outperforms single-step alternatives. To tackle the second, we propose a lightweight decompressor that upsamples temporally compressed features under joint image-video teacher supervision, thereby enforcing complementary semantic structures within the compact latent space. Building on this holistic tokenizer, we further propose a principled improvement of the editing pipeline: source-target interaction should occur at the latent level inside the tokenizer rather than at the semantic level inside the LLM, substantially improving editing consistency and accelerating convergence. Instantiated at the 7B dense model, HYDRA-X achieves strong performance across image and video understanding and generation tasks, paving the way for future unified-tokenizer UMMs.