HYDRA-X: Modelos Multimodais Unificados Nativos com Tokenizadores Visuais Holísticos

Resumo

Tokenizadores visuais holísticos são fundamentais para modelos multimodais unificados (MMUs), pois mapeiam entradas visuais diversas em um espaço de representação unificado. Neste artigo, apresentamos o HYDRA-X, o primeiro MMU que unifica a tokenização de imagens e vídeos em um único Vision Transformer (ViT). Nosso projeto é motivado por dois desafios principais: injetar eficientemente capacidade de reconstrução espaçotemporal em um ViT nativo, e incorporar consciência semântica no nível de imagem e vídeo no espaço latente. Para abordar o primeiro, ablações abrangentes revelam duas descobertas principais: (1) a atenção temporal causal no nível do quadro é suficiente para a reconstrução visual, enquanto a atenção espaçotemporal completa a degrada; e (2) a compressão temporal hierárquica supera substancialmente as alternativas de etapa única. Para lidar com o segundo, propomos um descompressor leve que realiza upsampling de características temporalmente comprimidas sob supervisão conjunta de professor imagem-vídeo, impondo assim estruturas semânticas complementares dentro do espaço latente compacto. Com base neste tokenizador holístico, propomos ainda uma melhoria fundamentada no pipeline de edição: a interação fonte-alvo deve ocorrer no nível latente dentro do tokenizador, em vez de no nível semântico dentro do LLM, melhorando substancialmente a consistência da edição e acelerando a convergência. Instanciado no modelo denso de 7B, o HYDRA-X alcança desempenho robusto em tarefas de compreensão e geração de imagens e vídeos, abrindo caminho para futuros MMUs com tokenizador unificado.

English

Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is driven by two core challenges: efficiently injecting spatiotemporal reconstruction capability into a native ViT, and embedding image- and video-level semantic awareness into the latent space. To address the first, comprehensive ablations reveal two key findings: (1) frame-level causal temporal attention suffices for visual reconstruction, whereas full spatiotemporal attention degrades it; and (2) hierarchical temporal compression substantially outperforms single-step alternatives. To tackle the second, we propose a lightweight decompressor that upsamples temporally compressed features under joint image-video teacher supervision, thereby enforcing complementary semantic structures within the compact latent space. Building on this holistic tokenizer, we further propose a principled improvement of the editing pipeline: source-target interaction should occur at the latent level inside the tokenizer rather than at the semantic level inside the LLM, substantially improving editing consistency and accelerating convergence. Instantiated at the 7B dense model, HYDRA-X achieves strong performance across image and video understanding and generation tasks, paving the way for future unified-tokenizer UMMs.