HYDRA-X: Modelos multimodales unificados nativos con tokenizadores visuales holísticos

Resumen

Los tokenizadores visuales holísticos son fundamentales para los modelos multimodales unificados (UMM), ya que mapean diversas entradas visuales en un espacio de representación unificado. En este artículo, presentamos HYDRA-X, el primer UMM que unifica la tokenización de imágenes y videos dentro de un único Vision Transformer (ViT). Nuestro diseño está impulsado por dos desafíos fundamentales: inyectar eficientemente capacidad de reconstrucción espacio-temporal en un ViT nativo, e incrustar conciencia semántica a nivel de imagen y video en el espacio latente. Para abordar el primero, ablaciones exhaustivas revelan dos hallazgos clave: (1) la atención temporal causal a nivel de fotograma es suficiente para la reconstrucción visual, mientras que la atención espacio-temporal completa la degrada; y (2) la compresión temporal jerárquica supera sustancialmente a las alternativas de un solo paso. Para abordar el segundo, proponemos un descompresor ligero que aumenta el muestreo de características temporalmente comprimidas bajo supervisión conjunta de maestro imagen-video, imponiendo así estructuras semánticas complementarias dentro del espacio latente compacto. Basándonos en este tokenizador holístico, proponemos además una mejora fundamentada del pipeline de edición: la interacción fuente-objetivo debe ocurrir a nivel latente dentro del tokenizador, en lugar de a nivel semántico dentro del LLM, mejorando sustancialmente la consistencia de edición y acelerando la convergencia. Instanciado en el modelo denso de 7B, HYDRA-X logra un rendimiento sólido en tareas de comprensión y generación de imágenes y videos, allanando el camino para futuros UMM con tokenizador unificado.

English

Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is driven by two core challenges: efficiently injecting spatiotemporal reconstruction capability into a native ViT, and embedding image- and video-level semantic awareness into the latent space. To address the first, comprehensive ablations reveal two key findings: (1) frame-level causal temporal attention suffices for visual reconstruction, whereas full spatiotemporal attention degrades it; and (2) hierarchical temporal compression substantially outperforms single-step alternatives. To tackle the second, we propose a lightweight decompressor that upsamples temporally compressed features under joint image-video teacher supervision, thereby enforcing complementary semantic structures within the compact latent space. Building on this holistic tokenizer, we further propose a principled improvement of the editing pipeline: source-target interaction should occur at the latent level inside the tokenizer rather than at the semantic level inside the LLM, substantially improving editing consistency and accelerating convergence. Instantiated at the 7B dense model, HYDRA-X achieves strong performance across image and video understanding and generation tasks, paving the way for future unified-tokenizer UMMs.