HYDRA-X: Нативные единые мультимодальные модели с целостными визуальными токенизаторами

Аннотация

Целостные визуальные токенизаторы являются основой унифицированных мультимодальных моделей (UMM), поскольку они отображают разнообразные визуальные входные данные в единое пространство представлений. В данной статье мы представляем HYDRA-X — первую UMM, которая объединяет токенизацию изображений и видео в рамках единого Vision Transformer (ViT). Наша разработка обусловлена двумя ключевыми задачами: эффективным внедрением способности к пространственно-временной реконструкции в нативный ViT и внедрением семантической осведомленности на уровне изображения и видео в латентное пространство. Для решения первой задачи всесторонние абляции выявили два ключевых результата: (1) покадровое каузальное временное внимание является достаточным для визуальной реконструкции, тогда как полное пространственно-временное внимание ухудшает её; (2) иерархическое временное сжатие существенно превосходит альтернативы с одношаговым сжатием. Для решения второй задачи мы предлагаем легковесный декомпрессор, который повышает дискретизацию временно сжатых признаков под совместным контролем учителя по изображениям и видео, тем самым вводя дополнительные семантические структуры в компактное латентное пространство. Опираясь на этот целостный токенизатор, мы дополнительно предлагаем принципиальное улучшение конвейера редактирования: взаимодействие источника и цели должно происходить на латентном уровне внутри токенизатора, а не на семантическом уровне внутри LLM, что существенно повышает согласованность редактирования и ускоряет сходимость. Реализованная в виде плотной модели на 7 миллиардов параметров, HYDRA-X демонстрирует высокую производительность в задачах понимания и генерации изображений и видео, прокладывая путь для будущих UMM с унифицированными токенизаторами.

English

Holistic visual tokenizers are fundamental to unified multimodal models (UMMs) as they map diverse visual inputs into a unified representation space. In this paper, we present HYDRA-X, the first UMM that unifies image and video tokenization within a single Vision Transformer (ViT). Our design is driven by two core challenges: efficiently injecting spatiotemporal reconstruction capability into a native ViT, and embedding image- and video-level semantic awareness into the latent space. To address the first, comprehensive ablations reveal two key findings: (1) frame-level causal temporal attention suffices for visual reconstruction, whereas full spatiotemporal attention degrades it; and (2) hierarchical temporal compression substantially outperforms single-step alternatives. To tackle the second, we propose a lightweight decompressor that upsamples temporally compressed features under joint image-video teacher supervision, thereby enforcing complementary semantic structures within the compact latent space. Building on this holistic tokenizer, we further propose a principled improvement of the editing pipeline: source-target interaction should occur at the latent level inside the tokenizer rather than at the semantic level inside the LLM, substantially improving editing consistency and accelerating convergence. Instantiated at the 7B dense model, HYDRA-X achieves strong performance across image and video understanding and generation tasks, paving the way for future unified-tokenizer UMMs.