La visión como dialecto: Unificación de la comprensión y generación visual mediante representaciones alineadas con texto
Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations
June 23, 2025
Autores: Jiaming Han, Hao Chen, Yang Zhao, Hanyu Wang, Qi Zhao, Ziyan Yang, Hao He, Xiangyu Yue, Lu Jiang
cs.AI
Resumen
Este artículo presenta un marco multimodal que busca unificar la comprensión y generación visual dentro de una representación semántica discreta compartida. En su núcleo se encuentra el Tokenizador Alineado con Texto (TA-Tok), que convierte imágenes en tokens discretos utilizando un libro de códigos alineado con texto, proyectado desde el vocabulario de un modelo de lenguaje grande (LLM). Al integrar visión y texto en un espacio unificado con un vocabulario expandido, nuestro LLM multimodal, Tar, permite entradas y salidas cruzadas a través de una interfaz compartida, sin necesidad de diseños específicos para cada modalidad. Además, proponemos codificación y decodificación adaptativas a escala para equilibrar la eficiencia y el detalle visual, junto con un de-tokenizador generativo para producir salidas visuales de alta fidelidad. Para abordar diversas necesidades de decodificación, utilizamos dos de-tokenizadores complementarios: un modelo autorregresivo rápido y un modelo basado en difusión. Para mejorar la fusión de modalidades, investigamos tareas avanzadas de pre-entrenamiento, demostrando mejoras tanto en la comprensión como en la generación visual. Los experimentos en diversos benchmarks muestran que Tar iguala o supera los métodos existentes de LLM multimodal, logrando una convergencia más rápida y una mayor eficiencia en el entrenamiento. El código, modelos y datos están disponibles en https://tar.csuhan.com.
English
This paper presents a multimodal framework that attempts to unify visual
understanding and generation within a shared discrete semantic representation.
At its core is the Text-Aligned Tokenizer (TA-Tok), which converts images into
discrete tokens using a text-aligned codebook projected from a large language
model's (LLM) vocabulary. By integrating vision and text into a unified space
with an expanded vocabulary, our multimodal LLM, Tar, enables cross-modal input
and output through a shared interface, without the need for modality-specific
designs. Additionally, we propose scale-adaptive encoding and decoding to
balance efficiency and visual detail, along with a generative de-tokenizer to
produce high-fidelity visual outputs. To address diverse decoding needs, we
utilize two complementary de-tokenizers: a fast autoregressive model and a
diffusion-based model. To enhance modality fusion, we investigate advanced
pre-training tasks, demonstrating improvements in both visual understanding and
generation. Experiments across benchmarks show that Tar matches or surpasses
existing multimodal LLM methods, achieving faster convergence and greater
training efficiency. Code, models, and data are available at
https://tar.csuhan.com