La visión como dialecto: Unificación de la comprensión y generación visual mediante representaciones alineadas con texto

Resumen

Este artículo presenta un marco multimodal que busca unificar la comprensión y generación visual dentro de una representación semántica discreta compartida. En su núcleo se encuentra el Tokenizador Alineado con Texto (TA-Tok), que convierte imágenes en tokens discretos utilizando un libro de códigos alineado con texto, proyectado desde el vocabulario de un modelo de lenguaje grande (LLM). Al integrar visión y texto en un espacio unificado con un vocabulario expandido, nuestro LLM multimodal, Tar, permite entradas y salidas cruzadas a través de una interfaz compartida, sin necesidad de diseños específicos para cada modalidad. Además, proponemos codificación y decodificación adaptativas a escala para equilibrar la eficiencia y el detalle visual, junto con un de-tokenizador generativo para producir salidas visuales de alta fidelidad. Para abordar diversas necesidades de decodificación, utilizamos dos de-tokenizadores complementarios: un modelo autorregresivo rápido y un modelo basado en difusión. Para mejorar la fusión de modalidades, investigamos tareas avanzadas de pre-entrenamiento, demostrando mejoras tanto en la comprensión como en la generación visual. Los experimentos en diversos benchmarks muestran que Tar iguala o supera los métodos existentes de LLM multimodal, logrando una convergencia más rápida y una mayor eficiencia en el entrenamiento. El código, modelos y datos están disponibles en https://tar.csuhan.com.

English

This paper presents a multimodal framework that attempts to unify visual understanding and generation within a shared discrete semantic representation. At its core is the Text-Aligned Tokenizer (TA-Tok), which converts images into discrete tokens using a text-aligned codebook projected from a large language model's (LLM) vocabulary. By integrating vision and text into a unified space with an expanded vocabulary, our multimodal LLM, Tar, enables cross-modal input and output through a shared interface, without the need for modality-specific designs. Additionally, we propose scale-adaptive encoding and decoding to balance efficiency and visual detail, along with a generative de-tokenizer to produce high-fidelity visual outputs. To address diverse decoding needs, we utilize two complementary de-tokenizers: a fast autoregressive model and a diffusion-based model. To enhance modality fusion, we investigate advanced pre-training tasks, demonstrating improvements in both visual understanding and generation. Experiments across benchmarks show that Tar matches or surpasses existing multimodal LLM methods, achieving faster convergence and greater training efficiency. Code, models, and data are available at https://tar.csuhan.com

La visión como dialecto: Unificación de la comprensión y generación visual mediante representaciones alineadas con texto

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

Resumen

Support