ChatPaper.aiChatPaper

비전을 방언으로: 텍스트 정렬 표현을 통한 시각적 이해와 생성의 통합

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

June 23, 2025
저자: Jiaming Han, Hao Chen, Yang Zhao, Hanyu Wang, Qi Zhao, Ziyan Yang, Hao He, Xiangyu Yue, Lu Jiang
cs.AI

초록

본 논문은 시각적 이해와 생성을 공유된 이산적 의미 표현 내에서 통합하려는 다중모달 프레임워크를 제시한다. 핵심에는 대규모 언어 모델(LLM)의 어휘에서 투영된 텍스트 정렬 코드북을 사용하여 이미지를 이산적 토큰으로 변환하는 텍스트 정렬 토크나이저(TA-Tok)가 있다. 확장된 어휘를 통해 시각과 텍스트를 통합된 공간으로 통합함으로써, 우리의 다중모달 LLM인 Tar는 모달리티별 설계 없이 공유 인터페이스를 통해 크로스모달 입력과 출력을 가능하게 한다. 또한, 효율성과 시각적 세부 사항의 균형을 맞추기 위해 스케일 적응형 인코딩 및 디코딩을 제안하고, 고품질 시각적 출력을 생성하기 위한 생성적 디토크나이저를 제안한다. 다양한 디코딩 요구를 해결하기 위해, 우리는 빠른 자기회귀 모델과 확산 기반 모델이라는 두 가지 상호 보완적인 디토크나이저를 활용한다. 모달리티 융합을 강화하기 위해, 우리는 고급 사전 학습 작업을 조사하여 시각적 이해와 생성 모두에서 개선을 입증한다. 벤치마크 전반에 걸친 실험은 Tar가 기존의 다중모달 LLM 방법을 능가하거나 동등한 성능을 보이며, 더 빠른 수렴과 더 큰 훈련 효율성을 달성함을 보여준다. 코드, 모델 및 데이터는 https://tar.csuhan.com에서 이용 가능하다.
English
This paper presents a multimodal framework that attempts to unify visual understanding and generation within a shared discrete semantic representation. At its core is the Text-Aligned Tokenizer (TA-Tok), which converts images into discrete tokens using a text-aligned codebook projected from a large language model's (LLM) vocabulary. By integrating vision and text into a unified space with an expanded vocabulary, our multimodal LLM, Tar, enables cross-modal input and output through a shared interface, without the need for modality-specific designs. Additionally, we propose scale-adaptive encoding and decoding to balance efficiency and visual detail, along with a generative de-tokenizer to produce high-fidelity visual outputs. To address diverse decoding needs, we utilize two complementary de-tokenizers: a fast autoregressive model and a diffusion-based model. To enhance modality fusion, we investigate advanced pre-training tasks, demonstrating improvements in both visual understanding and generation. Experiments across benchmarks show that Tar matches or surpasses existing multimodal LLM methods, achieving faster convergence and greater training efficiency. Code, models, and data are available at https://tar.csuhan.com
PDF201June 24, 2025