유니콘: 비전 언어 모델 학습을 위한 텍스트 전용 데이터 합성
Unicorn: Text-Only Data Synthesis for Vision Language Model Training
March 28, 2025
저자: Xiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang
cs.AI
초록
비전-언어 모델(VLM)을 훈련시키는 데는 일반적으로 대규모의 고품질 이미지-텍스트 쌍이 필요하지만, 이러한 데이터를 수집하거나 합성하는 데는 비용이 많이 듭니다. 반면, 텍스트 데이터는 풍부하고 저렴하여 다음과 같은 질문을 제기합니다: 고품질의 다중모드 훈련 데이터를 순수하게 텍스트로부터 합성할 수 있을까요? 이를 해결하기 위해, 우리는 교차 통합된 3단계 다중모드 데이터 합성 프레임워크를 제안하며, 이는 Unicorn-1.2M과 Unicorn-471K-Instruction이라는 두 가지 데이터셋을 생성합니다. 1단계: 다양한 캡션 데이터 합성에서는, 희소한 캡션 시드를 대규모 언어 모델(LLM)을 사용하여 확장함으로써 120만 개의 의미론적으로 다양한 고품질 캡션을 구성합니다. 2단계: 인스트럭션 튜닝 데이터 생성에서는, 471,000개의 캡션을 추가로 처리하여 복잡한 추론을 지원하는 다중 턴 인스트럭션 튜닝 작업으로 변환합니다. 마지막으로, 3단계: 모달리티 표현 전이에서는, 이러한 텍스트 캡션 표현을 시각적 표현으로 변환하여 다양한 합성 이미지 표현을 생성합니다. 이 3단계 프로세스를 통해, 우리는 실제 이미지에 의존하지 않고도 프리트레이닝을 위한 Unicorn-1.2M과 인스트럭션 튜닝을 위한 Unicorn-471K-Instruction을 구성할 수 있습니다. 실제 이미지에 대한 의존성을 제거하면서도 데이터 품질과 다양성을 유지함으로써, 우리의 프레임워크는 VLM 훈련을 위한 비용 효율적이고 확장 가능한 솔루션을 제공합니다. 코드는 https://github.com/Yu-xm/Unicorn.git에서 확인할 수 있습니다.
English
Training vision-language models (VLMs) typically requires large-scale,
high-quality image-text pairs, but collecting or synthesizing such data is
costly. In contrast, text data is abundant and inexpensive, prompting the
question: can high-quality multimodal training data be synthesized purely from
text? To tackle this, we propose a cross-integrated three-stage multimodal data
synthesis framework, which generates two datasets: Unicorn-1.2M and
Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we
construct 1.2M semantically diverse high-quality captions by expanding sparse
caption seeds using large language models (LLMs). In Stage 2:
Instruction-Tuning Data Generation, we further process 471K captions into
multi-turn instruction-tuning tasks to support complex reasoning. Finally, in
Stage 3: Modality Representation Transfer, these textual captions
representations are transformed into visual representations, resulting in
diverse synthetic image representations. This three-stage process enables us to
construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for
instruction-tuning, without relying on real images. By eliminating the
dependency on real images while maintaining data quality and diversity, our
framework offers a cost-effective and scalable solution for VLMs training. Code
is available at https://github.com/Yu-xm/Unicorn.git.Summary
AI-Generated Summary