Unicorn: Síntesis de Datos Solo de Texto para el Entrenamiento de Modelos de Lenguaje y Visión
Unicorn: Text-Only Data Synthesis for Vision Language Model Training
March 28, 2025
Autores: Xiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang
cs.AI
Resumen
El entrenamiento de modelos de visión y lenguaje (VLMs, por sus siglas en inglés) generalmente requiere pares de imagen-texto a gran escala y de alta calidad, pero recolectar o sintetizar dichos datos es costoso. En contraste, los datos de texto son abundantes y económicos, lo que plantea la pregunta: ¿se puede sintetizar datos de entrenamiento multimodal de alta calidad únicamente a partir de texto? Para abordar esto, proponemos un marco de síntesis de datos multimodal de tres etapas integradas de manera cruzada, que genera dos conjuntos de datos: Unicorn-1.2M y Unicorn-471K-Instruction. En la Etapa 1: Síntesis de Datos de Subtítulos Diversos, construimos 1.2 millones de subtítulos de alta calidad y semánticamente diversos expandiendo semillas de subtítulos escasos utilizando modelos de lenguaje grandes (LLMs). En la Etapa 2: Generación de Datos de Ajuste por Instrucciones, procesamos adicionalmente 471,000 subtítulos en tareas de ajuste por instrucciones de múltiples turnos para apoyar el razonamiento complejo. Finalmente, en la Etapa 3: Transferencia de Representación de Modalidad, estas representaciones textuales de subtítulos se transforman en representaciones visuales, resultando en representaciones sintéticas de imágenes diversas. Este proceso de tres etapas nos permite construir Unicorn-1.2M para el preentrenamiento y Unicorn-471K-Instruction para el ajuste por instrucciones, sin depender de imágenes reales. Al eliminar la dependencia de imágenes reales mientras se mantiene la calidad y diversidad de los datos, nuestro marco ofrece una solución rentable y escalable para el entrenamiento de VLMs. El código está disponible en https://github.com/Yu-xm/Unicorn.git.
English
Training vision-language models (VLMs) typically requires large-scale,
high-quality image-text pairs, but collecting or synthesizing such data is
costly. In contrast, text data is abundant and inexpensive, prompting the
question: can high-quality multimodal training data be synthesized purely from
text? To tackle this, we propose a cross-integrated three-stage multimodal data
synthesis framework, which generates two datasets: Unicorn-1.2M and
Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we
construct 1.2M semantically diverse high-quality captions by expanding sparse
caption seeds using large language models (LLMs). In Stage 2:
Instruction-Tuning Data Generation, we further process 471K captions into
multi-turn instruction-tuning tasks to support complex reasoning. Finally, in
Stage 3: Modality Representation Transfer, these textual captions
representations are transformed into visual representations, resulting in
diverse synthetic image representations. This three-stage process enables us to
construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for
instruction-tuning, without relying on real images. By eliminating the
dependency on real images while maintaining data quality and diversity, our
framework offers a cost-effective and scalable solution for VLMs training. Code
is available at https://github.com/Yu-xm/Unicorn.git.Summary
AI-Generated Summary