Unicorn: Síntesis de Datos Solo de Texto para el Entrenamiento de Modelos de Lenguaje y Visión

Resumen

El entrenamiento de modelos de visión y lenguaje (VLMs, por sus siglas en inglés) generalmente requiere pares de imagen-texto a gran escala y de alta calidad, pero recolectar o sintetizar dichos datos es costoso. En contraste, los datos de texto son abundantes y económicos, lo que plantea la pregunta: ¿se puede sintetizar datos de entrenamiento multimodal de alta calidad únicamente a partir de texto? Para abordar esto, proponemos un marco de síntesis de datos multimodal de tres etapas integradas de manera cruzada, que genera dos conjuntos de datos: Unicorn-1.2M y Unicorn-471K-Instruction. En la Etapa 1: Síntesis de Datos de Subtítulos Diversos, construimos 1.2 millones de subtítulos de alta calidad y semánticamente diversos expandiendo semillas de subtítulos escasos utilizando modelos de lenguaje grandes (LLMs). En la Etapa 2: Generación de Datos de Ajuste por Instrucciones, procesamos adicionalmente 471,000 subtítulos en tareas de ajuste por instrucciones de múltiples turnos para apoyar el razonamiento complejo. Finalmente, en la Etapa 3: Transferencia de Representación de Modalidad, estas representaciones textuales de subtítulos se transforman en representaciones visuales, resultando en representaciones sintéticas de imágenes diversas. Este proceso de tres etapas nos permite construir Unicorn-1.2M para el preentrenamiento y Unicorn-471K-Instruction para el ajuste por instrucciones, sin depender de imágenes reales. Al eliminar la dependencia de imágenes reales mientras se mantiene la calidad y diversidad de los datos, nuestro marco ofrece una solución rentable y escalable para el entrenamiento de VLMs. El código está disponible en https://github.com/Yu-xm/Unicorn.git.

English

Training vision-language models (VLMs) typically requires large-scale, high-quality image-text pairs, but collecting or synthesizing such data is costly. In contrast, text data is abundant and inexpensive, prompting the question: can high-quality multimodal training data be synthesized purely from text? To tackle this, we propose a cross-integrated three-stage multimodal data synthesis framework, which generates two datasets: Unicorn-1.2M and Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we construct 1.2M semantically diverse high-quality captions by expanding sparse caption seeds using large language models (LLMs). In Stage 2: Instruction-Tuning Data Generation, we further process 471K captions into multi-turn instruction-tuning tasks to support complex reasoning. Finally, in Stage 3: Modality Representation Transfer, these textual captions representations are transformed into visual representations, resulting in diverse synthetic image representations. This three-stage process enables us to construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for instruction-tuning, without relying on real images. By eliminating the dependency on real images while maintaining data quality and diversity, our framework offers a cost-effective and scalable solution for VLMs training. Code is available at https://github.com/Yu-xm/Unicorn.git.

Unicorn: Síntesis de Datos Solo de Texto para el Entrenamiento de Modelos de Lenguaje y Visión

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

Resumen

Support