ChatPaper.aiChatPaper

Escalando la Comprensión de Imágenes con Texto mediante la Generación Sintética de Datos Multimodales Guiada por Código

Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

February 20, 2025
Autores: Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
cs.AI

Resumen

Razonar sobre imágenes con texto enriquecido, como gráficos y documentos, es una aplicación crítica de los modelos de visión y lenguaje (VLMs). Sin embargo, los VLMs a menudo enfrentan dificultades en estos dominios debido a la escasez de datos diversos de visión y lenguaje con texto enriquecido. Para abordar este desafío, presentamos CoSyn, un marco que aprovecha las capacidades de codificación de los modelos de lenguaje grandes (LLMs) basados únicamente en texto para crear automáticamente datos multimodales sintéticos con texto enriquecido. Dado un texto de entrada que describe un dominio objetivo (por ejemplo, "etiquetas de información nutricional"), CoSyn solicita a un LLM que genere código (Python, HTML, LaTeX, etc.) para renderizar imágenes sintéticas. Con el código subyacente como representaciones textuales de las imágenes sintéticas, CoSyn puede generar datos de ajuste por instrucción de alta calidad, nuevamente confiando en un LLM basado únicamente en texto. Utilizando CoSyn, construimos un conjunto de datos que comprende 400K imágenes y 2.7M filas de datos de ajuste por instrucción de visión y lenguaje. Experimentos exhaustivos en siete benchmarks demuestran que los modelos entrenados con nuestros datos sintéticos alcanzan un rendimiento de vanguardia entre los modelos de código abierto competitivos, incluyendo Llama 3.2, y superan a modelos propietarios como GPT-4V y Gemini 1.5 Flash. Además, CoSyn puede producir datos sintéticos de apuntamiento, permitiendo que los VLMs fundamenten información dentro de las imágenes de entrada, mostrando su potencial para desarrollar agentes multimodales capaces de actuar en entornos del mundo real.
English
Reasoning about images with rich text, such as charts and documents, is a critical application of vision-language models (VLMs). However, VLMs often struggle in these domains due to the scarcity of diverse text-rich vision-language data. To address this challenge, we present CoSyn, a framework that leverages the coding capabilities of text-only large language models (LLMs) to automatically create synthetic text-rich multimodal data. Given input text describing a target domain (e.g., "nutrition fact labels"), CoSyn prompts an LLM to generate code (Python, HTML, LaTeX, etc.) for rendering synthetic images. With the underlying code as textual representations of the synthetic images, CoSyn can generate high-quality instruction-tuning data, again relying on a text-only LLM. Using CoSyn, we constructed a dataset comprising 400K images and 2.7M rows of vision-language instruction-tuning data. Comprehensive experiments on seven benchmarks demonstrate that models trained on our synthetic data achieve state-of-the-art performance among competitive open-source models, including Llama 3.2, and surpass proprietary models such as GPT-4V and Gemini 1.5 Flash. Furthermore, CoSyn can produce synthetic pointing data, enabling VLMs to ground information within input images, showcasing its potential for developing multimodal agents capable of acting in real-world environments.

Summary

AI-Generated Summary

PDF132February 21, 2025