ChatPaper.aiChatPaper

Scalabilità della Comprensione di Immagini Ricche di Testo tramite Generazione Sintetica di Dati Multimodali Guidata da Codice

Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

February 20, 2025
Autori: Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
cs.AI

Abstract

Ragionare su immagini con testo complesso, come grafici e documenti, rappresenta un'applicazione cruciale per i modelli visione-linguaggio (VLMs). Tuttavia, i VLMs spesso incontrano difficoltà in questi ambiti a causa della scarsità di dati visivo-linguistici diversificati e ricchi di testo. Per affrontare questa sfida, presentiamo CoSyn, un framework che sfrutta le capacità di codifica dei modelli linguistici di grandi dimensioni (LLMs) basati esclusivamente su testo per creare automaticamente dati multimodali sintetici ricchi di testo. Dato un testo di input che descrive un dominio target (ad esempio, "etichette nutrizionali"), CoSyn invita un LLM a generare codice (Python, HTML, LaTeX, ecc.) per il rendering di immagini sintetiche. Utilizzando il codice sottostante come rappresentazione testuale delle immagini sintetiche, CoSyn può generare dati di alta qualità per l'ottimizzazione delle istruzioni, affidandosi nuovamente a un LLM basato esclusivamente su testo. Utilizzando CoSyn, abbiamo costruito un dataset composto da 400K immagini e 2.7 milioni di righe di dati per l'ottimizzazione delle istruzioni visivo-linguistiche. Esperimenti completi su sette benchmark dimostrano che i modelli addestrati sui nostri dati sintetici raggiungono prestazioni all'avanguardia tra i modelli open-source competitivi, inclusi Llama 3.2, e superano modelli proprietari come GPT-4V e Gemini 1.5 Flash. Inoltre, CoSyn può produrre dati sintetici di puntamento, consentendo ai VLMs di ancorare le informazioni all'interno delle immagini di input, dimostrando il suo potenziale per lo sviluppo di agenti multimodali in grado di agire in ambienti reali.
English
Reasoning about images with rich text, such as charts and documents, is a critical application of vision-language models (VLMs). However, VLMs often struggle in these domains due to the scarcity of diverse text-rich vision-language data. To address this challenge, we present CoSyn, a framework that leverages the coding capabilities of text-only large language models (LLMs) to automatically create synthetic text-rich multimodal data. Given input text describing a target domain (e.g., "nutrition fact labels"), CoSyn prompts an LLM to generate code (Python, HTML, LaTeX, etc.) for rendering synthetic images. With the underlying code as textual representations of the synthetic images, CoSyn can generate high-quality instruction-tuning data, again relying on a text-only LLM. Using CoSyn, we constructed a dataset comprising 400K images and 2.7M rows of vision-language instruction-tuning data. Comprehensive experiments on seven benchmarks demonstrate that models trained on our synthetic data achieve state-of-the-art performance among competitive open-source models, including Llama 3.2, and surpass proprietary models such as GPT-4V and Gemini 1.5 Flash. Furthermore, CoSyn can produce synthetic pointing data, enabling VLMs to ground information within input images, showcasing its potential for developing multimodal agents capable of acting in real-world environments.

Summary

AI-Generated Summary

PDF132February 21, 2025