Skalierung des Verständnisses textreicher Bilder durch codegesteuerte synthetische multimodale Datengenerierung
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation
February 20, 2025
Autoren: Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
cs.AI
Zusammenfassung
Das Verarbeiten von Bildern mit umfangreichem Text, wie Diagrammen und Dokumenten, ist eine entscheidende Anwendung von Vision-Language-Modellen (VLMs). Allerdings haben VLMs in diesen Bereichen oft Schwierigkeiten, da es an vielfältigen textreichen Vision-Language-Daten mangelt. Um diese Herausforderung zu bewältigen, stellen wir CoSyn vor, ein Framework, das die Programmierfähigkeiten von textbasierten großen Sprachmodellen (LLMs) nutzt, um automatisch synthetische textreiche multimodale Daten zu erstellen. Bei Eingabetext, der einen Zielbereich beschreibt (z. B. „Nährwertkennzeichnungen“), fordert CoSyn ein LLM auf, Code (Python, HTML, LaTeX usw.) zur Erzeugung synthetischer Bilder zu generieren. Mit dem zugrunde liegenden Code als textuelle Repräsentation der synthetischen Bilder kann CoSyn hochwertige Instruction-Tuning-Daten erzeugen, wobei erneut ein textbasiertes LLM verwendet wird. Mit CoSyn haben wir einen Datensatz erstellt, der 400.000 Bilder und 2,7 Millionen Zeilen von Vision-Language-Instruction-Tuning-Daten umfasst. Umfassende Experimente auf sieben Benchmarks zeigen, dass Modelle, die mit unseren synthetischen Daten trainiert wurden, Spitzenleistungen unter den konkurrierenden Open-Source-Modellen, einschließlich Llama 3.2, erreichen und proprietäre Modelle wie GPT-4V und Gemini 1.5 Flash übertreffen. Darüber hinaus kann CoSyn synthetische Pointing-Daten erzeugen, die es VLMs ermöglichen, Informationen innerhalb von Eingabebildern zu verankern, was sein Potenzial für die Entwicklung multimodaler Agenten zeigt, die in realen Umgebungen agieren können.
English
Reasoning about images with rich text, such as charts and documents, is a
critical application of vision-language models (VLMs). However, VLMs often
struggle in these domains due to the scarcity of diverse text-rich
vision-language data. To address this challenge, we present CoSyn, a framework
that leverages the coding capabilities of text-only large language models
(LLMs) to automatically create synthetic text-rich multimodal data. Given input
text describing a target domain (e.g., "nutrition fact labels"), CoSyn prompts
an LLM to generate code (Python, HTML, LaTeX, etc.) for rendering synthetic
images. With the underlying code as textual representations of the synthetic
images, CoSyn can generate high-quality instruction-tuning data, again relying
on a text-only LLM. Using CoSyn, we constructed a dataset comprising 400K
images and 2.7M rows of vision-language instruction-tuning data. Comprehensive
experiments on seven benchmarks demonstrate that models trained on our
synthetic data achieve state-of-the-art performance among competitive
open-source models, including Llama 3.2, and surpass proprietary models such as
GPT-4V and Gemini 1.5 Flash. Furthermore, CoSyn can produce synthetic pointing
data, enabling VLMs to ground information within input images, showcasing its
potential for developing multimodal agents capable of acting in real-world
environments.Summary
AI-Generated Summary