LongWriter-V: Ermöglichung von ultra-langen und hochwertigen Generierungen in Vision-Sprache-Modellen
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models
February 20, 2025
Autoren: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li
cs.AI
Zusammenfassung
Bestehende große Vision-Sprach-Modelle (LVLMs) können Eingaben mit Kontextlängen von bis zu 128k visuellen und Text-Tokens verarbeiten, haben jedoch Schwierigkeiten, kohärente Ausgaben von mehr als 1.000 Wörtern zu generieren. Wir stellen fest, dass die primäre Einschränkung das Fehlen von langen Ausgabebeispielen während des überwachten Feinabstimmens (SFT) ist. Um dieses Problem zu lösen, führen wir LongWriter-V-22k ein, ein SFT-Datensatz, der 22.158 Beispiele umfasst, jeweils mit mehreren Eingabebildern, einer Anweisung und entsprechenden Ausgaben im Bereich von 0 bis 10.000 Wörtern. Darüber hinaus verwenden wir Direct Preference Optimization (DPO) für das SFT-Modell, um lange Ausgaben zu erreichen, die eine hohe Treue zu den Eingabebildern bewahren. Angesichts der hohen Kosten für die Sammlung von menschlichem Feedback für lange Ausgaben (z. B. 3.000 Wörter) schlagen wir IterDPO vor, das lange Ausgaben in Segmente unterteilt und iterative Korrekturen verwendet, um Präferenzpaare mit den ursprünglichen Ausgaben zu bilden. Zusätzlich entwickeln wir MMLongBench-Write, ein Benchmark mit sechs Aufgaben zur Bewertung der Langzeitgenerationsfähigkeiten von VLMs. Unser 7B-Parameter-Modell, das mit LongWriter-V-22k und IterDPO trainiert wurde, erzielt beeindruckende Leistungen in diesem Benchmark und übertrifft größere proprietäre Modelle wie GPT-4o. Code und Daten: https://github.com/THU-KEG/LongWriter-V
English
Existing Large Vision-Language Models (LVLMs) can process inputs with context
lengths up to 128k visual and text tokens, yet they struggle to generate
coherent outputs beyond 1,000 words. We find that the primary limitation is the
absence of long output examples during supervised fine-tuning (SFT). To tackle
this issue, we introduce LongWriter-V-22k, a SFT dataset comprising 22,158
examples, each with multiple input images, an instruction, and corresponding
outputs ranging from 0 to 10,000 words. Moreover, to achieve long outputs that
maintain high-fidelity to the input images, we employ Direct Preference
Optimization (DPO) to the SFT model. Given the high cost of collecting human
feedback for lengthy outputs (e.g., 3,000 words), we propose IterDPO, which
breaks long outputs into segments and uses iterative corrections to form
preference pairs with the original outputs. Additionally, we develop
MMLongBench-Write, a benchmark featuring six tasks to evaluate the
long-generation capabilities of VLMs. Our 7B parameter model, trained with
LongWriter-V-22k and IterDPO, achieves impressive performance on this
benchmark, outperforming larger proprietary models like GPT-4o. Code and data:
https://github.com/THU-KEG/LongWriter-VSummary
AI-Generated Summary