LongWriter-V: Ermöglichung von ultra-langen und hochwertigen Generierungen in Vision-Sprache-Modellen

papers.abstract

Bestehende große Vision-Sprach-Modelle (LVLMs) können Eingaben mit Kontextlängen von bis zu 128k visuellen und Text-Tokens verarbeiten, haben jedoch Schwierigkeiten, kohärente Ausgaben von mehr als 1.000 Wörtern zu generieren. Wir stellen fest, dass die primäre Einschränkung das Fehlen von langen Ausgabebeispielen während des überwachten Feinabstimmens (SFT) ist. Um dieses Problem zu lösen, führen wir LongWriter-V-22k ein, ein SFT-Datensatz, der 22.158 Beispiele umfasst, jeweils mit mehreren Eingabebildern, einer Anweisung und entsprechenden Ausgaben im Bereich von 0 bis 10.000 Wörtern. Darüber hinaus verwenden wir Direct Preference Optimization (DPO) für das SFT-Modell, um lange Ausgaben zu erreichen, die eine hohe Treue zu den Eingabebildern bewahren. Angesichts der hohen Kosten für die Sammlung von menschlichem Feedback für lange Ausgaben (z. B. 3.000 Wörter) schlagen wir IterDPO vor, das lange Ausgaben in Segmente unterteilt und iterative Korrekturen verwendet, um Präferenzpaare mit den ursprünglichen Ausgaben zu bilden. Zusätzlich entwickeln wir MMLongBench-Write, ein Benchmark mit sechs Aufgaben zur Bewertung der Langzeitgenerationsfähigkeiten von VLMs. Unser 7B-Parameter-Modell, das mit LongWriter-V-22k und IterDPO trainiert wurde, erzielt beeindruckende Leistungen in diesem Benchmark und übertrifft größere proprietäre Modelle wie GPT-4o. Code und Daten: https://github.com/THU-KEG/LongWriter-V

English

Existing Large Vision-Language Models (LVLMs) can process inputs with context lengths up to 128k visual and text tokens, yet they struggle to generate coherent outputs beyond 1,000 words. We find that the primary limitation is the absence of long output examples during supervised fine-tuning (SFT). To tackle this issue, we introduce LongWriter-V-22k, a SFT dataset comprising 22,158 examples, each with multiple input images, an instruction, and corresponding outputs ranging from 0 to 10,000 words. Moreover, to achieve long outputs that maintain high-fidelity to the input images, we employ Direct Preference Optimization (DPO) to the SFT model. Given the high cost of collecting human feedback for lengthy outputs (e.g., 3,000 words), we propose IterDPO, which breaks long outputs into segments and uses iterative corrections to form preference pairs with the original outputs. Additionally, we develop MMLongBench-Write, a benchmark featuring six tasks to evaluate the long-generation capabilities of VLMs. Our 7B parameter model, trained with LongWriter-V-22k and IterDPO, achieves impressive performance on this benchmark, outperforming larger proprietary models like GPT-4o. Code and data: https://github.com/THU-KEG/LongWriter-V

LongWriter-V: Ermöglichung von ultra-langen und hochwertigen Generierungen in Vision-Sprache-Modellen

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

papers.abstract

Support