ChatPaper.aiChatPaper

WEAVE: Entfesselung und Benchmarking des kontextuellen, verschachtelten Verstehens und Erzeugens

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

November 14, 2025
papers.authors: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua
cs.AI

papers.abstract

Jüngste Fortschritte bei vereinheitlichten multimodalen Modellen (UMMs) haben beeindruckende Entwicklungen im Bereich des visuellen Verständnisses und der Generierung ermöglicht. Bestehende Datensätze und Benchmarks konzentrieren sich jedoch primär auf Einzelinteraktionen und erfassen nicht die mehrschrittige, kontextabhängige Natur realer Bildererstellung und -bearbeitung. Um diese Lücke zu schließen, stellen wir WEAVE vor, die erste Testsuite für kontextuelle, verzahnte kreuzmodale Verständnis- und Generierungsaufgaben. Unsure Suite besteht aus zwei komplementären Teilen. WEAVE-100k ist ein großangelegter Datensatz mit 100.000 verzahnten Stichproben, die über 370.000 Dialogwechsel und 500.000 Bilder umfassen und Verständnis-, Bearbeitungs- und Generierungsaufgaben abdecken, die Schlussfolgerungen aus dem historischen Kontext erfordern. WEAVEBench ist ein menschlich annotierter Benchmark mit 100 Aufgaben basierend auf 480 Bildern, der einen hybriden VLM-Bewertungsrahmen auf Grundlage sowohl des Referenzbildes als auch der Kombination aus Originalbild mit Bearbeitungsanweisungen nutzt. Dieser bewertet die Fähigkeiten der Modelle in den Bereichen Mehrschritt-Generierung, visuelles Gedächtnis und Weltwissen-Schlussfolgerung über diverse Domänen hinweg. Experimente zeigen, dass das Training auf WEAVE-100k Fähigkeiten im visuellen Verständnis, der Bildbearbeitung sowie der Zusammenarbeit zwischen Verständnis und Generierung ermöglicht. Darüber hinaus befähigt es UMMs zur Entwicklung emergenter visueller Gedächtnisfähigkeiten, während umfangreiche Auswertungen auf WEAVEBench die anhaltenden Limitierungen und Herausforderungen aktueller Ansätze bei der mehrschrittigen, kontextbewussten Bildgenerierung und -bearbeitung aufdecken. Wir sind überzeugt, dass WEAVE eine Perspektive und Grundlage für die Erforschung kontextueller verzahnter Verständnis- und Generierungsprozesse für die multimodale Gemeinschaft bietet.
English
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.
PDF442December 1, 2025