WEAVE: Het Ontketenen en Benchmarken van In-context Begrip en Generatie in Interleaving-vorm
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
November 14, 2025
Auteurs: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua
cs.AI
Samenvatting
Recente vooruitgang in verenigde multimodale modellen (UMM's) heeft indrukwekkende vooruitgang mogelijk gemaakt in visueel begrip en generatie. Bestaande datasets en benchmarks richten zich echter voornamelijk op enkelvoudige interacties, waardoor ze de meerzijdige, contextafhankelijke aard van echte beeldcreatie en -bewerking niet vastleggen. Om deze leemte aan te pakken, presenteren wij WEAVE, de eerste suite voor in-context interleaved begrip en generatie over modaliteiten heen. Onze suite bestaat uit twee complementaire onderdelen. WEAVE-100k is een grootschalige dataset van 100K verweven samples, verspreid over meer dan 370K dialoogbeurten en 500K afbeeldingen, die taken omvat voor begrip, bewerking en generatie die redeneren over historische context vereisen. WEAVEBench is een door mensen geannoteerde benchmark met 100 taken gebaseerd op 480 afbeeldingen, voorzien van een hybride evaluatieraamwerk met een VLM-beoordelaar die zowel op de referentieafbeelding als op de combinatie van de originele afbeelding met bewerkingsinstructies is gebaseerd. Dit beoordeelt de capaciteiten van modellen op het gebied van meerzijdige generatie, visueel geheugen en redeneren met wereldkennis across diverse domeinen. Experimenten tonen aan dat training op WEAVE-100k mogelijkheden biedt voor visueel begrip, beeldbewerking en samenwerking tussen begrip en generatie. Bovendien stelt het UMM's in staat om emergent visueel-geheugencapaciteiten te ontwikkelen, terwijl uitgebreide evaluaties op WEAVEBench de hardnekkige beperkingen en uitdagingen van huidige benaderingen in meerzijdige, contextbewuste beeldgeneratie en -bewerking blootleggen. Wij geloven dat WEAVE een perspectief en een basis biedt voor de studie van in-context verweven begrip en generatie voor de multimodale gemeenschap.
English
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.