ChatPaper.aiChatPaper

WEAVE: Svelare e Valutare la Comprensione e Generazione Interallacciata In-Contesto

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

November 14, 2025
Autori: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua
cs.AI

Abstract

I recenti progressi nei modelli multimodali unificati (UMM) hanno permesso avanzamenti impressionanti nella comprensione e generazione visiva. Tuttavia, i dataset e i benchmark esistenti si concentrano principalmente su interazioni a turno singolo, non riuscendo a catturare la natura multi-turno e dipendente dal contesto della creazione e modifica di immagini nel mondo reale. Per colmare questa lacuna, presentiamo WEAVE, la prima suite per la comprensione e generazione cross-modale interallacciata in-context. La nostra suite è composta da due parti complementari. WEAVE-100k è un dataset su larga scala di 100.000 campioni interallacciati, che copre oltre 370.000 turni di dialogo e 500.000 immagini, affrontando compiti di comprensione, modifica e generazione che richiedono ragionamento sul contesto storico. WEAVEBench è un benchmark annotato manualmente con 100 task basati su 480 immagini, caratterizzato da un framework di valutazione ibrido con giudicatore VLM basato sia sull'immagine di riferimento che sulla combinazione dell'immagine originale con le istruzioni di modifica, che valuta le capacità dei modelli nella generazione multi-turno, nella memoria visiva e nel ragionamento basato sulla conoscenza del mondo attraverso domini diversificati. Gli esperimenti dimostrano che l'addestramento su WEAVE-100k abilita capacità di comprensione visiva, modifica di immagini e collaborazione comprensione-generazione. Inoltre, facilmente gli UMM a sviluppare capacità emergenti di memoria visiva, mentre le valutazioni estensive su WEAVEBench rivelano le limitazioni persistenti e le sfide degli approcci attuali nella generazione e modifica di immagini multi-turno e consapevole del contesto. Riteniamo che WEAVE fornisca una prospettiva e una base per lo studio della comprensione e generazione interallacciata in-context per la comunità multimodale.
English
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.
PDF442December 1, 2025