ChatPaper.aiChatPaper

WEAVE: Liberación y Evaluación Comparativa de la Comprensión y Generación Intercalada In-Context

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

November 14, 2025
Autores: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua
cs.AI

Resumen

Los recientes avances en modelos multimodales unificados (UMMs) han permitido un progreso impresionante en comprensión y generación visual. Sin embargo, los conjuntos de datos y benchmarks existentes se centran principalmente en interacciones de un solo turno, sin capturar la naturaleza multiturno y dependiente del contexto propia de la creación y edición de imágenes en el mundo real. Para abordar esta brecha, presentamos WEAVE, el primer conjunto de herramientas para la comprensión y generación intercalada en contexto entre modalidades. Nuestro conjunto consta de dos partes complementarias. WEAVE-100k es un conjunto de datos a gran escala de 100.000 muestras intercaladas que abarca más de 370.000 turnos de diálogo y 500.000 imágenes, cubriendo tareas de comprensión, edición y generación que requieren razonamiento sobre el contexto histórico. WEAVEBench es un benchmark anotado manualmente con 100 tareas basadas en 480 imágenes, que presenta un marco de evaluación híbrido con juez VLM basado tanto en la imagen de referencia como en la combinación de la imagen original con las instrucciones de edición, que evalúa las capacidades de los modelos en generación multiturno, memoria visual y razonamiento con conocimiento del mundo a través de diversos dominios. Los experimentos demuestran que el entrenamiento con WEAVE-100k permite capacidades de comprensión visual, edición de imágenes y colaboración comprensión-generación. Además, facilita que los UMMs desarrollen capacidades emergentes de memoria visual, mientras que las evaluaciones exhaustivas en WEAVEBench exponen las limitaciones persistentes y los desafíos de los enfoques actuales en la generación y edición de imágenes multiturno y conscientes del contexto. Creemos que WEAVE ofrece una perspectiva y una base para estudiar la comprensión y generación intercalada en contexto para la comunidad multimodal.
English
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.
PDF442December 1, 2025