ChatPaper.aiChatPaper

WEAVE : Libérer et évaluer la compréhension et la génération entrelacées en contexte

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

November 14, 2025
papers.authors: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua
cs.AI

papers.abstract

Les récents progrès des modèles multimodaux unifiés (UMM) ont permis des avancées impressionnantes en compréhension et génération visuelles. Cependant, les ensembles de données et benchmarks existants se concentrent principalement sur des interactions à tour unique, ne parvenant pas à capturer la nature multi-tours et contextuelle de la création et de l'édition d'images dans le monde réel. Pour combler cette lacune, nous présentons WEAVE, la première suite dédiée à la compréhension et à la génération intermodales entrelacées en contexte. Notre suite se compose de deux parties complémentaires. WEAVE-100k est un jeu de données à grande échelle contenant 100 000 échantillons entrelacés couvrant plus de 370 000 tours de dialogue et 500 000 images, abordant des tâches de compréhension, d'édition et de génération nécessitant un raisonnement sur le contexte historique. WEAVEBench est un benchmark annoté manuellement comprenant 100 tâches basées sur 480 images, doté d'un cadre d'évaluation hybride par un juge VLM s'appuyant à la fois sur l'image de référence et la combinaison de l'image originale avec les instructions d'édition, qui évalue les capacités des modèles en génération multi-tours, mémoire visuelle et raisonnement sur les connaissances générales dans divers domaines. Les expériences démontrent que l'entraînement sur WEAVE-100k permet d'acquérir des capacités de compréhension visuelle, d'édition d'image et de collaboration compréhension-génération. De plus, il permet aux UMM de développer des capacités émergentes de mémoire visuelle, tandis que les évaluations approfondies sur WEAVEBench révèlent les limitations persistantes et les défis des approches actuelles dans la génération et l'édition d'images multi-tours conscientes du contexte. Nous croyons que WEAVE offre une perspective et une base pour l'étude de la compréhension et de la génération entrelacées en contexte pour la communauté multimodale.
English
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.
PDF442December 1, 2025