WEAVE: インコンテキストにおけるインターリーブ理解と生成の解放とベンチマーク
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
November 14, 2025
著者: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua
cs.AI
要旨
統合型マルチモーダルモデル(UMM)の最近の進展により、視覚的理解と生成において目覚ましい進歩が実現されている。しかし、既存のデータセットとベンチマークは主に単一ターンの相互作用に焦点を当てており、現実世界の画像作成と編集におけるマルチターンで文脈依存的な性質を捉えられていない。この課題を解決するため、我々は文脈内での交互配置されたクロスモーダル理解と生成のための初の統合スイート「WEAVE」を提案する。本スイートは二つの相補的な要素で構成される。WEAVE-100kは10万件の交互配置サンプルからなる大規模データセットであり、37万以上の対話ターンと50万枚の画像を網羅し、履歴文脈に基づく推論を必要とする理解、編集、生成タスクをカバーする。WEAVEBenchは480枚の画像に基づく100タスクからなる人手注釈のベンチマークであり、参照画像と編集指示を組み合わせた原画像の両方に基づくハイブリッドVLM判定器評価フレームを特徴とし、多様な領域におけるマルチターン生成、視覚的記憶、世界知識推論のモデル能力を評価する。実験により、WEAVE-100kでの学習が視覚理解、画像編集、理解と生成の連携能力を可能にすることが実証された。さらに、これによりUMMが創発的な視覚記憶能力を発達させることが促進されるとともに、WEAVEBenchでの大規模評価を通じて、マルチターンで文脈を考慮した画像生成と編集における現在の手法の持続的限界と課題が明らかになった。WEAVEがマルチモーダルコミュニティにおける文脈内交互配置理解と生成の研究に対する視座と基盤を提供すると確信している。
English
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.