ChatPaper.aiChatPaper

WEAVE: 맥락 내 교차 이해 및 생성 능력의 개방과 벤치마킹

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

November 14, 2025
저자: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua
cs.AI

초록

통합 멀티모달 모델(UMMs)의 최근 발전으로 시각적 이해 및 생성 분야에서 인상적인 진전이 이루어졌습니다. 그러나 기존 데이터셋과 벤치마크는 주로 단일 턴 상호작용에 초점을 맞추고 있어, 실제 이미지 생성 및 편집의 다중 턴, 맥락 의존적 특성을 제대로 포착하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 맥락 내 교차 모달리티 간 이해와 생성을 위한 최초의 통합 도구인 WEAVE를 소개합니다. 우리의 도구는 상호 보완적인 두 부분으로 구성됩니다. WEAVE-100k는 370,000개 이상의 대화 턴과 500,000개 이상의 이미지를 아우르는 10만 개의 교차 샘플로 구성된 대규모 데이터셋으로, 역사적 맥락에 대한 추론이 필요한 이해, 편집, 생성 작업을 다룹니다. WEAVEBench는 480개 이미지를 기반으로 100개의 작업을 포함하는 인간 주석 벤치마크로, 참조 이미지와 원본 이미지에 편집 지시사항을 결합한 하이브리드 VLM 평가자 프레임워크를 특징으로 하여 다양한 영역에서 모델의 다중 턴 생성, 시각적 기억, 세계 지식 추론 능력을 평가합니다. 실험 결과, WEAVE-100k로 학습을 진행하면 시각 이해, 이미지 편집, 이해-생성 협업 능력이 향상되는 것으로 나타났습니다. 더 나아가 이를 통해 UMMs가 새로운 시각적 기억 능력을 발전시키는 동시에, WEAVEBench에 대한 광범위한 평가를 통해 다중 턴, 맥락 인식 이미지 생성 및 편집 분야에서 현재 접근법이 가진 지속적인 한계와 과제가 드러납니다. 우리는 WEAVE가 멀티모달 커뮤니티를 위한 맥락 내 교차 이해 및 생성 연구에 대한 방향성과 기초를 제공한다고 믿습니다.
English
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.
PDF442December 1, 2025