WEAVE: Раскрытие и тестирование контекстного чередующегося понимания и генерации
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
November 14, 2025
Авторы: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua
cs.AI
Аннотация
Последние достижения в области унифицированных мультимодальных моделей (UMM) позволили добиться значительного прогресса в визуальном понимании и генерации. Однако существующие наборы данных и бенчмарки в основном сосредоточены на одношаговых взаимодействиях, не отражая многошаговый, контекстно-зависимый характер реального процесса создания и редактирования изображений. Для устранения этого пробела мы представляем WEAVE — первый комплексный инструментарий для контекстно-зависимого чередующегося межмодального понимания и генерации. Наш инструментарий состоит из двух взаимодополняющих частей. WEAVE-100k представляет собой масштабный набор данных, содержащий 100 тыс. чередующихся примеров, охватывающих более 370 тыс. диалоговых шагов и 500 тыс. изображений, и включающий задачи на понимание, редактирование и генерацию, требующие анализа исторического контекста. WEAVEBench — это бенчмарк с человеческой разметкой, содержащий 100 задач на основе 480 изображений и использующий гибридную оценочную систему на основе VLM-судей, которая оценивает способности моделей в многошаговой генерации, визуальной памяти и рассуждениях на основе знаний о мире в различных областях, используя как эталонное изображение, так и комбинацию исходного изображения с инструкциями по редактированию. Эксперименты показывают, что обучение на WEAVE-100k развивает способности к визуальному пониманию, редактированию изображений и совместной работе понимания и генерации. Более того, оно способствует формированию у UMM возникающей способности к визуальной памяти, в то время как масштабные оценки на WEAVEBench выявляют устойчивые ограничения и проблемы современных подходов в области многошаговой, контекстно-осознанной генерации и редактирования изображений. Мы считаем, что WEAVE предоставляет перспективу и основу для изучения контекстно-зависимого чередующегося понимания и генерации для мультимодального сообщества.
English
Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.