WEAVE: Liberando e Avaliando a Compreensão e Geração Intercalada em Contexto

Resumo

Os avanços recentes em modelos multimodais unificados (UMMs) têm permitido progressos impressionantes na compreensão e geração visual. No entanto, os conjuntos de dados e benchmarks existentes concentram-se principalmente em interações de turno único, não conseguindo capturar a natureza multiturno e dependente do contexto da criação e edição de imagens do mundo real. Para preencher esta lacuna, apresentamos o WEAVE, o primeiro conjunto para compreensão e geração cruzada intercalada em contexto. Nosso conjunto é composto por duas partes complementares. O WEAVE-100k é um conjunto de dados em larga escala com 100 mil amostras intercaladas abrangendo mais de 370 mil turnos de diálogo e 500 mil imagens, cobrindo tarefas de compreensão, edição e geração que exigem raciocínio sobre o contexto histórico. O WEAVEBench é um benchmark anotado humanamente com 100 tarefas baseadas em 480 imagens, apresentando uma estrutura de avaliação híbrida com juiz VLM baseada tanto na imagem de referência quanto na combinação da imagem original com instruções de edição que avalia as habilidades dos modelos em geração multiturno, memória visual e raciocínio de conhecimento mundial em diversos domínios. Experimentos demonstram que o treinamento no WEAVE-100k possibilita capacidades de compreensão visual, edição de imagens e colaboração compreensão-geração. Além disso, facilita que os UMMs desenvolvam capacidades emergentes de memória visual, enquanto avaliações extensivas no WEAVEBench expõem as limitações e desafios persistentes das abordagens atuais na geração e edição de imagens multiturno e conscientes do contexto. Acreditamos que o WEAVE proporciona uma perspectiva e base para estudar a compreensão e geração intercalada em contexto para a comunidade multimodal.

English

Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.

WEAVE: Liberando e Avaliando a Compreensão e Geração Intercalada em Contexto

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

Resumo

Support