Visão Além dos Pixels: Avaliação de Edição Visual Informada por Raciocínio
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing
April 3, 2025
Autores: Xiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan
cs.AI
Resumo
Os Modelos Multimodais de Grande Escala (LMMs) têm feito progressos significativos na compreensão e geração visual, mas ainda enfrentam desafios na Edição Visual Geral, particularmente em seguir instruções complexas, preservar a consistência de aparência e suportar formatos de entrada flexíveis. Para abordar essa lacuna, introduzimos o RISEBench, o primeiro benchmark para avaliar a Edição Visual Informada por Raciocínio (RISE). O RISEBench foca em quatro tipos principais de raciocínio: Temporal, Causal, Espacial e Lógico. Curamos casos de teste de alta qualidade para cada categoria e propomos um framework de avaliação que mede o Raciocínio de Instrução, a Consistência de Aparência e a Plausibilidade Visual, tanto com juízes humanos quanto com uma abordagem de LMM-como-juiz. Nossos experimentos revelam que, embora o GPT-4o-Native supere significativamente outros modelos de código aberto e proprietários, até mesmo esse sistema de última geração enfrenta dificuldades em tarefas de raciocínio lógico, destacando uma área que permanece pouco explorada. Como um esforço inicial, o RISEBench visa fornecer insights fundamentais sobre a edição visual consciente do raciocínio e catalisar pesquisas futuras. Embora ainda esteja em seus estágios iniciais, estamos comprometidos em expandir e refinar continuamente o benchmark para suportar avaliações mais abrangentes, confiáveis e escaláveis de sistemas multimodais de próxima geração. Nosso código e dados serão disponibilizados em https://github.com/PhoenixZ810/RISEBench.
English
Large Multi-modality Models (LMMs) have made significant progress in visual
understanding and generation, but they still face challenges in General Visual
Editing, particularly in following complex instructions, preserving appearance
consistency, and supporting flexible input formats. To address this gap, we
introduce RISEBench, the first benchmark for evaluating Reasoning-Informed
viSual Editing (RISE). RISEBench focuses on four key reasoning types: Temporal,
Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for
each category and propose an evaluation framework that assesses Instruction
Reasoning, Appearance Consistency, and Visual Plausibility with both human
judges and an LMM-as-a-judge approach. Our experiments reveal that while
GPT-4o-Native significantly outperforms other open-source and proprietary
models, even this state-of-the-art system struggles with logical reasoning
tasks, highlighting an area that remains underexplored. As an initial effort,
RISEBench aims to provide foundational insights into reasoning-aware visual
editing and to catalyze future research. Though still in its early stages, we
are committed to continuously expanding and refining the benchmark to support
more comprehensive, reliable, and scalable evaluations of next-generation
multimodal systems. Our code and data will be released at
https://github.com/PhoenixZ810/RISEBench.Summary
AI-Generated Summary