Visão Além dos Pixels: Avaliação de Edição Visual Informada por Raciocínio

Resumo

Os Modelos Multimodais de Grande Escala (LMMs) têm feito progressos significativos na compreensão e geração visual, mas ainda enfrentam desafios na Edição Visual Geral, particularmente em seguir instruções complexas, preservar a consistência de aparência e suportar formatos de entrada flexíveis. Para abordar essa lacuna, introduzimos o RISEBench, o primeiro benchmark para avaliar a Edição Visual Informada por Raciocínio (RISE). O RISEBench foca em quatro tipos principais de raciocínio: Temporal, Causal, Espacial e Lógico. Curamos casos de teste de alta qualidade para cada categoria e propomos um framework de avaliação que mede o Raciocínio de Instrução, a Consistência de Aparência e a Plausibilidade Visual, tanto com juízes humanos quanto com uma abordagem de LMM-como-juiz. Nossos experimentos revelam que, embora o GPT-4o-Native supere significativamente outros modelos de código aberto e proprietários, até mesmo esse sistema de última geração enfrenta dificuldades em tarefas de raciocínio lógico, destacando uma área que permanece pouco explorada. Como um esforço inicial, o RISEBench visa fornecer insights fundamentais sobre a edição visual consciente do raciocínio e catalisar pesquisas futuras. Embora ainda esteja em seus estágios iniciais, estamos comprometidos em expandir e refinar continuamente o benchmark para suportar avaliações mais abrangentes, confiáveis e escaláveis de sistemas multimodais de próxima geração. Nosso código e dados serão disponibilizados em https://github.com/PhoenixZ810/RISEBench.

English

Large Multi-modality Models (LMMs) have made significant progress in visual understanding and generation, but they still face challenges in General Visual Editing, particularly in following complex instructions, preserving appearance consistency, and supporting flexible input formats. To address this gap, we introduce RISEBench, the first benchmark for evaluating Reasoning-Informed viSual Editing (RISE). RISEBench focuses on four key reasoning types: Temporal, Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for each category and propose an evaluation framework that assesses Instruction Reasoning, Appearance Consistency, and Visual Plausibility with both human judges and an LMM-as-a-judge approach. Our experiments reveal that while GPT-4o-Native significantly outperforms other open-source and proprietary models, even this state-of-the-art system struggles with logical reasoning tasks, highlighting an area that remains underexplored. As an initial effort, RISEBench aims to provide foundational insights into reasoning-aware visual editing and to catalyze future research. Though still in its early stages, we are committed to continuously expanding and refining the benchmark to support more comprehensive, reliable, and scalable evaluations of next-generation multimodal systems. Our code and data will be released at https://github.com/PhoenixZ810/RISEBench.

Visão Além dos Pixels: Avaliação de Edição Visual Informada por Raciocínio

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Resumo

Summary

Support

Support