PICABench: Quão Longe Estamos da Edição de Imagens Fisicamente Realista?
PICABench: How Far Are We from Physically Realistic Image Editing?
October 20, 2025
Autores: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu
cs.AI
Resumo
A edição de imagens alcançou progressos notáveis recentemente. Modelos modernos de edição já são capazes de seguir instruções complexas para manipular o conteúdo original. No entanto, além de concluir as instruções de edição, os efeitos físicos associados são fundamentais para o realismo da geração. Por exemplo, remover um objeto também deve remover sua sombra, reflexos e interações com objetos próximos. Infelizmente, os modelos e benchmarks existentes focam principalmente na conclusão das instruções, mas negligenciam esses efeitos físicos. Então, neste momento, quão longe estamos da edição de imagens fisicamente realista? Para responder a isso, introduzimos o PICABench, que avalia sistematicamente o realismo físico em oito subdimensões (abrangendo óptica, mecânica e transições de estado) para a maioria das operações de edição comuns (adição, remoção, mudança de atributos, etc.). Além disso, propomos o PICAEval, um protocolo de avaliação confiável que utiliza VLM-como-juiz com anotações humanas e perguntas em nível de região por caso. Além de benchmarking, também exploramos soluções eficazes ao aprender física a partir de vídeos e construímos um conjunto de dados de treinamento, o PICA-100K. Após avaliar a maioria dos modelos mainstream, observamos que o realismo físico continua sendo um problema desafiador, com amplo espaço para exploração. Esperamos que nosso benchmark e as soluções propostas possam servir como base para trabalhos futuros, evoluindo da edição ingênua de conteúdo para o realismo fisicamente consistente.
English
Image editing has achieved remarkable progress recently. Modern editing
models could already follow complex instructions to manipulate the original
content. However, beyond completing the editing instructions, the accompanying
physical effects are the key to the generation realism. For example, removing
an object should also remove its shadow, reflections, and interactions with
nearby objects. Unfortunately, existing models and benchmarks mainly focus on
instruction completion but overlook these physical effects. So, at this moment,
how far are we from physically realistic image editing? To answer this, we
introduce PICABench, which systematically evaluates physical realism across
eight sub-dimension (spanning optics, mechanics, and state transitions) for
most of the common editing operations (add, remove, attribute change, etc). We
further propose the PICAEval, a reliable evaluation protocol that uses
VLM-as-a-judge with per-case, region-level human annotations and questions.
Beyond benchmarking, we also explore effective solutions by learning physics
from videos and construct a training dataset PICA-100K. After evaluating most
of the mainstream models, we observe that physical realism remains a
challenging problem with large rooms to explore. We hope that our benchmark and
proposed solutions can serve as a foundation for future work moving from naive
content editing toward physically consistent realism.