PICABench: Насколько мы близки к физически реалистичному редактированию изображений?
PICABench: How Far Are We from Physically Realistic Image Editing?
October 20, 2025
Авторы: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu
cs.AI
Аннотация
Редактирование изображений достигло значительного прогресса в последнее время. Современные модели редактирования уже способны следовать сложным инструкциям для манипуляции исходным содержимым. Однако, помимо выполнения инструкций по редактированию, сопутствующие физические эффекты являются ключом к реалистичности генерации. Например, удаление объекта должно также устранять его тень, отражения и взаимодействия с близлежащими объектами. К сожалению, существующие модели и бенчмарки в основном сосредоточены на выполнении инструкций, но упускают из виду эти физические эффекты. Итак, насколько далеко мы находимся от физически реалистичного редактирования изображений? Чтобы ответить на этот вопрос, мы представляем PICABench, который систематически оценивает физическую реалистичность по восьми подразделам (охватывающим оптику, механику и переходы состояний) для большинства распространенных операций редактирования (добавление, удаление, изменение атрибутов и т.д.). Мы также предлагаем PICAEval, надежный протокол оценки, который использует VLM-как-судью с пошаговыми, региональными аннотациями и вопросами от человека. Помимо бенчмаркинга, мы также исследуем эффективные решения, изучая физику из видео, и создаем обучающий набор данных PICA-100K. После оценки большинства основных моделей мы наблюдаем, что физическая реалистичность остается сложной проблемой с большим пространством для исследований. Мы надеемся, что наш бенчмарк и предложенные решения послужат основой для будущих работ, направленных на переход от наивного редактирования содержимого к физически согласованной реалистичности.
English
Image editing has achieved remarkable progress recently. Modern editing
models could already follow complex instructions to manipulate the original
content. However, beyond completing the editing instructions, the accompanying
physical effects are the key to the generation realism. For example, removing
an object should also remove its shadow, reflections, and interactions with
nearby objects. Unfortunately, existing models and benchmarks mainly focus on
instruction completion but overlook these physical effects. So, at this moment,
how far are we from physically realistic image editing? To answer this, we
introduce PICABench, which systematically evaluates physical realism across
eight sub-dimension (spanning optics, mechanics, and state transitions) for
most of the common editing operations (add, remove, attribute change, etc). We
further propose the PICAEval, a reliable evaluation protocol that uses
VLM-as-a-judge with per-case, region-level human annotations and questions.
Beyond benchmarking, we also explore effective solutions by learning physics
from videos and construct a training dataset PICA-100K. After evaluating most
of the mainstream models, we observe that physical realism remains a
challenging problem with large rooms to explore. We hope that our benchmark and
proposed solutions can serve as a foundation for future work moving from naive
content editing toward physically consistent realism.