PICABench: ¿Qué tan lejos estamos de la edición de imágenes físicamente realista?
PICABench: How Far Are We from Physically Realistic Image Editing?
October 20, 2025
Autores: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu
cs.AI
Resumen
La edición de imágenes ha logrado avances notables recientemente. Los modelos modernos de edición ya pueden seguir instrucciones complejas para manipular el contenido original. Sin embargo, más allá de completar las instrucciones de edición, los efectos físicos asociados son clave para la generación de realismo. Por ejemplo, eliminar un objeto también debería eliminar su sombra, reflejos e interacciones con objetos cercanos. Lamentablemente, los modelos y puntos de referencia existentes se centran principalmente en la finalización de instrucciones, pero pasan por alto estos efectos físicos. Entonces, en este momento, ¿qué tan lejos estamos de la edición de imágenes físicamente realista? Para responder a esto, presentamos PICABench, que evalúa sistemáticamente el realismo físico en ocho subdimensiones (abarcando óptica, mecánica y transiciones de estado) para la mayoría de las operaciones de edición comunes (añadir, eliminar, cambiar atributos, etc.). Además, proponemos PICAEval, un protocolo de evaluación confiable que utiliza VLM-como-juez con anotaciones y preguntas humanas a nivel de región por caso. Más allá de la evaluación comparativa, también exploramos soluciones efectivas mediante el aprendizaje de física a partir de videos y construimos un conjunto de datos de entrenamiento, PICA-100K. Después de evaluar la mayoría de los modelos principales, observamos que el realismo físico sigue siendo un problema desafiante con un amplio margen para explorar. Esperamos que nuestro punto de referencia y las soluciones propuestas sirvan como base para trabajos futuros que avancen desde la edición de contenido simple hacia un realismo físicamente consistente.
English
Image editing has achieved remarkable progress recently. Modern editing
models could already follow complex instructions to manipulate the original
content. However, beyond completing the editing instructions, the accompanying
physical effects are the key to the generation realism. For example, removing
an object should also remove its shadow, reflections, and interactions with
nearby objects. Unfortunately, existing models and benchmarks mainly focus on
instruction completion but overlook these physical effects. So, at this moment,
how far are we from physically realistic image editing? To answer this, we
introduce PICABench, which systematically evaluates physical realism across
eight sub-dimension (spanning optics, mechanics, and state transitions) for
most of the common editing operations (add, remove, attribute change, etc). We
further propose the PICAEval, a reliable evaluation protocol that uses
VLM-as-a-judge with per-case, region-level human annotations and questions.
Beyond benchmarking, we also explore effective solutions by learning physics
from videos and construct a training dataset PICA-100K. After evaluating most
of the mainstream models, we observe that physical realism remains a
challenging problem with large rooms to explore. We hope that our benchmark and
proposed solutions can serve as a foundation for future work moving from naive
content editing toward physically consistent realism.