PICABench: Quanto Siamo Lontani dall'Editing di Immagini Fisicamente Realistico?
PICABench: How Far Are We from Physically Realistic Image Editing?
October 20, 2025
Autori: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu
cs.AI
Abstract
L'editing di immagini ha compiuto progressi notevoli di recente. I modelli moderni di editing sono già in grado di seguire istruzioni complesse per manipolare il contenuto originale. Tuttavia, oltre a completare le istruzioni di editing, gli effetti fisici associati sono fondamentali per il realismo della generazione. Ad esempio, rimuovere un oggetto dovrebbe comportare anche l'eliminazione della sua ombra, dei riflessi e delle interazioni con gli oggetti vicini. Purtroppo, i modelli e i benchmark esistenti si concentrano principalmente sul completamento delle istruzioni, trascurando questi effetti fisici. Quindi, a questo punto, quanto siamo lontani da un editing di immagini fisicamente realistico? Per rispondere a questa domanda, introduciamo PICABench, che valuta sistematicamente il realismo fisico attraverso otto sotto-dimensioni (che spaziano tra ottica, meccanica e transizioni di stato) per la maggior parte delle operazioni di editing comuni (aggiunta, rimozione, modifica degli attributi, ecc.). Proponiamo inoltre PICAEval, un protocollo di valutazione affidabile che utilizza un VLM (Vision-Language Model) come giudice, con annotazioni umane e domande a livello regionale per ogni caso. Oltre al benchmarking, esploriamo anche soluzioni efficaci apprendendo la fisica dai video e costruiamo un dataset di addestramento, PICA-100K. Dopo aver valutato la maggior parte dei modelli mainstream, osserviamo che il realismo fisico rimane un problema complesso con ampi margini di esplorazione. Speriamo che il nostro benchmark e le soluzioni proposte possano servire come base per futuri lavori che si spostino da un editing di contenuti ingenuo verso un realismo fisicamente coerente.
English
Image editing has achieved remarkable progress recently. Modern editing
models could already follow complex instructions to manipulate the original
content. However, beyond completing the editing instructions, the accompanying
physical effects are the key to the generation realism. For example, removing
an object should also remove its shadow, reflections, and interactions with
nearby objects. Unfortunately, existing models and benchmarks mainly focus on
instruction completion but overlook these physical effects. So, at this moment,
how far are we from physically realistic image editing? To answer this, we
introduce PICABench, which systematically evaluates physical realism across
eight sub-dimension (spanning optics, mechanics, and state transitions) for
most of the common editing operations (add, remove, attribute change, etc). We
further propose the PICAEval, a reliable evaluation protocol that uses
VLM-as-a-judge with per-case, region-level human annotations and questions.
Beyond benchmarking, we also explore effective solutions by learning physics
from videos and construct a training dataset PICA-100K. After evaluating most
of the mainstream models, we observe that physical realism remains a
challenging problem with large rooms to explore. We hope that our benchmark and
proposed solutions can serve as a foundation for future work moving from naive
content editing toward physically consistent realism.