ChatPaper.aiChatPaper

PICABench: Hoe Ver Zijn We van Fysiek Realistische Beeldbewerking?

PICABench: How Far Are We from Physically Realistic Image Editing?

October 20, 2025
Auteurs: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu
cs.AI

Samenvatting

Beeldbewerking heeft recentelijk opmerkelijke vooruitgang geboekt. Moderne bewerkingsmodellen kunnen al complexe instructies volgen om de oorspronkelijke inhoud te manipuleren. Echter, naast het uitvoeren van de bewerkingsinstructies, zijn de begeleidende fysieke effecten cruciaal voor de realiteitsgetrouwheid van de generatie. Bijvoorbeeld, het verwijderen van een object zou ook de schaduw, reflecties en interacties met nabijgelegen objecten moeten verwijderen. Helaas richten bestaande modellen en benchmarks zich voornamelijk op het voltooien van instructies, maar negeren ze deze fysieke effecten. Dus, hoe ver zijn we op dit moment verwijderd van fysiek realistische beeldbewerking? Om dit te beantwoorden, introduceren we PICABench, dat systematisch de fysieke realiteitsgetrouwheid evalueert over acht subdimensies (die optica, mechanica en staatsovergangen omvatten) voor de meeste gangbare bewerkingsoperaties (toevoegen, verwijderen, attribuutwijziging, etc.). We stellen verder PICAEval voor, een betrouwbaar evaluatieprotocol dat gebruikmaakt van VLM-as-a-judge met per geval, regionaal niveau menselijke annotaties en vragen. Naast benchmarking, verkennen we ook effectieve oplossingen door fysica te leren van video's en construeren we een trainingsdataset PICA-100K. Na het evalueren van de meeste mainstream modellen, observeren we dat fysieke realiteitsgetrouwheid een uitdagend probleem blijft met veel ruimte voor verdere verkenning. We hopen dat onze benchmark en voorgestelde oplossingen kunnen dienen als basis voor toekomstig werk, dat zich beweegt van naïeve inhoudsbewerking naar fysiek consistente realiteitsgetrouwheid.
English
Image editing has achieved remarkable progress recently. Modern editing models could already follow complex instructions to manipulate the original content. However, beyond completing the editing instructions, the accompanying physical effects are the key to the generation realism. For example, removing an object should also remove its shadow, reflections, and interactions with nearby objects. Unfortunately, existing models and benchmarks mainly focus on instruction completion but overlook these physical effects. So, at this moment, how far are we from physically realistic image editing? To answer this, we introduce PICABench, which systematically evaluates physical realism across eight sub-dimension (spanning optics, mechanics, and state transitions) for most of the common editing operations (add, remove, attribute change, etc). We further propose the PICAEval, a reliable evaluation protocol that uses VLM-as-a-judge with per-case, region-level human annotations and questions. Beyond benchmarking, we also explore effective solutions by learning physics from videos and construct a training dataset PICA-100K. After evaluating most of the mainstream models, we observe that physical realism remains a challenging problem with large rooms to explore. We hope that our benchmark and proposed solutions can serve as a foundation for future work moving from naive content editing toward physically consistent realism.
PDF623December 23, 2025