ChatPaper.aiChatPaper

PICABench : À quelle distance sommes-nous de l'édition d'images physiquement réaliste ?

PICABench: How Far Are We from Physically Realistic Image Editing?

October 20, 2025
papers.authors: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu
cs.AI

papers.abstract

L'édition d'images a réalisé des progrès remarquables récemment. Les modèles modernes d'édition sont déjà capables de suivre des instructions complexes pour manipuler le contenu original. Cependant, au-delà de l'exécution des instructions d'édition, les effets physiques associés sont essentiels pour garantir le réalisme de la génération. Par exemple, supprimer un objet devrait également éliminer son ombre, ses réflexions et ses interactions avec les objets environnants. Malheureusement, les modèles et benchmarks existants se concentrent principalement sur l'exécution des instructions mais négligent ces effets physiques. Alors, à ce stade, à quel point sommes-nous éloignés d'une édition d'images physiquement réaliste ? Pour répondre à cette question, nous introduisons PICABench, qui évalue systématiquement le réalisme physique à travers huit sous-dimensions (couvrant l'optique, la mécanique et les transitions d'état) pour la plupart des opérations d'édition courantes (ajout, suppression, changement d'attribut, etc.). Nous proposons également PICAEval, un protocole d'évaluation fiable qui utilise un modèle de langage visuel (VLM) comme juge, accompagné d'annotations humaines et de questions au niveau régional pour chaque cas. Au-delà du benchmarking, nous explorons des solutions efficaces en apprenant la physique à partir de vidéos et construisons un ensemble de données d'entraînement PICA-100K. Après avoir évalué la plupart des modèles dominants, nous observons que le réalisme physique reste un problème complexe avec de vastes perspectives à explorer. Nous espérons que notre benchmark et les solutions proposées serviront de base pour les travaux futurs visant à passer d'une édition de contenu naïve à un réalisme physiquement cohérent.
English
Image editing has achieved remarkable progress recently. Modern editing models could already follow complex instructions to manipulate the original content. However, beyond completing the editing instructions, the accompanying physical effects are the key to the generation realism. For example, removing an object should also remove its shadow, reflections, and interactions with nearby objects. Unfortunately, existing models and benchmarks mainly focus on instruction completion but overlook these physical effects. So, at this moment, how far are we from physically realistic image editing? To answer this, we introduce PICABench, which systematically evaluates physical realism across eight sub-dimension (spanning optics, mechanics, and state transitions) for most of the common editing operations (add, remove, attribute change, etc). We further propose the PICAEval, a reliable evaluation protocol that uses VLM-as-a-judge with per-case, region-level human annotations and questions. Beyond benchmarking, we also explore effective solutions by learning physics from videos and construct a training dataset PICA-100K. After evaluating most of the mainstream models, we observe that physical realism remains a challenging problem with large rooms to explore. We hope that our benchmark and proposed solutions can serve as a foundation for future work moving from naive content editing toward physically consistent realism.
PDF583October 21, 2025