ChatPaper.aiChatPaper

PICABench: Wie weit sind wir von physikalisch realistischer Bildbearbeitung entfernt?

PICABench: How Far Are We from Physically Realistic Image Editing?

October 20, 2025
papers.authors: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu
cs.AI

papers.abstract

Die Bildbearbeitung hat in letzter Zeit bemerkenswerte Fortschritte erzielt. Moderne Bearbeitungsmodelle können bereits komplexe Anweisungen befolgen, um den ursprünglichen Inhalt zu manipulieren. Doch über die bloße Ausführung der Bearbeitungsanweisungen hinaus sind die begleitenden physikalischen Effekte der Schlüssel zur Generierung von Realismus. Beispielsweise sollte das Entfernen eines Objekts auch dessen Schatten, Reflexionen und Interaktionen mit benachbarten Objekten beseitigen. Leider konzentrieren sich bestehende Modelle und Benchmarks hauptsächlich auf die Anweisungserfüllung und vernachlässigen diese physikalischen Effekte. Daher stellt sich die Frage: Wie weit sind wir von einer physikalisch realistischen Bildbearbeitung entfernt? Um dies zu beantworten, führen wir PICABench ein, das systematisch den physikalischen Realismus über acht Unterdimensionen (die Optik, Mechanik und Zustandsübergänge umfassen) für die meisten gängigen Bearbeitungsoperationen (Hinzufügen, Entfernen, Attributänderung usw.) bewertet. Darüber hinaus schlagen wir PICAEval vor, ein zuverlässiges Bewertungsprotokoll, das VLM-as-a-judge mit fallbezogenen, regionsspezifischen menschlichen Annotationen und Fragen kombiniert. Über das Benchmarking hinaus erforschen wir auch effektive Lösungen, indem wir Physik aus Videos lernen und einen Trainingsdatensatz PICA-100K erstellen. Nach der Bewertung der meisten Mainstream-Modelle stellen wir fest, dass physikalischer Realismus nach wie vor ein herausforderndes Problem mit großem Forschungsbedarf darstellt. Wir hoffen, dass unser Benchmark und die vorgeschlagenen Lösungen als Grundlage für zukünftige Arbeiten dienen können, die sich von der naiven Inhaltsbearbeitung hin zu physikalisch konsistentem Realismus bewegen.
English
Image editing has achieved remarkable progress recently. Modern editing models could already follow complex instructions to manipulate the original content. However, beyond completing the editing instructions, the accompanying physical effects are the key to the generation realism. For example, removing an object should also remove its shadow, reflections, and interactions with nearby objects. Unfortunately, existing models and benchmarks mainly focus on instruction completion but overlook these physical effects. So, at this moment, how far are we from physically realistic image editing? To answer this, we introduce PICABench, which systematically evaluates physical realism across eight sub-dimension (spanning optics, mechanics, and state transitions) for most of the common editing operations (add, remove, attribute change, etc). We further propose the PICAEval, a reliable evaluation protocol that uses VLM-as-a-judge with per-case, region-level human annotations and questions. Beyond benchmarking, we also explore effective solutions by learning physics from videos and construct a training dataset PICA-100K. After evaluating most of the mainstream models, we observe that physical realism remains a challenging problem with large rooms to explore. We hope that our benchmark and proposed solutions can serve as a foundation for future work moving from naive content editing toward physically consistent realism.
PDF583October 21, 2025