ChatPaper.aiChatPaper

PICABench: 물리적으로 현실적인 이미지 편집까지 얼마나 남았는가?

PICABench: How Far Are We from Physically Realistic Image Editing?

October 20, 2025
저자: Yuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu
cs.AI

초록

이미지 편집은 최근에 놀라운 발전을 이루었습니다. 현대의 편집 모델은 이미 복잡한 지시를 따라 원본 콘텐츠를 조작할 수 있습니다. 그러나 편집 지시를 완료하는 것 이상으로, 동반되는 물리적 효과는 생성된 이미지의 현실감을 결정하는 핵심 요소입니다. 예를 들어, 객체를 제거할 때는 그 객체의 그림자, 반사, 그리고 주변 객체와의 상호작용도 함께 제거되어야 합니다. 불행히도, 기존의 모델과 벤치마크는 주로 지시 완료에 초점을 맞추고 이러한 물리적 효과를 간과해 왔습니다. 따라서 현재 시점에서, 우리는 물리적으로 현실적인 이미지 편집으로부터 얼마나 멀리 떨어져 있는가? 이 질문에 답하기 위해, 우리는 PICABench를 소개합니다. PICABench는 가장 일반적인 편집 작업(추가, 제거, 속성 변경 등)에 대해 광학, 역학, 상태 전환 등 8개의 하위 차원에 걸쳐 물리적 현실감을 체계적으로 평가합니다. 또한, 우리는 VLM-as-a-judge를 활용한 신뢰할 수 있는 평가 프로토콜인 PICAEval을 제안합니다. 이 프로토콜은 사례별, 지역별 인간 주석과 질문을 사용합니다. 벤치마킹을 넘어, 우리는 비디오로부터 물리학을 학습하고 PICA-100K라는 훈련 데이터셋을 구축함으로써 효과적인 해결책을 탐구합니다. 대부분의 주류 모델을 평가한 후, 우리는 물리적 현실감이 여전히 탐구할 여지가 큰 도전적인 문제임을 관찰했습니다. 우리는 우리의 벤치마크와 제안된 해결책이 단순한 콘텐츠 편집에서 물리적으로 일관된 현실감으로 나아가는 미래의 작업을 위한 기초가 되기를 바랍니다.
English
Image editing has achieved remarkable progress recently. Modern editing models could already follow complex instructions to manipulate the original content. However, beyond completing the editing instructions, the accompanying physical effects are the key to the generation realism. For example, removing an object should also remove its shadow, reflections, and interactions with nearby objects. Unfortunately, existing models and benchmarks mainly focus on instruction completion but overlook these physical effects. So, at this moment, how far are we from physically realistic image editing? To answer this, we introduce PICABench, which systematically evaluates physical realism across eight sub-dimension (spanning optics, mechanics, and state transitions) for most of the common editing operations (add, remove, attribute change, etc). We further propose the PICAEval, a reliable evaluation protocol that uses VLM-as-a-judge with per-case, region-level human annotations and questions. Beyond benchmarking, we also explore effective solutions by learning physics from videos and construct a training dataset PICA-100K. After evaluating most of the mainstream models, we observe that physical realism remains a challenging problem with large rooms to explore. We hope that our benchmark and proposed solutions can serve as a foundation for future work moving from naive content editing toward physically consistent realism.
PDF583October 21, 2025