GeoRemover: 物体とその因果的視覚的痕跡の除去
GeoRemover: Removing Objects and Their Causal Visual Artifacts
September 23, 2025
著者: Zixin Zhu, Haoxiang Li, Xuelu Feng, He Wu, Chunming Qiao, Junsong Yuan
cs.AI
要旨
インテリジェントな画像編集に向けて、オブジェクト除去は対象オブジェクトだけでなく、その因果的な視覚的アーティファクト(例えば影や反射)も除去する必要がある。しかし、既存の画像外観ベースの手法は、厳密にマスクに沿ったトレーニングを採用し、明示的にマスクされていないこれらの因果的効果を除去できないか、または緩やかにマスクに沿った戦略を採用しており、制御性に欠け、他のオブジェクトを意図せず過剰に消去してしまう可能性がある。これらの制限は、オブジェクトの幾何学的存在とその視覚的効果との因果関係を無視していることに起因すると我々は認識した。この制限を解決するために、我々は幾何学的に意識した二段階フレームワークを提案し、オブジェクト除去を(1)幾何学的除去と(2)外観レンダリングに分離する。第一段階では、厳密にマスクに沿った監視を用いて、オブジェクトを直接幾何学(例えば深度)から除去し、強力な幾何学的制約を伴う構造意識的な編集を可能にする。第二段階では、更新された幾何学に基づいてフォトリアルなRGB画像をレンダリングし、因果的視覚的効果は変更された3D幾何学の結果として暗黙的に考慮される。幾何学的除去段階の学習を導くために、我々は正例と負例のペアに基づく選好駆動型の目的関数を導入し、モデルがオブジェクトとその因果的視覚的アーティファクトを除去しつつ、新しい構造的挿入を避けることを促す。大規模な実験により、我々の手法が二つの人気ベンチマークにおいて、オブジェクトとそれに関連するアーティファクトの除去において最先端の性能を達成することが示された。コードはhttps://github.com/buxiangzhiren/GeoRemoverで公開されている。
English
Towards intelligent image editing, object removal should eliminate both the
target object and its causal visual artifacts, such as shadows and reflections.
However, existing image appearance-based methods either follow strictly
mask-aligned training and fail to remove these causal effects which are not
explicitly masked, or adopt loosely mask-aligned strategies that lack
controllability and may unintentionally over-erase other objects. We identify
that these limitations stem from ignoring the causal relationship between an
object's geometry presence and its visual effects. To address this limitation,
we propose a geometry-aware two-stage framework that decouples object removal
into (1) geometry removal and (2) appearance rendering. In the first stage, we
remove the object directly from the geometry (e.g., depth) using strictly
mask-aligned supervision, enabling structure-aware editing with strong
geometric constraints. In the second stage, we render a photorealistic RGB
image conditioned on the updated geometry, where causal visual effects are
considered implicitly as a result of the modified 3D geometry. To guide
learning in the geometry removal stage, we introduce a preference-driven
objective based on positive and negative sample pairs, encouraging the model to
remove objects as well as their causal visual artifacts while avoiding new
structural insertions. Extensive experiments demonstrate that our method
achieves state-of-the-art performance in removing both objects and their
associated artifacts on two popular benchmarks. The code is available at
https://github.com/buxiangzhiren/GeoRemover.