GeoRemover: Entfernen von Objekten und deren kausalen visuellen Artefakten
GeoRemover: Removing Objects and Their Causal Visual Artifacts
September 23, 2025
papers.authors: Zixin Zhu, Haoxiang Li, Xuelu Feng, He Wu, Chunming Qiao, Junsong Yuan
cs.AI
papers.abstract
Für intelligente Bildbearbeitung sollte die Objektentfernung sowohl das Zielobjekt als auch dessen kausale visuelle Artefakte, wie Schatten und Reflexionen, beseitigen. Bisherige Methoden, die auf dem Bildaussehen basieren, folgen entweder strikt maskenausgerichteten Trainingsansätzen und scheitern daran, diese kausalen Effekte zu entfernen, die nicht explizit maskiert sind, oder sie verwenden locker maskenausgerichtete Strategien, denen es an Kontrollierbarkeit mangelt und die versehentlich andere Objekte übermäßig löschen können. Wir identifizieren, dass diese Einschränkungen darauf zurückzuführen sind, dass die kausale Beziehung zwischen der geometrischen Präsenz eines Objekts und seinen visuellen Effekten ignoriert wird. Um diese Einschränkung zu überwinden, schlagen wir ein geometrie-bewusstes zweistufiges Framework vor, das die Objektentfernung in (1) Geometrieentfernung und (2) Darstellung des Aussehens entkoppelt. In der ersten Stufe entfernen wir das Objekt direkt aus der Geometrie (z. B. Tiefe) unter Verwendung strikt maskenausgerichteter Überwachung, was eine struktur-bewusste Bearbeitung mit starken geometrischen Einschränkungen ermöglicht. In der zweiten Stufe rendern wir ein fotorealistisches RGB-Bild, das auf der aktualisierten Geometrie basiert, wobei kausale visuelle Effekte implizit als Ergebnis der modifizierten 3D-Geometrie berücksichtigt werden. Um das Lernen in der Geometrieentfernungsphase zu steuern, führen wir ein präferenzgetriebenes Ziel auf der Grundlage von positiven und negativen Beispielpaaren ein, das das Modell dazu anregt, Objekte sowie deren kausale visuelle Artefakte zu entfernen, während neue strukturelle Einfügungen vermieden werden. Umfangreiche Experimente zeigen, dass unsere Methode Spitzenleistungen bei der Entfernung von Objekten und deren zugehörigen Artefakten auf zwei beliebten Benchmarks erzielt. Der Code ist unter https://github.com/buxiangzhiren/GeoRemover verfügbar.
English
Towards intelligent image editing, object removal should eliminate both the
target object and its causal visual artifacts, such as shadows and reflections.
However, existing image appearance-based methods either follow strictly
mask-aligned training and fail to remove these causal effects which are not
explicitly masked, or adopt loosely mask-aligned strategies that lack
controllability and may unintentionally over-erase other objects. We identify
that these limitations stem from ignoring the causal relationship between an
object's geometry presence and its visual effects. To address this limitation,
we propose a geometry-aware two-stage framework that decouples object removal
into (1) geometry removal and (2) appearance rendering. In the first stage, we
remove the object directly from the geometry (e.g., depth) using strictly
mask-aligned supervision, enabling structure-aware editing with strong
geometric constraints. In the second stage, we render a photorealistic RGB
image conditioned on the updated geometry, where causal visual effects are
considered implicitly as a result of the modified 3D geometry. To guide
learning in the geometry removal stage, we introduce a preference-driven
objective based on positive and negative sample pairs, encouraging the model to
remove objects as well as their causal visual artifacts while avoiding new
structural insertions. Extensive experiments demonstrate that our method
achieves state-of-the-art performance in removing both objects and their
associated artifacts on two popular benchmarks. The code is available at
https://github.com/buxiangzhiren/GeoRemover.