GeoRemover: Entfernen von Objekten und deren kausalen visuellen Artefakten

papers.abstract

Für intelligente Bildbearbeitung sollte die Objektentfernung sowohl das Zielobjekt als auch dessen kausale visuelle Artefakte, wie Schatten und Reflexionen, beseitigen. Bisherige Methoden, die auf dem Bildaussehen basieren, folgen entweder strikt maskenausgerichteten Trainingsansätzen und scheitern daran, diese kausalen Effekte zu entfernen, die nicht explizit maskiert sind, oder sie verwenden locker maskenausgerichtete Strategien, denen es an Kontrollierbarkeit mangelt und die versehentlich andere Objekte übermäßig löschen können. Wir identifizieren, dass diese Einschränkungen darauf zurückzuführen sind, dass die kausale Beziehung zwischen der geometrischen Präsenz eines Objekts und seinen visuellen Effekten ignoriert wird. Um diese Einschränkung zu überwinden, schlagen wir ein geometrie-bewusstes zweistufiges Framework vor, das die Objektentfernung in (1) Geometrieentfernung und (2) Darstellung des Aussehens entkoppelt. In der ersten Stufe entfernen wir das Objekt direkt aus der Geometrie (z. B. Tiefe) unter Verwendung strikt maskenausgerichteter Überwachung, was eine struktur-bewusste Bearbeitung mit starken geometrischen Einschränkungen ermöglicht. In der zweiten Stufe rendern wir ein fotorealistisches RGB-Bild, das auf der aktualisierten Geometrie basiert, wobei kausale visuelle Effekte implizit als Ergebnis der modifizierten 3D-Geometrie berücksichtigt werden. Um das Lernen in der Geometrieentfernungsphase zu steuern, führen wir ein präferenzgetriebenes Ziel auf der Grundlage von positiven und negativen Beispielpaaren ein, das das Modell dazu anregt, Objekte sowie deren kausale visuelle Artefakte zu entfernen, während neue strukturelle Einfügungen vermieden werden. Umfangreiche Experimente zeigen, dass unsere Methode Spitzenleistungen bei der Entfernung von Objekten und deren zugehörigen Artefakten auf zwei beliebten Benchmarks erzielt. Der Code ist unter https://github.com/buxiangzhiren/GeoRemover verfügbar.

English

Towards intelligent image editing, object removal should eliminate both the target object and its causal visual artifacts, such as shadows and reflections. However, existing image appearance-based methods either follow strictly mask-aligned training and fail to remove these causal effects which are not explicitly masked, or adopt loosely mask-aligned strategies that lack controllability and may unintentionally over-erase other objects. We identify that these limitations stem from ignoring the causal relationship between an object's geometry presence and its visual effects. To address this limitation, we propose a geometry-aware two-stage framework that decouples object removal into (1) geometry removal and (2) appearance rendering. In the first stage, we remove the object directly from the geometry (e.g., depth) using strictly mask-aligned supervision, enabling structure-aware editing with strong geometric constraints. In the second stage, we render a photorealistic RGB image conditioned on the updated geometry, where causal visual effects are considered implicitly as a result of the modified 3D geometry. To guide learning in the geometry removal stage, we introduce a preference-driven objective based on positive and negative sample pairs, encouraging the model to remove objects as well as their causal visual artifacts while avoiding new structural insertions. Extensive experiments demonstrate that our method achieves state-of-the-art performance in removing both objects and their associated artifacts on two popular benchmarks. The code is available at https://github.com/buxiangzhiren/GeoRemover.

GeoRemover: Entfernen von Objekten und deren kausalen visuellen Artefakten

GeoRemover: Removing Objects and Their Causal Visual Artifacts

papers.abstract

Support