GeoRemover: Het verwijderen van objecten en hun causale visuele artefacten

Samenvatting

Naar intelligente beeldbewerking toe zou objectverwijdering zowel het doelobject als de bijbehorende visuele artefacten, zoals schaduwen en reflecties, moeten elimineren. Bestaande methoden op basis van beeldweergave volgen echter strikt masker-uitgelijnde training en slagen er niet in deze causale effecten te verwijderen die niet expliciet zijn gemaskeerd, of ze hanteren losjes masker-uitgelijnde strategieën die gebrek aan controleerbaarheid hebben en mogelijk andere objecten onbedoeld overmatig wissen. Wij identificeren dat deze beperkingen voortkomen uit het negeren van de causale relatie tussen de geometrische aanwezigheid van een object en de visuele effecten ervan. Om deze beperking aan te pakken, stellen we een geometrie-bewust tweestaps raamwerk voor dat objectverwijdering ontkoppelt in (1) geometrie-verwijdering en (2) weergave-rendering. In de eerste fase verwijderen we het object direct uit de geometrie (bijv. diepte) met strikt masker-uitgelijnd toezicht, wat structuurbewuste bewerking mogelijk maakt met sterke geometrische beperkingen. In de tweede fase renderen we een fotorealistisch RGB-beeld, gebaseerd op de bijgewerkte geometrie, waarbij causale visuele effecten impliciet worden overwogen als gevolg van de gewijzigde 3D-geometrie. Om het leren in de geometrie-verwijderingsfase te begeleiden, introduceren we een voorkeur-gestuurd doel gebaseerd op positieve en negatieve voorbeeldparen, wat het model aanmoedigt om zowel objecten als hun causale visuele artefacten te verwijderen, terwijl nieuwe structurele toevoegingen worden vermeden. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties bereikt in het verwijderen van zowel objecten als hun geassocieerde artefacten op twee populaire benchmarks. De code is beschikbaar op https://github.com/buxiangzhiren/GeoRemover.

English

Towards intelligent image editing, object removal should eliminate both the target object and its causal visual artifacts, such as shadows and reflections. However, existing image appearance-based methods either follow strictly mask-aligned training and fail to remove these causal effects which are not explicitly masked, or adopt loosely mask-aligned strategies that lack controllability and may unintentionally over-erase other objects. We identify that these limitations stem from ignoring the causal relationship between an object's geometry presence and its visual effects. To address this limitation, we propose a geometry-aware two-stage framework that decouples object removal into (1) geometry removal and (2) appearance rendering. In the first stage, we remove the object directly from the geometry (e.g., depth) using strictly mask-aligned supervision, enabling structure-aware editing with strong geometric constraints. In the second stage, we render a photorealistic RGB image conditioned on the updated geometry, where causal visual effects are considered implicitly as a result of the modified 3D geometry. To guide learning in the geometry removal stage, we introduce a preference-driven objective based on positive and negative sample pairs, encouraging the model to remove objects as well as their causal visual artifacts while avoiding new structural insertions. Extensive experiments demonstrate that our method achieves state-of-the-art performance in removing both objects and their associated artifacts on two popular benchmarks. The code is available at https://github.com/buxiangzhiren/GeoRemover.

GeoRemover: Het verwijderen van objecten en hun causale visuele artefacten

GeoRemover: Removing Objects and Their Causal Visual Artifacts

Samenvatting

Support