GeoRemover: Het verwijderen van objecten en hun causale visuele artefacten
GeoRemover: Removing Objects and Their Causal Visual Artifacts
September 23, 2025
Auteurs: Zixin Zhu, Haoxiang Li, Xuelu Feng, He Wu, Chunming Qiao, Junsong Yuan
cs.AI
Samenvatting
Naar intelligente beeldbewerking toe zou objectverwijdering zowel het doelobject als de bijbehorende visuele artefacten, zoals schaduwen en reflecties, moeten elimineren. Bestaande methoden op basis van beeldweergave volgen echter strikt masker-uitgelijnde training en slagen er niet in deze causale effecten te verwijderen die niet expliciet zijn gemaskeerd, of ze hanteren losjes masker-uitgelijnde strategieën die gebrek aan controleerbaarheid hebben en mogelijk andere objecten onbedoeld overmatig wissen. Wij identificeren dat deze beperkingen voortkomen uit het negeren van de causale relatie tussen de geometrische aanwezigheid van een object en de visuele effecten ervan. Om deze beperking aan te pakken, stellen we een geometrie-bewust tweestaps raamwerk voor dat objectverwijdering ontkoppelt in (1) geometrie-verwijdering en (2) weergave-rendering. In de eerste fase verwijderen we het object direct uit de geometrie (bijv. diepte) met strikt masker-uitgelijnd toezicht, wat structuurbewuste bewerking mogelijk maakt met sterke geometrische beperkingen. In de tweede fase renderen we een fotorealistisch RGB-beeld, gebaseerd op de bijgewerkte geometrie, waarbij causale visuele effecten impliciet worden overwogen als gevolg van de gewijzigde 3D-geometrie. Om het leren in de geometrie-verwijderingsfase te begeleiden, introduceren we een voorkeur-gestuurd doel gebaseerd op positieve en negatieve voorbeeldparen, wat het model aanmoedigt om zowel objecten als hun causale visuele artefacten te verwijderen, terwijl nieuwe structurele toevoegingen worden vermeden. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties bereikt in het verwijderen van zowel objecten als hun geassocieerde artefacten op twee populaire benchmarks. De code is beschikbaar op https://github.com/buxiangzhiren/GeoRemover.
English
Towards intelligent image editing, object removal should eliminate both the
target object and its causal visual artifacts, such as shadows and reflections.
However, existing image appearance-based methods either follow strictly
mask-aligned training and fail to remove these causal effects which are not
explicitly masked, or adopt loosely mask-aligned strategies that lack
controllability and may unintentionally over-erase other objects. We identify
that these limitations stem from ignoring the causal relationship between an
object's geometry presence and its visual effects. To address this limitation,
we propose a geometry-aware two-stage framework that decouples object removal
into (1) geometry removal and (2) appearance rendering. In the first stage, we
remove the object directly from the geometry (e.g., depth) using strictly
mask-aligned supervision, enabling structure-aware editing with strong
geometric constraints. In the second stage, we render a photorealistic RGB
image conditioned on the updated geometry, where causal visual effects are
considered implicitly as a result of the modified 3D geometry. To guide
learning in the geometry removal stage, we introduce a preference-driven
objective based on positive and negative sample pairs, encouraging the model to
remove objects as well as their causal visual artifacts while avoiding new
structural insertions. Extensive experiments demonstrate that our method
achieves state-of-the-art performance in removing both objects and their
associated artifacts on two popular benchmarks. The code is available at
https://github.com/buxiangzhiren/GeoRemover.