GeoRemover: Rimozione di oggetti e dei loro artefatti visivi causali
GeoRemover: Removing Objects and Their Causal Visual Artifacts
September 23, 2025
Autori: Zixin Zhu, Haoxiang Li, Xuelu Feng, He Wu, Chunming Qiao, Junsong Yuan
cs.AI
Abstract
Verso un'edizione intelligente delle immagini, la rimozione di oggetti dovrebbe eliminare sia l'oggetto target che i suoi artefatti visivi causali, come ombre e riflessi. Tuttavia, i metodi esistenti basati sull'aspetto dell'immagine seguono rigorosamente un addestramento allineato alla maschera e non riescono a rimuovere questi effetti causali che non sono esplicitamente mascherati, oppure adottano strategie allineate alla maschera in modo approssimativo che mancano di controllabilità e possono cancellare involontariamente altri oggetti. Identifichiamo che queste limitazioni derivano dall'ignorare la relazione causale tra la presenza geometrica di un oggetto e i suoi effetti visivi. Per affrontare questa limitazione, proponiamo un framework a due stadi consapevole della geometria che scompone la rimozione di oggetti in (1) rimozione della geometria e (2) rendering dell'aspetto. Nella prima fase, rimuoviamo l'oggetto direttamente dalla geometria (ad esempio, la profondità) utilizzando una supervisione rigorosamente allineata alla maschera, consentendo un'edizione consapevole della struttura con forti vincoli geometrici. Nella seconda fase, rendiamo un'immagine RGB fotorealistica condizionata sulla geometria aggiornata, dove gli effetti visivi causali sono considerati implicitamente come risultato della geometria 3D modificata. Per guidare l'apprendimento nella fase di rimozione della geometria, introduciamo un obiettivo guidato dalle preferenze basato su coppie di campioni positivi e negativi, incoraggiando il modello a rimuovere gli oggetti e i loro artefatti visivi causali evitando nuove inserzioni strutturali. Esperimenti estensivi dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella rimozione sia degli oggetti che dei loro artefatti associati su due benchmark popolari. Il codice è disponibile all'indirizzo https://github.com/buxiangzhiren/GeoRemover.
English
Towards intelligent image editing, object removal should eliminate both the
target object and its causal visual artifacts, such as shadows and reflections.
However, existing image appearance-based methods either follow strictly
mask-aligned training and fail to remove these causal effects which are not
explicitly masked, or adopt loosely mask-aligned strategies that lack
controllability and may unintentionally over-erase other objects. We identify
that these limitations stem from ignoring the causal relationship between an
object's geometry presence and its visual effects. To address this limitation,
we propose a geometry-aware two-stage framework that decouples object removal
into (1) geometry removal and (2) appearance rendering. In the first stage, we
remove the object directly from the geometry (e.g., depth) using strictly
mask-aligned supervision, enabling structure-aware editing with strong
geometric constraints. In the second stage, we render a photorealistic RGB
image conditioned on the updated geometry, where causal visual effects are
considered implicitly as a result of the modified 3D geometry. To guide
learning in the geometry removal stage, we introduce a preference-driven
objective based on positive and negative sample pairs, encouraging the model to
remove objects as well as their causal visual artifacts while avoiding new
structural insertions. Extensive experiments demonstrate that our method
achieves state-of-the-art performance in removing both objects and their
associated artifacts on two popular benchmarks. The code is available at
https://github.com/buxiangzhiren/GeoRemover.