GeoRemover: Remoção de Objetos e Seus Artefatos Visuais Causais
GeoRemover: Removing Objects and Their Causal Visual Artifacts
September 23, 2025
Autores: Zixin Zhu, Haoxiang Li, Xuelu Feng, He Wu, Chunming Qiao, Junsong Yuan
cs.AI
Resumo
Em direção à edição inteligente de imagens, a remoção de objetos deve eliminar tanto o objeto alvo quanto seus artefatos visuais causais, como sombras e reflexos. No entanto, os métodos existentes baseados na aparência da imagem seguem estritamente o treinamento alinhado por máscara e falham em remover esses efeitos causais que não são explicitamente mascarados, ou adotam estratégias de alinhamento de máscara frouxo que carecem de controlabilidade e podem apagar outros objetos de forma não intencional. Identificamos que essas limitações decorrem da ignorância da relação causal entre a presença geométrica de um objeto e seus efeitos visuais. Para abordar essa limitação, propomos uma estrutura de duas etapas consciente da geometria que desacopla a remoção de objetos em (1) remoção geométrica e (2) renderização de aparência. Na primeira etapa, removemos o objeto diretamente da geometria (por exemplo, profundidade) usando supervisão estritamente alinhada por máscara, permitindo edição consciente da estrutura com fortes restrições geométricas. Na segunda etapa, renderizamos uma imagem RGB fotorrealista condicionada na geometria atualizada, onde os efeitos visuais causais são considerados implicitamente como resultado da geometria 3D modificada. Para orientar o aprendizado na etapa de remoção geométrica, introduzimos um objetivo orientado por preferência baseado em pares de amostras positivas e negativas, incentivando o modelo a remover objetos, bem como seus artefatos visuais causais, evitando novas inserções estruturais. Experimentos extensivos demonstram que nosso método alcança desempenho de ponta na remoção de objetos e seus artefatos associados em dois benchmarks populares. O código está disponível em https://github.com/buxiangzhiren/GeoRemover.
English
Towards intelligent image editing, object removal should eliminate both the
target object and its causal visual artifacts, such as shadows and reflections.
However, existing image appearance-based methods either follow strictly
mask-aligned training and fail to remove these causal effects which are not
explicitly masked, or adopt loosely mask-aligned strategies that lack
controllability and may unintentionally over-erase other objects. We identify
that these limitations stem from ignoring the causal relationship between an
object's geometry presence and its visual effects. To address this limitation,
we propose a geometry-aware two-stage framework that decouples object removal
into (1) geometry removal and (2) appearance rendering. In the first stage, we
remove the object directly from the geometry (e.g., depth) using strictly
mask-aligned supervision, enabling structure-aware editing with strong
geometric constraints. In the second stage, we render a photorealistic RGB
image conditioned on the updated geometry, where causal visual effects are
considered implicitly as a result of the modified 3D geometry. To guide
learning in the geometry removal stage, we introduce a preference-driven
objective based on positive and negative sample pairs, encouraging the model to
remove objects as well as their causal visual artifacts while avoiding new
structural insertions. Extensive experiments demonstrate that our method
achieves state-of-the-art performance in removing both objects and their
associated artifacts on two popular benchmarks. The code is available at
https://github.com/buxiangzhiren/GeoRemover.