ChatPaper.aiChatPaper

GeoRemover: Remoção de Objetos e Seus Artefatos Visuais Causais

GeoRemover: Removing Objects and Their Causal Visual Artifacts

September 23, 2025
Autores: Zixin Zhu, Haoxiang Li, Xuelu Feng, He Wu, Chunming Qiao, Junsong Yuan
cs.AI

Resumo

Em direção à edição inteligente de imagens, a remoção de objetos deve eliminar tanto o objeto alvo quanto seus artefatos visuais causais, como sombras e reflexos. No entanto, os métodos existentes baseados na aparência da imagem seguem estritamente o treinamento alinhado por máscara e falham em remover esses efeitos causais que não são explicitamente mascarados, ou adotam estratégias de alinhamento de máscara frouxo que carecem de controlabilidade e podem apagar outros objetos de forma não intencional. Identificamos que essas limitações decorrem da ignorância da relação causal entre a presença geométrica de um objeto e seus efeitos visuais. Para abordar essa limitação, propomos uma estrutura de duas etapas consciente da geometria que desacopla a remoção de objetos em (1) remoção geométrica e (2) renderização de aparência. Na primeira etapa, removemos o objeto diretamente da geometria (por exemplo, profundidade) usando supervisão estritamente alinhada por máscara, permitindo edição consciente da estrutura com fortes restrições geométricas. Na segunda etapa, renderizamos uma imagem RGB fotorrealista condicionada na geometria atualizada, onde os efeitos visuais causais são considerados implicitamente como resultado da geometria 3D modificada. Para orientar o aprendizado na etapa de remoção geométrica, introduzimos um objetivo orientado por preferência baseado em pares de amostras positivas e negativas, incentivando o modelo a remover objetos, bem como seus artefatos visuais causais, evitando novas inserções estruturais. Experimentos extensivos demonstram que nosso método alcança desempenho de ponta na remoção de objetos e seus artefatos associados em dois benchmarks populares. O código está disponível em https://github.com/buxiangzhiren/GeoRemover.
English
Towards intelligent image editing, object removal should eliminate both the target object and its causal visual artifacts, such as shadows and reflections. However, existing image appearance-based methods either follow strictly mask-aligned training and fail to remove these causal effects which are not explicitly masked, or adopt loosely mask-aligned strategies that lack controllability and may unintentionally over-erase other objects. We identify that these limitations stem from ignoring the causal relationship between an object's geometry presence and its visual effects. To address this limitation, we propose a geometry-aware two-stage framework that decouples object removal into (1) geometry removal and (2) appearance rendering. In the first stage, we remove the object directly from the geometry (e.g., depth) using strictly mask-aligned supervision, enabling structure-aware editing with strong geometric constraints. In the second stage, we render a photorealistic RGB image conditioned on the updated geometry, where causal visual effects are considered implicitly as a result of the modified 3D geometry. To guide learning in the geometry removal stage, we introduce a preference-driven objective based on positive and negative sample pairs, encouraging the model to remove objects as well as their causal visual artifacts while avoiding new structural insertions. Extensive experiments demonstrate that our method achieves state-of-the-art performance in removing both objects and their associated artifacts on two popular benchmarks. The code is available at https://github.com/buxiangzhiren/GeoRemover.
PDF02October 1, 2025