Aprendizado Contrastivo Seletivo para a Fundamentação de Afordâncias com Supervisão Fraca
Selective Contrastive Learning for Weakly Supervised Affordance Grounding
August 11, 2025
Autores: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
cs.AI
Resumo
Facilitar a interação de uma entidade com objetos requer a identificação precisa de partes que possibilitam ações específicas. A fundamentação de affordance com supervisão fraca (WSAG) busca imitar a aprendizagem humana a partir de demonstrações em terceira pessoa, onde os humanos intuitivamente compreendem partes funcionais sem a necessidade de anotações em nível de pixel. Para alcançar isso, a fundamentação é tipicamente aprendida usando um classificador compartilhado entre imagens de diferentes perspectivas, juntamente com estratégias de destilação que incorporam o processo de descoberta de partes. No entanto, como as partes relevantes para affordance nem sempre são facilmente distinguíveis, os modelos dependem principalmente da classificação, frequentemente focando em padrões específicos da classe que não estão relacionados à affordance. Para superar essa limitação, vamos além da aprendizagem isolada em nível de parte, introduzindo objetivos contrastivos seletivos de protótipo e pixel que aprendem adaptativamente pistas relevantes para affordance tanto em nível de parte quanto de objeto, dependendo da granularidade da informação disponível. Inicialmente, identificamos os objetos associados à ação em imagens egocêntricas (focadas no objeto) e exocêntricas (exemplos em terceira pessoa) utilizando o CLIP. Em seguida, ao cruzar os objetos descobertos de visões complementares, extraímos as pistas precisas de affordance em nível de parte em cada perspectiva. Ao aprender consistentemente a distinguir regiões relevantes para affordance do contexto de fundo irrelevante, nossa abordagem efetivamente desloca a ativação de áreas irrelevantes para pistas significativas de affordance. Resultados experimentais demonstram a eficácia do nosso método. Os códigos estão disponíveis em github.com/hynnsk/SelectiveCL.
English
Facilitating an entity's interaction with objects requires accurately
identifying parts that afford specific actions. Weakly supervised affordance
grounding (WSAG) seeks to imitate human learning from third-person
demonstrations, where humans intuitively grasp functional parts without needing
pixel-level annotations. To achieve this, grounding is typically learned using
a shared classifier across images from different perspectives, along with
distillation strategies incorporating part discovery process. However, since
affordance-relevant parts are not always easily distinguishable, models
primarily rely on classification, often focusing on common class-specific
patterns that are unrelated to affordance. To address this limitation, we move
beyond isolated part-level learning by introducing selective prototypical and
pixel contrastive objectives that adaptively learn affordance-relevant cues at
both the part and object levels, depending on the granularity of the available
information. Initially, we find the action-associated objects in both
egocentric (object-focused) and exocentric (third-person example) images by
leveraging CLIP. Then, by cross-referencing the discovered objects of
complementary views, we excavate the precise part-level affordance clues in
each perspective. By consistently learning to distinguish affordance-relevant
regions from affordance-irrelevant background context, our approach effectively
shifts activation from irrelevant areas toward meaningful affordance cues.
Experimental results demonstrate the effectiveness of our method. Codes are
available at github.com/hynnsk/SelectiveCL.