Aprendizado Contrastivo Seletivo para a Fundamentação de Afordâncias com Supervisão Fraca

Resumo

Facilitar a interação de uma entidade com objetos requer a identificação precisa de partes que possibilitam ações específicas. A fundamentação de affordance com supervisão fraca (WSAG) busca imitar a aprendizagem humana a partir de demonstrações em terceira pessoa, onde os humanos intuitivamente compreendem partes funcionais sem a necessidade de anotações em nível de pixel. Para alcançar isso, a fundamentação é tipicamente aprendida usando um classificador compartilhado entre imagens de diferentes perspectivas, juntamente com estratégias de destilação que incorporam o processo de descoberta de partes. No entanto, como as partes relevantes para affordance nem sempre são facilmente distinguíveis, os modelos dependem principalmente da classificação, frequentemente focando em padrões específicos da classe que não estão relacionados à affordance. Para superar essa limitação, vamos além da aprendizagem isolada em nível de parte, introduzindo objetivos contrastivos seletivos de protótipo e pixel que aprendem adaptativamente pistas relevantes para affordance tanto em nível de parte quanto de objeto, dependendo da granularidade da informação disponível. Inicialmente, identificamos os objetos associados à ação em imagens egocêntricas (focadas no objeto) e exocêntricas (exemplos em terceira pessoa) utilizando o CLIP. Em seguida, ao cruzar os objetos descobertos de visões complementares, extraímos as pistas precisas de affordance em nível de parte em cada perspectiva. Ao aprender consistentemente a distinguir regiões relevantes para affordance do contexto de fundo irrelevante, nossa abordagem efetivamente desloca a ativação de áreas irrelevantes para pistas significativas de affordance. Resultados experimentais demonstram a eficácia do nosso método. Os códigos estão disponíveis em github.com/hynnsk/SelectiveCL.

English

Facilitating an entity's interaction with objects requires accurately identifying parts that afford specific actions. Weakly supervised affordance grounding (WSAG) seeks to imitate human learning from third-person demonstrations, where humans intuitively grasp functional parts without needing pixel-level annotations. To achieve this, grounding is typically learned using a shared classifier across images from different perspectives, along with distillation strategies incorporating part discovery process. However, since affordance-relevant parts are not always easily distinguishable, models primarily rely on classification, often focusing on common class-specific patterns that are unrelated to affordance. To address this limitation, we move beyond isolated part-level learning by introducing selective prototypical and pixel contrastive objectives that adaptively learn affordance-relevant cues at both the part and object levels, depending on the granularity of the available information. Initially, we find the action-associated objects in both egocentric (object-focused) and exocentric (third-person example) images by leveraging CLIP. Then, by cross-referencing the discovered objects of complementary views, we excavate the precise part-level affordance clues in each perspective. By consistently learning to distinguish affordance-relevant regions from affordance-irrelevant background context, our approach effectively shifts activation from irrelevant areas toward meaningful affordance cues. Experimental results demonstrate the effectiveness of our method. Codes are available at github.com/hynnsk/SelectiveCL.

Aprendizado Contrastivo Seletivo para a Fundamentação de Afordâncias com Supervisão Fraca

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Resumo

Support