O Ruído Pode Conter Conhecimento Transferível: Compreendendo a Adaptação de Domínio Heterogêneo Semi-supervisionado a partir de uma Perspectiva Empírica
Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective
February 19, 2025
Autores: Yuan Yao, Xiaopu Zhang, Yu Zhang, Jian Jin, Qiang Yang
cs.AI
Resumo
A adaptação de domínio heterogêneo semi-supervisionada (SHDA, do inglês Semi-supervised Heterogeneous Domain Adaptation) aborda o aprendizado entre domínios com representações de características e distribuições distintas, onde as amostras da fonte são rotuladas, enquanto a maioria das amostras do destino não possui rótulos, com apenas uma pequena fração rotulada. Além disso, não há uma correspondência um-para-um entre as amostras da fonte e do destino. Embora diversos métodos de SHDA tenham sido desenvolvidos para lidar com esse problema, a natureza do conhecimento transferido entre domínios heterogêneos permanece pouco clara. Este artigo investiga essa questão a partir de uma perspectiva empírica. Realizamos experimentos extensivos em cerca de 330 tarefas de SHDA, empregando dois métodos de aprendizado supervisionado e sete métodos representativos de SHDA. Surpreendentemente, nossas observações indicam que tanto a categoria quanto as informações das características das amostras da fonte não impactam significativamente o desempenho no domínio de destino. Além disso, ruídos extraídos de distribuições simples, quando usados como amostras da fonte, podem conter conhecimento transferível. Com base nessa percepção, realizamos uma série de experimentos para desvendar os princípios subjacentes do conhecimento transferível em SHDA. Especificamente, projetamos uma Estrutura Unificada de Transferência de Conhecimento (KTF, do inglês Knowledge Transfer Framework) para SHDA. Com base na KTF, descobrimos que o conhecimento transferível em SHDA deriva principalmente da transferibilidade e da discriminabilidade do domínio de origem. Consequentemente, garantir essas propriedades nas amostras da fonte, independentemente de sua origem (por exemplo, imagem, texto, ruído), pode melhorar a eficácia da transferência de conhecimento em tarefas de SHDA. Os códigos e conjuntos de dados estão disponíveis em https://github.com/yyyaoyuan/SHDA.
English
Semi-supervised heterogeneous domain adaptation (SHDA) addresses learning
across domains with distinct feature representations and distributions, where
source samples are labeled while most target samples are unlabeled, with only a
small fraction labeled. Moreover, there is no one-to-one correspondence between
source and target samples. Although various SHDA methods have been developed to
tackle this problem, the nature of the knowledge transferred across
heterogeneous domains remains unclear. This paper delves into this question
from an empirical perspective. We conduct extensive experiments on about 330
SHDA tasks, employing two supervised learning methods and seven representative
SHDA methods. Surprisingly, our observations indicate that both the category
and feature information of source samples do not significantly impact the
performance of the target domain. Additionally, noise drawn from simple
distributions, when used as source samples, may contain transferable knowledge.
Based on this insight, we perform a series of experiments to uncover the
underlying principles of transferable knowledge in SHDA. Specifically, we
design a unified Knowledge Transfer Framework (KTF) for SHDA. Based on the KTF,
we find that the transferable knowledge in SHDA primarily stems from the
transferability and discriminability of the source domain. Consequently,
ensuring those properties in source samples, regardless of their origin (e.g.,
image, text, noise), can enhance the effectiveness of knowledge transfer in
SHDA tasks. The codes and datasets are available at
https://github.com/yyyaoyuan/SHDA.Summary
AI-Generated Summary