El ruido puede contener conocimiento transferible: comprendiendo la adaptación de dominio heterogéneo semi-supervisado desde una perspectiva empírica
Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective
February 19, 2025
Autores: Yuan Yao, Xiaopu Zhang, Yu Zhang, Jian Jin, Qiang Yang
cs.AI
Resumen
La adaptación de dominio heterogéneo semi-supervisada (SHDA, por sus siglas en inglés) aborda el aprendizaje entre dominios con representaciones y distribuciones de características distintas, donde las muestras de origen están etiquetadas mientras que la mayoría de las muestras de destino no lo están, con solo una pequeña fracción etiquetada. Además, no existe una correspondencia uno a uno entre las muestras de origen y destino. Aunque se han desarrollado diversos métodos SHDA para abordar este problema, la naturaleza del conocimiento transferido entre dominios heterogéneos sigue sin estar clara. Este artículo profundiza en esta cuestión desde una perspectiva empírica. Realizamos experimentos exhaustivos en aproximadamente 330 tareas SHDA, empleando dos métodos de aprendizaje supervisado y siete métodos SHDA representativos. Sorprendentemente, nuestras observaciones indican que tanto la categoría como la información de características de las muestras de origen no impactan significativamente en el rendimiento del dominio de destino. Además, el ruido extraído de distribuciones simples, cuando se utiliza como muestras de origen, puede contener conocimiento transferible. Basándonos en esta idea, realizamos una serie de experimentos para descubrir los principios subyacentes del conocimiento transferible en SHDA. Específicamente, diseñamos un Marco Unificado de Transferencia de Conocimiento (KTF, por sus siglas en inglés) para SHDA. Basándonos en el KTF, encontramos que el conocimiento transferible en SHDA proviene principalmente de la transferibilidad y la discriminabilidad del dominio de origen. En consecuencia, garantizar esas propiedades en las muestras de origen, independientemente de su origen (por ejemplo, imágenes, texto, ruido), puede mejorar la efectividad de la transferencia de conocimiento en tareas SHDA. Los códigos y conjuntos de datos están disponibles en https://github.com/yyyaoyuan/SHDA.
English
Semi-supervised heterogeneous domain adaptation (SHDA) addresses learning
across domains with distinct feature representations and distributions, where
source samples are labeled while most target samples are unlabeled, with only a
small fraction labeled. Moreover, there is no one-to-one correspondence between
source and target samples. Although various SHDA methods have been developed to
tackle this problem, the nature of the knowledge transferred across
heterogeneous domains remains unclear. This paper delves into this question
from an empirical perspective. We conduct extensive experiments on about 330
SHDA tasks, employing two supervised learning methods and seven representative
SHDA methods. Surprisingly, our observations indicate that both the category
and feature information of source samples do not significantly impact the
performance of the target domain. Additionally, noise drawn from simple
distributions, when used as source samples, may contain transferable knowledge.
Based on this insight, we perform a series of experiments to uncover the
underlying principles of transferable knowledge in SHDA. Specifically, we
design a unified Knowledge Transfer Framework (KTF) for SHDA. Based on the KTF,
we find that the transferable knowledge in SHDA primarily stems from the
transferability and discriminability of the source domain. Consequently,
ensuring those properties in source samples, regardless of their origin (e.g.,
image, text, noise), can enhance the effectiveness of knowledge transfer in
SHDA tasks. The codes and datasets are available at
https://github.com/yyyaoyuan/SHDA.Summary
AI-Generated Summary