El ruido puede contener conocimiento transferible: comprendiendo la adaptación de dominio heterogéneo semi-supervisado desde una perspectiva empírica

Resumen

La adaptación de dominio heterogéneo semi-supervisada (SHDA, por sus siglas en inglés) aborda el aprendizaje entre dominios con representaciones y distribuciones de características distintas, donde las muestras de origen están etiquetadas mientras que la mayoría de las muestras de destino no lo están, con solo una pequeña fracción etiquetada. Además, no existe una correspondencia uno a uno entre las muestras de origen y destino. Aunque se han desarrollado diversos métodos SHDA para abordar este problema, la naturaleza del conocimiento transferido entre dominios heterogéneos sigue sin estar clara. Este artículo profundiza en esta cuestión desde una perspectiva empírica. Realizamos experimentos exhaustivos en aproximadamente 330 tareas SHDA, empleando dos métodos de aprendizaje supervisado y siete métodos SHDA representativos. Sorprendentemente, nuestras observaciones indican que tanto la categoría como la información de características de las muestras de origen no impactan significativamente en el rendimiento del dominio de destino. Además, el ruido extraído de distribuciones simples, cuando se utiliza como muestras de origen, puede contener conocimiento transferible. Basándonos en esta idea, realizamos una serie de experimentos para descubrir los principios subyacentes del conocimiento transferible en SHDA. Específicamente, diseñamos un Marco Unificado de Transferencia de Conocimiento (KTF, por sus siglas en inglés) para SHDA. Basándonos en el KTF, encontramos que el conocimiento transferible en SHDA proviene principalmente de la transferibilidad y la discriminabilidad del dominio de origen. En consecuencia, garantizar esas propiedades en las muestras de origen, independientemente de su origen (por ejemplo, imágenes, texto, ruido), puede mejorar la efectividad de la transferencia de conocimiento en tareas SHDA. Los códigos y conjuntos de datos están disponibles en https://github.com/yyyaoyuan/SHDA.

English

Semi-supervised heterogeneous domain adaptation (SHDA) addresses learning across domains with distinct feature representations and distributions, where source samples are labeled while most target samples are unlabeled, with only a small fraction labeled. Moreover, there is no one-to-one correspondence between source and target samples. Although various SHDA methods have been developed to tackle this problem, the nature of the knowledge transferred across heterogeneous domains remains unclear. This paper delves into this question from an empirical perspective. We conduct extensive experiments on about 330 SHDA tasks, employing two supervised learning methods and seven representative SHDA methods. Surprisingly, our observations indicate that both the category and feature information of source samples do not significantly impact the performance of the target domain. Additionally, noise drawn from simple distributions, when used as source samples, may contain transferable knowledge. Based on this insight, we perform a series of experiments to uncover the underlying principles of transferable knowledge in SHDA. Specifically, we design a unified Knowledge Transfer Framework (KTF) for SHDA. Based on the KTF, we find that the transferable knowledge in SHDA primarily stems from the transferability and discriminability of the source domain. Consequently, ensuring those properties in source samples, regardless of their origin (e.g., image, text, noise), can enhance the effectiveness of knowledge transfer in SHDA tasks. The codes and datasets are available at https://github.com/yyyaoyuan/SHDA.

El ruido puede contener conocimiento transferible: comprendiendo la adaptación de dominio heterogéneo semi-supervisado desde una perspectiva empírica

Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective

Resumen

Support