Шум может содержать передаваемые знания: понимание полуконтролируемой гетерогенной адаптации доменов с эмпирической точки зрения
Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective
February 19, 2025
Авторы: Yuan Yao, Xiaopu Zhang, Yu Zhang, Jian Jin, Qiang Yang
cs.AI
Аннотация
Полуавтоматическая адаптация к гетерогенным доменам (SHDA) решает задачу обучения в условиях, когда домены имеют различные представления признаков и распределения, при этом образцы исходного домена размечены, а большинство образцов целевого домена не размечены, за исключением небольшой их части. Кроме того, отсутствует прямое соответствие между образцами исходного и целевого доменов. Хотя для решения этой проблемы было разработано множество методов SHDA, природа знаний, передаваемых между гетерогенными доменами, остается неясной. В данной статье этот вопрос исследуется с эмпирической точки зрения. Мы проводим обширные эксперименты на примерно 330 задачах SHDA, используя два метода обучения с учителем и семь репрезентативных методов SHDA. Удивительно, но наши наблюдения показывают, что информация о категориях и признаках образцов исходного домена не оказывает значительного влияния на производительность в целевом домене. Кроме того, шум, извлеченный из простых распределений, при использовании в качестве образцов исходного домена может содержать передаваемые знания. Основываясь на этом инсайте, мы проводим серию экспериментов, чтобы раскрыть основные принципы передаваемых знаний в SHDA. В частности, мы разрабатываем унифицированную Структуру Передачи Знаний (KTF) для SHDA. На основе KTF мы обнаруживаем, что передаваемые знания в SHDA в основном происходят из переносимости и различимости исходного домена. Следовательно, обеспечение этих свойств в образцах исходного домена, независимо от их происхождения (например, изображения, текст, шум), может повысить эффективность передачи знаний в задачах SHDA. Коды и наборы данных доступны по адресу https://github.com/yyyaoyuan/SHDA.
English
Semi-supervised heterogeneous domain adaptation (SHDA) addresses learning
across domains with distinct feature representations and distributions, where
source samples are labeled while most target samples are unlabeled, with only a
small fraction labeled. Moreover, there is no one-to-one correspondence between
source and target samples. Although various SHDA methods have been developed to
tackle this problem, the nature of the knowledge transferred across
heterogeneous domains remains unclear. This paper delves into this question
from an empirical perspective. We conduct extensive experiments on about 330
SHDA tasks, employing two supervised learning methods and seven representative
SHDA methods. Surprisingly, our observations indicate that both the category
and feature information of source samples do not significantly impact the
performance of the target domain. Additionally, noise drawn from simple
distributions, when used as source samples, may contain transferable knowledge.
Based on this insight, we perform a series of experiments to uncover the
underlying principles of transferable knowledge in SHDA. Specifically, we
design a unified Knowledge Transfer Framework (KTF) for SHDA. Based on the KTF,
we find that the transferable knowledge in SHDA primarily stems from the
transferability and discriminability of the source domain. Consequently,
ensuring those properties in source samples, regardless of their origin (e.g.,
image, text, noise), can enhance the effectiveness of knowledge transfer in
SHDA tasks. The codes and datasets are available at
https://github.com/yyyaoyuan/SHDA.Summary
AI-Generated Summary