MLP-KAN: Объединение глубокого представления и обучения функций
MLP-KAN: Unifying Deep Representation and Function Learning
October 3, 2024
Авторы: Yunhong He, Yifeng Xie, Zhengqing Yuan, Lichao Sun
cs.AI
Аннотация
Недавние достижения как в области обучения представлений, так и в области обучения функций продемонстрировали значительный потенциал в различных областях искусственного интеллекта. Однако эффективная интеграция этих парадигм представляет собой значительное вызов, особенно в случаях, когда пользователям необходимо решать вручную, применять ли модель обучения представлений или модель обучения функций на основе характеристик набора данных. Для решения этой проблемы мы представляем MLP-KAN, унифицированный метод, разработанный для устранения необходимости вручную выбирать модель. Путем интеграции многослойных перцептронов (MLP) для обучения представлений и сетей Колмогорова-Арнольда (KAN) для обучения функций в архитектуре смеси экспертов (MoE), MLP-KAN динамически адаптируется к конкретным характеристикам поставленной задачи, обеспечивая оптимальную производительность. Встроенный в рамки на основе трансформера, наш подход достигает выдающихся результатов на четырех широко используемых наборах данных в различных областях. Обширное экспериментальное исследование демонстрирует его превосходную универсальность, обеспечивая конкурентоспособную производительность как в задачах глубокого обучения представлений, так и в задачах обучения функций. Эти результаты подчеркивают потенциал MLP-KAN в упрощении процесса выбора модели, предлагая всестороннее, адаптивное решение в различных областях. Наш код и веса доступны по ссылке https://github.com/DLYuanGod/MLP-KAN.
English
Recent advancements in both representation learning and function learning
have demonstrated substantial promise across diverse domains of artificial
intelligence. However, the effective integration of these paradigms poses a
significant challenge, particularly in cases where users must manually decide
whether to apply a representation learning or function learning model based on
dataset characteristics. To address this issue, we introduce MLP-KAN, a unified
method designed to eliminate the need for manual model selection. By
integrating Multi-Layer Perceptrons (MLPs) for representation learning and
Kolmogorov-Arnold Networks (KANs) for function learning within a
Mixture-of-Experts (MoE) architecture, MLP-KAN dynamically adapts to the
specific characteristics of the task at hand, ensuring optimal performance.
Embedded within a transformer-based framework, our work achieves remarkable
results on four widely-used datasets across diverse domains. Extensive
experimental evaluation demonstrates its superior versatility, delivering
competitive performance across both deep representation and function learning
tasks. These findings highlight the potential of MLP-KAN to simplify the model
selection process, offering a comprehensive, adaptable solution across various
domains. Our code and weights are available at
https://github.com/DLYuanGod/MLP-KAN.Summary
AI-Generated Summary