MLP-KAN : Unification de la représentation profonde et de l'apprentissage de fonctions
MLP-KAN: Unifying Deep Representation and Function Learning
October 3, 2024
Auteurs: Yunhong He, Yifeng Xie, Zhengqing Yuan, Lichao Sun
cs.AI
Résumé
Les récents progrès à la fois dans l'apprentissage de représentation et l'apprentissage de fonction ont démontré un potentiel substantiel à travers divers domaines de l'intelligence artificielle. Cependant, l'intégration efficace de ces paradigmes pose un défi significatif, en particulier dans les cas où les utilisateurs doivent décider manuellement s'il convient d'appliquer un modèle d'apprentissage de représentation ou d'apprentissage de fonction en fonction des caractéristiques de l'ensemble de données. Pour résoudre ce problème, nous présentons MLP-KAN, une méthode unifiée conçue pour éliminer le besoin de sélection manuelle de modèle. En intégrant des Perceptrons Multi-Couches (MLP) pour l'apprentissage de représentation et des Réseaux Kolmogorov-Arnold (KAN) pour l'apprentissage de fonction au sein d'une architecture Mélange d'Experts (MoE), MLP-KAN s'adapte dynamiquement aux caractéristiques spécifiques de la tâche en cours, garantissant des performances optimales. Intégré dans un cadre basé sur les transformers, notre travail obtient des résultats remarquables sur quatre ensembles de données largement utilisés à travers divers domaines. Une évaluation expérimentale approfondie démontre sa polyvalence supérieure, offrant des performances compétitives dans les tâches d'apprentissage de représentation profonde et de fonction. Ces résultats mettent en lumière le potentiel de MLP-KAN pour simplifier le processus de sélection de modèle, offrant une solution complète et adaptable à travers divers domaines. Notre code et nos poids sont disponibles sur https://github.com/DLYuanGod/MLP-KAN.
English
Recent advancements in both representation learning and function learning
have demonstrated substantial promise across diverse domains of artificial
intelligence. However, the effective integration of these paradigms poses a
significant challenge, particularly in cases where users must manually decide
whether to apply a representation learning or function learning model based on
dataset characteristics. To address this issue, we introduce MLP-KAN, a unified
method designed to eliminate the need for manual model selection. By
integrating Multi-Layer Perceptrons (MLPs) for representation learning and
Kolmogorov-Arnold Networks (KANs) for function learning within a
Mixture-of-Experts (MoE) architecture, MLP-KAN dynamically adapts to the
specific characteristics of the task at hand, ensuring optimal performance.
Embedded within a transformer-based framework, our work achieves remarkable
results on four widely-used datasets across diverse domains. Extensive
experimental evaluation demonstrates its superior versatility, delivering
competitive performance across both deep representation and function learning
tasks. These findings highlight the potential of MLP-KAN to simplify the model
selection process, offering a comprehensive, adaptable solution across various
domains. Our code and weights are available at
https://github.com/DLYuanGod/MLP-KAN.Summary
AI-Generated Summary