MLP-KAN: Unificare la Rappresentazione Profonda e l'Apprendimento delle Funzioni
MLP-KAN: Unifying Deep Representation and Function Learning
October 3, 2024
Autori: Yunhong He, Yifeng Xie, Zhengqing Yuan, Lichao Sun
cs.AI
Abstract
I recenti progressi sia nell'apprendimento della rappresentazione che nell'apprendimento della funzione hanno dimostrato un notevole potenziale in diversi ambiti dell'intelligenza artificiale. Tuttavia, l'integrazione efficace di questi paradigmi pone una sfida significativa, specialmente nei casi in cui gli utenti devono decidere manualmente se applicare un modello di apprendimento della rappresentazione o della funzione in base alle caratteristiche del dataset. Per affrontare questo problema, introduciamo MLP-KAN, un metodo unificato progettato per eliminare la necessità di selezione manuale del modello. Integrando i Perceptron a Strati Multipli (MLP) per l'apprendimento della rappresentazione e le Reti di Kolmogorov-Arnold (KAN) per l'apprendimento della funzione all'interno di un'architettura Mixture-of-Experts (MoE), MLP-KAN si adatta dinamicamente alle specifiche caratteristiche del compito in questione, garantendo prestazioni ottimali. Incorporato in un framework basato su transformer, il nostro lavoro ottiene risultati notevoli su quattro dataset ampiamente utilizzati in diversi ambiti. Un'ampia valutazione sperimentale dimostra la sua superiore versatilità, offrendo prestazioni competitive sia nell'apprendimento della rappresentazione profonda che della funzione. Queste scoperte evidenziano il potenziale di MLP-KAN nel semplificare il processo di selezione del modello, offrendo una soluzione completa ed adattabile in vari ambiti. Il nostro codice e i pesi sono disponibili su https://github.com/DLYuanGod/MLP-KAN.
English
Recent advancements in both representation learning and function learning
have demonstrated substantial promise across diverse domains of artificial
intelligence. However, the effective integration of these paradigms poses a
significant challenge, particularly in cases where users must manually decide
whether to apply a representation learning or function learning model based on
dataset characteristics. To address this issue, we introduce MLP-KAN, a unified
method designed to eliminate the need for manual model selection. By
integrating Multi-Layer Perceptrons (MLPs) for representation learning and
Kolmogorov-Arnold Networks (KANs) for function learning within a
Mixture-of-Experts (MoE) architecture, MLP-KAN dynamically adapts to the
specific characteristics of the task at hand, ensuring optimal performance.
Embedded within a transformer-based framework, our work achieves remarkable
results on four widely-used datasets across diverse domains. Extensive
experimental evaluation demonstrates its superior versatility, delivering
competitive performance across both deep representation and function learning
tasks. These findings highlight the potential of MLP-KAN to simplify the model
selection process, offering a comprehensive, adaptable solution across various
domains. Our code and weights are available at
https://github.com/DLYuanGod/MLP-KAN.