MLP-KAN: Unificando la Representación Profunda y el Aprendizaje de Funciones
MLP-KAN: Unifying Deep Representation and Function Learning
October 3, 2024
Autores: Yunhong He, Yifeng Xie, Zhengqing Yuan, Lichao Sun
cs.AI
Resumen
Los avances recientes tanto en el aprendizaje de representaciones como en el aprendizaje de funciones han demostrado un gran potencial en diversos dominios de la inteligencia artificial. Sin embargo, la integración efectiva de estos paradigmas plantea un desafío significativo, especialmente en casos en los que los usuarios deben decidir manualmente si aplicar un modelo de aprendizaje de representaciones o de aprendizaje de funciones basándose en las características del conjunto de datos. Para abordar este problema, presentamos MLP-KAN, un método unificado diseñado para eliminar la necesidad de selección manual de modelos. Al integrar Perceptrones Multicapa (MLPs) para el aprendizaje de representaciones y Redes Kolmogorov-Arnold (KANs) para el aprendizaje de funciones dentro de una arquitectura de Mezcla de Expertos (MoE), MLP-KAN se adapta dinámicamente a las características específicas de la tarea en cuestión, garantizando un rendimiento óptimo. Incorporado en un marco basado en transformers, nuestro trabajo logra resultados notables en cuatro conjuntos de datos ampliamente utilizados en diversos dominios. Una extensa evaluación experimental demuestra su versatilidad superior, ofreciendo un rendimiento competitivo en tareas tanto de aprendizaje de representaciones profundas como de aprendizaje de funciones. Estos hallazgos resaltan el potencial de MLP-KAN para simplificar el proceso de selección de modelos, ofreciendo una solución integral y adaptable en varios dominios. Nuestro código y pesos están disponibles en https://github.com/DLYuanGod/MLP-KAN.
English
Recent advancements in both representation learning and function learning
have demonstrated substantial promise across diverse domains of artificial
intelligence. However, the effective integration of these paradigms poses a
significant challenge, particularly in cases where users must manually decide
whether to apply a representation learning or function learning model based on
dataset characteristics. To address this issue, we introduce MLP-KAN, a unified
method designed to eliminate the need for manual model selection. By
integrating Multi-Layer Perceptrons (MLPs) for representation learning and
Kolmogorov-Arnold Networks (KANs) for function learning within a
Mixture-of-Experts (MoE) architecture, MLP-KAN dynamically adapts to the
specific characteristics of the task at hand, ensuring optimal performance.
Embedded within a transformer-based framework, our work achieves remarkable
results on four widely-used datasets across diverse domains. Extensive
experimental evaluation demonstrates its superior versatility, delivering
competitive performance across both deep representation and function learning
tasks. These findings highlight the potential of MLP-KAN to simplify the model
selection process, offering a comprehensive, adaptable solution across various
domains. Our code and weights are available at
https://github.com/DLYuanGod/MLP-KAN.Summary
AI-Generated Summary