MLP-KAN: Unificando la Representación Profunda y el Aprendizaje de Funciones

Resumen

Los avances recientes tanto en el aprendizaje de representaciones como en el aprendizaje de funciones han demostrado un gran potencial en diversos dominios de la inteligencia artificial. Sin embargo, la integración efectiva de estos paradigmas plantea un desafío significativo, especialmente en casos en los que los usuarios deben decidir manualmente si aplicar un modelo de aprendizaje de representaciones o de aprendizaje de funciones basándose en las características del conjunto de datos. Para abordar este problema, presentamos MLP-KAN, un método unificado diseñado para eliminar la necesidad de selección manual de modelos. Al integrar Perceptrones Multicapa (MLPs) para el aprendizaje de representaciones y Redes Kolmogorov-Arnold (KANs) para el aprendizaje de funciones dentro de una arquitectura de Mezcla de Expertos (MoE), MLP-KAN se adapta dinámicamente a las características específicas de la tarea en cuestión, garantizando un rendimiento óptimo. Incorporado en un marco basado en transformers, nuestro trabajo logra resultados notables en cuatro conjuntos de datos ampliamente utilizados en diversos dominios. Una extensa evaluación experimental demuestra su versatilidad superior, ofreciendo un rendimiento competitivo en tareas tanto de aprendizaje de representaciones profundas como de aprendizaje de funciones. Estos hallazgos resaltan el potencial de MLP-KAN para simplificar el proceso de selección de modelos, ofreciendo una solución integral y adaptable en varios dominios. Nuestro código y pesos están disponibles en https://github.com/DLYuanGod/MLP-KAN.

English

Recent advancements in both representation learning and function learning have demonstrated substantial promise across diverse domains of artificial intelligence. However, the effective integration of these paradigms poses a significant challenge, particularly in cases where users must manually decide whether to apply a representation learning or function learning model based on dataset characteristics. To address this issue, we introduce MLP-KAN, a unified method designed to eliminate the need for manual model selection. By integrating Multi-Layer Perceptrons (MLPs) for representation learning and Kolmogorov-Arnold Networks (KANs) for function learning within a Mixture-of-Experts (MoE) architecture, MLP-KAN dynamically adapts to the specific characteristics of the task at hand, ensuring optimal performance. Embedded within a transformer-based framework, our work achieves remarkable results on four widely-used datasets across diverse domains. Extensive experimental evaluation demonstrates its superior versatility, delivering competitive performance across both deep representation and function learning tasks. These findings highlight the potential of MLP-KAN to simplify the model selection process, offering a comprehensive, adaptable solution across various domains. Our code and weights are available at https://github.com/DLYuanGod/MLP-KAN.

MLP-KAN: Unificando la Representación Profunda y el Aprendizaje de Funciones

MLP-KAN: Unifying Deep Representation and Function Learning

Resumen

Support