MLP-KAN: Объединение глубокого представления и обучения функций

Аннотация

Недавние достижения как в области обучения представлений, так и в области обучения функций продемонстрировали значительный потенциал в различных областях искусственного интеллекта. Однако эффективная интеграция этих парадигм представляет собой значительное вызов, особенно в случаях, когда пользователям необходимо решать вручную, применять ли модель обучения представлений или модель обучения функций на основе характеристик набора данных. Для решения этой проблемы мы представляем MLP-KAN, унифицированный метод, разработанный для устранения необходимости вручную выбирать модель. Путем интеграции многослойных перцептронов (MLP) для обучения представлений и сетей Колмогорова-Арнольда (KAN) для обучения функций в архитектуре смеси экспертов (MoE), MLP-KAN динамически адаптируется к конкретным характеристикам поставленной задачи, обеспечивая оптимальную производительность. Встроенный в рамки на основе трансформера, наш подход достигает выдающихся результатов на четырех широко используемых наборах данных в различных областях. Обширное экспериментальное исследование демонстрирует его превосходную универсальность, обеспечивая конкурентоспособную производительность как в задачах глубокого обучения представлений, так и в задачах обучения функций. Эти результаты подчеркивают потенциал MLP-KAN в упрощении процесса выбора модели, предлагая всестороннее, адаптивное решение в различных областях. Наш код и веса доступны по ссылке https://github.com/DLYuanGod/MLP-KAN.

English

Recent advancements in both representation learning and function learning have demonstrated substantial promise across diverse domains of artificial intelligence. However, the effective integration of these paradigms poses a significant challenge, particularly in cases where users must manually decide whether to apply a representation learning or function learning model based on dataset characteristics. To address this issue, we introduce MLP-KAN, a unified method designed to eliminate the need for manual model selection. By integrating Multi-Layer Perceptrons (MLPs) for representation learning and Kolmogorov-Arnold Networks (KANs) for function learning within a Mixture-of-Experts (MoE) architecture, MLP-KAN dynamically adapts to the specific characteristics of the task at hand, ensuring optimal performance. Embedded within a transformer-based framework, our work achieves remarkable results on four widely-used datasets across diverse domains. Extensive experimental evaluation demonstrates its superior versatility, delivering competitive performance across both deep representation and function learning tasks. These findings highlight the potential of MLP-KAN to simplify the model selection process, offering a comprehensive, adaptable solution across various domains. Our code and weights are available at https://github.com/DLYuanGod/MLP-KAN.

MLP-KAN: Объединение глубокого представления и обучения функций

MLP-KAN: Unifying Deep Representation and Function Learning

Аннотация

Support