За пределами линейных узких мест: сплайновая дистилляция знаний для классификации художественных стилей в условиях культурного разнообразия
Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification
July 31, 2025
Авторы: Abdellah Zakaria Sellam, Salah Eddine Bekhouche, Cosimo Distante, Abdelmalik Taleb-Ahmed
cs.AI
Аннотация
Классификация художественных стилей остается сложной задачей в области вычислительной эстетики из-за недостатка экспертно размеченных наборов данных и сложного, часто нелинейного взаимодействия стилистических элементов. Хотя современные двухучительские самообучающиеся подходы снижают зависимость от размеченных данных, их линейные проекционные слои и локальная фокусировка затрудняют моделирование глобального композиционного контекста и сложных взаимодействий стилевых признаков. Мы улучшаем двухучительскую архитектуру дистилляции знаний, заменяя традиционные MLP-проекции и прогностические головы на сети Колмогорова-Арнольда (KAN). Наш подход сохраняет комплементарное руководство двух учительских сетей: одна акцентирует внимание на локальных текстурах и мазках кисти, другая захватывает более широкие стилистические иерархии, при этом используя сплайн-активации KAN для точного математического моделирования нелинейных корреляций признаков. Эксперименты на наборах данных WikiArt и Pandora18k демонстрируют, что наш подход превосходит базовую двухучительскую архитектуру по точности Top-1. Результаты подчеркивают важность KAN в разделении сложных стилевых многообразий, что приводит к более высокой точности линейного зондирования по сравнению с MLP-проекциями.
English
Art style classification remains a formidable challenge in computational
aesthetics due to the scarcity of expertly labeled datasets and the intricate,
often nonlinear interplay of stylistic elements. While recent dual-teacher
self-supervised frameworks reduce reliance on labeled data, their linear
projection layers and localized focus struggle to model global compositional
context and complex style-feature interactions. We enhance the dual-teacher
knowledge distillation framework to address these limitations by replacing
conventional MLP projection and prediction heads with Kolmogorov-Arnold
Networks (KANs). Our approach retains complementary guidance from two teacher
networks, one emphasizing localized texture and brushstroke patterns, the other
capturing broader stylistic hierarchies while leveraging KANs' spline-based
activations to model nonlinear feature correlations with mathematical
precision. Experiments on WikiArt and Pandora18k demonstrate that our approach
outperforms the base dual teacher architecture in Top-1 accuracy. Our findings
highlight the importance of KANs in disentangling complex style manifolds,
leading to better linear probe accuracy than MLP projections.