Au-delà des goulets d'étranglement linéaires : Distillation de connaissances basée sur les splines pour la classification des styles artistiques culturellement diversifiés
Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification
July 31, 2025
papers.authors: Abdellah Zakaria Sellam, Salah Eddine Bekhouche, Cosimo Distante, Abdelmalik Taleb-Ahmed
cs.AI
papers.abstract
La classification des styles artistiques reste un défi majeur en esthétique computationnelle en raison de la rareté des ensembles de données expertement annotés et de l'interaction complexe, souvent non linéaire, des éléments stylistiques. Bien que les récents cadres auto-supervisés à double enseignant réduisent la dépendance aux données étiquetées, leurs couches de projection linéaire et leur focalisation locale peinent à modéliser le contexte compositionnel global et les interactions complexes entre les caractéristiques stylistiques. Nous améliorons le cadre de distillation de connaissances à double enseignant pour surmonter ces limitations en remplaçant les têtes de projection et de prédiction MLP conventionnelles par des réseaux de Kolmogorov-Arnold (KAN). Notre approche conserve l'orientation complémentaire de deux réseaux enseignants, l'un mettant l'accent sur les motifs locaux de texture et de coup de pinceau, l'autre capturant les hiérarchies stylistiques plus larges, tout en exploitant les activations basées sur des splines des KAN pour modéliser avec précision mathématique les corrélations non linéaires entre caractéristiques. Les expériences sur WikiArt et Pandora18k démontrent que notre approche surpasse l'architecture de base à double enseignant en termes de précision Top-1. Nos résultats soulignent l'importance des KAN dans le démêlage des variétés stylistiques complexes, conduisant à une meilleure précision des sondes linéaires par rapport aux projections MLP.
English
Art style classification remains a formidable challenge in computational
aesthetics due to the scarcity of expertly labeled datasets and the intricate,
often nonlinear interplay of stylistic elements. While recent dual-teacher
self-supervised frameworks reduce reliance on labeled data, their linear
projection layers and localized focus struggle to model global compositional
context and complex style-feature interactions. We enhance the dual-teacher
knowledge distillation framework to address these limitations by replacing
conventional MLP projection and prediction heads with Kolmogorov-Arnold
Networks (KANs). Our approach retains complementary guidance from two teacher
networks, one emphasizing localized texture and brushstroke patterns, the other
capturing broader stylistic hierarchies while leveraging KANs' spline-based
activations to model nonlinear feature correlations with mathematical
precision. Experiments on WikiArt and Pandora18k demonstrate that our approach
outperforms the base dual teacher architecture in Top-1 accuracy. Our findings
highlight the importance of KANs in disentangling complex style manifolds,
leading to better linear probe accuracy than MLP projections.