Oltre i Colli di Bottiglia Lineari: Distillazione della Conoscenza Basata su Spline per la Classificazione di Stili Artistici Culturalmente Diversi
Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification
July 31, 2025
Autori: Abdellah Zakaria Sellam, Salah Eddine Bekhouche, Cosimo Distante, Abdelmalik Taleb-Ahmed
cs.AI
Abstract
La classificazione degli stili artistici rimane una sfida formidabile nell'ambito dell'estetica computazionale a causa della scarsità di dataset etichettati da esperti e dell'intricata, spesso non lineare, interazione degli elementi stilistici. Sebbene i recenti framework auto-supervisionati a doppio insegnante riducano la dipendenza dai dati etichettati, i loro strati di proiezione lineare e l'attenzione localizzata faticano a modellare il contesto compositivo globale e le complesse interazioni tra le caratteristiche stilistiche. Miglioriamo il framework di distillazione della conoscenza a doppio insegnante per affrontare queste limitazioni sostituendo le tradizionali proiezioni MLP e le teste di previsione con le Reti di Kolmogorov-Arnold (KAN). Il nostro approccio mantiene una guida complementare da due reti insegnanti, una che enfatizza le texture localizzate e i modelli di pennellata, l'altra che cattura gerarchie stilistiche più ampie, sfruttando le attivazioni basate su spline delle KAN per modellare con precisione matematica le correlazioni non lineari delle caratteristiche. Gli esperimenti su WikiArt e Pandora18k dimostrano che il nostro approccio supera l'architettura di base a doppio insegnante in termini di accuratezza Top-1. I nostri risultati evidenziano l'importanza delle KAN nel districare complessi manifold stilistici, portando a una migliore accuratezza delle sonde lineari rispetto alle proiezioni MLP.
English
Art style classification remains a formidable challenge in computational
aesthetics due to the scarcity of expertly labeled datasets and the intricate,
often nonlinear interplay of stylistic elements. While recent dual-teacher
self-supervised frameworks reduce reliance on labeled data, their linear
projection layers and localized focus struggle to model global compositional
context and complex style-feature interactions. We enhance the dual-teacher
knowledge distillation framework to address these limitations by replacing
conventional MLP projection and prediction heads with Kolmogorov-Arnold
Networks (KANs). Our approach retains complementary guidance from two teacher
networks, one emphasizing localized texture and brushstroke patterns, the other
capturing broader stylistic hierarchies while leveraging KANs' spline-based
activations to model nonlinear feature correlations with mathematical
precision. Experiments on WikiArt and Pandora18k demonstrate that our approach
outperforms the base dual teacher architecture in Top-1 accuracy. Our findings
highlight the importance of KANs in disentangling complex style manifolds,
leading to better linear probe accuracy than MLP projections.