Más allá de los cuellos de botella lineales: Distilación de conocimiento basada en splines para la clasificación de estilos artísticos culturalmente diversos

Resumen

La clasificación de estilos artísticos sigue siendo un desafío formidable en la estética computacional debido a la escasez de conjuntos de datos etiquetados por expertos y la intrincada, a menudo no lineal, interacción de elementos estilísticos. Si bien los marcos de autoaprendizaje con doble profesor recientes reducen la dependencia de datos etiquetados, sus capas de proyección lineal y enfoque localizado tienen dificultades para modelar el contexto compositivo global y las interacciones complejas entre características de estilo. Mejoramos el marco de destilación de conocimiento de doble profesor para abordar estas limitaciones al reemplazar las cabezas de proyección y predicción convencionales de MLP con Redes de Kolmogorov-Arnold (KANs). Nuestro enfoque mantiene la guía complementaria de dos redes profesor, una enfatizando patrones localizados de textura y pinceladas, y la otra capturando jerarquías estilísticas más amplias, mientras aprovecha las activaciones basadas en splines de las KANs para modelar correlaciones no lineales de características con precisión matemática. Los experimentos en WikiArt y Pandora18k demuestran que nuestro enfoque supera la arquitectura base de doble profesor en precisión Top-1. Nuestros hallazgos resaltan la importancia de las KANs en el desenredado de variedades estilísticas complejas, lo que conduce a una mejor precisión en la sonda lineal en comparación con las proyecciones MLP.

English

Art style classification remains a formidable challenge in computational aesthetics due to the scarcity of expertly labeled datasets and the intricate, often nonlinear interplay of stylistic elements. While recent dual-teacher self-supervised frameworks reduce reliance on labeled data, their linear projection layers and localized focus struggle to model global compositional context and complex style-feature interactions. We enhance the dual-teacher knowledge distillation framework to address these limitations by replacing conventional MLP projection and prediction heads with Kolmogorov-Arnold Networks (KANs). Our approach retains complementary guidance from two teacher networks, one emphasizing localized texture and brushstroke patterns, the other capturing broader stylistic hierarchies while leveraging KANs' spline-based activations to model nonlinear feature correlations with mathematical precision. Experiments on WikiArt and Pandora18k demonstrate that our approach outperforms the base dual teacher architecture in Top-1 accuracy. Our findings highlight the importance of KANs in disentangling complex style manifolds, leading to better linear probe accuracy than MLP projections.

Más allá de los cuellos de botella lineales: Distilación de conocimiento basada en splines para la clasificación de estilos artísticos culturalmente diversos

Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification

Resumen

Support