ChatPaper.aiChatPaper

Além dos Gargalos Lineares: Distilação de Conhecimento Baseada em Splines para Classificação de Estilos Artísticos Culturalmente Diversos

Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification

July 31, 2025
Autores: Abdellah Zakaria Sellam, Salah Eddine Bekhouche, Cosimo Distante, Abdelmalik Taleb-Ahmed
cs.AI

Resumo

A classificação de estilos artísticos continua sendo um desafio significativo na estética computacional devido à escassez de conjuntos de dados rotulados por especialistas e à intrincada, muitas vezes não linear, interação de elementos estilísticos. Embora estruturas recentes de auto-supervisão com dois professores reduzam a dependência de dados rotulados, suas camadas de projeção linear e foco localizado lutam para modelar o contexto composicional global e as interações complexas entre características de estilo. Aprimoramos a estrutura de destilação de conhecimento com dois professores para abordar essas limitações, substituindo as projeções MLP convencionais e cabeças de previsão por Redes de Kolmogorov-Arnold (KANs). Nossa abordagem mantém a orientação complementar de duas redes professoras, uma enfatizando padrões localizados de textura e pinceladas, e a outra capturando hierarquias estilísticas mais amplas, enquanto aproveita as ativações baseadas em spline das KANs para modelar correlações não lineares de características com precisão matemática. Experimentos no WikiArt e Pandora18k demonstram que nossa abordagem supera a arquitetura base de dois professores em precisão Top-1. Nossos resultados destacam a importância das KANs na desagregação de variedades estilísticas complexas, levando a uma melhor precisão de sondagem linear do que as projeções MLP.
English
Art style classification remains a formidable challenge in computational aesthetics due to the scarcity of expertly labeled datasets and the intricate, often nonlinear interplay of stylistic elements. While recent dual-teacher self-supervised frameworks reduce reliance on labeled data, their linear projection layers and localized focus struggle to model global compositional context and complex style-feature interactions. We enhance the dual-teacher knowledge distillation framework to address these limitations by replacing conventional MLP projection and prediction heads with Kolmogorov-Arnold Networks (KANs). Our approach retains complementary guidance from two teacher networks, one emphasizing localized texture and brushstroke patterns, the other capturing broader stylistic hierarchies while leveraging KANs' spline-based activations to model nonlinear feature correlations with mathematical precision. Experiments on WikiArt and Pandora18k demonstrate that our approach outperforms the base dual teacher architecture in Top-1 accuracy. Our findings highlight the importance of KANs in disentangling complex style manifolds, leading to better linear probe accuracy than MLP projections.
PDF52August 1, 2025