SciLT : Classification à longue traîne dans les domaines d'images scientifiques
SciLT: Long-Tailed Classification in Scientific Image Domains
April 4, 2026
Auteurs: Jiahao Chen, Bing Su
cs.AI
Résumé
La reconnaissance à longue traîne a bénéficié des modèles de fondation et des paradigmes de fine-tuning, mais les études et benchmarks existants se limitent principalement aux domaines d'images naturelles, où les données de pré-entraînement et de fine-tuning partagent des distributions similaires. En revanche, les images scientifiques présentent des caractéristiques visuelles et des signaux de supervision distincts, soulevant des questions sur l'efficacité du fine-tuning des modèles de fondation dans de tels contextes. Dans ce travail, nous étudions la reconnaissance scientifique à longue traîne sous un paradigme purement visuel et de fine-tuning efficace en paramètres (PEFT). Les expériences sur trois benchmarks scientifiques montrent que le fine-tuning des modèles de fondation apporte des gains limités, et révèlent que les caractéristiques de l'avant-dernière couche jouent un rôle important, particulièrement pour les classes de queue. Motivés par ces observations, nous proposons SciLT, un cadre qui exploite les représentations multi-niveaux grâce à une fusion adaptative des caractéristiques et un apprentissage à double supervision. En utilisant conjointement les caractéristiques de l'avant-dernière couche et de la couche finale, SciLT atteint des performances équilibrées entre les classes de tête et de queue. Des expériences approfondies démontrent que SciLT surpasse constamment les méthodes existantes, établissant une base solide et pratique pour la reconnaissance scientifique à longue traîne et fournissant des indications précieuses pour l'adaptation des modèles de fondation aux données scientifiques présentant d'importants décalages de domaine.
English
Long-tailed recognition has benefited from foundation models and fine-tuning paradigms, yet existing studies and benchmarks are mainly confined to natural image domains, where pre-training and fine-tuning data share similar distributions. In contrast, scientific images exhibit distinct visual characteristics and supervision signals, raising questions about the effectiveness of fine-tuning foundation models in such settings. In this work, we investigate scientific long-tailed recognition under a purely visual and parameter-efficient fine-tuning (PEFT) paradigm. Experiments on three scientific benchmarks show that fine-tuning foundation models yields limited gains, and reveal that penultimate-layer features play an important role, particularly for tail classes. Motivated by these findings, we propose SciLT, a framework that exploits multi-level representations through adaptive feature fusion and dual-supervision learning. By jointly leveraging penultimate- and final-layer features, SciLT achieves balanced performance across head and tail classes. Extensive experiments demonstrate that SciLT consistently outperforms existing methods, establishing a strong and practical baseline for scientific long-tailed recognition and providing valuable guidance for adapting foundation models to scientific data with substantial domain shifts.