SciLT: Classificatie met Lange Staartverdeling in Wetenschappelijke Beeldomeinen
SciLT: Long-Tailed Classification in Scientific Image Domains
April 4, 2026
Auteurs: Jiahao Chen, Bing Su
cs.AI
Samenvatting
Long-tailed herkenning heeft geprofiteerd van foundation-modellen en fine-tuning paradigma's, maar bestaande studies en benchmarks zijn voornamelijk beperkt tot natuurlijke beelddomeinen, waar pre-trainings- en fine-tuning data vergelijkbare distributies delen. In tegenstelling hiermee vertonen wetenschappelijke beelden duidelijke visuele kenmerken en supervisiesignalen, wat vragen oproept over de effectiviteit van het fine-tunen van foundation-modellen in dergelijke settings. In dit werk onderzoeken we wetenschappelijke long-tailed herkenning onder een puur visueel en parameter-efficiënt fine-tuning (PEFT) paradigma. Experimenten op drie wetenschappelijke benchmarks tonen aan dat het fine-tunen van foundation-modellen beperkte winst oplevert, en onthullen dat features uit de voorlaatste laag een belangrijke rol spelen, met name voor tail-klassen. Gemotiveerd door deze bevindingen stellen we SciLT voor, een raamwerk dat multi-level representaties benut door adaptieve feature-fusie en dual-supervision learning. Door gezamenlijk gebruik te maken van features uit de voorlaatste en laatste laag, bereikt SciLT een gebalanceerde prestatie across head- en tail-klassen. Uitgebreide experimenten tonen aan dat SciLT consistent beter presteert dan bestaande methoden, een sterke en praktische baseline vestigt voor wetenschappelijke long-tailed herkenning, en waardevolle richtlijnen biedt voor het aanpassen van foundation-modellen aan wetenschappelijke data met substantiële domeinverschuivingen.
English
Long-tailed recognition has benefited from foundation models and fine-tuning paradigms, yet existing studies and benchmarks are mainly confined to natural image domains, where pre-training and fine-tuning data share similar distributions. In contrast, scientific images exhibit distinct visual characteristics and supervision signals, raising questions about the effectiveness of fine-tuning foundation models in such settings. In this work, we investigate scientific long-tailed recognition under a purely visual and parameter-efficient fine-tuning (PEFT) paradigm. Experiments on three scientific benchmarks show that fine-tuning foundation models yields limited gains, and reveal that penultimate-layer features play an important role, particularly for tail classes. Motivated by these findings, we propose SciLT, a framework that exploits multi-level representations through adaptive feature fusion and dual-supervision learning. By jointly leveraging penultimate- and final-layer features, SciLT achieves balanced performance across head and tail classes. Extensive experiments demonstrate that SciLT consistently outperforms existing methods, establishing a strong and practical baseline for scientific long-tailed recognition and providing valuable guidance for adapting foundation models to scientific data with substantial domain shifts.