SciLT: Klassifikation mit langen Verteilungen in wissenschaftlichen Bilddomänen

Zusammenfassung

Die Erkennung langschwänziger Verteilungen hat von Foundation-Modellen und Fine-Tuning-Paradigmen profitiert, doch bestehende Studien und Benchmarks beschränken sich hauptsächlich auf natürliche Bilddomänen, bei denen Vorverarbeitungs- und Fine-Tuning-Daten ähnliche Verteilungen aufweisen. Im Gegensatz dazu weisen wissenschaftliche Bilder distincte visuelle Charakteristika und Aufsichtssignale auf, was Fragen zur Wirksamkeit des Fine-Tunings von Foundation-Modellen in solchen Settings aufwirft. In dieser Arbeit untersuchen wir wissenschaftliche Long-Tailed-Recognition unter einem rein visuellen und parameter-effizienten Fine-Tuning-Paradigma (PEFT). Experimente auf drei wissenschaftlichen Benchmarks zeigen, dass das Fine-Tuning von Foundation-Modellen nur begrenzte Verbesserungen bringt, und offenbaren, dass Merkmale der vorletzten Schicht eine wichtige Rolle spielen, insbesondere für Tail-Klassen. Aufbauend auf diesen Erkenntnissen schlagen wir SciLT vor, ein Framework, das mehrstufige Repräsentationen durch adaptive Merkmalsfusion und Dual-Supervision-Learning nutzt. Durch die gemeinsame Verwendung von Merkmalen der vorletzten und finalen Schicht erzielt SciLT eine ausgewogene Leistung über Head- und Tail-Klassen hinweg. Umfangreiche Experimente demonstrieren, dass SciLT bestehende Methoden konsistent übertrifft, eine robuste und praktische Baseline für wissenschaftliche Long-Tailed-Recognition etabliert und wertvolle Leitlinien für die Anpassung von Foundation-Modellen an wissenschaftliche Daten mit substantiellen Domänenverschiebungen liefert.

English

Long-tailed recognition has benefited from foundation models and fine-tuning paradigms, yet existing studies and benchmarks are mainly confined to natural image domains, where pre-training and fine-tuning data share similar distributions. In contrast, scientific images exhibit distinct visual characteristics and supervision signals, raising questions about the effectiveness of fine-tuning foundation models in such settings. In this work, we investigate scientific long-tailed recognition under a purely visual and parameter-efficient fine-tuning (PEFT) paradigm. Experiments on three scientific benchmarks show that fine-tuning foundation models yields limited gains, and reveal that penultimate-layer features play an important role, particularly for tail classes. Motivated by these findings, we propose SciLT, a framework that exploits multi-level representations through adaptive feature fusion and dual-supervision learning. By jointly leveraging penultimate- and final-layer features, SciLT achieves balanced performance across head and tail classes. Extensive experiments demonstrate that SciLT consistently outperforms existing methods, establishing a strong and practical baseline for scientific long-tailed recognition and providing valuable guidance for adapting foundation models to scientific data with substantial domain shifts.

SciLT: Klassifikation mit langen Verteilungen in wissenschaftlichen Bilddomänen

SciLT: Long-Tailed Classification in Scientific Image Domains

Zusammenfassung

Support