SciLT: Classificazione a Coda Lunga nei Domini di Immagini Scientifiche
SciLT: Long-Tailed Classification in Scientific Image Domains
April 4, 2026
Autori: Jiahao Chen, Bing Su
cs.AI
Abstract
Il riconoscimento a coda lunga ha beneficiato di modelli di base e paradigmi di fine-tuning, tuttavia gli studi e i benchmark esistenti sono principalmente confinati a domini di immagini naturali, dove i dati di pre-addestramento e di fine-tuning condividono distribuzioni simili. Al contrario, le immagini scientifiche presentano caratteristiche visive e segnali di supervisione distinti, sollevando interrogativi sull'efficacia del fine-tuning di modelli di base in tali contesti. In questo lavoro, investigiamo il riconoscimento scientifico a coda lunga sotto un paradigma puramente visivo e di fine-tuning efficiente in parametri (PEFT). Esperimenti su tre benchmark scientifici dimostrano che il fine-tuning di modelli di base produce guadagni limitati e rivelano che le caratteristiche del penultimo strato svolgono un ruolo importante, in particolare per le classi di coda. Sulla scorta di questi risultati, proponiamo SciLT, un framework che sfrutta rappresentazioni multi-livello attraverso fusione adattiva delle caratteristiche e apprendimento a doppia supervisione. Sfruttando congiuntamente le caratteristiche del penultimo strato e dello strato finale, SciLT raggiunge prestazioni bilanciate tra classi testa e coda. Esperimenti estensivi dimostrano che SciLT supera costantemente i metodi esistenti, stabilendo una baseline solida e pratica per il riconoscimento scientifico a coda lunga e fornendo una guida preziosa per l'adattamento di modelli di base a dati scientifici con sostanziali cambiamenti di dominio.
English
Long-tailed recognition has benefited from foundation models and fine-tuning paradigms, yet existing studies and benchmarks are mainly confined to natural image domains, where pre-training and fine-tuning data share similar distributions. In contrast, scientific images exhibit distinct visual characteristics and supervision signals, raising questions about the effectiveness of fine-tuning foundation models in such settings. In this work, we investigate scientific long-tailed recognition under a purely visual and parameter-efficient fine-tuning (PEFT) paradigm. Experiments on three scientific benchmarks show that fine-tuning foundation models yields limited gains, and reveal that penultimate-layer features play an important role, particularly for tail classes. Motivated by these findings, we propose SciLT, a framework that exploits multi-level representations through adaptive feature fusion and dual-supervision learning. By jointly leveraging penultimate- and final-layer features, SciLT achieves balanced performance across head and tail classes. Extensive experiments demonstrate that SciLT consistently outperforms existing methods, establishing a strong and practical baseline for scientific long-tailed recognition and providing valuable guidance for adapting foundation models to scientific data with substantial domain shifts.