SciLT: Clasificación de Cola Larga en Dominios de Imágenes Científicas

Resumen

El reconocimiento de cola larga se ha beneficiado de los modelos base y los paradigmas de ajuste fino, sin embargo, los estudios y puntos de referencia existentes se limitan principalmente a dominios de imágenes naturales, donde los datos de preentrenamiento y ajuste fino comparten distribuciones similares. Por el contrario, las imágenes científicas presentan características visuales y señales de supervisión distintas, lo que plantea dudas sobre la efectividad de ajustar modelos base en tales contextos. En este trabajo, investigamos el reconocimiento científico de cola larga bajo un paradigma puramente visual y de ajuste fino eficiente en parámetros (PEFT). Los experimentos en tres puntos de referencia científicos muestran que el ajuste fino de modelos base produce ganancias limitadas, y revelan que las características de la penúltima capa juegan un papel importante, particularmente para las clases de cola. Motivados por estos hallazgos, proponemos SciLT, un marco que explota representaciones multinivel mediante fusión adaptativa de características y aprendizaje de doble supervisión. Al aprovechar conjuntamente las características de la penúltima capa y de la capa final, SciLT logra un rendimiento equilibrado entre las clases cabeza y cola. Experimentos exhaustivos demuestran que SciLT supera consistentemente a los métodos existentes, estableciendo una base sólida y práctica para el reconocimiento científico de cola larga y proporcionando una guía valiosa para adaptar modelos base a datos científicos con desplazamientos de dominio sustanciales.

English

Long-tailed recognition has benefited from foundation models and fine-tuning paradigms, yet existing studies and benchmarks are mainly confined to natural image domains, where pre-training and fine-tuning data share similar distributions. In contrast, scientific images exhibit distinct visual characteristics and supervision signals, raising questions about the effectiveness of fine-tuning foundation models in such settings. In this work, we investigate scientific long-tailed recognition under a purely visual and parameter-efficient fine-tuning (PEFT) paradigm. Experiments on three scientific benchmarks show that fine-tuning foundation models yields limited gains, and reveal that penultimate-layer features play an important role, particularly for tail classes. Motivated by these findings, we propose SciLT, a framework that exploits multi-level representations through adaptive feature fusion and dual-supervision learning. By jointly leveraging penultimate- and final-layer features, SciLT achieves balanced performance across head and tail classes. Extensive experiments demonstrate that SciLT consistently outperforms existing methods, establishing a strong and practical baseline for scientific long-tailed recognition and providing valuable guidance for adapting foundation models to scientific data with substantial domain shifts.

SciLT: Clasificación de Cola Larga en Dominios de Imágenes Científicas

SciLT: Long-Tailed Classification in Scientific Image Domains

Resumen

Support