SciLT: Классификация с длинным хвостом в научных областях изображений
SciLT: Long-Tailed Classification in Scientific Image Domains
April 4, 2026
Авторы: Jiahao Chen, Bing Su
cs.AI
Аннотация
Распознавание с длинным хвостом получило преимущества от фоновых моделей и парадигм тонкой настройки, однако существующие исследования и бенчмарки в основном ограничены областями естественных изображений, где данные предварительного обучения и тонкой настройки имеют схожие распределения. В отличие от этого, научные изображения демонстрируют отличные визуальные характеристики и сигналы supervision, что ставит под вопрос эффективность тонкой настройки фоновых моделей в таких условиях. В данной работе мы исследуем научное распознавание с длинным хвостом в рамках чисто визуальной и параметрически эффективной парадигмы тонкой настройки (PEFT). Эксперименты на трех научных бенчмарках показывают, что тонкая настройка фоновых моделей дает ограниченный выигрыш, и выявляют, что признаки предпоследнего слоя играют важную роль, особенно для хвостовых классов. Мотивированные этими результатами, мы предлагаем SciLT — фреймворк, который использует многоуровневые представления посредством адаптивного слияния признаков и обучения с двойным supervision. Совместно используя признаки предпоследнего и конечного слоев, SciLT достигает сбалансированной производительности на головных и хвостовых классах. Многочисленные эксперименты демонстрируют, что SciLT последовательно превосходит существующие методы, устанавливая надежный и практичный базовый уровень для научного распознавания с длинным хвостом и предоставляя ценное руководство по адаптации фоновых моделей к научным данным со значительными доменными сдвигами.
English
Long-tailed recognition has benefited from foundation models and fine-tuning paradigms, yet existing studies and benchmarks are mainly confined to natural image domains, where pre-training and fine-tuning data share similar distributions. In contrast, scientific images exhibit distinct visual characteristics and supervision signals, raising questions about the effectiveness of fine-tuning foundation models in such settings. In this work, we investigate scientific long-tailed recognition under a purely visual and parameter-efficient fine-tuning (PEFT) paradigm. Experiments on three scientific benchmarks show that fine-tuning foundation models yields limited gains, and reveal that penultimate-layer features play an important role, particularly for tail classes. Motivated by these findings, we propose SciLT, a framework that exploits multi-level representations through adaptive feature fusion and dual-supervision learning. By jointly leveraging penultimate- and final-layer features, SciLT achieves balanced performance across head and tail classes. Extensive experiments demonstrate that SciLT consistently outperforms existing methods, establishing a strong and practical baseline for scientific long-tailed recognition and providing valuable guidance for adapting foundation models to scientific data with substantial domain shifts.