SciLT: Classificação de Cauda Longa em Domínios de Imagens Científicas

Resumo

O reconhecimento de cauda longa tem se beneficiado de modelos de base e paradigmas de ajuste fino, porém estudos e benchmarks existentes estão principalmente confinados a domínios de imagens naturais, onde os dados de pré-treinamento e ajuste fino compartilham distribuições semelhantes. Em contraste, imagens científicas exibem características visuais e sinais de supervisão distintos, levantando questões sobre a eficácia do ajuste fino de modelos de base nesses contextos. Neste trabalho, investigamos o reconhecimento científico de cauda longa sob um paradigma puramente visual e de ajuste fino eficiente em parâmetros (PEFT). Experimentos em três benchmarks científicos mostram que o ajuste fino de modelos de base produz ganhos limitados e revelam que características da penúltima camada desempenham um papel importante, particularmente para classes de cauda. Motivados por essas descobertas, propomos o SciLT, uma estrutura que explora representações multinível através de fusão adaptativa de características e aprendizado de dupla supervisão. Ao aproveitar conjuntamente características da penúltima camada e da camada final, o SciLT alcança desempenho equilibrado entre classes de cabeça e de cauda. Experimentos extensivos demonstram que o SciLT supera consistentemente métodos existentes, estabelecendo uma base sólida e prática para reconhecimento científico de cauda longa e fornecendo orientação valiosa para adaptar modelos de base a dados científicos com mudanças de domínio substanciais.

English

Long-tailed recognition has benefited from foundation models and fine-tuning paradigms, yet existing studies and benchmarks are mainly confined to natural image domains, where pre-training and fine-tuning data share similar distributions. In contrast, scientific images exhibit distinct visual characteristics and supervision signals, raising questions about the effectiveness of fine-tuning foundation models in such settings. In this work, we investigate scientific long-tailed recognition under a purely visual and parameter-efficient fine-tuning (PEFT) paradigm. Experiments on three scientific benchmarks show that fine-tuning foundation models yields limited gains, and reveal that penultimate-layer features play an important role, particularly for tail classes. Motivated by these findings, we propose SciLT, a framework that exploits multi-level representations through adaptive feature fusion and dual-supervision learning. By jointly leveraging penultimate- and final-layer features, SciLT achieves balanced performance across head and tail classes. Extensive experiments demonstrate that SciLT consistently outperforms existing methods, establishing a strong and practical baseline for scientific long-tailed recognition and providing valuable guidance for adapting foundation models to scientific data with substantial domain shifts.

SciLT: Classificação de Cauda Longa em Domínios de Imagens Científicas

SciLT: Long-Tailed Classification in Scientific Image Domains

Resumo

Support