LoFT: 개방형 세계 시나리오에서의 장꼬리 반지도 학습을 위한 매개변수 효율적 미세 조정
LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios
September 12, 2025
저자: Jiahao Chen, Zhiyuan Huang, Yurou Liu, Bing Su
cs.AI
초록
실제 세계 시나리오에서의 광범위한 적용 가능성으로 인해 롱테일 학습(Long-tailed learning)은 점점 더 많은 관심을 받고 있습니다. 기존 접근법 중에서, 불균형한 레이블 데이터셋에 대량의 비레이블 데이터를 통합하는 롱테일 준지도 학습(Long-Tailed Semi-Supervised Learning, LTSSL)이 효과적인 해결책으로 부상했습니다. 그러나 대부분의 기존 LTSSL 방법은 모델을 처음부터 학습하도록 설계되어, 과도한 자신감(overconfidence)과 저품질의 의사 레이블(pseudo-labels)과 같은 문제를 초래하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 LTSSL을 파운데이션 모델(foundation model) 미세 조정(fine-tuning) 패러다임으로 확장하고, 새로운 프레임워크인 LoFT(Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning)를 제안합니다. 우리는 미세 조정된 파운데이션 모델이 더 신뢰할 수 있는 의사 레이블을 생성할 수 있음을 보여주며, 이를 통해 불균형 학습에 도움을 줄 수 있음을 입증합니다. 더 나아가, 우리는 비레이블 데이터가 분포 외(out-of-distribution, OOD) 샘플을 포함할 수 있는 개방형 세계(open-world) 조건에서의 준지도 학습을 조사함으로써 더 실용적인 설정을 탐구합니다. 이 문제를 해결하기 위해, 우리는 LoFT-OW(LoFT under Open-World scenarios)를 제안하여 판별 능력을 향상시킵니다. 여러 벤치마크에서의 실험 결과는 우리의 방법이 이전 접근법과 비교했을 때, 비레이블 데이터의 1%만 사용하더라도 우수한 성능을 달성함을 보여줍니다.
English
Long-tailed learning has garnered increasing attention due to its wide
applicability in real-world scenarios. Among existing approaches, Long-Tailed
Semi-Supervised Learning (LTSSL) has emerged as an effective solution by
incorporating a large amount of unlabeled data into the imbalanced labeled
dataset. However, most prior LTSSL methods are designed to train models from
scratch, which often leads to issues such as overconfidence and low-quality
pseudo-labels. To address these challenges, we extend LTSSL into the foundation
model fine-tuning paradigm and propose a novel framework: LoFT (Long-tailed
semi-supervised learning via parameter-efficient Fine-Tuning). We demonstrate
that fine-tuned foundation models can generate more reliable pseudolabels,
thereby benefiting imbalanced learning. Furthermore, we explore a more
practical setting by investigating semi-supervised learning under open-world
conditions, where the unlabeled data may include out-of-distribution (OOD)
samples. To handle this problem, we propose LoFT-OW (LoFT under Open-World
scenarios) to improve the discriminative ability. Experimental results on
multiple benchmarks demonstrate that our method achieves superior performance
compared to previous approaches, even when utilizing only 1\% of the unlabeled
data compared with previous works.