ChatPaper.aiChatPaper

LoFT: オープンワールドシナリオにおけるロングテール半教師あり学習のためのパラメータ効率型ファインチューニング

LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

September 12, 2025
著者: Jiahao Chen, Zhiyuan Huang, Yurou Liu, Bing Su
cs.AI

要旨

ロングテール学習は、実世界のシナリオにおける幅広い適用可能性から、近年注目を集めています。既存のアプローチの中でも、ロングテール半教師あり学習(LTSSL)は、不均衡なラベル付きデータセットに大量の未ラベルデータを組み込むことで、効果的な解決策として登場しました。しかし、従来のLTSSL手法の多くはモデルをゼロから訓練するように設計されており、過信や低品質の擬似ラベルといった問題を引き起こすことがしばしばあります。これらの課題に対処するため、我々はLTSSLを基盤モデルのファインチューニングパラダイムに拡張し、新たなフレームワーク「LoFT(ロングテール半教師あり学習におけるパラメータ効率的ファインチューニング)」を提案します。ファインチューニングされた基盤モデルがより信頼性の高い擬似ラベルを生成し、不均衡学習に寄与することを実証します。さらに、未ラベルデータに分布外(OOD)サンプルが含まれる可能性があるオープンワールド条件下での半教師あり学習という、より実践的な設定を探求します。この問題に対処するため、識別能力を向上させる「LoFT-OW(オープンワールドシナリオ下のLoFT)」を提案します。複数のベンチマークでの実験結果は、従来手法と比較して未ラベルデータの1%のみを利用した場合でも、我々の手法が優れた性能を達成することを示しています。
English
Long-tailed learning has garnered increasing attention due to its wide applicability in real-world scenarios. Among existing approaches, Long-Tailed Semi-Supervised Learning (LTSSL) has emerged as an effective solution by incorporating a large amount of unlabeled data into the imbalanced labeled dataset. However, most prior LTSSL methods are designed to train models from scratch, which often leads to issues such as overconfidence and low-quality pseudo-labels. To address these challenges, we extend LTSSL into the foundation model fine-tuning paradigm and propose a novel framework: LoFT (Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning). We demonstrate that fine-tuned foundation models can generate more reliable pseudolabels, thereby benefiting imbalanced learning. Furthermore, we explore a more practical setting by investigating semi-supervised learning under open-world conditions, where the unlabeled data may include out-of-distribution (OOD) samples. To handle this problem, we propose LoFT-OW (LoFT under Open-World scenarios) to improve the discriminative ability. Experimental results on multiple benchmarks demonstrate that our method achieves superior performance compared to previous approaches, even when utilizing only 1\% of the unlabeled data compared with previous works.
PDF132September 15, 2025