GLiClass: シーケンス分類タスクのための汎用軽量モデル
GLiClass: Generalist Lightweight Model for Sequence Classification Tasks
August 11, 2025
著者: Ihor Stepanov, Mykhailo Shtopko, Dmytro Vodianytskyi, Oleksandr Lukashov, Alexander Yavorskyi, Mykyta Yaroshenko
cs.AI
要旨
分類はAIアプリケーションにおいて最も広く行われるタスクの一つであり、データのフィルタリング、ソート、カテゴリ化の第一段階として頻繁に利用されます。現代のAIシステムは大量の入力データを処理する必要があり、パイプラインの初期段階でのエラーが下流に伝播する可能性があるため、高い効率性と精度を達成することが極めて重要です。さらに、分類の要件はユーザーのニーズに基づいて動的に変化する可能性があり、強力なゼロショット能力を持つモデルが必要とされます。生成型LLMはその汎用性からゼロショット分類の主流となっていますが、指示の一貫性の欠如や計算効率の低さが課題です。RAGパイプラインでリランカーとしてよく使用されるクロスエンコーダーは、異なるボトルネックに直面しています。テキストとラベルのペアを順次処理する必要があり、ラベルセットが大きい場合に効率が大幅に低下します。埋め込みベースのアプローチは効率性に優れていますが、論理的および意味的制約を含む複雑なシナリオでは苦戦します。我々は、GLiNERアーキテクチャをシーケンス分類タスクに適応させた新しい手法であるGLiClassを提案します。このアプローチは、埋め込みベースの手法に匹敵する高い精度と効率性を実現しつつ、ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持します。さらに、近接方策最適化(PPO)を多ラベルテキスト分類に適応させ、データが少ない状況や人間のフィードバックからの分類器のトレーニングを可能にしました。
English
Classification is one of the most widespread tasks in AI applications,
serving often as the first step in filtering, sorting, and categorizing data.
Since modern AI systems must handle large volumes of input data and early
pipeline stages can propagate errors downstream, achieving high efficiency and
accuracy is critical. Moreover, classification requirements can change
dynamically based on user needs, necessitating models with strong zero-shot
capabilities. While generative LLMs have become mainstream for zero-shot
classification due to their versatility, they suffer from inconsistent
instruction following and computational inefficiency. Cross-encoders, commonly
used as rerankers in RAG pipelines, face a different bottleneck: they must
process text-label pairs sequentially, significantly reducing efficiency with
large label sets. Embedding-based approaches offer good efficiency but struggle
with complex scenarios involving logical and semantic constraints. We propose
GLiClass, a novel method that adapts the GLiNER architecture for sequence
classification tasks. Our approach achieves strong accuracy and efficiency
comparable to embedding-based methods, while maintaining the flexibility needed
for zero-shot and few-shot learning scenarios. Additionally, we adapted
proximal policy optimization (PPO) for multi-label text classification,
enabling training classifiers in data-sparse conditions or from human feedback.