ChatPaper.aiChatPaper

GLiClass: Algemeen lichtgewicht model voor sequentieclassificatietaken

GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

August 11, 2025
Auteurs: Ihor Stepanov, Mykhailo Shtopko, Dmytro Vodianytskyi, Oleksandr Lukashov, Alexander Yavorskyi, Mykyta Yaroshenko
cs.AI

Samenvatting

Classificatie is een van de meest voorkomende taken in AI-toepassingen en dient vaak als de eerste stap bij het filteren, sorteren en categoriseren van gegevens. Omdat moderne AI-systemen grote hoeveelheden invoergegevens moeten verwerken en vroege fasen in de pipeline fouten kunnen doorgeven naar latere stappen, is het bereiken van hoge efficiëntie en nauwkeurigheid cruciaal. Bovendien kunnen classificatie-eisen dynamisch veranderen op basis van gebruikersbehoeften, wat modellen vereist met sterke zero-shot-mogelijkheden. Hoewel generatieve LLM's mainstream zijn geworden voor zero-shot-classificatie vanwege hun veelzijdigheid, lijden ze onder inconsistente instructievolging en computationele inefficiëntie. Cross-encoders, die vaak worden gebruikt als herrangschikkers in RAG-pipelines, kampen met een ander knelpunt: ze moeten tekst-label-paren sequentieel verwerken, wat de efficiëntie aanzienlijk vermindert bij grote labelsets. Embedding-gebaseerde benaderingen bieden goede efficiëntie, maar worstelen met complexe scenario's die logische en semantische beperkingen omvatten. Wij stellen GLiClass voor, een nieuwe methode die de GLiNER-architectuur aanpast voor sequentieclassificatietaken. Onze aanpak bereikt een sterke nauwkeurigheid en efficiëntie die vergelijkbaar is met embedding-gebaseerde methoden, terwijl de flexibiliteit behouden blijft die nodig is voor zero-shot en few-shot leeromstandigheden. Daarnaast hebben we proximal policy optimization (PPO) aangepast voor multi-label tekstclassificatie, waardoor het mogelijk wordt om classificatoren te trainen onder omstandigheden met weinig gegevens of op basis van menselijke feedback.
English
Classification is one of the most widespread tasks in AI applications, serving often as the first step in filtering, sorting, and categorizing data. Since modern AI systems must handle large volumes of input data and early pipeline stages can propagate errors downstream, achieving high efficiency and accuracy is critical. Moreover, classification requirements can change dynamically based on user needs, necessitating models with strong zero-shot capabilities. While generative LLMs have become mainstream for zero-shot classification due to their versatility, they suffer from inconsistent instruction following and computational inefficiency. Cross-encoders, commonly used as rerankers in RAG pipelines, face a different bottleneck: they must process text-label pairs sequentially, significantly reducing efficiency with large label sets. Embedding-based approaches offer good efficiency but struggle with complex scenarios involving logical and semantic constraints. We propose GLiClass, a novel method that adapts the GLiNER architecture for sequence classification tasks. Our approach achieves strong accuracy and efficiency comparable to embedding-based methods, while maintaining the flexibility needed for zero-shot and few-shot learning scenarios. Additionally, we adapted proximal policy optimization (PPO) for multi-label text classification, enabling training classifiers in data-sparse conditions or from human feedback.
PDF92August 12, 2025