GLiNER2: Um Sistema Eficiente de Extração de Informações Multi-Tarefa com Interface Orientada por Esquema
GLiNER2: An Efficient Multi-Task Information Extraction System with Schema-Driven Interface
July 24, 2025
Autores: Urchade Zaratiana, Gil Pasternak, Oliver Boyd, George Hurn-Maloney, Ash Lewis
cs.AI
Resumo
A extração de informação (IE) é fundamental para inúmeras aplicações de PLN, porém as soluções existentes frequentemente exigem modelos especializados para diferentes tarefas ou dependem de modelos de linguagem grandes e computacionalmente caros. Apresentamos o GLiNER2, uma estrutura unificada que aprimora a arquitetura original do GLiNER para suportar reconhecimento de entidades nomeadas, classificação de texto e extração de dados estruturados hierárquicos em um único modelo eficiente. Construído sobre uma arquitetura de codificador de transformadores pré-treinados, o GLiNER2 mantém eficiência em CPU e tamanho compacto, ao mesmo tempo que introduz composição multitarefa por meio de uma interface intuitiva baseada em esquemas. Nossos experimentos demonstram desempenho competitivo em tarefas de extração e classificação, com melhorias substanciais na acessibilidade de implantação em comparação com alternativas baseadas em LLM. Lançamos o GLiNER2 como uma biblioteca de código aberto instalável via pip, com modelos pré-treinados e documentação disponíveis em https://github.com/fastino-ai/GLiNER2.
English
Information extraction (IE) is fundamental to numerous NLP applications, yet
existing solutions often require specialized models for different tasks or rely
on computationally expensive large language models. We present GLiNER2, a
unified framework that enhances the original GLiNER architecture to support
named entity recognition, text classification, and hierarchical structured data
extraction within a single efficient model. Built pretrained transformer
encoder architecture, GLiNER2 maintains CPU efficiency and compact size while
introducing multi-task composition through an intuitive schema-based interface.
Our experiments demonstrate competitive performance across extraction and
classification tasks with substantial improvements in deployment accessibility
compared to LLM-based alternatives. We release GLiNER2 as an open-source
pip-installable library with pre-trained models and documentation at
https://github.com/fastino-ai/GLiNER2.