GLiNER2: Эффективная система извлечения информации с многоцелевой архитектурой и интерфейсом, управляемым схемой
GLiNER2: An Efficient Multi-Task Information Extraction System with Schema-Driven Interface
July 24, 2025
Авторы: Urchade Zaratiana, Gil Pasternak, Oliver Boyd, George Hurn-Maloney, Ash Lewis
cs.AI
Аннотация
Извлечение информации (IE) является основополагающим для многочисленных приложений NLP, однако существующие решения часто требуют специализированных моделей для различных задач или полагаются на вычислительно затратные большие языковые модели. Мы представляем GLiNER2, унифицированную архитектуру, которая улучшает оригинальную GLiNER для поддержки распознавания именованных сущностей, классификации текста и извлечения иерархически структурированных данных в рамках одной эффективной модели. Построенная на предобученной архитектуре трансформерного кодировщика, GLiNER2 сохраняет эффективность на CPU и компактный размер, одновременно вводя многозадачную композицию через интуитивно понятный интерфейс на основе схем. Наши эксперименты демонстрируют конкурентоспособную производительность в задачах извлечения и классификации с существенным улучшением доступности развертывания по сравнению с альтернативами на основе LLM. Мы выпускаем GLiNER2 как открытую библиотеку, устанавливаемую через pip, с предобученными моделями и документацией на https://github.com/fastino-ai/GLiNER2.
English
Information extraction (IE) is fundamental to numerous NLP applications, yet
existing solutions often require specialized models for different tasks or rely
on computationally expensive large language models. We present GLiNER2, a
unified framework that enhances the original GLiNER architecture to support
named entity recognition, text classification, and hierarchical structured data
extraction within a single efficient model. Built pretrained transformer
encoder architecture, GLiNER2 maintains CPU efficiency and compact size while
introducing multi-task composition through an intuitive schema-based interface.
Our experiments demonstrate competitive performance across extraction and
classification tasks with substantial improvements in deployment accessibility
compared to LLM-based alternatives. We release GLiNER2 as an open-source
pip-installable library with pre-trained models and documentation at
https://github.com/fastino-ai/GLiNER2.