Сегментация любого текста: универсальный подход к надежной, эффективной и адаптивной сегментации предложений
Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation
June 24, 2024
Авторы: Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl
cs.AI
Аннотация
Сегментация текста на предложения играет раннюю и важную роль во многих системах обработки естественного языка (NLP). Обычно это достигается с использованием правиловых или статистических методов, опирающихся на лексические особенности, такие как пунктуация. Хотя некоторые недавние работы уже не полагаются исключительно на пунктуацию, мы обнаружили, что ни один из предыдущих методов не обеспечивает (i) устойчивость к отсутствующей пунктуации, (ii) эффективную адаптируемость к новым областям и (iii) высокую эффективность. Мы представляем новую модель - Segment any Text (SaT) - для решения этой проблемы. Для повышения устойчивости мы предлагаем новую схему предварительного обучения, которая обеспечивает меньшую зависимость от пунктуации. Для решения вопроса адаптируемости мы вводим дополнительный этап параметрически эффективного дообучения, устанавливающий передовые показатели производительности в различных областях, таких как стихи из песен и юридические документы. По пути мы вносим архитектурные модификации, которые приводят к трехкратному увеличению скорости по сравнению с предыдущим передовым уровнем и решают проблему случайной зависимости от контекста в далеком будущем. Наконец, мы представляем вариант нашей модели с дообучением на разнообразных многоязычных смесях данных, разделенных на предложения, действуя как замена и улучшение для существующих инструментов сегментации. В целом, наши вклады предоставляют универсальный подход к сегментации любого текста. Наш метод превосходит все базовые показатели - включая сильные языковые модели - на 8 корпусах, охватывающих различные области и языки, особенно в практически значимых ситуациях, где текст плохо форматирован. Наши модели и код, включая документацию, доступны по адресу https://huggingface.co/segment-any-text под лицензией MIT.
English
Segmenting text into sentences plays an early and crucial role in many NLP
systems. This is commonly achieved by using rule-based or statistical methods
relying on lexical features such as punctuation. Although some recent works no
longer exclusively rely on punctuation, we find that no prior method achieves
all of (i) robustness to missing punctuation, (ii) effective adaptability to
new domains, and (iii) high efficiency. We introduce a new model - Segment any
Text (SaT) - to solve this problem. To enhance robustness, we propose a new
pretraining scheme that ensures less reliance on punctuation. To address
adaptability, we introduce an extra stage of parameter-efficient fine-tuning,
establishing state-of-the-art performance in distinct domains such as verses
from lyrics and legal documents. Along the way, we introduce architectural
modifications that result in a threefold gain in speed over the previous state
of the art and solve spurious reliance on context far in the future. Finally,
we introduce a variant of our model with fine-tuning on a diverse, multilingual
mixture of sentence-segmented data, acting as a drop-in replacement and
enhancement for existing segmentation tools. Overall, our contributions provide
a universal approach for segmenting any text. Our method outperforms all
baselines - including strong LLMs - across 8 corpora spanning diverse domains
and languages, especially in practically relevant situations where text is
poorly formatted. Our models and code, including documentation, are available
at https://huggingface.co/segment-any-text under the MIT license.Summary
AI-Generated Summary