ChatPaper.aiChatPaper

Textsegmentierung: Ein universeller Ansatz für robuste, effiziente und anpassungsfähige Satzsegmentierung.

Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

June 24, 2024
Autoren: Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl
cs.AI

Zusammenfassung

Das Segmentieren von Text in Sätze spielt eine frühe und entscheidende Rolle in vielen NLP-Systemen. Dies wird in der Regel durch den Einsatz regelbasierter oder statistischer Methoden erreicht, die auf lexikalischen Merkmalen wie Satzzeichen beruhen. Obwohl einige neuere Arbeiten nicht mehr ausschließlich auf Satzzeichen angewiesen sind, stellen wir fest, dass keine vorherige Methode alle drei Anforderungen erfüllt: (i) Robustheit gegenüber fehlenden Satzzeichen, (ii) effektive Anpassungsfähigkeit an neue Domänen und (iii) hohe Effizienz. Wir stellen ein neues Modell - Segment any Text (SaT) - vor, um dieses Problem zu lösen. Zur Verbesserung der Robustheit schlagen wir ein neues Pretraining-Schema vor, das eine geringere Abhängigkeit von Satzzeichen gewährleistet. Um die Anpassungsfähigkeit zu adressieren, führen wir eine zusätzliche Phase des parameter-effizienten Feintunings ein, die eine Spitzenleistung in verschiedenen Domänen wie Versen aus Liedtexten und Rechtsdokumenten etabliert. Auf dem Weg führen wir architektonische Modifikationen ein, die zu einer dreifachen Geschwindigkeitssteigerung im Vergleich zum bisherigen Stand der Technik führen und eine irrtümliche Abhängigkeit von weit entferntem Kontext lösen. Schließlich stellen wir eine Variante unseres Modells mit Feintuning auf einer vielfältigen, mehrsprachigen Mischung von satzsegmentierten Daten vor, die als Plug-and-Play-Ersatz und Verbesserung für bestehende Segmentierungstools fungiert. Insgesamt bieten unsere Beiträge einen universellen Ansatz zum Segmentieren beliebigen Textes. Unsere Methode übertrifft alle Baselines - einschließlich starker LLMs - über 8 Korpora, die verschiedene Domänen und Sprachen umfassen, insbesondere in praktisch relevanten Situationen, in denen der Text schlecht formatiert ist. Unsere Modelle und der Code, einschließlich Dokumentation, sind unter der MIT-Lizenz unter https://huggingface.co/segment-any-text verfügbar.
English
Segmenting text into sentences plays an early and crucial role in many NLP systems. This is commonly achieved by using rule-based or statistical methods relying on lexical features such as punctuation. Although some recent works no longer exclusively rely on punctuation, we find that no prior method achieves all of (i) robustness to missing punctuation, (ii) effective adaptability to new domains, and (iii) high efficiency. We introduce a new model - Segment any Text (SaT) - to solve this problem. To enhance robustness, we propose a new pretraining scheme that ensures less reliance on punctuation. To address adaptability, we introduce an extra stage of parameter-efficient fine-tuning, establishing state-of-the-art performance in distinct domains such as verses from lyrics and legal documents. Along the way, we introduce architectural modifications that result in a threefold gain in speed over the previous state of the art and solve spurious reliance on context far in the future. Finally, we introduce a variant of our model with fine-tuning on a diverse, multilingual mixture of sentence-segmented data, acting as a drop-in replacement and enhancement for existing segmentation tools. Overall, our contributions provide a universal approach for segmenting any text. Our method outperforms all baselines - including strong LLMs - across 8 corpora spanning diverse domains and languages, especially in practically relevant situations where text is poorly formatted. Our models and code, including documentation, are available at https://huggingface.co/segment-any-text under the MIT license.

Summary

AI-Generated Summary

PDF163November 29, 2024