Segmenteer Elke Tekst: Een Universele Benadering voor Robuuste, Efficiënte en Aanpasbare Zinssegmentatie
Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation
June 24, 2024
Auteurs: Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl
cs.AI
Samenvatting
Het segmenteren van tekst in zinnen speelt een vroege en cruciale rol in veel NLP-systemen. Dit wordt doorgaans bereikt met behulp van op regels gebaseerde of statistische methoden die vertrouwen op lexicale kenmerken zoals interpunctie. Hoewel sommige recente werken niet langer uitsluitend op interpunctie vertrouwen, constateren we dat geen enkele eerdere methode tegelijkertijd (i) robuustheid tegen ontbrekende interpunctie, (ii) effectieve aanpasbaarheid aan nieuwe domeinen, en (iii) hoge efficiëntie bereikt. We introduceren een nieuw model - Segment any Text (SaT) - om dit probleem op te lossen. Om de robuustheid te vergroten, stellen we een nieuw vooraf-trainingsschema voor dat zorgt voor minder afhankelijkheid van interpunctie. Om de aanpasbaarheid aan te pakken, introduceren we een extra fase van parameter-efficiënte fine-tuning, wat leidt tot state-of-the-art prestaties in verschillende domeinen zoals songteksten en juridische documenten. Onderweg introduceren we architectuurwijzigingen die resulteren in een drievoudige snelheidswinst ten opzichte van de vorige state of the art en die een onterechte afhankelijkheid van verre toekomstige context oplossen. Ten slotte introduceren we een variant van ons model met fine-tuning op een diverse, meertalige mix van zin-gesegmenteerde data, die fungeert als een directe vervanging en verbetering van bestaande segmentatietools. Over het algemeen bieden onze bijdragen een universele aanpak voor het segmenteren van elke tekst. Onze methode overtreft alle baselines - inclusief sterke LLM's - over 8 corpora die diverse domeinen en talen bestrijken, vooral in praktisch relevante situaties waarin tekst slecht is opgemaakt. Onze modellen en code, inclusief documentatie, zijn beschikbaar op https://huggingface.co/segment-any-text onder de MIT-licentie.
English
Segmenting text into sentences plays an early and crucial role in many NLP
systems. This is commonly achieved by using rule-based or statistical methods
relying on lexical features such as punctuation. Although some recent works no
longer exclusively rely on punctuation, we find that no prior method achieves
all of (i) robustness to missing punctuation, (ii) effective adaptability to
new domains, and (iii) high efficiency. We introduce a new model - Segment any
Text (SaT) - to solve this problem. To enhance robustness, we propose a new
pretraining scheme that ensures less reliance on punctuation. To address
adaptability, we introduce an extra stage of parameter-efficient fine-tuning,
establishing state-of-the-art performance in distinct domains such as verses
from lyrics and legal documents. Along the way, we introduce architectural
modifications that result in a threefold gain in speed over the previous state
of the art and solve spurious reliance on context far in the future. Finally,
we introduce a variant of our model with fine-tuning on a diverse, multilingual
mixture of sentence-segmented data, acting as a drop-in replacement and
enhancement for existing segmentation tools. Overall, our contributions provide
a universal approach for segmenting any text. Our method outperforms all
baselines - including strong LLMs - across 8 corpora spanning diverse domains
and languages, especially in practically relevant situations where text is
poorly formatted. Our models and code, including documentation, are available
at https://huggingface.co/segment-any-text under the MIT license.