ChatPaper.aiChatPaper

Segmenter Tout Texte : Une Approche Universelle pour une Segmentation de Phrases Robuste, Efficace et Adaptable

Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

June 24, 2024
Auteurs: Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl
cs.AI

Résumé

La segmentation de texte en phrases joue un rôle précoce et crucial dans de nombreux systèmes de traitement du langage naturel (NLP). Cela est généralement réalisé en utilisant des méthodes basées sur des règles ou des méthodes statistiques s'appuyant sur des caractéristiques lexicales telles que la ponctuation. Bien que certains travaux récents ne dépendent plus exclusivement de la ponctuation, nous constatons qu'aucune méthode antérieure ne parvient à satisfaire simultanément (i) la robustesse face à l'absence de ponctuation, (ii) l'adaptabilité efficace à de nouveaux domaines, et (iii) une grande efficacité. Nous introduisons un nouveau modèle - Segment any Text (SaT) - pour résoudre ce problème. Pour améliorer la robustesse, nous proposons un nouveau schéma de pré-entraînement qui réduit la dépendance à la ponctuation. Pour aborder l'adaptabilité, nous introduisons une étape supplémentaire de fine-tuning paramétrique efficace, établissant des performances de pointe dans des domaines distincts tels que les vers de paroles de chansons et les documents juridiques. Par ailleurs, nous introduisons des modifications architecturales qui entraînent un gain de vitesse triplé par rapport à l'état de l'art précédent et résolvent la dépendance erronée à un contexte lointain. Enfin, nous présentons une variante de notre modèle avec un fine-tuning sur un mélange diversifié et multilingue de données segmentées en phrases, agissant comme un remplacement direct et une amélioration des outils de segmentation existants. Globalement, nos contributions fournissent une approche universelle pour segmenter n'importe quel texte. Notre méthode surpasse toutes les bases de référence - y compris les modèles de langage (LLM) puissants - à travers 8 corpus couvrant divers domaines et langues, en particulier dans des situations pratiques où le texte est mal formaté. Nos modèles et code, y compris la documentation, sont disponibles à l'adresse https://huggingface.co/segment-any-text sous licence MIT.
English
Segmenting text into sentences plays an early and crucial role in many NLP systems. This is commonly achieved by using rule-based or statistical methods relying on lexical features such as punctuation. Although some recent works no longer exclusively rely on punctuation, we find that no prior method achieves all of (i) robustness to missing punctuation, (ii) effective adaptability to new domains, and (iii) high efficiency. We introduce a new model - Segment any Text (SaT) - to solve this problem. To enhance robustness, we propose a new pretraining scheme that ensures less reliance on punctuation. To address adaptability, we introduce an extra stage of parameter-efficient fine-tuning, establishing state-of-the-art performance in distinct domains such as verses from lyrics and legal documents. Along the way, we introduce architectural modifications that result in a threefold gain in speed over the previous state of the art and solve spurious reliance on context far in the future. Finally, we introduce a variant of our model with fine-tuning on a diverse, multilingual mixture of sentence-segmented data, acting as a drop-in replacement and enhancement for existing segmentation tools. Overall, our contributions provide a universal approach for segmenting any text. Our method outperforms all baselines - including strong LLMs - across 8 corpora spanning diverse domains and languages, especially in practically relevant situations where text is poorly formatted. Our models and code, including documentation, are available at https://huggingface.co/segment-any-text under the MIT license.

Summary

AI-Generated Summary

PDF163November 29, 2024