ChatPaper.aiChatPaper

Segmentare Qualsiasi Testo: Un Approccio Universale per la Segmentazione di Frasi Robusta, Efficiente e Adattabile

Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

June 24, 2024
Autori: Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl
cs.AI

Abstract

La segmentazione del testo in frasi svolge un ruolo iniziale e cruciale in molti sistemi di NLP. Questo viene comunemente ottenuto utilizzando metodi basati su regole o statistici che si affidano a caratteristiche lessicali come la punteggiatura. Sebbene alcuni lavori recenti non si basino più esclusivamente sulla punteggiatura, osserviamo che nessun metodo precedente riesce a raggiungere tutti i seguenti obiettivi: (i) robustezza alla mancanza di punteggiatura, (ii) efficace adattabilità a nuovi domini e (iii) alta efficienza. Introduciamo un nuovo modello - Segment any Text (SaT) - per risolvere questo problema. Per migliorare la robustezza, proponiamo un nuovo schema di pre-addestramento che garantisce una minore dipendenza dalla punteggiatura. Per affrontare l'adattabilità, introduciamo una fase aggiuntiva di fine-tuning efficiente in termini di parametri, stabilendo prestazioni all'avanguardia in domini distinti come versi di testi musicali e documenti legali. Nel frattempo, introduciamo modifiche architetturali che portano a un guadagno triplo in velocità rispetto allo stato dell'arte precedente e risolvono la dipendenza spuria dal contesto lontano nel futuro. Infine, introduciamo una variante del nostro modello con fine-tuning su una miscela diversificata e multilingue di dati segmentati in frasi, che funge da sostituto diretto e miglioramento per gli strumenti di segmentazione esistenti. Nel complesso, i nostri contributi forniscono un approccio universale per segmentare qualsiasi testo. Il nostro metodo supera tutte le baseline - inclusi potenti LLM - su 8 corpora che coprono domini e lingue diverse, specialmente in situazioni praticamente rilevanti in cui il testo è mal formattato. I nostri modelli e il codice, inclusa la documentazione, sono disponibili su https://huggingface.co/segment-any-text sotto licenza MIT.
English
Segmenting text into sentences plays an early and crucial role in many NLP systems. This is commonly achieved by using rule-based or statistical methods relying on lexical features such as punctuation. Although some recent works no longer exclusively rely on punctuation, we find that no prior method achieves all of (i) robustness to missing punctuation, (ii) effective adaptability to new domains, and (iii) high efficiency. We introduce a new model - Segment any Text (SaT) - to solve this problem. To enhance robustness, we propose a new pretraining scheme that ensures less reliance on punctuation. To address adaptability, we introduce an extra stage of parameter-efficient fine-tuning, establishing state-of-the-art performance in distinct domains such as verses from lyrics and legal documents. Along the way, we introduce architectural modifications that result in a threefold gain in speed over the previous state of the art and solve spurious reliance on context far in the future. Finally, we introduce a variant of our model with fine-tuning on a diverse, multilingual mixture of sentence-segmented data, acting as a drop-in replacement and enhancement for existing segmentation tools. Overall, our contributions provide a universal approach for segmenting any text. Our method outperforms all baselines - including strong LLMs - across 8 corpora spanning diverse domains and languages, especially in practically relevant situations where text is poorly formatted. Our models and code, including documentation, are available at https://huggingface.co/segment-any-text under the MIT license.
PDF163November 29, 2024