ChatPaper.aiChatPaper

Segmentar Cualquier Texto: Un Enfoque Universal para la Segmentación de Oraciones Robusta, Eficiente y Adaptable

Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

June 24, 2024
Autores: Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl
cs.AI

Resumen

La segmentación de texto en oraciones desempeña un papel temprano y crucial en muchos sistemas de Procesamiento del Lenguaje Natural (PLN). Esto se logra comúnmente mediante métodos basados en reglas o estadísticos que dependen de características léxicas como la puntuación. Aunque algunos trabajos recientes ya no dependen exclusivamente de la puntuación, observamos que ningún método anterior logra cumplir con todos los siguientes aspectos: (i) robustez ante la ausencia de puntuación, (ii) adaptabilidad efectiva a nuevos dominios y (iii) alta eficiencia. Introducimos un nuevo modelo, Segment Any Text (SaT), para resolver este problema. Para mejorar la robustez, proponemos un nuevo esquema de preentrenamiento que reduce la dependencia de la puntuación. Para abordar la adaptabilidad, incorporamos una etapa adicional de ajuste fino eficiente en parámetros, logrando un rendimiento de vanguardia en dominios distintos como versos de letras de canciones y documentos legales. En el proceso, introducimos modificaciones arquitectónicas que resultan en una ganancia de velocidad tres veces mayor respecto al estado del arte anterior y solucionan la dependencia espuria de contextos lejanos en el futuro. Finalmente, presentamos una variante de nuestro modelo con ajuste fino en una mezcla diversa y multilingüe de datos segmentados en oraciones, que funciona como un reemplazo directo y una mejora para las herramientas de segmentación existentes. En general, nuestras contribuciones ofrecen un enfoque universal para segmentar cualquier texto. Nuestro método supera a todos los baselines, incluidos modelos de lenguaje grandes (LLMs), en 8 corpus que abarcan diversos dominios e idiomas, especialmente en situaciones prácticas donde el texto está mal formateado. Nuestros modelos y código, junto con la documentación, están disponibles en https://huggingface.co/segment-any-text bajo la licencia MIT.
English
Segmenting text into sentences plays an early and crucial role in many NLP systems. This is commonly achieved by using rule-based or statistical methods relying on lexical features such as punctuation. Although some recent works no longer exclusively rely on punctuation, we find that no prior method achieves all of (i) robustness to missing punctuation, (ii) effective adaptability to new domains, and (iii) high efficiency. We introduce a new model - Segment any Text (SaT) - to solve this problem. To enhance robustness, we propose a new pretraining scheme that ensures less reliance on punctuation. To address adaptability, we introduce an extra stage of parameter-efficient fine-tuning, establishing state-of-the-art performance in distinct domains such as verses from lyrics and legal documents. Along the way, we introduce architectural modifications that result in a threefold gain in speed over the previous state of the art and solve spurious reliance on context far in the future. Finally, we introduce a variant of our model with fine-tuning on a diverse, multilingual mixture of sentence-segmented data, acting as a drop-in replacement and enhancement for existing segmentation tools. Overall, our contributions provide a universal approach for segmenting any text. Our method outperforms all baselines - including strong LLMs - across 8 corpora spanning diverse domains and languages, especially in practically relevant situations where text is poorly formatted. Our models and code, including documentation, are available at https://huggingface.co/segment-any-text under the MIT license.

Summary

AI-Generated Summary

PDF163November 29, 2024