ChatPaper.aiChatPaper

Segmentação de Qualquer Texto: Uma Abordagem Universal para Segmentação de Sentenças Robusta, Eficiente e Adaptável

Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

June 24, 2024
Autores: Markus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl
cs.AI

Resumo

A segmentação de texto em frases desempenha um papel inicial e crucial em muitos sistemas de PNL. Isso é comumente alcançado usando métodos baseados em regras ou estatísticos que dependem de características lexicais, como pontuação. Embora alguns trabalhos recentes não dependam exclusivamente de pontuação, observamos que nenhum método anterior alcança (i) robustez à ausência de pontuação, (ii) adaptabilidade eficaz a novos domínios e (iii) alta eficiência. Introduzimos um novo modelo - Segment any Text (SaT) - para resolver esse problema. Para aumentar a robustez, propomos um novo esquema de pré-treinamento que garante menor dependência da pontuação. Para lidar com a adaptabilidade, introduzimos uma etapa extra de ajuste fino eficiente em parâmetros, estabelecendo um desempenho de ponta em domínios distintos, como versos de letras e documentos legais. Ao longo do caminho, introduzimos modificações arquiteturais que resultam em um ganho triplo em velocidade em relação ao estado da arte anterior e resolvem a dependência espúria do contexto em um futuro distante. Finalmente, apresentamos uma variante de nosso modelo com ajuste fino em uma mistura diversificada e multilíngue de dados segmentados em frases, atuando como uma substituição e aprimoramento para ferramentas de segmentação existentes. No geral, nossas contribuições fornecem uma abordagem universal para segmentar qualquer texto. Nosso método supera todos os baselines - incluindo LLMs fortes - em 8 corpora abrangendo domínios e idiomas diversos, especialmente em situações praticamente relevantes onde o texto está mal formatado. Nossos modelos e código, incluindo documentação, estão disponíveis em https://huggingface.co/segment-any-text sob a licença MIT.
English
Segmenting text into sentences plays an early and crucial role in many NLP systems. This is commonly achieved by using rule-based or statistical methods relying on lexical features such as punctuation. Although some recent works no longer exclusively rely on punctuation, we find that no prior method achieves all of (i) robustness to missing punctuation, (ii) effective adaptability to new domains, and (iii) high efficiency. We introduce a new model - Segment any Text (SaT) - to solve this problem. To enhance robustness, we propose a new pretraining scheme that ensures less reliance on punctuation. To address adaptability, we introduce an extra stage of parameter-efficient fine-tuning, establishing state-of-the-art performance in distinct domains such as verses from lyrics and legal documents. Along the way, we introduce architectural modifications that result in a threefold gain in speed over the previous state of the art and solve spurious reliance on context far in the future. Finally, we introduce a variant of our model with fine-tuning on a diverse, multilingual mixture of sentence-segmented data, acting as a drop-in replacement and enhancement for existing segmentation tools. Overall, our contributions provide a universal approach for segmenting any text. Our method outperforms all baselines - including strong LLMs - across 8 corpora spanning diverse domains and languages, especially in practically relevant situations where text is poorly formatted. Our models and code, including documentation, are available at https://huggingface.co/segment-any-text under the MIT license.
PDF163November 29, 2024