Sugestões Inteligentes de Palavras para Auxílio na Escrita
Smart Word Suggestions for Writing Assistance
May 17, 2023
Autores: Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao
cs.AI
Resumo
Melhorar o uso de palavras é uma funcionalidade desejada em ferramentas de assistência à escrita. Para avançar ainda mais as pesquisas nessa área, este artigo introduz a tarefa e o benchmark "Smart Word Suggestions" (SWS). Diferente de outros trabalhos, o SWS enfatiza a avaliação de ponta a ponta e apresenta um cenário mais realista de assistência à escrita. Essa tarefa envolve identificar palavras ou frases que precisam de aprimoramento e fornecer sugestões de substituição. O benchmark inclui dados anotados manualmente para testes, um grande conjunto de dados supervisionado de forma distante para treinamento e o framework para avaliação. Os dados de teste contêm 1.000 frases escritas por aprendizes de inglês, acompanhadas por mais de 16.000 sugestões de substituição anotadas por 10 falantes nativos. O conjunto de dados de treinamento compreende mais de 3,7 milhões de frases e 12,7 milhões de sugestões geradas por meio de regras. Nossos experimentos com sete modelos de referência demonstram que o SWS é uma tarefa desafiadora. Com base na análise experimental, sugerimos possíveis direções para pesquisas futuras sobre o SWS. O conjunto de dados e os códigos relacionados estão disponíveis em https://github.com/microsoft/SmartWordSuggestions.
English
Enhancing word usage is a desired feature for writing assistance. To further
advance research in this area, this paper introduces "Smart Word Suggestions"
(SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end
evaluation and presents a more realistic writing assistance scenario. This task
involves identifying words or phrases that require improvement and providing
substitution suggestions. The benchmark includes human-labeled data for
testing, a large distantly supervised dataset for training, and the framework
for evaluation. The test data includes 1,000 sentences written by English
learners, accompanied by over 16,000 substitution suggestions annotated by 10
native speakers. The training dataset comprises over 3.7 million sentences and
12.7 million suggestions generated through rules. Our experiments with seven
baselines demonstrate that SWS is a challenging task. Based on experimental
analysis, we suggest potential directions for future research on SWS. The
dataset and related codes is available at
https://github.com/microsoft/SmartWordSuggestions.