Sugerencias Inteligentes de Palabras para Asistencia en la Escritura
Smart Word Suggestions for Writing Assistance
May 17, 2023
Autores: Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao
cs.AI
Resumen
Mejorar el uso de palabras es una característica deseable en la asistencia para la escritura. Para avanzar en la investigación en esta área, este artículo introduce la tarea y el punto de referencia "Smart Word Suggestions" (SWS). A diferencia de otros trabajos, SWS enfatiza la evaluación de extremo a extremo y presenta un escenario más realista de asistencia para la escritura. Esta tarea implica identificar palabras o frases que requieren mejora y proporcionar sugerencias de sustitución. El punto de referencia incluye datos etiquetados por humanos para pruebas, un gran conjunto de datos supervisado de manera distante para entrenamiento y el marco para la evaluación. Los datos de prueba incluyen 1,000 oraciones escritas por estudiantes de inglés, acompañadas de más de 16,000 sugerencias de sustitución anotadas por 10 hablantes nativos. El conjunto de datos de entrenamiento comprende más de 3.7 millones de oraciones y 12.7 millones de sugerencias generadas mediante reglas. Nuestros experimentos con siete líneas base demuestran que SWS es una tarea desafiante. Basándonos en el análisis experimental, sugerimos posibles direcciones para futuras investigaciones sobre SWS. El conjunto de datos y los códigos relacionados están disponibles en https://github.com/microsoft/SmartWordSuggestions.
English
Enhancing word usage is a desired feature for writing assistance. To further
advance research in this area, this paper introduces "Smart Word Suggestions"
(SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end
evaluation and presents a more realistic writing assistance scenario. This task
involves identifying words or phrases that require improvement and providing
substitution suggestions. The benchmark includes human-labeled data for
testing, a large distantly supervised dataset for training, and the framework
for evaluation. The test data includes 1,000 sentences written by English
learners, accompanied by over 16,000 substitution suggestions annotated by 10
native speakers. The training dataset comprises over 3.7 million sentences and
12.7 million suggestions generated through rules. Our experiments with seven
baselines demonstrate that SWS is a challenging task. Based on experimental
analysis, we suggest potential directions for future research on SWS. The
dataset and related codes is available at
https://github.com/microsoft/SmartWordSuggestions.