ChatPaper.aiChatPaper

Sugerencias Inteligentes de Palabras para Asistencia en la Escritura

Smart Word Suggestions for Writing Assistance

May 17, 2023
Autores: Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao
cs.AI

Resumen

Mejorar el uso de palabras es una característica deseable en la asistencia para la escritura. Para avanzar en la investigación en esta área, este artículo introduce la tarea y el punto de referencia "Smart Word Suggestions" (SWS). A diferencia de otros trabajos, SWS enfatiza la evaluación de extremo a extremo y presenta un escenario más realista de asistencia para la escritura. Esta tarea implica identificar palabras o frases que requieren mejora y proporcionar sugerencias de sustitución. El punto de referencia incluye datos etiquetados por humanos para pruebas, un gran conjunto de datos supervisado de manera distante para entrenamiento y el marco para la evaluación. Los datos de prueba incluyen 1,000 oraciones escritas por estudiantes de inglés, acompañadas de más de 16,000 sugerencias de sustitución anotadas por 10 hablantes nativos. El conjunto de datos de entrenamiento comprende más de 3.7 millones de oraciones y 12.7 millones de sugerencias generadas mediante reglas. Nuestros experimentos con siete líneas base demuestran que SWS es una tarea desafiante. Basándonos en el análisis experimental, sugerimos posibles direcciones para futuras investigaciones sobre SWS. El conjunto de datos y los códigos relacionados están disponibles en https://github.com/microsoft/SmartWordSuggestions.
English
Enhancing word usage is a desired feature for writing assistance. To further advance research in this area, this paper introduces "Smart Word Suggestions" (SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end evaluation and presents a more realistic writing assistance scenario. This task involves identifying words or phrases that require improvement and providing substitution suggestions. The benchmark includes human-labeled data for testing, a large distantly supervised dataset for training, and the framework for evaluation. The test data includes 1,000 sentences written by English learners, accompanied by over 16,000 substitution suggestions annotated by 10 native speakers. The training dataset comprises over 3.7 million sentences and 12.7 million suggestions generated through rules. Our experiments with seven baselines demonstrate that SWS is a challenging task. Based on experimental analysis, we suggest potential directions for future research on SWS. The dataset and related codes is available at https://github.com/microsoft/SmartWordSuggestions.
PDF20December 15, 2024