Corrección: Soluciona todos los errores con un solo toque.

Resumen

Las impresionantes capacidades de los Modelos de Lenguaje de Gran Escala (LLMs) ofrecen un enfoque poderoso para reinventar la experiencia de escritura de los usuarios. Este artículo presenta Proofread, una novedosa función de Gboard impulsada por un LLM en el servidor, que permite correcciones fluidas a nivel de oración y párrafo con un solo toque. Describimos el sistema completo en este artículo, desde la generación de datos, el diseño de métricas hasta el ajuste del modelo y su implementación. Para obtener modelos de calidad suficiente, implementamos una cuidadosa pipeline de síntesis de datos adaptada a casos de uso en línea, diseñamos métricas multifacéticas y empleamos un enfoque de ajuste en dos etapas para obtener el LLM dedicado a la función: el Ajuste Fino Supervisado (SFT) para la calidad fundamental, seguido del enfoque de Ajuste por Aprendizaje por Refuerzo (RL) para el refinamiento específico. En particular, encontramos que el ajuste secuencial en tareas de Reescribir y corregir produce la mejor calidad en la etapa de SFT, y proponemos recompensas globales y directas en la etapa de ajuste RL para buscar una mejora adicional. Experimentos extensivos en un conjunto de referencia etiquetado por humanos mostraron que nuestro modelo ajustado PaLM2-XS alcanzó un 85,56% de ratio de calidad. Lanzamos la función en dispositivos Pixel 8 sirviendo el modelo en TPU v5 en Google Cloud, con miles de usuarios activos diarios. La latencia de servicio se redujo significativamente mediante cuantización, inferencia por lotes, segmentación de texto y decodificación especulativa. Nuestra demostración puede verse en https://youtu.be/4ZdcuiwFU7I{Youtube}.

English

The impressive capabilities in Large Language Models (LLMs) provide a powerful approach to reimagine users' typing experience. This paper demonstrates Proofread, a novel Gboard feature powered by a server-side LLM in Gboard, enabling seamless sentence-level and paragraph-level corrections with a single tap. We describe the complete system in this paper, from data generation, metrics design to model tuning and deployment. To obtain models with sufficient quality, we implement a careful data synthetic pipeline tailored to online use cases, design multifaceted metrics, employ a two-stage tuning approach to acquire the dedicated LLM for the feature: the Supervised Fine Tuning (SFT) for foundational quality, followed by the Reinforcement Learning (RL) tuning approach for targeted refinement. Specifically, we find sequential tuning on Rewrite and proofread tasks yields the best quality in SFT stage, and propose global and direct rewards in the RL tuning stage to seek further improvement. Extensive experiments on a human-labeled golden set showed our tuned PaLM2-XS model achieved 85.56\% good ratio. We launched the feature to Pixel 8 devices by serving the model on TPU v5 in Google Cloud, with thousands of daily active users. Serving latency was significantly reduced by quantization, bucket inference, text segmentation, and speculative decoding. Our demo could be seen in https://youtu.be/4ZdcuiwFU7I{Youtube}.

Corrección: Soluciona todos los errores con un solo toque.

Proofread: Fixes All Errors with One Tap

Resumen

Support