ChatPaper.aiChatPaper

한 번의 탭으로 모든 오류를 수정합니다.

Proofread: Fixes All Errors with One Tap

June 6, 2024
저자: Renjie Liu, Yanxiang Zhang, Yun Zhu, Haicheng Sun, Yuanbo Zhang, Michael Xuelin Huang, Shanqing Cai, Lei Meng, Shumin Zhai
cs.AI

초록

대규모 언어 모델(LLMs)의 인상적인 능력은 사용자의 타이핑 경험을 재구상할 수 있는 강력한 접근 방식을 제공합니다. 본 논문에서는 Gboard의 서버 측 LLM으로 구동되는 새로운 기능인 Proofread를 소개하며, 이를 통해 단일 탭으로 문장 및 단락 수준의 원활한 수정이 가능함을 보여줍니다. 우리는 데이터 생성, 메트릭 설계, 모델 튜닝 및 배포에 이르는 전체 시스템을 이 논문에서 설명합니다. 충분한 품질의 모델을 얻기 위해, 온라인 사용 사례에 맞춘 신중한 데이터 합성 파이프라인을 구현하고, 다각적인 메트릭을 설계하며, 이 기능을 위한 전용 LLM을 획득하기 위해 두 단계의 튜닝 접근 방식을 사용합니다: 기본 품질을 위한 지도 미세 조정(SFT)과 목표 개선을 위한 강화 학습(RL) 튜닝 접근 방식입니다. 특히, SFT 단계에서 Rewrite 및 Proofread 작업에 대한 순차적 튜닝이 최상의 품질을 제공함을 발견했으며, RL 튜닝 단계에서 전역 및 직접 보상을 제안하여 추가 개선을 추구합니다. 인간이 라벨링한 골든 세트에 대한 광범위한 실험에서 튜닝된 PaLM2-XS 모델이 85.56%의 좋은 비율을 달성했음을 보여주었습니다. 우리는 이 기능을 Google Cloud의 TPU v5에서 모델을 서빙하여 Pixel 8 기기에 출시했으며, 수천 명의 일일 활성 사용자를 확보했습니다. 양자화, 버킷 추론, 텍스트 분할 및 추측적 디코딩을 통해 서빙 지연 시간이 크게 감소했습니다. 우리의 데모는 https://youtu.be/4ZdcuiwFU7I{Youtube}에서 확인할 수 있습니다.
English
The impressive capabilities in Large Language Models (LLMs) provide a powerful approach to reimagine users' typing experience. This paper demonstrates Proofread, a novel Gboard feature powered by a server-side LLM in Gboard, enabling seamless sentence-level and paragraph-level corrections with a single tap. We describe the complete system in this paper, from data generation, metrics design to model tuning and deployment. To obtain models with sufficient quality, we implement a careful data synthetic pipeline tailored to online use cases, design multifaceted metrics, employ a two-stage tuning approach to acquire the dedicated LLM for the feature: the Supervised Fine Tuning (SFT) for foundational quality, followed by the Reinforcement Learning (RL) tuning approach for targeted refinement. Specifically, we find sequential tuning on Rewrite and proofread tasks yields the best quality in SFT stage, and propose global and direct rewards in the RL tuning stage to seek further improvement. Extensive experiments on a human-labeled golden set showed our tuned PaLM2-XS model achieved 85.56\% good ratio. We launched the feature to Pixel 8 devices by serving the model on TPU v5 in Google Cloud, with thousands of daily active users. Serving latency was significantly reduced by quantization, bucket inference, text segmentation, and speculative decoding. Our demo could be seen in https://youtu.be/4ZdcuiwFU7I{Youtube}.

Summary

AI-Generated Summary

PDF150December 8, 2024