CoEdIT: Edição de Texto por Ajuste Fino de Instruções Específicas à Tarefa
CoEdIT: Text Editing by Task-Specific Instruction Tuning
May 17, 2023
Autores: Vipul Raheja, Dhruv Kumar, Ryan Koo, Dongyeop Kang
cs.AI
Resumo
A edição ou revisão de texto é uma função essencial do processo de escrita humana. Compreender as capacidades dos LLMs (Modelos de Linguagem de Grande Escala) para realizar revisões de alta qualidade e colaborar com escritores humanos é um passo crítico para a construção de assistentes de escrita eficazes. Com o sucesso anterior dos LLMs e do ajuste fino por instruções, aproveitamos LLMs ajustados por instruções para a revisão de textos, visando melhorar a qualidade dos textos gerados por usuários e aumentar a eficiência do processo. Apresentamos o CoEdIT, um modelo de edição de texto de última geração para assistência à escrita. O CoEdIT recebe instruções do usuário que especificam os atributos do texto desejado, como "Simplifique a frase" ou "Escreva em um estilo mais neutro", e gera o texto editado. Introduzimos um modelo de linguagem de grande escala ajustado fino em uma coleção diversificada de instruções específicas para tarefas de edição de texto (totalizando 82 mil instruções). Nosso modelo (1) alcança desempenho de ponta em diversos benchmarks de edição de texto, (2) é competitivo com os maiores LLMs disponíveis publicamente treinados com instruções, embora seja 60x menor, (3) é capaz de generalizar para instruções de edição não vistas anteriormente, e (4) exibe habilidades de compreensão composicional para generalizar instruções que contêm diferentes combinações de ações de edição. Por meio de análises qualitativas e quantitativas extensas, demonstramos que os escritores preferem as edições sugeridas pelo CoEdIT em comparação com outros modelos de edição de texto de última geração. Nosso código e conjunto de dados estão disponíveis publicamente.
English
Text editing or revision is an essential function of the human writing
process. Understanding the capabilities of LLMs for making high-quality
revisions and collaborating with human writers is a critical step toward
building effective writing assistants. With the prior success of LLMs and
instruction tuning, we leverage instruction-tuned LLMs for text revision to
improve the quality of user-generated text and improve the efficiency of the
process. We introduce CoEdIT, a state-of-the-art text editing model for writing
assistance. CoEdIT takes instructions from the user specifying the attributes
of the desired text, such as "Make the sentence simpler" or "Write it in a more
neutral style," and outputs the edited text. We present a large language model
fine-tuned on a diverse collection of task-specific instructions for text
editing (a total of 82K instructions). Our model (1) achieves state-of-the-art
performance on various text editing benchmarks, (2) is competitive with
publicly available largest-sized LLMs trained on instructions while being
sim60x smaller, (3) is capable of generalizing to unseen edit instructions,
and (4) exhibits compositional comprehension abilities to generalize to
instructions containing different combinations of edit actions. Through
extensive qualitative and quantitative analysis, we show that writers prefer
the edits suggested by CoEdIT, relative to other state-of-the-art text editing
models. Our code and dataset are publicly available.