CoEdIT: Edição de Texto por Ajuste Fino de Instruções Específicas à Tarefa

Resumo

A edição ou revisão de texto é uma função essencial do processo de escrita humana. Compreender as capacidades dos LLMs (Modelos de Linguagem de Grande Escala) para realizar revisões de alta qualidade e colaborar com escritores humanos é um passo crítico para a construção de assistentes de escrita eficazes. Com o sucesso anterior dos LLMs e do ajuste fino por instruções, aproveitamos LLMs ajustados por instruções para a revisão de textos, visando melhorar a qualidade dos textos gerados por usuários e aumentar a eficiência do processo. Apresentamos o CoEdIT, um modelo de edição de texto de última geração para assistência à escrita. O CoEdIT recebe instruções do usuário que especificam os atributos do texto desejado, como "Simplifique a frase" ou "Escreva em um estilo mais neutro", e gera o texto editado. Introduzimos um modelo de linguagem de grande escala ajustado fino em uma coleção diversificada de instruções específicas para tarefas de edição de texto (totalizando 82 mil instruções). Nosso modelo (1) alcança desempenho de ponta em diversos benchmarks de edição de texto, (2) é competitivo com os maiores LLMs disponíveis publicamente treinados com instruções, embora seja 60x menor, (3) é capaz de generalizar para instruções de edição não vistas anteriormente, e (4) exibe habilidades de compreensão composicional para generalizar instruções que contêm diferentes combinações de ações de edição. Por meio de análises qualitativas e quantitativas extensas, demonstramos que os escritores preferem as edições sugeridas pelo CoEdIT em comparação com outros modelos de edição de texto de última geração. Nosso código e conjunto de dados estão disponíveis publicamente.

English

Text editing or revision is an essential function of the human writing process. Understanding the capabilities of LLMs for making high-quality revisions and collaborating with human writers is a critical step toward building effective writing assistants. With the prior success of LLMs and instruction tuning, we leverage instruction-tuned LLMs for text revision to improve the quality of user-generated text and improve the efficiency of the process. We introduce CoEdIT, a state-of-the-art text editing model for writing assistance. CoEdIT takes instructions from the user specifying the attributes of the desired text, such as "Make the sentence simpler" or "Write it in a more neutral style," and outputs the edited text. We present a large language model fine-tuned on a diverse collection of task-specific instructions for text editing (a total of 82K instructions). Our model (1) achieves state-of-the-art performance on various text editing benchmarks, (2) is competitive with publicly available largest-sized LLMs trained on instructions while being sim60x smaller, (3) is capable of generalizing to unseen edit instructions, and (4) exhibits compositional comprehension abilities to generalize to instructions containing different combinations of edit actions. Through extensive qualitative and quantitative analysis, we show that writers prefer the edits suggested by CoEdIT, relative to other state-of-the-art text editing models. Our code and dataset are publicly available.

CoEdIT: Edição de Texto por Ajuste Fino de Instruções Específicas à Tarefa

CoEdIT: Text Editing by Task-Specific Instruction Tuning

Resumo

Support