CoEdIT: Textbearbeitung durch aufgabenbezogenes Instruction Tuning
CoEdIT: Text Editing by Task-Specific Instruction Tuning
May 17, 2023
Autoren: Vipul Raheja, Dhruv Kumar, Ryan Koo, Dongyeop Kang
cs.AI
Zusammenfassung
Textbearbeitung oder -überarbeitung ist eine wesentliche Funktion des menschlichen Schreibprozesses. Die Fähigkeiten von LLMs (Large Language Models) zu verstehen, um hochwertige Überarbeitungen vorzunehmen und mit menschlichen Autoren zusammenzuarbeiten, ist ein entscheidender Schritt auf dem Weg zur Entwicklung effektiver Schreibassistenten. Angesichts der bisherigen Erfolge von LLMs und Instruction Tuning nutzen wir instruction-finetunete LLMs für die Textüberarbeitung, um die Qualität von nutzergenerierten Texten zu verbessern und den Prozess effizienter zu gestalten. Wir stellen CoEdIT vor, ein state-of-the-art Textbearbeitungsmodell für Schreibassistenz. CoEdIT nimmt Anweisungen des Benutzers entgegen, die die gewünschten Attribute des Texts spezifizieren, wie z.B. „Mache den Satz einfacher“ oder „Schreibe es in einem neutraleren Stil“, und gibt den bearbeiteten Text aus. Wir präsentieren ein großes Sprachmodell, das auf einer vielfältigen Sammlung von aufgaben-spezifischen Anweisungen für die Textbearbeitung feinabgestimmt wurde (insgesamt 82K Anweisungen). Unser Modell (1) erreicht state-of-the-art Leistung auf verschiedenen Textbearbeitungs-Benchmarks, (2) ist wettbewerbsfähig mit öffentlich verfügbaren, größten LLMs, die auf Anweisungen trainiert wurden, während es etwa 60x kleiner ist, (3) ist in der Lage, auf unbekannte Bearbeitungsanweisungen zu generalisieren, und (4) zeigt kompositionelle Verständnisfähigkeiten, um auf Anweisungen mit verschiedenen Kombinationen von Bearbeitungsaktionen zu generalisieren. Durch umfangreiche qualitative und quantitative Analysen zeigen wir, dass Autoren die von CoEdIT vorgeschlagenen Bearbeitungen im Vergleich zu anderen state-of-the-art Textbearbeitungsmodellen bevorzugen. Unser Code und Datensatz sind öffentlich verfügbar.
English
Text editing or revision is an essential function of the human writing
process. Understanding the capabilities of LLMs for making high-quality
revisions and collaborating with human writers is a critical step toward
building effective writing assistants. With the prior success of LLMs and
instruction tuning, we leverage instruction-tuned LLMs for text revision to
improve the quality of user-generated text and improve the efficiency of the
process. We introduce CoEdIT, a state-of-the-art text editing model for writing
assistance. CoEdIT takes instructions from the user specifying the attributes
of the desired text, such as "Make the sentence simpler" or "Write it in a more
neutral style," and outputs the edited text. We present a large language model
fine-tuned on a diverse collection of task-specific instructions for text
editing (a total of 82K instructions). Our model (1) achieves state-of-the-art
performance on various text editing benchmarks, (2) is competitive with
publicly available largest-sized LLMs trained on instructions while being
sim60x smaller, (3) is capable of generalizing to unseen edit instructions,
and (4) exhibits compositional comprehension abilities to generalize to
instructions containing different combinations of edit actions. Through
extensive qualitative and quantitative analysis, we show that writers prefer
the edits suggested by CoEdIT, relative to other state-of-the-art text editing
models. Our code and dataset are publicly available.