ChatPaper.aiChatPaper

Das Spinnen des goldenen Fadens: Benchmarking der Langform-Generierung in Sprachmodellen

Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

September 3, 2024
Autoren: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee
cs.AI

Zusammenfassung

Die Fähigkeiten von Sprachmodellen mit langem Kontext (LMs) werden oft anhand des "Nadel-im-Heuhaufen" (NIAH) Tests bewertet, der Aufgaben umfasst, die entworfen wurden, um die Fähigkeit eines Modells zu bewerten, spezifische Informationen ("Nadel") innerhalb großer Textsequenzen ("Heuhaufen") zu identifizieren. Während diese Benchmarks messen, wie gut Modelle lange Kontexteingabesequenzen verstehen, bewerten sie nicht effektiv die Qualität der Generierung von Langtexten - ein entscheidender Aspekt für Anwendungen wie Designvorschläge und kreatives Schreiben. Um diese Lücke zu schließen, haben wir einen neuen Bewertungsmaßstab für Langtexte eingeführt, Spinning the Golden Thread (SGT), der die Fähigkeit von Modellen testet, spezifische Ereignisse in generierten Langtextsequenzen zu identifizieren. In diesem Benchmark fordern wir Langtext-LMs auf, Langtexte zu erstellen, die bestimmte Ereignisse oder Einschränkungen enthalten müssen, und bewerten ihre Fähigkeit, diese Elemente einzubeziehen. Wir haben zehn Langtext-LMs in vier verschiedenen Szenarien, drei Arten von Aufforderungsanweisungen und zwei verschiedenen Generierungslängeneinstellungen (16K und 32K) bewertet. Obwohl diese Modelle in NIAH-Benchmarks gut abschneiden, zeigte keines eine zufriedenstellende Leistung beim Spinning the Golden Thread, was Bedenken hinsichtlich ihrer Fähigkeit aufwirft, kohärente Langtexte zu generieren, die Anweisungen folgen. Darüber hinaus zeigen alle Modelle eine signifikante Leistungsabnahme, wenn die Länge des generierten Textes zunimmt.
English
The abilities of long-context language models (LMs) are often evaluated using the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to assess a model's ability to identify specific information ("needle") within large text sequences ("haystack"). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, Spinning the Golden Thread (SGT), which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the Spinning the Golden Thread, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.

Summary

AI-Generated Summary

PDF123November 16, 2024