Das Spinnen des goldenen Fadens: Benchmarking der Langform-Generierung in Sprachmodellen
Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models
September 3, 2024
Autoren: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee
cs.AI
Zusammenfassung
Die Fähigkeiten von Sprachmodellen mit langem Kontext (LMs) werden oft anhand des "Nadel-im-Heuhaufen" (NIAH) Tests bewertet, der Aufgaben umfasst, die entworfen wurden, um die Fähigkeit eines Modells zu bewerten, spezifische Informationen ("Nadel") innerhalb großer Textsequenzen ("Heuhaufen") zu identifizieren. Während diese Benchmarks messen, wie gut Modelle lange Kontexteingabesequenzen verstehen, bewerten sie nicht effektiv die Qualität der Generierung von Langtexten - ein entscheidender Aspekt für Anwendungen wie Designvorschläge und kreatives Schreiben. Um diese Lücke zu schließen, haben wir einen neuen Bewertungsmaßstab für Langtexte eingeführt, Spinning the Golden Thread (SGT), der die Fähigkeit von Modellen testet, spezifische Ereignisse in generierten Langtextsequenzen zu identifizieren. In diesem Benchmark fordern wir Langtext-LMs auf, Langtexte zu erstellen, die bestimmte Ereignisse oder Einschränkungen enthalten müssen, und bewerten ihre Fähigkeit, diese Elemente einzubeziehen. Wir haben zehn Langtext-LMs in vier verschiedenen Szenarien, drei Arten von Aufforderungsanweisungen und zwei verschiedenen Generierungslängeneinstellungen (16K und 32K) bewertet. Obwohl diese Modelle in NIAH-Benchmarks gut abschneiden, zeigte keines eine zufriedenstellende Leistung beim Spinning the Golden Thread, was Bedenken hinsichtlich ihrer Fähigkeit aufwirft, kohärente Langtexte zu generieren, die Anweisungen folgen. Darüber hinaus zeigen alle Modelle eine signifikante Leistungsabnahme, wenn die Länge des generierten Textes zunimmt.
English
The abilities of long-context language models (LMs) are often evaluated using
the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to
assess a model's ability to identify specific information ("needle") within
large text sequences ("haystack"). While these benchmarks measure how well
models understand long-context input sequences, they do not effectively gauge
the quality of long-form text generation--a critical aspect for applications
such as design proposals and creative writing. To address this gap, we have
introduced a new long-form text evaluation benchmark, Spinning the Golden
Thread (SGT), which tests models' ability to identify specific events within
generated long text sequences. In this benchmark, we prompt long-context LMs to
create long-form text that must include particular events or constraints and
evaluate their ability to incorporate these elements. We evaluated ten
long-context LMs across four distinct scenarios, three types of prompt
instructions, and two different generation-length settings (16K and 32K).
Although these models perform well on NIAH benchmarks, none demonstrated
satisfactory performance on the Spinning the Golden Thread, raising concerns
about their ability to generate coherent long-form text that follows
instructions. Additionally, as the length of the generated text increases, all
models exhibit a significant drop in performance.Summary
AI-Generated Summary