ChatPaper.aiChatPaper

Ist es wirklich ein langer Kontext, wenn alles, was Sie brauchen, die Wiederherstellung ist? Auf dem Weg zu wirklich schwierigem Langkontext NLP.

Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP

June 29, 2024
Autoren: Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty
cs.AI

Zusammenfassung

Verbesserungen in den Fähigkeiten von Sprachmodellen haben ihre Anwendungen in Richtung längerer Kontexte vorangetrieben, wodurch die Evaluierung und Entwicklung von Langkontexten zu einem aktiven Forschungsbereich geworden sind. Viele verschiedene Anwendungsfälle werden jedoch unter dem Überbegriff "Langkontext" zusammengefasst, der einfach durch die Gesamtlänge des Eingabemodells definiert ist, einschließlich beispielsweise Nadel-im-Heuhaufen-Aufgaben, Buchzusammenfassungen und Informationsaggregation. Angesichts ihrer unterschiedlichen Schwierigkeiten argumentieren wir in diesem Positionspapier, dass es unproduktiv ist, verschiedene Aufgaben nach ihrer Kontextlänge zu vermischen. Als Gemeinschaft benötigen wir ein präziseres Vokabular, um zu verstehen, was Langkontextaufgaben ähnlich oder unterschiedlich macht. Wir schlagen vor, die Taxonomie von Langkontexten auf der Grundlage der Eigenschaften zu entfalten, die sie mit längeren Kontexten schwieriger machen. Wir schlagen zwei orthogonale Schwierigkeitsachsen vor: (I) Diffusion: Wie schwer ist es, die notwendigen Informationen im Kontext zu finden? (II) Umfang: Wie viele notwendige Informationen gibt es zu finden? Wir untersuchen die Literatur zu Langkontexten, liefern eine Begründung für diese Taxonomie als informativen Deskriptor und positionieren die Literatur in Bezug darauf. Wir kommen zu dem Schluss, dass die schwierigsten und interessantesten Einstellungen, bei denen die notwendigen Informationen sehr lang sind und stark im Eingang verteilt sind, stark untererforscht sind. Durch die Verwendung eines deskriptiven Vokabulars und die Diskussion relevanter Schwierigkeitseigenschaften bei Langkontexten können wir in diesem Bereich informiertere Forschung betreiben. Wir plädieren für eine sorgfältige Gestaltung von Aufgaben und Benchmarks mit deutlich langem Kontext, unter Berücksichtigung der Eigenschaften, die ihn qualitativ von kürzerem Kontext unterscheiden.
English
Improvements in language models' capabilities have pushed their applications towards longer contexts, making long-context evaluation and development an active research area. However, many disparate use-cases are grouped together under the umbrella term of "long-context", defined simply by the total length of the model's input, including - for example - Needle-in-a-Haystack tasks, book summarization, and information aggregation. Given their varied difficulty, in this position paper we argue that conflating different tasks by their context length is unproductive. As a community, we require a more precise vocabulary to understand what makes long-context tasks similar or different. We propose to unpack the taxonomy of long-context based on the properties that make them more difficult with longer contexts. We propose two orthogonal axes of difficulty: (I) Diffusion: How hard is it to find the necessary information in the context? (II) Scope: How much necessary information is there to find? We survey the literature on long-context, provide justification for this taxonomy as an informative descriptor, and situate the literature with respect to it. We conclude that the most difficult and interesting settings, whose necessary information is very long and highly diffused within the input, is severely under-explored. By using a descriptive vocabulary and discussing the relevant properties of difficulty in long-context, we can implement more informed research in this area. We call for a careful design of tasks and benchmarks with distinctly long context, taking into account the characteristics that make it qualitatively different from shorter context.

Summary

AI-Generated Summary

PDF231November 28, 2024