LongIns: Eine anspruchsvolle Prüfung mit langem Kontext und instruktionsbasiert für LLMs
LongIns: A Challenging Long-context Instruction-based Exam for LLMs
June 25, 2024
Autoren: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang
cs.AI
Zusammenfassung
Die Fähigkeiten von großen Sprachmodellen (LLMs) im Langzeitkontext sind in den letzten Jahren ein viel diskutiertes Thema gewesen. Zur Bewertung der Leistung von LLMs in verschiedenen Szenarien sind verschiedene Bewertungsmaßstäbe entstanden. Allerdings konzentrieren sich die meisten dieser Maßstäbe darauf, Schlüsselinformationen zur Beantwortung von Fragen zu identifizieren, was hauptsächlich die Abruffähigkeit von LLMs erfordert. Diese Maßstäbe können die Schlussfolgerungsleistung von LLMs aus großen Informationsmengen nur teilweise darstellen. Gleichzeitig offenbaren diese Maßstäbe nicht die tatsächlich unterstützte Länge dieser LLMs, obwohl LLMs oft behaupten, Kontextfenster von 32k, 128k, 200k oder sogar länger zu haben. Um diese Probleme anzugehen, schlagen wir den LongIns-Benchmark-Datensatz vor, einen anspruchsvollen langen Kontext-Instruktions-basierten Test für LLMs, der auf den vorhandenen Instruktionsdatensätzen aufbaut. Speziell führen wir in unserem LongIns drei Bewertungseinstellungen ein: Globale Anweisung & Einzelaufgabe (GIST), Lokale Anweisung & Einzelaufgabe (LIST) und Lokale Anweisung & Mehrere Aufgaben (LIMT). Basierend auf LongIns führen wir umfassende Bewertungen an bestehenden LLMs durch und haben folgende wichtige Erkenntnisse: (1). Das leistungsstärkste GPT-4 mit einer Kontextlänge von 128k schneidet in unserem LongIns bei einem Bewertungskontextfenster von 16k schlecht ab. (2). Für die Multi-Hop-Schlussfolgerungsfähigkeit vieler bestehender LLMs sind unter kurzen Kontextfenstern (weniger als 4k) noch erhebliche Anstrengungen erforderlich.
English
The long-context capabilities of large language models (LLMs) have been a hot
topic in recent years. To evaluate the performance of LLMs in different
scenarios, various assessment benchmarks have emerged. However, as most of
these benchmarks focus on identifying key information to answer questions,
which mainly requires the retrieval ability of LLMs, these benchmarks can
partially represent the reasoning performance of LLMs from large amounts of
information. Meanwhile, although LLMs often claim to have context windows of
32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual
supported length of these LLMs. To address these issues, we propose the LongIns
benchmark dataset, a challenging long-context instruction-based exam for LLMs,
which is built based on the existing instruction datasets. Specifically, in our
LongIns, we introduce three evaluation settings: Global Instruction & Single
Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction &
Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations
on existing LLMs and have the following important findings: (1). The
top-performing GPT-4 with 128k context length performs poorly on the evaluation
context window of 16k in our LongIns. (2). For the multi-hop reasoning ability
of many existing LLMs, significant efforts are still needed under short context
windows (less than 4k).Summary
AI-Generated Summary