Langzeitkontext-Langzeitgedächtnis-Modelle haben Schwierigkeiten mit langem kontextbezogenem Lernen.
Long-context LLMs Struggle with Long In-context Learning
April 2, 2024
Autoren: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Verarbeitung langer Sequenzen von mehr als 32K Tokens gemacht. Allerdings wurde ihre Leistungsbewertung hauptsächlich auf Metriken wie Perplexität und synthetische Aufgaben beschränkt, die möglicherweise nicht vollständig ihre Fähigkeiten in nuancierteren, realen Szenarien erfassen. Diese Studie führt einen spezialisierten Benchmark (LIConBench) ein, der sich auf das langfristige kontextbezogene Lernen im Bereich der extremen Klassifikation von Labels konzentriert. Wir haben sorgfältig sechs Datensätze ausgewählt, die einen Labelbereich von 28 bis 174 Klassen abdecken und unterschiedliche Eingabelängen (Few-Shot-Demonstration) von 2K bis 50K umfassen. Unser Benchmark erfordert von LLMs, die gesamte Eingabe zu erfassen, um die umfangreichen Labelräume zu erkennen und korrekte Vorhersagen zu treffen. Wir evaluieren 13 Langkontext-LLMs anhand unserer Benchmarks. Wir stellen fest, dass die Langkontext-LLMs unter einer Tokenlänge von 20K relativ gut abschneiden und die Leistung von der Nutzung des langen Kontextfensters profitiert. Nachdem das Kontextfenster jedoch 20K überschreitet, fallen die meisten LLMs dramatisch ab, mit Ausnahme von GPT-4. Dies deutet auf eine bemerkenswerte Lücke in den aktuellen Fähigkeiten von LLMs hin, lange, kontextreiche Sequenzen zu verarbeiten und zu verstehen. Weitere Analysen ergaben eine Tendenz der Modelle, Vorhersagen für Labels zu bevorzugen, die am Ende der Sequenz präsentiert werden. Ihre Fähigkeit, über mehrere Teile in der langen Sequenz zu argumentieren, muss noch verbessert werden. Unsere Studie zeigt, dass das Verständnis und die Argumentation über langen Kontext nach wie vor eine anspruchsvolle Aufgabe für die bestehenden LLMs darstellen. Wir glauben, dass LIConBench als realistischere Bewertung für zukünftige Langkontext-LLMs dienen könnte.
English
Large Language Models (LLMs) have made significant strides in handling long
sequences exceeding 32K tokens. However, their performance evaluation has
largely been confined to metrics like perplexity and synthetic tasks, which may
not fully capture their abilities in more nuanced, real-world scenarios. This
study introduces a specialized benchmark (LIConBench) focusing on long
in-context learning within the realm of extreme-label classification. We
meticulously selected six datasets with a label range spanning 28 to 174
classes covering different input (few-shot demonstration) length from 2K to
50K. Our benchmark requires LLMs to comprehend the entire input to recognize
the massive label spaces to make correct prediction. We evaluate 13
long-context LLMs on our benchmarks. We find that the long-context LLMs perform
relatively well under the token length of 20K and the performance benefits from
utilizing the long context window. However, after the context window exceeds
20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap
in current LLM capabilities for processing and understanding long, context-rich
sequences. Further analysis revealed a tendency among models to favor
predictions for labels presented towards the end at the sequence. Their ability
to reason over multiple pieces in the long sequence is yet to be improved. Our
study reveals that long context understanding and reasoning is still a
challenging task for the existing LLMs. We believe LIConBench could serve as a
more realistic evaluation for the future long context LLMs.Summary
AI-Generated Summary