ChatPaper.aiChatPaper

Langzeitkontext-Langzeitgedächtnis-Modelle haben Schwierigkeiten mit langem kontextbezogenem Lernen.

Long-context LLMs Struggle with Long In-context Learning

April 2, 2024
Autoren: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Verarbeitung langer Sequenzen von mehr als 32K Tokens gemacht. Allerdings wurde ihre Leistungsbewertung hauptsächlich auf Metriken wie Perplexität und synthetische Aufgaben beschränkt, die möglicherweise nicht vollständig ihre Fähigkeiten in nuancierteren, realen Szenarien erfassen. Diese Studie führt einen spezialisierten Benchmark (LIConBench) ein, der sich auf das langfristige kontextbezogene Lernen im Bereich der extremen Klassifikation von Labels konzentriert. Wir haben sorgfältig sechs Datensätze ausgewählt, die einen Labelbereich von 28 bis 174 Klassen abdecken und unterschiedliche Eingabelängen (Few-Shot-Demonstration) von 2K bis 50K umfassen. Unser Benchmark erfordert von LLMs, die gesamte Eingabe zu erfassen, um die umfangreichen Labelräume zu erkennen und korrekte Vorhersagen zu treffen. Wir evaluieren 13 Langkontext-LLMs anhand unserer Benchmarks. Wir stellen fest, dass die Langkontext-LLMs unter einer Tokenlänge von 20K relativ gut abschneiden und die Leistung von der Nutzung des langen Kontextfensters profitiert. Nachdem das Kontextfenster jedoch 20K überschreitet, fallen die meisten LLMs dramatisch ab, mit Ausnahme von GPT-4. Dies deutet auf eine bemerkenswerte Lücke in den aktuellen Fähigkeiten von LLMs hin, lange, kontextreiche Sequenzen zu verarbeiten und zu verstehen. Weitere Analysen ergaben eine Tendenz der Modelle, Vorhersagen für Labels zu bevorzugen, die am Ende der Sequenz präsentiert werden. Ihre Fähigkeit, über mehrere Teile in der langen Sequenz zu argumentieren, muss noch verbessert werden. Unsere Studie zeigt, dass das Verständnis und die Argumentation über langen Kontext nach wie vor eine anspruchsvolle Aufgabe für die bestehenden LLMs darstellen. Wir glauben, dass LIConBench als realistischere Bewertung für zukünftige Langkontext-LLMs dienen könnte.
English
Large Language Models (LLMs) have made significant strides in handling long sequences exceeding 32K tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their abilities in more nuanced, real-world scenarios. This study introduces a specialized benchmark (LIConBench) focusing on long in-context learning within the realm of extreme-label classification. We meticulously selected six datasets with a label range spanning 28 to 174 classes covering different input (few-shot demonstration) length from 2K to 50K. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct prediction. We evaluate 13 long-context LLMs on our benchmarks. We find that the long-context LLMs perform relatively well under the token length of 20K and the performance benefits from utilizing the long context window. However, after the context window exceeds 20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap in current LLM capabilities for processing and understanding long, context-rich sequences. Further analysis revealed a tendency among models to favor predictions for labels presented towards the end at the sequence. Their ability to reason over multiple pieces in the long sequence is yet to be improved. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LIConBench could serve as a more realistic evaluation for the future long context LLMs.

Summary

AI-Generated Summary

PDF384November 26, 2024