ChatPaper.aiChatPaper

RULER : Quelle est la véritable taille de contexte de vos modèles de langage à contexte étendu ?

RULER: What's the Real Context Size of Your Long-Context Language Models?

April 9, 2024
Auteurs: Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Boris Ginsburg
cs.AI

Résumé

Le test de l'aiguille dans une botte de foin (NIAH), qui examine la capacité à retrouver une information spécifique (l'"aiguille") parmi de longs textes distracteurs (la "botte de foin"), a été largement adopté pour évaluer les modèles de langage à contexte étendu (LMs). Cependant, ce simple test basé sur la récupération ne reflète qu'une compréhension superficielle des contextes longs. Pour fournir une évaluation plus complète des LMs à contexte étendu, nous avons créé un nouveau benchmark synthétique, RULER, avec des configurations flexibles permettant de personnaliser la longueur des séquences et la complexité des tâches. RULER étend le test NIAH de base pour inclure des variations avec différents types et quantités d'aiguilles. De plus, RULER introduit de nouvelles catégories de tâches, telles que le traçage multi-sauts et l'agrégation, pour tester des comportements allant au-delà de la simple recherche dans le contexte. Nous avons évalué dix LMs à contexte étendu avec 13 tâches représentatives dans RULER. Malgré une précision quasi parfaite dans le test NIAH de base, tous les modèles montrent une baisse significative de performance à mesure que la longueur du contexte augmente. Bien que ces modèles prétendent tous supporter des contextes de 32K tokens ou plus, seuls quatre modèles (GPT-4, Command-R, Yi-34B et Mixtral) parviennent à maintenir une performance satisfaisante à la longueur de 32K. Notre analyse de Yi-34B, qui supporte une longueur de contexte de 200K, révèle un grand potentiel d'amélioration à mesure que nous augmentons la longueur de l'entrée et la complexité des tâches. Nous mettons RULER en open source pour encourager une évaluation complète des LMs à contexte étendu.
English
The needle-in-a-haystack (NIAH) test, which examines the ability to retrieve a piece of information (the "needle") from long distractor texts (the "haystack"), has been widely adopted to evaluate long-context language models (LMs). However, this simple retrieval-based test is indicative of only a superficial form of long-context understanding. To provide a more comprehensive evaluation of long-context LMs, we create a new synthetic benchmark RULER with flexible configurations for customized sequence length and task complexity. RULER expands upon the vanilla NIAH test to encompass variations with diverse types and quantities of needles. Moreover, RULER introduces new task categories multi-hop tracing and aggregation to test behaviors beyond searching from context. We evaluate ten long-context LMs with 13 representative tasks in RULER. Despite achieving nearly perfect accuracy in the vanilla NIAH test, all models exhibit large performance drops as the context length increases. While these models all claim context sizes of 32K tokens or greater, only four models (GPT-4, Command-R, Yi-34B, and Mixtral) can maintain satisfactory performance at the length of 32K. Our analysis of Yi-34B, which supports context length of 200K, reveals large room for improvement as we increase input length and task complexity. We open source RULER to spur comprehensive evaluation of long-context LMs.

Summary

AI-Generated Summary

PDF383December 15, 2024