ChatPaper.aiChatPaper

Un Examen Contrôlable pour les Modèles de Langage à Contexte Long

A Controllable Examination for Long-Context Language Models

June 3, 2025
Auteurs: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI

Résumé

Les cadres existants pour évaluer les modèles de langage à contexte long (LCLM) peuvent être globalement catégorisés en tâches réelles et tâches synthétiques. Malgré leur utilité, ces deux approches présentent certaines limitations intrinsèques. Les tâches réelles sont trop complexes à interpréter ou à caractériser et sont susceptibles à la contamination des données. En revanche, les tâches synthétiques adoptent souvent le format de l’« aiguille dans une botte de foin » (NIAH), où un manque de cohérence entre l’« aiguille » et la « botte de foin » compromet leur validité en tant que proxies pour des applications réalistes. Face à ces défis, nous postulons qu’un cadre d’évaluation idéal pour les contextes longs devrait être caractérisé par trois caractéristiques essentielles : un contexte fluide, un environnement contrôlé et une évaluation rigoureuse. Cette étude présente LongBioBench, un nouveau benchmark qui utilise des biographies générées artificiellement comme environnement contrôlé pour évaluer les LCLM sur les dimensions de compréhension, de raisonnement et de fiabilité. Notre évaluation expérimentale, qui inclut 18 LCLM au total, démontre que la plupart des modèles présentent encore des lacunes dans la compréhension sémantique et le raisonnement élémentaire sur les résultats récupérés, et sont moins fiables à mesure que la longueur du contexte augmente. Notre analyse approfondie indique que certains choix de conception employés par les benchmarks synthétiques existants, tels que la non-cohérence contextuelle, les aiguilles numériques et l’absence de distracteurs, les rendent vulnérables pour tester les capacités des modèles à contexte long. De plus, nous révélons également que le pré-entraînement continu à contexte long ajuste principalement l’embedding RoPE pour s’adapter à des longueurs de contexte étendues. En résumé, par rapport aux benchmarks synthétiques précédents, LongBioBench atteint un meilleur équilibre entre la reproduction de tâches linguistiques authentiques et le maintien de la contrôlabilité, tout en étant hautement interprétable et configurable.
English
Existing frameworks for evaluating long-context language models (LCLM) can be broadly categorized into real-world and synthetic tasks. Despite their utility, both approaches are accompanied by certain intrinsic limitations. Real-world tasks are too complex to interpret or characterize and are susceptible to data contamination. In contrast, synthetic tasks often adopt the needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the "needle" and the "haystack" compromises their validity as proxies for realistic applications. In response to these challenges, we posit that an ideal long-context evaluation framework should be characterized by three essential features: seamless context, controllable setting, and sound evaluation. This study introduces LongBioBench, a novel benchmark that utilizes artificially generated biographies as a controlled environment for assessing LCLMs across dimensions of understanding, reasoning, and trustworthiness. Our experimental evaluation, which includes 18 LCLMs in total, demonstrates that most models still exhibit deficiencies in semantic understanding and elementary reasoning over retrieved results and are less trustworthy as context length increases. Our further analysis indicates some design choices employed by existing synthetic benchmarks, such as contextual non-coherence, numerical needles, and the absence of distractors, rendering them vulnerable to test the model long-context capabilities. Moreover, we also reveal that long-context continual pretraining primarily adjusts RoPE embedding to accommodate extended context lengths. To sum up, compared to previous synthetic benchmarks, LongBioBench achieves a better trade-off between mirroring authentic language tasks and maintaining controllability, and is highly interpretable and configurable.
PDF302June 5, 2025