Ingénierie Haystack : Ingénierie contextuelle pour l'évaluation hétérogène et agentique des contextes longs

papers.abstract

Les modèles de langage à grand contexte (LLM) modernes obtiennent de bons résultats sur des benchmarks synthétiques de type "aiguille dans une botte de foin" (NIAH), mais ces tests négligent la manière dont les contextes bruyants émergent de la récupération biaisée et des workflows agentiques. Nous soutenons que l'ingénierie de la botte de foin est nécessaire pour construire des contextes longs et bruyants qui capturent fidèlement des facteurs clés du monde réel — la distraction causée par des récupérateurs hétérogènes biaisés et les erreurs en cascade dans les workflows agentiques — afin de tester la robustesse des modèles face à des contextes longs. Nous matérialisons cette idée à travers HaystackCraft, un nouveau benchmark NIAH construit sur le réseau complet de liens hypertextes de Wikipédia en anglais avec des questions à sauts multiples. HaystackCraft évalue comment les stratégies de récupération hétérogènes (par exemple, sparse, dense, hybrides et basées sur des graphes) affectent la composition des distracteurs, l'ordonnancement de la botte de foin et les performances des LLM en aval. HaystackCraft étend également NIAH à des configurations dynamiques dépendantes des LLM qui simulent des opérations agentiques, où les modèles affinent les requêtes, réfléchissent à leurs raisonnements passés et décident quand s'arrêter. Les expériences menées avec 15 modèles à grand contexte montrent que (1) bien que des récupérateurs denses plus performants puissent introduire des distracteurs plus difficiles, le réordonnancement basé sur des graphes améliore simultanément l'efficacité de la récupération et atténue les distracteurs les plus nuisibles ; (2) dans les tests agentiques, même des modèles avancés comme Gemini 2.5 Pro et GPT-5 subissent des échecs en cascade dus à des distracteurs auto-générés ou peinent à effectuer des arrêts précoces. Ces résultats mettent en lumière des défis persistants dans le raisonnement agentique à grand contexte et établissent HaystackCraft comme un banc d'essai précieux pour les progrès futurs.

English

Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.

Ingénierie Haystack : Ingénierie contextuelle pour l'évaluation hétérogène et agentique des contextes longs

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

papers.abstract

Support