Voorbij Contextlimieten: Onderbewuste Draden voor Lange-Termijn Redeneren
Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning
July 22, 2025
Auteurs: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI
Samenvatting
Om de contextlimieten van grote taalmodellen (LLMs) te doorbreken die de nauwkeurigheid en efficiëntie van redeneren belemmeren, stellen we het Thread Inference Model (TIM) voor, een familie van LLMs die getraind zijn voor recursief en decompositieprobleemoplossend denken, en TIMRUN, een inferentie-runtime die gestructureerd redeneren over lange tijdshorizons mogelijk maakt, voorbij de contextlimieten. Samen ondersteunt TIM, gehost op TIMRUN, vrijwel onbeperkt werkgeheugen en multi-hop tool-aanroepen binnen een enkele taalmodelinferentie, waardoor outputlimieten, positionele inbeddingsbeperkingen en GPU-geheugenknelpunten worden overwonnen. Deze prestaties worden bereikt door natuurlijke taal te modelleren als redeneerbomen, gemeten op zowel lengte als diepte, in plaats van als lineaire sequenties. De redeneerbomen bestaan uit taken met gedachten, recursieve subtaken en conclusies, gebaseerd op het concept dat we hebben voorgesteld in Schroeder et al, 2025. Tijdens de generatie houden we een werkgeheugen aan dat alleen de sleutel-waardestaten van de meest relevante contexttokens behoudt, geselecteerd door een op regels gebaseerd subtaken-snoeimechanisme, waardoor hergebruik van positionele inbeddingen en GPU-geheugenpagina's gedurende het redeneren mogelijk wordt. Experimentele resultaten tonen aan dat ons systeem een hoge inferentie-doorvoersnelheid behoudt, zelfs wanneer tot 90% van de KV-cache in het GPU-geheugen wordt gemanipuleerd. Het levert ook nauwkeurige redenering op wiskundige taken en gaat om met uitdagingen op het gebied van informatieverwerking die langetermijnredenering en multi-hop toolgebruik vereisen.
English
To break the context limits of large language models (LLMs) that bottleneck
reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM),
a family of LLMs trained for recursive and decompositional problem solving, and
TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond
context limits. Together, TIM hosted on TIMRUN supports virtually unlimited
working memory and multi-hop tool calls within a single language model
inference, overcoming output limits, positional-embedding constraints, and
GPU-memory bottlenecks. Performance is achieved by modeling natural language as
reasoning trees measured by both length and depth instead of linear sequences.
The reasoning trees consist of tasks with thoughts, recursive subtasks, and
conclusions based on the concept we proposed in Schroeder et al, 2025. During
generation, we maintain a working memory that retains only the key-value states
of the most relevant context tokens, selected by a rule-based subtask-pruning
mechanism, enabling reuse of positional embeddings and GPU memory pages
throughout reasoning. Experimental results show that our system sustains high
inference throughput, even when manipulating up to 90% of the KV cache in GPU
memory. It also delivers accurate reasoning on mathematical tasks and handles
information retrieval challenges that require long-horizon reasoning and
multi-hop tool use.