Jenseits der Kontextgrenzen: Unterbewusste Fäden für langfristiges Denken
Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning
July 22, 2025
papers.authors: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI
papers.abstract
Um die Kontextgrenzen großer Sprachmodelle (LLMs) zu überwinden, die die Genauigkeit und Effizienz des logischen Schließens einschränken, schlagen wir das Thread Inference Model (TIM) vor, eine Familie von LLMs, die für rekursives und dekompositionelles Problemlösen trainiert sind, sowie TIMRUN, eine Inferenzlaufzeitumgebung, die strukturiertes Schließen über lange Horizonte jenseits von Kontextgrenzen ermöglicht. Zusammen unterstützt TIM, das auf TIMRUN läuft, praktisch unbegrenzten Arbeitsspeicher und mehrstufige Werkzeugaufrufe innerhalb einer einzigen Sprachmodell-Inferenz, wodurch Ausgabegrenzen, Positionseinbettungsbeschränkungen und GPU-Speicherengpässe überwunden werden. Die Leistung wird erreicht, indem natürliche Sprache als Schließbäume modelliert wird, die sowohl in Länge als auch in Tiefe gemessen werden, anstatt als lineare Sequenzen. Die Schließbäume bestehen aus Aufgaben mit Gedanken, rekursiven Unteraufgaben und Schlussfolgerungen, basierend auf dem Konzept, das wir in Schroeder et al., 2025 vorgeschlagen haben. Während der Generierung pflegen wir einen Arbeitsspeicher, der nur die Schlüssel-Wert-Zustände der relevantesten Kontext-Token speichert, die durch einen regelbasierten Unteraufgaben-Beschneidungsmechanismus ausgewählt werden. Dies ermöglicht die Wiederverwendung von Positionseinbettungen und GPU-Speicherseiten während des Schließens. Experimentelle Ergebnisse zeigen, dass unser System eine hohe Inferenzdurchsatzrate aufrechterhält, selbst wenn bis zu 90 % des KV-Caches im GPU-Speicher manipuliert werden. Es liefert auch präzises Schließen bei mathematischen Aufgaben und bewältigt Informationsabfragen, die langfristiges Schließen und mehrstufigen Werkzeugeinsatz erfordern.
English
To break the context limits of large language models (LLMs) that bottleneck
reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM),
a family of LLMs trained for recursive and decompositional problem solving, and
TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond
context limits. Together, TIM hosted on TIMRUN supports virtually unlimited
working memory and multi-hop tool calls within a single language model
inference, overcoming output limits, positional-embedding constraints, and
GPU-memory bottlenecks. Performance is achieved by modeling natural language as
reasoning trees measured by both length and depth instead of linear sequences.
The reasoning trees consist of tasks with thoughts, recursive subtasks, and
conclusions based on the concept we proposed in Schroeder et al, 2025. During
generation, we maintain a working memory that retains only the key-value states
of the most relevant context tokens, selected by a rule-based subtask-pruning
mechanism, enabling reuse of positional embeddings and GPU memory pages
throughout reasoning. Experimental results show that our system sustains high
inference throughput, even when manipulating up to 90% of the KV cache in GPU
memory. It also delivers accurate reasoning on mathematical tasks and handles
information retrieval challenges that require long-horizon reasoning and
multi-hop tool use.