Jenseits der Kontextgrenzen: Unterbewusste Fäden für langfristiges Denken

papers.abstract

Um die Kontextgrenzen großer Sprachmodelle (LLMs) zu überwinden, die die Genauigkeit und Effizienz des logischen Schließens einschränken, schlagen wir das Thread Inference Model (TIM) vor, eine Familie von LLMs, die für rekursives und dekompositionelles Problemlösen trainiert sind, sowie TIMRUN, eine Inferenzlaufzeitumgebung, die strukturiertes Schließen über lange Horizonte jenseits von Kontextgrenzen ermöglicht. Zusammen unterstützt TIM, das auf TIMRUN läuft, praktisch unbegrenzten Arbeitsspeicher und mehrstufige Werkzeugaufrufe innerhalb einer einzigen Sprachmodell-Inferenz, wodurch Ausgabegrenzen, Positionseinbettungsbeschränkungen und GPU-Speicherengpässe überwunden werden. Die Leistung wird erreicht, indem natürliche Sprache als Schließbäume modelliert wird, die sowohl in Länge als auch in Tiefe gemessen werden, anstatt als lineare Sequenzen. Die Schließbäume bestehen aus Aufgaben mit Gedanken, rekursiven Unteraufgaben und Schlussfolgerungen, basierend auf dem Konzept, das wir in Schroeder et al., 2025 vorgeschlagen haben. Während der Generierung pflegen wir einen Arbeitsspeicher, der nur die Schlüssel-Wert-Zustände der relevantesten Kontext-Token speichert, die durch einen regelbasierten Unteraufgaben-Beschneidungsmechanismus ausgewählt werden. Dies ermöglicht die Wiederverwendung von Positionseinbettungen und GPU-Speicherseiten während des Schließens. Experimentelle Ergebnisse zeigen, dass unser System eine hohe Inferenzdurchsatzrate aufrechterhält, selbst wenn bis zu 90 % des KV-Caches im GPU-Speicher manipuliert werden. Es liefert auch präzises Schließen bei mathematischen Aufgaben und bewältigt Informationsabfragen, die langfristiges Schließen und mehrstufigen Werkzeugeinsatz erfordern.

English

To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.

Jenseits der Kontextgrenzen: Unterbewusste Fäden für langfristiges Denken

Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

papers.abstract

Support