ChatPaper.aiChatPaper

За пределами контекста: подсознательные нити для долгосрочного рассуждения

Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

July 22, 2025
Авторы: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI

Аннотация

Чтобы преодолеть ограничения контекста крупных языковых моделей (LLM), которые снижают точность и эффективность рассуждений, мы предлагаем Thread Inference Model (TIM) — семейство LLM, обученных для рекурсивного и декомпозиционного решения задач, а также TIMRUN — среду выполнения для вывода, обеспечивающую структурированные рассуждения на длинных горизонтах за пределами ограничений контекста. Вместе TIM, работающий на TIMRUN, поддерживает практически неограниченную рабочую память и многошаговые вызовы инструментов в рамках одного вывода языковой модели, преодолевая ограничения на выходные данные, ограничения позиционных эмбеддингов и узкие места в памяти GPU. Производительность достигается за счет моделирования естественного языка в виде деревьев рассуждений, измеряемых как по длине, так и по глубине, вместо линейных последовательностей. Деревья рассуждений состоят из задач с мыслями, рекурсивных подзадач и выводов, основанных на концепции, предложенной нами в Schroeder et al., 2025. В процессе генерации мы поддерживаем рабочую память, которая сохраняет только ключевые состояния наиболее релевантных токенов контекста, выбранных с помощью механизма обрезки подзадач на основе правил, что позволяет повторно использовать позиционные эмбеддинги и страницы памяти GPU на протяжении всего процесса рассуждений. Экспериментальные результаты показывают, что наша система поддерживает высокую пропускную способность вывода даже при манипулировании до 90% кэша ключей и значений (KV) в памяти GPU. Она также обеспечивает точные рассуждения в математических задачах и справляется с задачами поиска информации, требующими длительных рассуждений и многошагового использования инструментов.
English
To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.
PDF959July 23, 2025