Além dos Limites de Contexto: Fios Subconscientes para Raciocínio de Longo Prazo
Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning
July 22, 2025
Autores: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI
Resumo
Para superar os limites de contexto dos grandes modelos de linguagem (LLMs) que prejudicam a precisão e eficiência do raciocínio, propomos o Modelo de Inferência em Threads (TIM), uma família de LLMs treinados para resolução recursiva e decomposicional de problemas, e o TIMRUN, um ambiente de execução de inferência que permite raciocínio estruturado de longo horizonte além dos limites de contexto. Juntos, o TIM hospedado no TIMRUN suporta uma memória de trabalho virtualmente ilimitada e chamadas de ferramentas multi-hop dentro de uma única inferência de modelo de linguagem, superando limites de saída, restrições de embeddings posicionais e gargalos de memória da GPU. O desempenho é alcançado ao modelar a linguagem natural como árvores de raciocínio medidas tanto por comprimento quanto por profundidade, em vez de sequências lineares. As árvores de raciocínio consistem em tarefas com pensamentos, subtarefas recursivas e conclusões, baseadas no conceito que propusemos em Schroeder et al, 2025. Durante a geração, mantemos uma memória de trabalho que retém apenas os estados chave-valor dos tokens de contexto mais relevantes, selecionados por um mecanismo de poda de subtarefas baseado em regras, permitindo a reutilização de embeddings posicionais e páginas de memória da GPU ao longo do raciocínio. Resultados experimentais mostram que nosso sistema mantém alta taxa de transferência de inferência, mesmo ao manipular até 90% do cache KV na memória da GPU. Ele também fornece raciocínio preciso em tarefas matemáticas e lida com desafios de recuperação de informação que exigem raciocínio de longo horizonte e uso de ferramentas multi-hop.
English
To break the context limits of large language models (LLMs) that bottleneck
reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM),
a family of LLMs trained for recursive and decompositional problem solving, and
TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond
context limits. Together, TIM hosted on TIMRUN supports virtually unlimited
working memory and multi-hop tool calls within a single language model
inference, overcoming output limits, positional-embedding constraints, and
GPU-memory bottlenecks. Performance is achieved by modeling natural language as
reasoning trees measured by both length and depth instead of linear sequences.
The reasoning trees consist of tasks with thoughts, recursive subtasks, and
conclusions based on the concept we proposed in Schroeder et al, 2025. During
generation, we maintain a working memory that retains only the key-value states
of the most relevant context tokens, selected by a rule-based subtask-pruning
mechanism, enabling reuse of positional embeddings and GPU memory pages
throughout reasoning. Experimental results show that our system sustains high
inference throughput, even when manipulating up to 90% of the KV cache in GPU
memory. It also delivers accurate reasoning on mathematical tasks and handles
information retrieval challenges that require long-horizon reasoning and
multi-hop tool use.