ChatPaper.aiChatPaper

Más allá de los límites del contexto: hilos subconscientes para el razonamiento a largo plazo

Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

July 22, 2025
Autores: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI

Resumen

Para superar los límites de contexto de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) que obstaculizan la precisión y eficiencia del razonamiento, proponemos el Modelo de Inferencia en Hilos (TIM, por sus siglas en inglés), una familia de LLMs entrenados para la resolución recursiva y descomposicional de problemas, y TIMRUN, un entorno de ejecución de inferencia que permite un razonamiento estructurado de largo alcance más allá de los límites de contexto. Juntos, TIM alojado en TIMRUN soporta una memoria de trabajo prácticamente ilimitada y llamadas a herramientas de múltiples saltos dentro de una única inferencia de un modelo de lenguaje, superando los límites de salida, las restricciones de incrustación posicional y los cuellos de botella de la memoria de la GPU. Este rendimiento se logra modelando el lenguaje natural como árboles de razonamiento medidos tanto por su longitud como por su profundidad, en lugar de secuencias lineales. Los árboles de razonamiento consisten en tareas con pensamientos, subtareas recursivas y conclusiones basadas en el concepto que propusimos en Schroeder et al., 2025. Durante la generación, mantenemos una memoria de trabajo que retiene únicamente los estados clave-valor de los tokens de contexto más relevantes, seleccionados mediante un mecanismo de poda de subtareas basado en reglas, lo que permite la reutilización de incrustaciones posicionales y páginas de memoria de la GPU a lo largo del razonamiento. Los resultados experimentales muestran que nuestro sistema mantiene un alto rendimiento de inferencia, incluso cuando se manipula hasta el 90% de la caché KV en la memoria de la GPU. Además, ofrece un razonamiento preciso en tareas matemáticas y maneja desafíos de recuperación de información que requieren un razonamiento de largo alcance y el uso de herramientas de múltiples saltos.
English
To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.
PDF959July 23, 2025