Átomo de Pensamientos para Escalado en Tiempo de Prueba de LLM Markov

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) logran un rendimiento superior mediante el escalado durante el entrenamiento, y el escalado en tiempo de prueba mejora aún más sus capacidades al realizar un razonamiento efectivo durante la inferencia. Sin embargo, a medida que aumenta la escala del razonamiento, los métodos existentes de escalado en tiempo de prueba sufren por la acumulación de información histórica, lo que no solo desperdicia recursos computacionales, sino que también interfiere con un razonamiento efectivo. Para abordar este problema, observamos que el progreso en el razonamiento complejo a menudo se logra resolviendo una secuencia de subpreguntas independientes, cada una de las cuales es autónoma y verificable. Estas subpreguntas son esencialmente preguntas atómicas, que dependen principalmente de su estado actual en lugar de la historia acumulada, similar a las transiciones sin memoria en un proceso de Markov. Basándonos en esta observación, proponemos Átomos de Pensamiento (AoT, por sus siglas en inglés), donde cada transición de estado en el proceso de razonamiento consiste en descomponer la pregunta actual en un grafo acíclico dirigido basado en dependencias y contraer sus subpreguntas, formando un nuevo estado de pregunta atómica. Este proceso iterativo de descomposición-contracción continúa hasta alcanzar preguntas atómicas directamente resolubles, realizando naturalmente transiciones de Markov entre estados de preguntas. Además, estas preguntas atómicas pueden integrarse sin problemas en los métodos existentes de escalado en tiempo de prueba, permitiendo que AoT funcione como una mejora complementaria para mejorar las capacidades de razonamiento. Los experimentos en seis benchmarks demuestran la efectividad de AoT tanto como un marco independiente como una mejora complementaria. Notablemente, en HotpotQA, cuando se aplica a gpt-4o-mini, AoT alcanza un puntaje F1 del 80.6%, superando a o3-mini en un 3.4% y a DeepSeek-R1 en un 10.6%. El código estará disponible en https://github.com/qixucen/atom.

English

Large Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during inference. However, as the scale of reasoning increases, existing test-time scaling methods suffer from accumulated historical information, which not only wastes computational resources but also interferes with effective reasoning. To address this issue, we observe that complex reasoning progress is often achieved by solving a sequence of independent subquestions, each being self-contained and verifiable. These subquestions are essentially atomic questions, relying primarily on their current state rather than accumulated history, similar to the memoryless transitions in a Markov process. Based on this observation, we propose Atom of Thoughts (AoT), where each state transition in the reasoning process consists of decomposing the current question into a dependency-based directed acyclic graph and contracting its subquestions, forming a new atomic question state. This iterative decomposition-contraction process continues until reaching directly solvable atomic questions, naturally realizing Markov transitions between question states. Furthermore, these atomic questions can be seamlessly integrated into existing test-time scaling methods, enabling AoT to serve as a plug-in enhancement for improving reasoning capabilities. Experiments across six benchmarks demonstrate the effectiveness of AoT both as a standalone framework and a plug-in enhancement. Notably, on HotpotQA, when applied to gpt-4o-mini, AoT achieves an 80.6% F1 score, surpassing o3-mini by 3.4% and DeepSeek-R1 by 10.6%. The code will be available at https://github.com/qixucen/atom.

Átomo de Pensamientos para Escalado en Tiempo de Prueba de LLM Markov

Atom of Thoughts for Markov LLM Test-Time Scaling

Resumen

Support