Átomo de Pensamientos para Escalado en Tiempo de Prueba de LLM Markov
Atom of Thoughts for Markov LLM Test-Time Scaling
February 17, 2025
Autores: Fengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) logran un rendimiento superior mediante el escalado durante el entrenamiento, y el escalado en tiempo de prueba mejora aún más sus capacidades al realizar un razonamiento efectivo durante la inferencia. Sin embargo, a medida que aumenta la escala del razonamiento, los métodos existentes de escalado en tiempo de prueba sufren por la acumulación de información histórica, lo que no solo desperdicia recursos computacionales, sino que también interfiere con un razonamiento efectivo. Para abordar este problema, observamos que el progreso en el razonamiento complejo a menudo se logra resolviendo una secuencia de subpreguntas independientes, cada una de las cuales es autónoma y verificable. Estas subpreguntas son esencialmente preguntas atómicas, que dependen principalmente de su estado actual en lugar de la historia acumulada, similar a las transiciones sin memoria en un proceso de Markov. Basándonos en esta observación, proponemos Átomos de Pensamiento (AoT, por sus siglas en inglés), donde cada transición de estado en el proceso de razonamiento consiste en descomponer la pregunta actual en un grafo acíclico dirigido basado en dependencias y contraer sus subpreguntas, formando un nuevo estado de pregunta atómica. Este proceso iterativo de descomposición-contracción continúa hasta alcanzar preguntas atómicas directamente resolubles, realizando naturalmente transiciones de Markov entre estados de preguntas. Además, estas preguntas atómicas pueden integrarse sin problemas en los métodos existentes de escalado en tiempo de prueba, permitiendo que AoT funcione como una mejora complementaria para mejorar las capacidades de razonamiento. Los experimentos en seis benchmarks demuestran la efectividad de AoT tanto como un marco independiente como una mejora complementaria. Notablemente, en HotpotQA, cuando se aplica a gpt-4o-mini, AoT alcanza un puntaje F1 del 80.6%, superando a o3-mini en un 3.4% y a DeepSeek-R1 en un 10.6%. El código estará disponible en https://github.com/qixucen/atom.
English
Large Language Models (LLMs) achieve superior performance through
training-time scaling, and test-time scaling further enhances their
capabilities by conducting effective reasoning during inference. However, as
the scale of reasoning increases, existing test-time scaling methods suffer
from accumulated historical information, which not only wastes computational
resources but also interferes with effective reasoning. To address this issue,
we observe that complex reasoning progress is often achieved by solving a
sequence of independent subquestions, each being self-contained and verifiable.
These subquestions are essentially atomic questions, relying primarily on their
current state rather than accumulated history, similar to the memoryless
transitions in a Markov process. Based on this observation, we propose Atom of
Thoughts (AoT), where each state transition in the reasoning process consists
of decomposing the current question into a dependency-based directed acyclic
graph and contracting its subquestions, forming a new atomic question state.
This iterative decomposition-contraction process continues until reaching
directly solvable atomic questions, naturally realizing Markov transitions
between question states. Furthermore, these atomic questions can be seamlessly
integrated into existing test-time scaling methods, enabling AoT to serve as a
plug-in enhancement for improving reasoning capabilities. Experiments across
six benchmarks demonstrate the effectiveness of AoT both as a standalone
framework and a plug-in enhancement. Notably, on HotpotQA, when applied to
gpt-4o-mini, AoT achieves an 80.6% F1 score, surpassing o3-mini by 3.4% and
DeepSeek-R1 by 10.6%. The code will be available at
https://github.com/qixucen/atom.Summary
AI-Generated Summary