El escalado en tiempo de prueba en modelos de razonamiento aún no es efectivo para tareas intensivas en conocimiento.
Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
September 8, 2025
Autores: James Xu Zhao, Bryan Hooi, See-Kiong Ng
cs.AI
Resumen
El escalado en tiempo de prueba aumenta el cómputo durante la inferencia al permitir que los modelos generen cadenas de razonamiento largas, y ha demostrado un rendimiento sólido en muchos dominios. Sin embargo, en este trabajo, mostramos que este enfoque aún no es efectivo para tareas intensivas en conocimiento, donde la alta precisión factual y las bajas tasas de alucinación son esenciales. Realizamos una evaluación exhaustiva del escalado en tiempo de prueba utilizando 12 modelos de razonamiento en dos benchmarks intensivos en conocimiento. Nuestros resultados revelan que aumentar el cómputo en tiempo de prueba no mejora consistentemente la precisión y, en muchos casos, incluso conduce a más alucinaciones. Luego analizamos cómo el razonamiento extendido afecta el comportamiento de las alucinaciones. Descubrimos que la reducción de alucinaciones a menudo resulta de que el modelo elige abstenerse después de pensar más, en lugar de una mejora en la recuperación factual. Por el contrario, para algunos modelos, el razonamiento más prolongado fomenta intentos en preguntas previamente no respondidas, muchas de las cuales resultan en alucinaciones. Estudios de caso muestran que el razonamiento extendido puede inducir sesgo de confirmación, llevando a alucinaciones demasiado confiadas. A pesar de estas limitaciones, observamos que, en comparación con no pensar, habilitar el pensamiento sigue siendo beneficioso. El código y los datos están disponibles en https://github.com/XuZhao0/tts-knowledge.
English
Test-time scaling increases inference-time computation by allowing models to
generate long reasoning chains, and has shown strong performance across many
domains. However, in this work, we show that this approach is not yet effective
for knowledge-intensive tasks, where high factual accuracy and low
hallucination rates are essential. We conduct a comprehensive evaluation of
test-time scaling using 12 reasoning models on two knowledge-intensive
benchmarks. Our results reveal that increasing test-time computation does not
consistently improve accuracy and, in many cases, it even leads to more
hallucinations. We then analyze how extended reasoning affects hallucination
behavior. We find that reduced hallucinations often result from the model
choosing to abstain after thinking more, rather than from improved factual
recall. Conversely, for some models, longer reasoning encourages attempts on
previously unanswered questions, many of which result in hallucinations. Case
studies show that extended reasoning can induce confirmation bias, leading to
overconfident hallucinations. Despite these limitations, we observe that
compared to non-thinking, enabling thinking remains beneficial. Code and data
are available at https://github.com/XuZhao0/tts-knowledge