El escalado del razonamiento puede mejorar la factualidad en los modelos de lenguaje de gran escala.
Scaling Reasoning can Improve Factuality in Large Language Models
May 16, 2025
Autores: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI
Resumen
Estudios recientes sobre las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado mejoras prometedoras en el rendimiento de los modelos al aprovechar un proceso de pensamiento prolongado y recursos computacionales adicionales durante la inferencia, principalmente en tareas que involucran razonamiento matemático (Muennighoff et al., 2025). Sin embargo, sigue siendo incierto si las cadenas de razonamiento más largas mejoran inherentemente la precisión factual, particularmente más allá de los contextos matemáticos. En este trabajo, examinamos exhaustivamente el razonamiento de los LLM en escenarios complejos de respuesta a preguntas en dominios abiertos (QA, por sus siglas en inglés). Inicialmente, destilamos trazas de razonamiento de modelos avanzados de razonamiento a gran escala (QwQ-32B y DeepSeek-R1-671B), luego ajustamos finamente una variedad de modelos que van desde variantes más pequeñas ajustadas por instrucciones hasta arquitecturas más grandes basadas en Qwen2.5. Para enriquecer las trazas de razonamiento, introducimos información factual de grafos de conocimiento en forma de rutas en nuestras trazas de razonamiento. Nuestra configuración experimental incluye cuatro enfoques de referencia y seis modelos diferentes ajustados por instrucciones evaluados en un conjunto de seis conjuntos de datos, que abarcan más de 22.6K preguntas. En general, llevamos a cabo 168 ejecuciones experimentales y analizamos aproximadamente 1.7 millones de trazas de razonamiento. Nuestros hallazgos indican que, en una sola ejecución, los modelos de razonamiento más pequeños logran mejoras notables en la precisión factual en comparación con sus contrapartes originales ajustadas por instrucciones. Además, nuestro análisis demuestra que agregar recursos computacionales y presupuestos de tokens en tiempo de prueba mejora consistentemente la precisión factual en un 2-8%, confirmando aún más la efectividad del escalado en tiempo de prueba para mejorar el rendimiento y, en consecuencia, la precisión del razonamiento en tareas de QA en dominios abiertos. Publicamos todos los artefactos experimentales para futuras investigaciones.
English
Recent studies on large language model (LLM) reasoning capabilities have
demonstrated promising improvements in model performance by leveraging a
lengthy thinking process and additional computational resources during
inference, primarily in tasks involving mathematical reasoning (Muennighoff et
al., 2025). However, it remains uncertain if longer reasoning chains inherently
enhance factual accuracy, particularly beyond mathematical contexts. In this
work, we thoroughly examine LLM reasoning within complex open-domain
question-answering (QA) scenarios. We initially distill reasoning traces from
advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then
fine-tune a variety of models ranging from smaller, instruction-tuned variants
to larger architectures based on Qwen2.5. To enrich reasoning traces, we
introduce factual information from knowledge graphs in the form of paths into
our reasoning traces. Our experimental setup includes four baseline approaches
and six different instruction-tuned models evaluated across a benchmark of six
datasets, encompassing over 22.6K questions. Overall, we carry out 168
experimental runs and analyze approximately 1.7 million reasoning traces. Our
findings indicate that, within a single run, smaller reasoning models achieve
noticeable improvements in factual accuracy compared to their original
instruction-tuned counterparts. Moreover, our analysis demonstrates that adding
test-time compute and token budgets factual accuracy consistently improves by
2-8%, further confirming the effectiveness of test-time scaling for enhancing
performance and consequently improving reasoning accuracy in open-domain QA
tasks. We release all the experimental artifacts for further research.Summary
AI-Generated Summary