ChatPaper.aiChatPaper

¿Mejora la Escalabilidad de la Inferencia la Fidelidad del Razonamiento? Un Análisis Multimodelo de las Compensaciones de la Autoconsistencia

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

January 10, 2026
Autores: Deep Mehta
cs.AI

Resumen

La autoconsistencia ha surgido como una técnica popular para mejorar la precisión de los modelos de lenguaje grande en tareas de razonamiento. El enfoque es sencillo: generar múltiples rutas de razonamiento y seleccionar la respuesta más común mediante votación mayoritaria. Si bien esto aumenta de manera confiable la precisión, no está claro si estas ganancias reflejan mejoras genuinas en la calidad del razonamiento. Investigamos una cuestión fundamental que no se ha estudiado antes: ¿la escalabilidad de la inferencia mejora la fidelidad del razonamiento? Realizamos un estudio empírico exhaustivo en cuatro modelos de vanguardia (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview y DeepSeek-v3.2) sobre 100 problemas de razonamiento matemático del conjunto de datos GSM8K. Nuestro análisis emplea intervalos de confianza bootstrap, pruebas de McNemar para comparaciones pareadas y tamaños del efecto d de Cohen para cuantificar los efectos de manera rigurosa. Los resultados revelan diferencias sorprendentes entre los modelos que desafían las suposiciones comunes sobre la autoconsistencia. GPT-5.2 muestra el patrón esperado: la precisión mejora del 78% al 90% en N=5, mientras que la fidelidad se mantiene relativamente estable (0.540 a 0.510). Claude Opus 4.5 cuenta una historia completamente diferente. Su precisión en realidad disminuye del 78% al 74.3%, mientras que la fidelidad aumenta dramáticamente de 0.270 a 0.891 en N=5. DeepSeek-v3.2, que ya tiene una precisión del 98%, muestra efectos de techo con ganancias modestas en fidelidad (0.440 a 0.541). Gemini-3-flash mejora del 81% al 86% en precisión con una ligera disminución en fidelidad (0.260 a 0.212). El análisis de la dificultad de los problemas revela que GPT-5.2 resuelve el 82% de los problemas difíciles, mientras que solo falla en el 13% de los problemas fáciles. Claude, por el contrario, falla en el 23% de los problemas fáciles, lo que explica su disminución en precisión. Estos hallazgos son importantes para los profesionales: la autoconsistencia no es universalmente beneficiosa, y los equipos deben probar sus modelos específicos antes del despliegue. Publicamos nuestro código y proporcionamos recomendaciones prácticas para navegar estas compensaciones.
English
Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.
PDF22January 31, 2026