Escalado Eficiente en Tiempo de Prueba mediante Autocalibración
Efficient Test-Time Scaling via Self-Calibration
February 25, 2025
Autores: Chengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang
cs.AI
Resumen
Aumentar el cómputo durante la inferencia es un enfoque directo para mejorar la calidad de las respuestas en los Modelos de Lenguaje de Gran Escala (LLMs). Si bien el muestreo Best-of-N y la Autoconsistencia con votación mayoritaria son métodos simples y efectivos, requieren un número fijo de respuestas muestreadas para cada consulta, independientemente de su complejidad. Esto podría resultar en un cómputo desperdiciado para preguntas más simples y una exploración insuficiente para las más desafiantes. En este trabajo, argumentamos que la confianza del modelo en sus respuestas puede utilizarse para mejorar la eficiencia del escalado durante la inferencia. Desafortunadamente, se sabe que los LLMs tienden a ser sobreconfiados y proporcionan estimaciones de confianza poco fiables. Para abordar esta limitación, introducimos la Autocalibración, destilando la confianza derivada de la Autoconsistencia en el propio modelo. Esto permite una estimación confiable de la confianza durante la inferencia con un solo paso hacia adelante. Luego, diseñamos métodos eficientes de escalado durante la inferencia basados en confianza para manejar consultas de diversa dificultad, como la Detención Temprana para Best-of-N y la Autoconsistencia con confianza calibrada. Los experimentos en tres LLMs a través de seis conjuntos de datos demuestran la efectividad de nuestro enfoque. Específicamente, aplicar la Detención Temprana basada en confianza a Best-of-N mejora la precisión en MathQA de 81.0 a 83.6 con un presupuesto de muestreo de 16 respuestas, lo que indica la eficacia de la estrategia de muestreo basada en confianza durante la inferencia.
English
Increasing test-time computation is a straightforward approach to enhancing
the quality of responses in Large Language Models (LLMs). While Best-of-N
sampling and Self-Consistency with majority voting are simple and effective,
they require a fixed number of sampling responses for each query, regardless of
its complexity. This could result in wasted computation for simpler questions
and insufficient exploration for more challenging ones. In this work, we argue
that model confidence of responses can be used for improving the efficiency of
test-time scaling. Unfortunately, LLMs are known to be overconfident and
provide unreliable confidence estimation. To address this limitation, we
introduce Self-Calibration by distilling Self-Consistency-derived confidence
into the model itself. This enables reliable confidence estimation at test time
with one forward pass. We then design confidence-based efficient test-time
scaling methods to handle queries of various difficulty, such as Early-Stopping
for Best-of-N and Self-Consistency with calibrated confidence. Experiments on
three LLMs across six datasets demonstrate the effectiveness of our approach.
Specifically, applying confidence-based Early Stopping to Best-of-N improves
MathQA accuracy from 81.0 to 83.6 with a sample budget of 16 responses,
indicating the efficacy of confidence-based sampling strategy at inference
time.Summary
AI-Generated Summary