Escalado Eficiente en Tiempo de Prueba mediante Autocalibración

Resumen

Aumentar el cómputo durante la inferencia es un enfoque directo para mejorar la calidad de las respuestas en los Modelos de Lenguaje de Gran Escala (LLMs). Si bien el muestreo Best-of-N y la Autoconsistencia con votación mayoritaria son métodos simples y efectivos, requieren un número fijo de respuestas muestreadas para cada consulta, independientemente de su complejidad. Esto podría resultar en un cómputo desperdiciado para preguntas más simples y una exploración insuficiente para las más desafiantes. En este trabajo, argumentamos que la confianza del modelo en sus respuestas puede utilizarse para mejorar la eficiencia del escalado durante la inferencia. Desafortunadamente, se sabe que los LLMs tienden a ser sobreconfiados y proporcionan estimaciones de confianza poco fiables. Para abordar esta limitación, introducimos la Autocalibración, destilando la confianza derivada de la Autoconsistencia en el propio modelo. Esto permite una estimación confiable de la confianza durante la inferencia con un solo paso hacia adelante. Luego, diseñamos métodos eficientes de escalado durante la inferencia basados en confianza para manejar consultas de diversa dificultad, como la Detención Temprana para Best-of-N y la Autoconsistencia con confianza calibrada. Los experimentos en tres LLMs a través de seis conjuntos de datos demuestran la efectividad de nuestro enfoque. Específicamente, aplicar la Detención Temprana basada en confianza a Best-of-N mejora la precisión en MathQA de 81.0 a 83.6 con un presupuesto de muestreo de 16 respuestas, lo que indica la eficacia de la estrategia de muestreo basada en confianza durante la inferencia.

English

Increasing test-time computation is a straightforward approach to enhancing the quality of responses in Large Language Models (LLMs). While Best-of-N sampling and Self-Consistency with majority voting are simple and effective, they require a fixed number of sampling responses for each query, regardless of its complexity. This could result in wasted computation for simpler questions and insufficient exploration for more challenging ones. In this work, we argue that model confidence of responses can be used for improving the efficiency of test-time scaling. Unfortunately, LLMs are known to be overconfident and provide unreliable confidence estimation. To address this limitation, we introduce Self-Calibration by distilling Self-Consistency-derived confidence into the model itself. This enables reliable confidence estimation at test time with one forward pass. We then design confidence-based efficient test-time scaling methods to handle queries of various difficulty, such as Early-Stopping for Best-of-N and Self-Consistency with calibrated confidence. Experiments on three LLMs across six datasets demonstrate the effectiveness of our approach. Specifically, applying confidence-based Early Stopping to Best-of-N improves MathQA accuracy from 81.0 to 83.6 with a sample budget of 16 responses, indicating the efficacy of confidence-based sampling strategy at inference time.

Escalado Eficiente en Tiempo de Prueba mediante Autocalibración

Efficient Test-Time Scaling via Self-Calibration

Resumen

Support