ChatPaper.aiChatPaper

¿Es esa tu respuesta final? El escalado en tiempo de prueba mejora la selección de preguntas para responder

Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

February 19, 2025
Autores: William Jurayj, Jeffrey Cheng, Benjamin Van Durme
cs.AI

Resumen

El escalado del cómputo en tiempo de prueba de los modelos de lenguaje grandes ha demostrado un rendimiento impresionante en benchmarks de razonamiento. Sin embargo, las evaluaciones existentes sobre el escalado en tiempo de prueba parten de la fuerte suposición de que un sistema de razonamiento siempre debería dar una respuesta a cualquier pregunta que se le proporcione. Esto pasa por alto preocupaciones sobre si un modelo está seguro de su respuesta y si es apropiado proporcionar siempre una respuesta. Para abordar estas preocupaciones, extraemos puntuaciones de confianza durante el razonamiento para establecer umbrales en las respuestas del modelo. Descubrimos que aumentar el presupuesto de cómputo en el momento de la inferencia no solo ayuda a los modelos a responder más preguntas correctamente, sino que también aumenta la confianza en las respuestas correctas. Luego, extendemos el paradigma actual de respuestas de riesgo cero durante la evaluación al considerar escenarios con niveles de riesgo de respuesta distintos de cero, y sugerimos una receta para reportar evaluaciones bajo estos escenarios.
English
Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.

Summary

AI-Generated Summary

PDF31February 20, 2025