ChatPaper.aiChatPaper

Essa É Sua Resposta Final? Escalonamento em Tempo de Teste Melhora a Seleção de Respostas a Perguntas

Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

February 19, 2025
Autores: William Jurayj, Jeffrey Cheng, Benjamin Van Durme
cs.AI

Resumo

Aumentar o poder computacional durante o teste de modelos de linguagem de grande escala tem demonstrado desempenho impressionante em benchmarks de raciocínio. No entanto, as avaliações existentes sobre a escalabilidade no tempo de teste partem da forte suposição de que um sistema de raciocínio deve sempre fornecer uma resposta para qualquer pergunta apresentada. Isso ignora preocupações sobre se um modelo está confiante em sua resposta e se é apropriado sempre fornecer uma resposta. Para abordar essas preocupações, extraímos pontuações de confiança durante o raciocínio para limitar as respostas do modelo. Descobrimos que aumentar o orçamento computacional no momento da inferência não apenas ajuda os modelos a responderem mais perguntas corretamente, mas também aumenta a confiança nas respostas corretas. Em seguida, estendemos o paradigma atual de respostas de risco zero durante a avaliação, considerando cenários com níveis de risco de resposta diferentes de zero, e sugerimos uma abordagem para relatar avaliações nessas condições.
English
Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.

Summary

AI-Generated Summary

PDF31February 20, 2025