Is Dat Je Definitieve Antwoord? Testtijd Schalen Verbeterd Selectief Vragen Beantwoorden
Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering
February 19, 2025
Auteurs: William Jurayj, Jeffrey Cheng, Benjamin Van Durme
cs.AI
Samenvatting
Het opschalen van de rekencapaciteit tijdens het testen van grote taalmodel-
len heeft indrukwekkende prestaties laten zien op redeneerbenchmarks. Bestaande
evaluaties van testtijd-opschaling gaan echter uit van de sterke aanname dat
een redeneersysteem altijd een antwoord moet geven op elke gestelde vraag. Dit
negeert zorgen over of een model zeker is van zijn antwoord, en of het gepast
is om altijd een reactie te geven. Om deze zorgen aan te pakken, extraheren we
betrouwbaarheidsscores tijdens het redeneren om modelreacties te drempelen. We
vinden dat het verhogen van het rekenbudget tijdens inferentie niet alleen
modellen helpt meer vragen correct te beantwoorden, maar ook het vertrouwen in
correcte antwoorden vergroot. We breiden vervolgens het huidige paradigma van
nul-risico reacties tijdens evaluatie uit door situaties met niet-nul niveaus
van reactierisico te overwegen, en stellen een aanpak voor om evaluaties onder
deze omstandigheden te rapporteren.
English
Scaling the test-time compute of large language models has demonstrated
impressive performance on reasoning benchmarks. However, existing evaluations
of test-time scaling make the strong assumption that a reasoning system should
always give an answer to any question provided. This overlooks concerns about
whether a model is confident in its answer, and whether it is appropriate to
always provide a response. To address these concerns, we extract confidence
scores during reasoning for thresholding model responses. We find that
increasing compute budget at inference time not only helps models answer more
questions correctly, but also increases confidence in correct responses. We
then extend the current paradigm of zero-risk responses during evaluation by
considering settings with non-zero levels of response risk, and suggest a
recipe for reporting evaluations under these settings.Summary
AI-Generated Summary