ChatPaper.aiChatPaper

È questa la tua risposta definitiva? Il ridimensionamento al momento del test migliora la risposta selettiva alle domande

Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

February 19, 2025
Autori: William Jurayj, Jeffrey Cheng, Benjamin Van Durme
cs.AI

Abstract

Il ridimensionamento del calcolo al momento del test per i modelli linguistici di grandi dimensioni ha dimostrato prestazioni impressionanti nei benchmark di ragionamento. Tuttavia, le valutazioni esistenti sul ridimensionamento al momento del test fanno la forte assunzione che un sistema di ragionamento debba sempre fornire una risposta a qualsiasi domanda posta. Ciò trascura le preoccupazioni relative alla sicurezza del modello nella sua risposta e alla pertinenza di fornire sempre una risposta. Per affrontare queste preoccupazioni, estraiamo punteggi di confidenza durante il ragionamento per sogliare le risposte del modello. Scopriamo che aumentare il budget di calcolo al momento dell'inferenza non solo aiuta i modelli a rispondere correttamente a più domande, ma aumenta anche la confidenza nelle risposte corrette. Estendiamo quindi l'attuale paradigma di risposte a rischio zero durante la valutazione considerando contesti con livelli di rischio di risposta non nulli e suggeriamo una procedura per riportare le valutazioni in questi contesti.
English
Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.

Summary

AI-Generated Summary

PDF31February 20, 2025