ChatPaper.aiChatPaper

Ist das Ihre endgültige Antwort? Testzeit-Skalierung verbessert die selektive Fragebeantwortung

Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

February 19, 2025
Autoren: William Jurayj, Jeffrey Cheng, Benjamin Van Durme
cs.AI

Zusammenfassung

Die Skalierung der Rechenleistung zur Testzeit bei großen Sprachmodellen hat beeindruckende Leistungen bei Reasoning-Benchmarks gezeigt. Bestehende Bewertungen der Skalierung zur Testzeit gehen jedoch von der starken Annahme aus, dass ein Reasoning-System immer eine Antwort auf jede gestellte Frage geben sollte. Dabei werden Bedenken außer Acht gelassen, ob ein Modell in seiner Antwort sicher ist und ob es angemessen ist, immer eine Antwort zu geben. Um diese Bedenken zu adressieren, extrahieren wir während des Reasoning-Prozesses Konfidenzscores, um Modellantworten zu schwellenwerten. Wir stellen fest, dass eine Erhöhung des Rechenbudgets zur Inferenzzeit nicht nur dazu beiträgt, dass Modelle mehr Fragen korrekt beantworten, sondern auch das Vertrauen in korrekte Antworten erhöht. Wir erweitern das derzeitige Paradigma der Null-Risiko-Antworten während der Bewertung, indem wir Einstellungen mit nicht-null Risikostufen für Antworten berücksichtigen, und schlagen ein Vorgehen für die Berichterstattung von Bewertungen unter diesen Bedingungen vor.
English
Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.
PDF31February 20, 2025