Ist das Ihre endgültige Antwort? Testzeit-Skalierung verbessert die selektive FragebeantwortungIs That Your Final Answer? Test-Time Scaling Improves Selective Question
Answering
Die Skalierung der Rechenleistung zur Testzeit bei großen Sprachmodellen hat beeindruckende Leistungen bei Reasoning-Benchmarks gezeigt. Bestehende Bewertungen der Skalierung zur Testzeit gehen jedoch von der starken Annahme aus, dass ein Reasoning-System immer eine Antwort auf jede gestellte Frage geben sollte. Dabei werden Bedenken außer Acht gelassen, ob ein Modell in seiner Antwort sicher ist und ob es angemessen ist, immer eine Antwort zu geben. Um diese Bedenken zu adressieren, extrahieren wir während des Reasoning-Prozesses Konfidenzscores, um Modellantworten zu schwellenwerten. Wir stellen fest, dass eine Erhöhung des Rechenbudgets zur Inferenzzeit nicht nur dazu beiträgt, dass Modelle mehr Fragen korrekt beantworten, sondern auch das Vertrauen in korrekte Antworten erhöht. Wir erweitern das derzeitige Paradigma der Null-Risiko-Antworten während der Bewertung, indem wir Einstellungen mit nicht-null Risikostufen für Antworten berücksichtigen, und schlagen ein Vorgehen für die Berichterstattung von Bewertungen unter diesen Bedingungen vor.