ChatPaper.aiChatPaper

Это ваш окончательный ответ? Масштабирование во время тестирования улучшает избирательное ответы на вопросы

Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

February 19, 2025
Авторы: William Jurayj, Jeffrey Cheng, Benjamin Van Durme
cs.AI

Аннотация

Масштабирование вычислительных ресурсов на этапе тестирования больших языковых моделей демонстрирует впечатляющие результаты на бенчмарках, связанных с рассуждениями. Однако существующие оценки масштабирования на этапе тестирования основываются на сильном предположении, что система рассуждений всегда должна давать ответ на любой предоставленный вопрос. Это упускает из виду вопросы о том, уверена ли модель в своем ответе и уместно ли всегда предоставлять ответ. Чтобы устранить эти проблемы, мы извлекаем оценки уверенности в процессе рассуждений для пороговой фильтрации ответов модели. Мы обнаруживаем, что увеличение вычислительного бюджета на этапе вывода не только помогает моделям правильно отвечать на большее количество вопросов, но и повышает уверенность в правильных ответах. Затем мы расширяем текущую парадигму нулевого риска при оценке ответов, рассматривая сценарии с ненулевым уровнем риска, и предлагаем методику для представления оценок в таких условиях.
English
Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.

Summary

AI-Generated Summary

PDF31February 20, 2025