Это ваш окончательный ответ? Масштабирование во время тестирования улучшает избирательное ответы на вопросыIs That Your Final Answer? Test-Time Scaling Improves Selective Question
Answering
Масштабирование вычислительных ресурсов на этапе тестирования больших языковых моделей демонстрирует впечатляющие результаты на бенчмарках, связанных с рассуждениями. Однако существующие оценки масштабирования на этапе тестирования основываются на сильном предположении, что система рассуждений всегда должна давать ответ на любой предоставленный вопрос. Это упускает из виду вопросы о том, уверена ли модель в своем ответе и уместно ли всегда предоставлять ответ. Чтобы устранить эти проблемы, мы извлекаем оценки уверенности в процессе рассуждений для пороговой фильтрации ответов модели. Мы обнаруживаем, что увеличение вычислительного бюджета на этапе вывода не только помогает моделям правильно отвечать на большее количество вопросов, но и повышает уверенность в правильных ответах. Затем мы расширяем текущую парадигму нулевого риска при оценке ответов, рассматривая сценарии с ненулевым уровнем риска, и предлагаем методику для представления оценок в таких условиях.