ChatPaper.aiChatPaper

Efficiënte schaling tijdens testen via zelfkalibratie

Efficient Test-Time Scaling via Self-Calibration

February 25, 2025
Auteurs: Chengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang
cs.AI

Samenvatting

Het verhogen van de rekentijd tijdens testen is een eenvoudige aanpak om de kwaliteit van antwoorden in Large Language Models (LLMs) te verbeteren. Hoewel Best-of-N sampling en Self-Consistency met meerderheidsstemming eenvoudig en effectief zijn, vereisen ze een vast aantal steekproefantwoorden voor elke query, ongeacht de complexiteit ervan. Dit kan leiden tot verspilde rekencapaciteit voor eenvoudigere vragen en onvoldoende exploratie voor meer uitdagende vragen. In dit werk stellen we dat het vertrouwen van het model in antwoorden kan worden gebruikt om de efficiëntie van testtijd-schaling te verbeteren. Helaas is bekend dat LLMs overmatig zelfverzekerd zijn en onbetrouwbare schattingen van vertrouwen geven. Om deze beperking aan te pakken, introduceren we Self-Calibration door het vertrouwen afgeleid van Self-Consistency te destilleren in het model zelf. Hierdoor wordt betrouwbare schatting van vertrouwen mogelijk tijdens testen met één voorwaartse doorloop. Vervolgens ontwerpen we efficiënte testtijd-schalingsmethoden op basis van vertrouwen om queries van verschillende moeilijkheidsgraden te behandelen, zoals Early-Stopping voor Best-of-N en Self-Consistency met gekalibreerd vertrouwen. Experimenten op drie LLMs over zes datasets tonen de effectiviteit van onze aanpak aan. Specifiek verbetert het toepassen van Early Stopping op basis van vertrouwen op Best-of-N de nauwkeurigheid van MathQA van 81,0 naar 83,6 met een steekproefbudget van 16 antwoorden, wat de doeltreffendheid van de steekproefstrategie op basis van vertrouwen tijdens inferentie aantoont.
English
Increasing test-time computation is a straightforward approach to enhancing the quality of responses in Large Language Models (LLMs). While Best-of-N sampling and Self-Consistency with majority voting are simple and effective, they require a fixed number of sampling responses for each query, regardless of its complexity. This could result in wasted computation for simpler questions and insufficient exploration for more challenging ones. In this work, we argue that model confidence of responses can be used for improving the efficiency of test-time scaling. Unfortunately, LLMs are known to be overconfident and provide unreliable confidence estimation. To address this limitation, we introduce Self-Calibration by distilling Self-Consistency-derived confidence into the model itself. This enables reliable confidence estimation at test time with one forward pass. We then design confidence-based efficient test-time scaling methods to handle queries of various difficulty, such as Early-Stopping for Best-of-N and Self-Consistency with calibrated confidence. Experiments on three LLMs across six datasets demonstrate the effectiveness of our approach. Specifically, applying confidence-based Early Stopping to Best-of-N improves MathQA accuracy from 81.0 to 83.6 with a sample budget of 16 responses, indicating the efficacy of confidence-based sampling strategy at inference time.

Summary

AI-Generated Summary

PDF152March 4, 2025