Genius: Универсальная и полностью неконтролируемая структура самообучения для продвинутого логического мышления
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
April 11, 2025
Авторы: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu
cs.AI
Аннотация
Развитие навыков рассуждения у крупных языковых моделей (LLM) вызывает широкий интерес. Однако современные методы пост-обучения в значительной степени зависят от контролирующих сигналов, таких как контроль результатов или вспомогательные модели вознаграждения, что сталкивается с проблемами масштабируемости и высоких затрат на аннотацию. Это мотивирует нас улучшать рассуждения LLM без необходимости внешнего контроля. Мы представляем обобщаемую и полностью неконтролируемую структуру самообучения под названием Genius. Без внешних вспомогательных средств Genius требует поиска оптимальной последовательности ответов пошагово и оптимизации LLM. Для исследования потенциальных шагов и использования оптимальных Genius вводит стратегию пошагового предвидения с повторной выборкой, чтобы моделировать будущие результаты и оценивать ценность шагов. Кроме того, мы признаем, что неконтролируемая настройка неизбежно вызывает внутренний шум и неопределенность. Для обеспечения устойчивой оптимизации мы предлагаем функцию потерь с калибровкой преимуществ (ACO), чтобы смягчить несоответствия в оценках. Объединяя эти методы, Genius представляет собой продвинутый начальный шаг к самоулучшению рассуждений LLM на основе общих запросов без контроля, революционизируя законы масштабирования рассуждений с учетом широкой доступности общих запросов. Код будет доступен по адресу https://github.com/xufangzhi/Genius.
English
Advancing LLM reasoning skills has captivated wide interest. However, current
post-training techniques rely heavily on supervisory signals, such as outcome
supervision or auxiliary reward models, which face the problem of scalability
and high annotation costs. This motivates us to enhance LLM reasoning without
the need for external supervision. We introduce a generalizable and purely
unsupervised self-training framework, named Genius. Without external auxiliary,
Genius requires to seek the optimal response sequence in a stepwise manner and
optimize the LLM. To explore the potential steps and exploit the optimal ones,
Genius introduces a stepwise foresight re-sampling strategy to sample and
estimate the step value by simulating future outcomes. Further, we recognize
that the unsupervised setting inevitably induces the intrinsic noise and
uncertainty. To provide a robust optimization, we propose an
advantage-calibrated optimization (ACO) loss function to mitigate estimation
inconsistencies. Combining these techniques together, Genius provides an
advanced initial step towards self-improve LLM reasoning with general queries
and without supervision, revolutionizing reasoning scaling laws given the vast
availability of general queries. The code will be released at
https://github.com/xufangzhi/Genius.Summary
AI-Generated Summary