ChatPaper.aiChatPaper

Однократная минимизация энтропии

One-shot Entropy Minimization

May 26, 2025
Авторы: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai
cs.AI

Аннотация

Мы обучили 13 440 крупных языковых моделей и обнаружили, что минимизация энтропии требует всего одного неразмеченного примера данных и 10 шагов оптимизации для достижения улучшений в производительности, сопоставимых или даже превосходящих результаты, полученные с использованием тысяч примеров данных и тщательно разработанных наград в обучении с подкреплением на основе правил. Этот поразительный результат может побудить к пересмотру парадигм пост-обучения для крупных языковых моделей. Наш код доступен по адресу https://github.com/zitian-gao/one-shot-em.
English
We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.

Summary

AI-Generated Summary

PDF72May 30, 2025