ChatPaper.aiChatPaper

Minimisation de l'entropie en une seule étape

One-shot Entropy Minimization

May 26, 2025
Auteurs: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai
cs.AI

Résumé

Nous avons entraîné 13 440 grands modèles de langage et constaté que la minimisation de l'entropie nécessite seulement une seule donnée non étiquetée et 10 étapes d'optimisation pour obtenir des améliorations de performances comparables, voire supérieures, à celles obtenues en utilisant des milliers de données et des récompenses soigneusement conçues dans l'apprentissage par renforcement basé sur des règles. Ce résultat frappant pourrait inciter à repenser les paradigmes de post-entraînement pour les grands modèles de langage. Notre code est disponible à l'adresse suivante : https://github.com/zitian-gao/one-shot-em.
English
We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.

Summary

AI-Generated Summary

PDF72May 30, 2025