Minimização de Entropia em Uma Única Tentativa

Resumo

Treinamos 13.440 modelos de linguagem de grande porte e descobrimos que a minimização de entropia requer apenas um único dado não rotulado e 10 etapas de otimização para alcançar melhorias de desempenho comparáveis ou até maiores do que as obtidas usando milhares de dados e recompensas cuidadosamente projetadas em aprendizado por reforço baseado em regras. Esse resultado impressionante pode levar a uma reconsideração dos paradigmas de pós-treinamento para modelos de linguagem de grande porte. Nosso código está disponível em https://github.com/zitian-gao/one-shot-em.

English

We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.

Minimização de Entropia em Uma Única Tentativa

One-shot Entropy Minimization

Resumo

Support