ChatPaper.aiChatPaper

Minimización de Entropía en una Sola Pasada

One-shot Entropy Minimization

May 26, 2025
Autores: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai
cs.AI

Resumen

Entrenamos 13.440 modelos de lenguaje grandes y descubrimos que la minimización de entropía requiere solo un único dato no etiquetado y 10 pasos de optimización para lograr mejoras en el rendimiento comparables o incluso superiores a las obtenidas utilizando miles de datos y recompensas cuidadosamente diseñadas en el aprendizaje por refuerzo basado en reglas. Este resultado sorprendente podría impulsar un replanteamiento de los paradigmas de post-entrenamiento para modelos de lenguaje grandes. Nuestro código está disponible en https://github.com/zitian-gao/one-shot-em.
English
We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.

Summary

AI-Generated Summary

PDF72May 30, 2025