Régularisation par entropie des activations : Amélioration du contrôle continu, des grands modèles de langage et de la classification d'images grâce aux contraintes d'entropie sur les activations
Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints
October 9, 2025
papers.authors: Zilin Kang, Chonghua Liao, Tingqiang Xu, Huazhe Xu
cs.AI
papers.abstract
Nous proposons ERA, un nouveau paradigme qui contraint l'entropie d'échantillonnage au-dessus de seuils donnés en appliquant des fonctions d'activation spécialement conçues aux sorties des modèles. Notre approche démontre une efficacité étendue à travers différents domaines : 1) pour les grands modèles de langage (LLMs), en augmentant le score AIME 2025 pour Qwen2.5-Math-7B de 37,4 % ; 2) pour les agents d'apprentissage par renforcement en contrôle continu, en améliorant les performances de plus de 30 % par rapport à des bases de référence solides telles que SAC sur le benchmark difficile HumanoidBench ; 3) pour la classification d'images, en augmentant la précision top-1 sur ImageNet de 0,69 % pour ResNet-50. Ces gains sont obtenus avec une surcharge computationnelle de moins de 7 %. Notre travail valide l'activation de sortie comme un outil puissant pour le contrôle de l'entropie, ouvrant une nouvelle direction pour la conception d'algorithmes plus simples et plus robustes.
English
We propose ERA, a new paradigm that constrains the sampling entropy above
given thresholds by applying specially designed activations to the outputs of
models. Our approach demonstrates broad effectiveness across different domains:
1) for large language models(LLMs), boosting the AIME 2025 score for
Qwen2.5-Math-7B by 37.4%; 2) for continuous control reinforcement learning
agents, improving performance by more than 30% over strong baselines such as
SAC on the challenging HumanoidBench; 3) for image classification, enhancing
ImageNet top-1 accuracy by 0.69% for ResNet-50. These gains are achieved with a
computational overhead of less than 7%. Our work validates output activation as
a powerful tool for entropy control, opening a new direction for designing
simpler and more robust algorithms.