Entropie Regularisatie van Activatie: Verbetering van Continue Controle, Grote Taalmodellen en Beeldclassificatie met Activatie als Entropiebeperkingen
Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints
October 9, 2025
Auteurs: Zilin Kang, Chonghua Liao, Tingqiang Xu, Huazhe Xu
cs.AI
Samenvatting
Wij stellen ERA voor, een nieuw paradigma dat de steekproefentropie boven bepaalde drempelwaarden beperkt door speciaal ontworpen activaties toe te passen op de uitvoer van modellen. Onze aanpak toont brede effectiviteit aan in verschillende domeinen: 1) voor grote taalmodelen (LLMs), waarbij de AIME 2025-score voor Qwen2.5-Math-7B met 37,4% wordt verhoogd; 2) voor continue besturingsversterkingsleeragenten, waarbij de prestaties met meer dan 30% worden verbeterd ten opzichte van sterke basislijnen zoals SAC op de uitdagende HumanoidBench; 3) voor beeldclassificatie, waarbij de top-1 nauwkeurigheid op ImageNet met 0,69% wordt verbeterd voor ResNet-50. Deze verbeteringen worden bereikt met een rekenkundige overhead van minder dan 7%. Ons werk valideert uitvoeractivering als een krachtig hulpmiddel voor entropiecontrole, wat een nieuwe richting opent voor het ontwerpen van eenvoudigere en robuustere algoritmen.
English
We propose ERA, a new paradigm that constrains the sampling entropy above
given thresholds by applying specially designed activations to the outputs of
models. Our approach demonstrates broad effectiveness across different domains:
1) for large language models(LLMs), boosting the AIME 2025 score for
Qwen2.5-Math-7B by 37.4%; 2) for continuous control reinforcement learning
agents, improving performance by more than 30% over strong baselines such as
SAC on the challenging HumanoidBench; 3) for image classification, enhancing
ImageNet top-1 accuracy by 0.69% for ResNet-50. These gains are achieved with a
computational overhead of less than 7%. Our work validates output activation as
a powerful tool for entropy control, opening a new direction for designing
simpler and more robust algorithms.