Регуляризация активации через энтропию: Улучшение непрерывного управления, крупных языковых моделей и классификации изображений с использованием активации как ограничений на энтропию
Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints
October 9, 2025
Авторы: Zilin Kang, Chonghua Liao, Tingqiang Xu, Huazhe Xu
cs.AI
Аннотация
Мы предлагаем ERA — новую парадигму, которая ограничивает энтропию выборки выше заданных порогов путем применения специально разработанных активаций к выходам моделей. Наш подход демонстрирует широкую эффективность в различных областях: 1) для крупных языковых моделей (LLMs), повышая показатель AIME 2025 для Qwen2.5-Math-7B на 37,4%; 2) для агентов обучения с подкреплением в задачах непрерывного управления, улучшая производительность более чем на 30% по сравнению с сильными базовыми методами, такими как SAC, на сложном бенчмарке HumanoidBench; 3) для классификации изображений, увеличивая точность top-1 на ImageNet на 0,69% для ResNet-50. Эти улучшения достигаются с вычислительными накладными расходами менее 7%. Наша работа подтверждает, что активация выходов является мощным инструментом для управления энтропией, открывая новое направление для разработки более простых и устойчивых алгоритмов.
English
We propose ERA, a new paradigm that constrains the sampling entropy above
given thresholds by applying specially designed activations to the outputs of
models. Our approach demonstrates broad effectiveness across different domains:
1) for large language models(LLMs), boosting the AIME 2025 score for
Qwen2.5-Math-7B by 37.4%; 2) for continuous control reinforcement learning
agents, improving performance by more than 30% over strong baselines such as
SAC on the challenging HumanoidBench; 3) for image classification, enhancing
ImageNet top-1 accuracy by 0.69% for ResNet-50. These gains are achieved with a
computational overhead of less than 7%. Our work validates output activation as
a powerful tool for entropy control, opening a new direction for designing
simpler and more robust algorithms.