ChatPaper.aiChatPaper

Entropieregularisierte Aktivierung: Verbesserung von kontinuierlicher Steuerung, großen Sprachmodellen und Bildklassifizierung durch Aktivierung als Entropiebeschränkungen

Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints

October 9, 2025
papers.authors: Zilin Kang, Chonghua Liao, Tingqiang Xu, Huazhe Xu
cs.AI

papers.abstract

Wir stellen ERA vor, ein neues Paradigma, das die Sampling-Entropie oberhalb gegebener Schwellenwerte begrenzt, indem speziell entwickelte Aktivierungsfunktionen auf die Ausgaben von Modellen angewendet werden. Unser Ansatz zeigt breite Wirksamkeit in verschiedenen Domänen: 1) für große Sprachmodelle (LLMs), indem der AIME 2025-Score für Qwen2.5-Math-7B um 37,4 % gesteigert wird; 2) für kontinuierliche Steuerungs-Reinforcement-Learning-Agenten, indem die Leistung um mehr als 30 % gegenüber starken Baselines wie SAC auf dem anspruchsvollen HumanoidBench verbessert wird; 3) für die Bildklassifizierung, indem die Top-1-Genauigkeit auf ImageNet für ResNet-50 um 0,69 % erhöht wird. Diese Verbesserungen werden mit einem Rechenaufwand von weniger als 7 % erreicht. Unsere Arbeit bestätigt die Ausgabeaktivierung als ein leistungsstarkes Werkzeug zur Entropiekontrolle und eröffnet eine neue Richtung für die Entwicklung einfacherer und robusterer Algorithmen.
English
We propose ERA, a new paradigm that constrains the sampling entropy above given thresholds by applying specially designed activations to the outputs of models. Our approach demonstrates broad effectiveness across different domains: 1) for large language models(LLMs), boosting the AIME 2025 score for Qwen2.5-Math-7B by 37.4%; 2) for continuous control reinforcement learning agents, improving performance by more than 30% over strong baselines such as SAC on the challenging HumanoidBench; 3) for image classification, enhancing ImageNet top-1 accuracy by 0.69% for ResNet-50. These gains are achieved with a computational overhead of less than 7%. Our work validates output activation as a powerful tool for entropy control, opening a new direction for designing simpler and more robust algorithms.
PDF62October 10, 2025