Regularización de Entropía en la Activación: Potenciando el Control Continuo, Modelos de Lenguaje a Gran Escala y Clasificación de Imágenes con la Activación como Restricciones de Entropía

Resumen

Proponemos ERA, un nuevo paradigma que restringe la entropía de muestreo por encima de umbrales dados mediante la aplicación de activaciones especialmente diseñadas a las salidas de los modelos. Nuestro enfoque demuestra una amplia efectividad en diferentes dominios: 1) para modelos de lenguaje grandes (LLMs), aumentando la puntuación AIME 2025 para Qwen2.5-Math-7B en un 37.4%; 2) para agentes de aprendizaje por refuerzo en control continuo, mejorando el rendimiento en más de un 30% sobre líneas base sólidas como SAC en el desafiante HumanoidBench; 3) para clasificación de imágenes, incrementando la precisión top-1 en ImageNet en un 0.69% para ResNet-50. Estos avances se logran con un sobrecosto computacional de menos del 7%. Nuestro trabajo valida la activación de salida como una herramienta poderosa para el control de la entropía, abriendo una nueva dirección para diseñar algoritmos más simples y robustos.

English

We propose ERA, a new paradigm that constrains the sampling entropy above given thresholds by applying specially designed activations to the outputs of models. Our approach demonstrates broad effectiveness across different domains: 1) for large language models(LLMs), boosting the AIME 2025 score for Qwen2.5-Math-7B by 37.4%; 2) for continuous control reinforcement learning agents, improving performance by more than 30% over strong baselines such as SAC on the challenging HumanoidBench; 3) for image classification, enhancing ImageNet top-1 accuracy by 0.69% for ResNet-50. These gains are achieved with a computational overhead of less than 7%. Our work validates output activation as a powerful tool for entropy control, opening a new direction for designing simpler and more robust algorithms.

Regularización de Entropía en la Activación: Potenciando el Control Continuo, Modelos de Lenguaje a Gran Escala y Clasificación de Imágenes con la Activación como Restricciones de Entropía

Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints

Resumen

Support