Évolution des modèles de langage sans étiquettes : la majorité guide la sélection, la nouveauté favorise la variation
Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation
September 18, 2025
papers.authors: Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) sont de plus en plus entraînés avec un apprentissage par renforcement à partir de récompenses vérifiables (RLVR), mais leur déploiement en conditions réelles exige des modèles capables de s'améliorer sans étiquettes ni juges externes. Les méthodes existantes sans étiquettes, telles que la minimisation de la confiance, l'auto-cohérence ou les objectifs de vote majoritaire, stabilisent l'apprentissage mais réduisent progressivement l'exploration, provoquant un effondrement de l'entropie : les générations deviennent plus courtes, moins diversifiées et fragiles. Contrairement aux approches précédentes comme l'apprentissage par renforcement en temps de test (TTRL), qui adaptent principalement les modèles au jeu de données non étiqueté immédiat, notre objectif est plus large : permettre des améliorations générales sans sacrifier la capacité d'exploration inhérente du modèle et sa capacité de généralisation, c'est-à-dire évoluer. Nous formalisons ce problème et proposons EVOL-RL (EVolution-Oriented and Label-free Reinforcement Learning), une règle simple qui associe stabilité et variation dans un cadre sans étiquettes. EVOL-RL maintient la réponse majoritaire comme une ancre stable (sélection) tout en ajoutant une récompense sensible à la nouveauté qui favorise les réponses dont le raisonnement diffère de ce qui a déjà été produit (variation), mesuré dans l'espace sémantique. Implémenté avec GRPO, EVOL-RL utilise également un clipping asymétrique pour préserver les signaux forts et un régularisateur d'entropie pour maintenir la recherche. Cette conception de sélection par majorité + variation par nouveauté prévient l'effondrement, maintient des chaînes de raisonnement plus longues et plus informatives, et améliore à la fois pass@1 et pass@n. EVOL-RL surpasse systématiquement la baseline TTRL basée uniquement sur le vote majoritaire ; par exemple, l'entraînement sur AIME24 sans étiquettes augmente le pass@1 de Qwen3-4B-Base sur AIME25 de 4,6 % avec TTRL à 16,4 % avec EVOL-RL, et le pass@16 de 18,5 % à 37,9 %. EVOL-RL non seulement prévient l'effondrement de la diversité, mais débloque également une meilleure généralisation entre domaines (par exemple, GPQA). De plus, nous démontrons qu'EVOL-RL améliore également les performances dans le cadre RLVR, soulignant son applicabilité étendue.
English
Large language models (LLMs) are increasingly trained with reinforcement
learning from verifiable rewards (RLVR), yet real-world deployment demands
models that can self-improve without labels or external judges. Existing
label-free methods, confidence minimization, self-consistency, or majority-vote
objectives, stabilize learning but steadily shrink exploration, causing an
entropy collapse: generations become shorter, less diverse, and brittle. Unlike
prior approaches such as Test-Time Reinforcement Learning (TTRL), which
primarily adapt models to the immediate unlabeled dataset at hand, our goal is
broader: to enable general improvements without sacrificing the model's
inherent exploration capacity and generalization ability, i.e., evolving. We
formalize this issue and propose EVolution-Oriented and Label-free
Reinforcement Learning (EVOL-RL), a simple rule that couples stability with
variation under a label-free setting. EVOL-RL keeps the majority-voted answer
as a stable anchor (selection) while adding a novelty-aware reward that favors
responses whose reasoning differs from what has already been produced
(variation), measured in semantic space. Implemented with GRPO, EVOL-RL also
uses asymmetric clipping to preserve strong signals and an entropy regularizer
to sustain search. This majority-for-selection + novelty-for-variation design
prevents collapse, maintains longer and more informative chains of thought, and
improves both pass@1 and pass@n. EVOL-RL consistently outperforms the
majority-only TTRL baseline; e.g., training on label-free AIME24 lifts
Qwen3-4B-Base AIME25 pass@1 from TTRL's 4.6% to 16.4%, and pass@16 from 18.5%
to 37.9%. EVOL-RL not only prevents diversity collapse but also unlocks
stronger generalization across domains (e.g., GPQA). Furthermore, we
demonstrate that EVOL-RL also boosts performance in the RLVR setting,
highlighting its broad applicability.