Le débat favorise la généralisation de faible à forte.
Debate Helps Weak-to-Strong Generalization
January 21, 2025
Auteurs: Hao Lang, Fei Huang, Yongbin Li
cs.AI
Résumé
Les méthodes courantes pour aligner des modèles déjà capables avec un comportement souhaité reposent sur la capacité des humains à fournir une supervision. Cependant, les futurs modèles surhumains surpasseront la capacité des humains. Par conséquent, les humains ne pourront que superviser faiblement les modèles surhumains. Cette lacune attendue dans l'évaluation humaine affaiblirait la sécurité des futurs systèmes d'IA. La supervision évolutive et la généralisation faible à forte sont deux approches complémentaires pour aborder ce problème. Dans cet article, nous tentons de combiner les forces de ces deux approches pour améliorer davantage l'alignement. Plus précisément, nous examinons des moyens d'améliorer la supervision humaine avec un modèle pré-entraîné solide, puis de superviser le modèle solide avec une supervision humaine faible améliorée. Pour faire des progrès empiriques itératifs, nous considérons une analogie : pouvons-nous utiliser un modèle solide pour améliorer la supervision d'un modèle faible, puis l'utiliser pour superviser le modèle solide ? Nous le testons empiriquement en affinant un petit modèle faible sur des étiquettes de vérité terrain avec l'aide supplémentaire d'un grand modèle solide, puis en affinant le modèle solide sur des étiquettes générées par le modèle faible. Nous constatons que le débat peut aider un modèle faible à extraire des informations fiables d'un modèle fort peu fiable, ce qui fournit un levier en tant que contexte sur des échantillons lors de l'entraînement d'un modèle faible. Nous montrons également qu'un ensemble de modèles faibles aide à exploiter de longs arguments générés par les débatteurs du modèle fort et à obtenir une estimation de supervision plus robuste. Des expériences approfondies sur les benchmarks NLP faible à fort d'OpenAI montrent que l'approche de combinaison conduit à un meilleur alignement, ce qui indique que le débat a le potentiel d'aider à la généralisation faible à forte.
English
Common methods for aligning already-capable models with desired behavior rely
on the ability of humans to provide supervision. However, future superhuman
models will surpass the capability of humans. Therefore, humans will only be
able to weakly supervise superhuman models. This expected deficiency of human
evaluation would weaken the safety of future AI systems. Scalable oversight and
weak-to-strong generalization are two complementary approaches to tackle this
issue. In this paper, we attempt to combine the strengths of these two
approaches to further improve alignment. Specifically, we investigate ways of
improving human supervision with a strong pretrained model and then supervise
the strong model with enhanced weak human supervision. To make iterative
empirical progress, we consider an analogy: can we use a strong model to
improve weak model supervision and then use it to supervise the strong model?
We empirically test it by finetuning a small weak model on ground truth labels
with the additional help from a large strong model, and then finetuning the
strong model on labels generated by the weak model. We find that debate can
assist a weak model in extracting trustworthy information from an untrustworthy
strong model, which provides leverage as context on samples when training a
weak model. We also show that an ensemble of weak models helps exploit long
arguments generated by strong model debaters and obtain a more robust
supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP
benchmarks show that the combination approach leads to better alignment, which
indicates that debate has the potential to help weak-to-strong generalization.Summary
AI-Generated Summary