ChatPaper.aiChatPaper

議論は、弱から強の一般化を支援します。

Debate Helps Weak-to-Strong Generalization

January 21, 2025
著者: Hao Lang, Fei Huang, Yongbin Li
cs.AI

要旨

既存の能力を持つモデルを望ましい振る舞いに整列させるための一般的な手法は、人間が監督を提供する能力に依存しています。しかしながら、将来の超人的モデルは人間の能力を超えるでしょう。したがって、人間は超人的モデルに対して弱い監督しか行えなくなるでしょう。この人間の評価の予想される不足は、将来のAIシステムの安全性を弱めるでしょう。拡張可能な監視と弱から強への一般化は、この問題に取り組むための2つの補完的なアプローチです。本論文では、これら2つのアプローチの強みを組み合わせて整列をさらに改善する試みを行います。具体的には、強力な事前学習モデルを用いて人間の監督を向上させる方法を検討し、その後、強力なモデルを強化された弱い人間の監督で監督します。反復的な経験的進歩を実現するために、次の類推を考えます:強力なモデルを使用して弱いモデルの監督を改善し、それを使って強力なモデルを監督することはできるでしょうか?我々は、小さな弱いモデルを真のラベルで微調整し、大きな強力なモデルからの追加支援を受けながら、その後、弱いモデルによって生成されたラベルで強力なモデルを微調整することによって、これを経験的にテストします。我々は、議論が、弱いモデルが信頼できる情報を信頼できない強力なモデルから抽出するのを支援し、弱いモデルのトレーニング時にサンプルに対する文脈としてレバレッジを提供することができることを見出しました。また、弱いモデルのアンサンブルが、強力なモデルの議論者によって生成された長い議論を活用し、より堅牢な監督推定を得るのに役立つことを示しました。OpenAIの弱から強へのNLPベンチマークでの包括的な実験は、この組み合わせアプローチがより良い整列をもたらし、議論が弱から強への一般化を支援する潜在能力を示しています。
English
Common methods for aligning already-capable models with desired behavior rely on the ability of humans to provide supervision. However, future superhuman models will surpass the capability of humans. Therefore, humans will only be able to weakly supervise superhuman models. This expected deficiency of human evaluation would weaken the safety of future AI systems. Scalable oversight and weak-to-strong generalization are two complementary approaches to tackle this issue. In this paper, we attempt to combine the strengths of these two approaches to further improve alignment. Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision. To make iterative empirical progress, we consider an analogy: can we use a strong model to improve weak model supervision and then use it to supervise the strong model? We empirically test it by finetuning a small weak model on ground truth labels with the additional help from a large strong model, and then finetuning the strong model on labels generated by the weak model. We find that debate can assist a weak model in extracting trustworthy information from an untrustworthy strong model, which provides leverage as context on samples when training a weak model. We also show that an ensemble of weak models helps exploit long arguments generated by strong model debaters and obtain a more robust supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP benchmarks show that the combination approach leads to better alignment, which indicates that debate has the potential to help weak-to-strong generalization.

Summary

AI-Generated Summary

PDF72January 24, 2025