大規模言語モデルに対する選好学習の統一された視点に向けて:調査Towards a Unified View of Preference Learning for Large Language Models:
A Survey
大規模言語モデル(LLMs)は非常に強力な能力を示しています。成功を収めるための重要な要素の1つは、LLMの出力を人間の好みに合わせることです。このアラインメントプロセスは、しばしばわずかなデータ量で効率的にLLMのパフォーマンスを向上させることができます。効果的である一方、この分野の研究は複数の領域にわたり、関連する方法は比較的理解が難しいです。異なる方法間の関係はあまり探求されておらず、好みのアラインメントの発展が制限されています。このため、既存の人気のあるアラインメント戦略を異なるコンポーネントに分解し、現在のアラインメント戦略を研究するための統一されたフレームワークを提供し、それらの間のつながりを確立します。この調査では、好み学習のすべての戦略をモデル、データ、フィードバック、アルゴリズムの4つのコンポーネントに分解します。この統一された視点は、既存のアラインメントアルゴリズムの深い理解を提供すると同時に、異なる戦略の強みを統合する可能性を開くものです。さらに、一般的な既存のアルゴリズムの詳細な動作例を提示し、読者が包括的に理解するのを支援します。最後に、統一された視点に基づいて、大規模言語モデルを人間の好みに合わせるための課題と将来の研究方向を探求します。