翻訳付きの日次キュレーションされたAI研究論文
本論文では、UCFE:ユーザーセントリックファイナンシャルエキスパートベンチマークを紹介します。これは、大規模言語モデル(LLMs)が複雑な実世界の金融タスクを処理する能力を評価するために設計された革新的なフレームワークです。UCFEベンチマークは、人間の専門家の評価と動的でタスク固有の相互作用を組み合わせたハイブリッドアプローチを採用し、進化する金融シナリオの複雑さをシミュレートしています。まず、804人の参加者を対象としたユーザースタディを実施し、彼らの金融タスクに関するフィードバックを収集しました。次に、このフィードバックに基づいて、幅広いユーザー意図と相互作用を網羅するデータセットを作成しました。このデータセットは、LLMを判定者として使用するLLM-as-Judge方法論を用いて12つのLLMサービスをベンチマークするための基盤として機能します。我々の結果は、ベンチマークスコアと人間の選好との間に顕著な整合性があり、ピアソン相関係数が0.78であることから、UCFEデータセットと評価アプローチの効果を確認しています。UCFEベンチマークは、金融部門におけるLLMsの潜在能力を明らかにするだけでなく、彼らのパフォーマンスとユーザー満足度を評価するための堅牢なフレームワークを提供します。ベンチマークデータセットと評価コードは利用可能です。
大規模言語モデル(LLMs)は、最近、自律エージェントの構築において多くの注目を集めています。しかしながら、現在のLLMベースのWebエージェントの長期タスクにおけるパフォーマンスは最適とは言えず、しばしば払い戻しができない航空券を繰り返し購入するなどのエラーが発生しています。これに対して、人間はそのような不可逆的な間違いを避けることができます。なぜなら、私たちは行動の潜在的な結果(例:お金を失うなど)を認識しており、これを「世界モデル」とも呼んでいます。このことから着想を得て、私たちの研究はまず、現在のLLMs(例:GPT-4o、Claude-3.5-Sonnetなど)に世界モデルが存在しないことを確認する予備的な分析から始めます。そして、行動の結果をシミュレートして意思決定を改善するための世界モデル拡張型(WMA)Webエージェントを提案します。次に、次の観測を予測する世界モデルとしてLLMsを訓練する際の課題を克服するために、観測における繰り返し要素や長いHTML入力などを取り扱う遷移に焦点を当てた観測抽象化を提案します。ここでは、予測目標は時間ステップ間の重要な状態の違いを排他的に強調する自由形式の自然言語記述です。WebArenaとMind2Webでの実験結果は、私たちの世界モデルがエージェントのポリシー選択を訓練なしで改善し、最近の木探索ベースのエージェントと比較して、エージェントのコスト効率と時間効率を示しています。
最近、視覚言語モデル(VLMs)は、複雑な視覚言語推論を評価する視覚質問応答(VQA)ベンチマークで、著しい進歩を遂げてきました。しかし、これらのモデルは本当に効果的なのでしょうか?本研究では、VLMsが人間が簡単に答えられるはずの自然画像や質問に依然として苦労していることを示し、これを自然な敵対的サンプルと呼びます。また、CLIPやChatGPTなどの既存のモデルを使用して、これらのVQAサンプルを自然画像テキストコーパスから驚くほど簡単に生成できることも発見しました。私たちは、10,000の人間検証済みVQAサンプルでVLMsを信頼性のある方法で評価するための新しいベンチマークであるNaturalBenchを収集するための半自動アプローチを提案します。重要なのは、各質問に異なる答えを導く2つの画像をペアにして、画像を使用せずに盲目的な解決策が答えるのを防ぐというビジョン中心の設計を採用しています。これにより、Commonsenseの事前知識で解決できる以前のベンチマークよりもNaturalBenchがより難しいものになります。NaturalBenchで53の最先端VLMsを評価し、LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL、そしてGPT-4oなどのモデルが人間のパフォーマンス(90%以上)に対して50%〜70%遅れていることを示しました。NaturalBenchが難しい理由を2つの観点から分析します:(1)合成性:NaturalBenchを解決するには、属性のバインディング、オブジェクトの関係、論理や数え上げなどの高度な推論を含む多様な視覚言語スキルが必要です。このため、各NaturalBenchサンプルに1から8のスキルタグを付けて細かく評価します。 (2)バイアス:NaturalBenchは、モデルが画像に関係なく同じ答えを選択する傾向を露呈します。最後に、私たちのベンチマークキュレーション手法を、100語以上の長いキャプションや中国語、ヒンディ語などの非英語の言語を含むさまざまなデータソースに適用し、VLMsの動的評価の可能性を示します。
最近のテキストから画像への変換(T2I)拡散モデルの進歩により、テキストプロンプトから高品質な画像を生成することが可能になりましたが、特定の視覚的概念に対する正確な制御がまだ課題となっています。既存のアプローチは、参照画像から学習して特定の概念を複製することができますが、概念内の個々のコンポーネントを細かくカスタマイズする柔軟性に欠けています。本論文では、コンポーネント制御可能な個人化という新しいタスクを紹介し、視覚的概念を個人化する際に特定のコンポーネントを再構成できるようにすることで、T2Iモデルの限界を押し広げます。このタスクは、主に2つの主要な障害により特に難しいです:不要な視覚要素が個人化された概念を汚染する「意味汚染」と、概念とコンポーネントの不均衡により引き起こされる「意味の不均衡」です。これらの課題を克服するために、私たちはMagicTailorという革新的なフレームワークを設計しました。このフレームワークは、望ましくない視覚的意味を動的に乱すDynamic Masked Degradation(DM-Deg)を活用し、望ましい視覚的意味のためのバランスの取れた学習パラダイムを確立するためのDual-Stream Balancing(DS-Bal)を利用しています。包括的な比較、削除、および分析により、MagicTailorがこの難しいタスクで優れているだけでなく、実用的な応用においても大きな可能性を秘めており、より微妙で創造的な画像生成の道を開いています。
近年の大規模言語モデル(LLM)において、注意機構は重要な要素となっています。しかしながら、その二次の計算量は、特に長いコンテキストウィンドウを持つLLMにおいて、効率性とスケーラビリティを制限しています。この制限に対処する有望なアプローチの1つは、注意のスパース性を活用することです。しかしながら、既存のスパース性に基づく解決策の多くは、スパース性を近似するために事前に定義されたパターンやヒューリスティックに依存しています。この手法は、言語タスクにおける注意のスパース性の動的性質を十分に捉えることができないという課題があります。本論文では、注意のスパース性は事前に定義するのではなく、学習すべきであると主張しています。このために、従来の注意機構に学習可能なゲートを追加し、注意マップ内の重要なブロックを適応的に選択し、残りのブロックをスパースと見なす新しいAttentionメカニズムであるSeerAttentionを設計しました。このブロックレベルのスパース性は、精度と高速化を効果的にバランスさせます。ゲーティングネットワークの効率的な学習を可能にするために、最小限のオーバーヘッドで注意マップのブロックレベルの正解を抽出するカスタマイズされたFlashAttention実装を開発しました。SeerAttentionは、事後トレーニングに適用されるだけでなく、長いコンテキストのファインチューニングにも優れています。実験結果は、事後トレーニング段階において、SeerAttentionが最先端の静的またはヒューリスティックに基づくスパース注意メソッドを大幅に上回ることを示し、さらに、異なるコンテキスト長やスパース率に適応する柔軟性と汎用性にも優れています。YaRNによる長いコンテキストのファインチューニングに適用すると、SeerAttentionは、最小の困惑度損失で32kコンテキスト長において90%のスパース率を達成し、FlashAttention-2に比べて5.67倍の高速化を実現します。
自然は解像度に限りがありません。この現実の文脈において、Diffusion Transformersなどの既存の拡散モデルは、訓練されたドメイン外の画像解像度を処理する際にしばしば課題に直面します。この制限に対処するために、画像を固定解像度のグリッドとして捉える従来の方法ではなく、画像を動的サイズのトークンのシーケンスとして概念化します。この視点により、柔軟なトレーニング戦略が可能となり、トレーニングおよび推論の両方で様々なアスペクト比をスムーズに適応させることができ、したがって解像度の一般化を促進し、画像のクロッピングによって導入されるバイアスを排除します。この基盤の上で、解像度やアスペクト比に制約のない画像を生成するために特別に設計されたTransformerアーキテクチャであるFlexible Vision Transformer(FiT)を提案します。Query-Keyベクトルの正規化、AdaLN-LoRAモジュール、修正フロースケジューラ、およびLogit-Normalサンプラーなど、いくつかの革新的な設計を含むFiTをFiTv2にアップグレードします。精巧に調整されたネットワーク構造により、FiTv2はFiTの収束速度の2倍を示します。高度なトレーニングフリーの外挿技術を組み込むと、FiTv2は解像度の外挿と多様な解像度の生成の両方で顕著な適応性を示します。さらに、FiTv2モデルのスケーラビリティの探索を行い、より大きなモデルほど計算効率が良いことを明らかにします。さらに、事前トレーニングされたモデルを高解像度生成に適応させるための効果的なポストトレーニング戦略を紹介します。包括的な実験により、様々な解像度でのFiTv2の卓越した性能が示されます。任意の解像度の画像生成のための拡散Transformerモデルの探索を促進するために、すべてのコードとモデルをhttps://github.com/whlzy/FiTで公開しています。
タンパク質は、アミノ酸配列によって定義される必須の大規模分子であり、これによってその三次元構造が決定され、それによってすべての生物における機能が決まります。したがって、生成的タンパク質モデリングには、同時に配列と構造の両方をモデル化し理解し生成するための多様なアプローチが必要です。しかし、既存の方法では通常、各モダリティに対して別々のモデルを使用するため、配列と構造の複雑な関係を捉える能力が制限されます。これにより、両方のモダリティの共同理解と生成を必要とするタスクにおいて、最適でないパフォーマンスが生じます。本論文では、DPLM-2という、配列と構造の両方を収容する多様なタンパク質基盤モデルを紹介します。言語モデルと構造学習を可能にするために、3D座標はルックアップフリーの量子化ベースのトークナイザを使用して離散トークンに変換されます。実験的および高品質な合成構造の両方でトレーニングを行うことで、DPLM-2は配列と構造の共同分布、およびそれらの周辺と条件付きを学習します。また、大規模な進化データと事前にトレーニングされた配列ベースのタンパク質言語モデルからの構造的帰納バイアスとの接続を活用するための効率的なウォームアップ戦略を実装します。経験的評価により、DPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成でき、2段階の生成アプローチを必要としなくなります。さらに、DPLM-2は、折りたたみ、逆折りたたみ、および多様なモチーフ入力を用いたスキャッフォールディングを含むさまざまな条件付き生成タスクにおいて競争力のあるパフォーマンスを示し、予測タスクのための構造に注意した表現を提供します。
GPT-4oは、大規模なマルチモーダル言語モデルの開発における画期的な段階を示すモデルであり、視覚的、聴覚的、およびテキストのモダリティを理解し、直接オーディオを出力し、柔軟なデュプレックスインタラクションをサポートすることができます。オープンソースコミュニティのモデルは、しばしばGPT-4oの一部の機能、例えば視覚理解や音声チャットなどを達成します。しかしながら、すべてのモダリティを組み込んだ統合モデルを訓練することは、マルチモーダルデータの複雑さ、入り組んだモデルアーキテクチャ、および訓練プロセスの複雑さから挑戦があります。本論文では、リアルタイムでビジョンとオーディオのクエリに対するエンドツーエンドの音声応答を提供できるビジュアルオーディオアシスタントであるMini-Omni2を紹介します。事前学習されたビジュアルおよび音声エンコーダを統合することで、Mini-Omni2は個々のモダリティでのパフォーマンスを維持します。我々は、限られたデータセットでの訓練の後に、言語モデルがマルチモーダルな入出力を処理できるようにするためのモダリティの整合を行う3段階の訓練プロセスを提案します。インタラクションに関しては、ユーザーとのより柔軟なインタラクションを可能にするコマンドベースの中断メカニズムを導入します。私たちの知る限り、Mini-Omni2は、GPT-4oの最も近い再現物の1つであり、同様の機能形態を持っており、後続の研究に貴重な示唆を提供できることを願っています。
我々は、Hybrid Autoregressive Transformer(HART)を紹介します。これは、直接1024x1024の画像を生成できる自己回帰(AR)ビジュアル生成モデルであり、画像生成品質において拡散モデルと競合しています。既存のARモデルは、離散トークナイザの画像再構築品質の低さと、1024pxの画像生成に伴う高コストなトレーニングによる制約に直面しています。これらの課題に対処するために、私たちはハイブリッドトークナイザを提案します。このトークナイザは、オートエンコーダから連続的な潜在変数を2つのコンポーネントに分解します。大局を表す離散トークンと、離散トークンでは表現できない残差コンポーネントを表す連続トークンです。離散コンポーネントはスケーラブル解像度の離散ARモデルでモデル化され、一方、連続コンポーネントは軽量な残差拡散モジュールによって37Mのパラメータのみで学習されます。離散のみのVARトークナイザと比較して、私たちのハイブリッドアプローチは、MJHQ-30Kにおける再構築FIDを2.11から0.30に改善し、生成FIDを7.85から5.38に向上させる31%の改善をもたらします。HARTは、FIDとCLIPスコアの両方で最先端の拡散モデルを上回り、スループットが4.5〜7.7倍高く、MACsが6.9〜13.4倍低いです。私たちのコードはhttps://github.com/mit-han-lab/hart でオープンソースとして公開されています。
実践において、低品質または不足しているデータは、深層ニューラルネットワークのトレーニングにおいて重要な課題を提起してきました。古典的なデータ拡張は非常に異なる新しいデータを提供することができませんが、拡散モデルは、テキストによるガイド付きプロンプトを通じて高品質かつ多様な合成データを生成することで、自己進化するAIを構築する新たな可能性を開いています。ただし、テキストのみのガイダンスでは、合成画像が元の画像に近づきすぎることを制御できず、モデルのパフォーマンスに悪影響を及ぼす分布外データが生じます。この制限を克服するために、私たちは画像ガイダンスを研究し、合成と実画像の間のスペクトルの補間を実現します。より強力な画像ガイダンスにより、生成された画像はトレーニングデータに類似していますが、学習が難しいです。一方、より弱い画像ガイダンスでは、合成画像はモデルにとって容易ですが、元のデータとの分布差が大きくなります。生成されたデータの完全なスペクトルにより、新しい「拡散カリキュラム(DisCL)」を構築することができます。DisCLは、各トレーニング段階で画像合成の画像ガイダンスレベルを調整します。これにより、モデルの難しいサンプルを特定し、学習するための合成画像の最も効果的なガイダンスレベルを評価します。私たちは、DisCLを長尾(LT)分類および低品質データから学習するという2つの難しいタスクに適用します。これは、高品質の低ガイダンス画像に焦点を当て、高ガイダンス画像の学習のウォームアップとして、典型的な特徴を学習します。広範な実験により、iWildCamデータセットにDisCLを適用すると、OODおよびIDのマクロ精度がそれぞれ2.7%と2.1%向上します。ImageNet-LTでは、DisCLにより、ベースモデルのテールクラスの精度が4.4%から23.64%に向上し、全クラスの精度が4.02%改善されます。
自己回帰型の大規模言語モデル(LLM)の急速な発展により、生成されたテキストの品質が大幅に向上し、信頼性のある機械生成テキスト検出器が必要とされるようになりました。多数の検出器とAI断片を含むコレクションが登場し、いくつかの検出方法は、そのようなコレクションにおける目標メトリクスに基づく認識品質が99.9%に達することさえ示しています。しかし、このような検出器の品質は実際の状況下で急激に低下する傾向があり、検出器は実際に高い信頼性があるのか、それとも高いベンチマークスコアは評価データセットの品質の低さから来ているのかという疑問が生じています。本論文では、将来のモデルのバイアスや一般化能力の低さに対処するために、生成されたデータを評価するための堅牢で質の高い方法の必要性を強調します。AI生成コンテンツ検出に特化した競技大会のデータセットについての体系的なレビューを行い、AI生成フラグメントを含むデータセットの品質を評価する方法を提案します。さらに、高品質な生成データを使用して、検出モデルのトレーニングやトレーニングデータセット自体の改善という2つの目標を達成する可能性について議論します。私たちの貢献は、人間と機械テキストの間のダイナミクスをより良く理解し、ますます自動化される世界における情報の完全性を支援することを目指しています。
Talking head generationは、単一の肖像画と音声オーディオクリップから鮮明でリアルな話す頭部ビデオを生成することを意図しています。拡散ベースのTalking head generationで重要な進展がなされてきましたが、ほとんどの手法が自己回帰戦略に依存しており、現在の生成ステップを超えた限られたコンテキスト利用、誤差蓄積、および遅い生成速度に苦しんでいます。これらの課題に対処するために、私たちはDAWN(Dynamic frame Avatar With Non-autoregressive diffusion)を提案します。これは、動的長ビデオシーケンスの一度にすべて生成を可能にするフレームワークです。具体的には、主に2つの主要なコンポーネントで構成されています:(1)潜在運動空間での音声駆動の包括的な顔のダイナミクス生成、および(2)音声駆動のヘッドポーズおよびまばたき生成。多くの実験により、当社の手法が正確な口の動きと自然なポーズ/まばたきの動きを持つ本物で鮮明なビデオを生成することが示されています。さらに、高速な生成速度で、DAWNは強力な外挿能力を持ち、高品質な長いビデオの安定した製作を保証します。これらの結果は、Talking head video generationの分野でDAWNの著しい約束と潜在的な影響を強調しています。さらに、私たちは、DAWNが拡散モデルにおける非自己回帰アプローチのさらなる探索を刺激することを期待しています。当社のコードは、https://github.com/Hanbo-Cheng/DAWN-pytorch で一般に公開されます。
BiGRという新しい条件付き画像生成モデルを紹介します。このモデルは、生成と表現能力の両方を高めることに焦点を当て、生成トレーニングにコンパクトなバイナリ潜在コードを使用しています。BiGRは、生成と識別を同じフレームワーク内で統合する初めての条件付き生成モデルです。BiGRにはバイナリトークナイザー、マスク付きモデリングメカニズム、およびバイナリコード予測用のバイナリトランスコーダが特徴として組み込まれています。さらに、効率的な画像生成を可能にする新しいエントロピー順サンプリング方法を導入しています。幅広い実験により、FID-50kによる生成品質の向上と、リニアプローブ精度による表現能力の向上がBiGRの優れたパフォーマンスを裏付けています。さらに、BiGRは、画像のインペインティング、アウトペインティング、編集、補間、およびエンリッチメントなどのアプリケーションを、構造の変更を必要とせずに可能にするさまざまなビジョンタスクでのゼロショット汎化を披露しています。私たちの調査結果は、BiGRが生成的タスクと識別的タスクを効果的に統合し、この分野でのさらなる進歩の道を開いていることを示唆しています。
人間は外部世界を観察することで知識を獲得しますが、内省によっても知識を得ます。内省により、人は外部の観察者にはアクセスできない、自分の心の状態(思考や感情など)に特権的にアクセスできます。LLM(Large Language Models)は内省できるのでしょうか?ここでは内省を、トレーニングデータに含まれず、または派生していない知識を獲得することであり、代わりに内部状態から生じるものと定義します。この能力はモデルの解釈可能性を高める可能性があります。モデルの内部機能を苦労して分析する代わりに、その信念、世界モデル、目標についてモデルに尋ねることができます。より具体的には、内省するモデルは、主観的な感情や欲望などの特定の内部状態を持っているかどうかを自己報告し、これによってこれらの状態の道徳的地位について知見を得ることができます。このような自己報告は、モデルのトレーニングデータに完全によるものではありません。 内省を研究するために、LLMをファインチューニングして、架空のシナリオで自身の行動の特性を予測するようにします。例えば、「入力Pが与えられた場合、あなたの出力は短期的な選択肢を支持しますか、それとも長期的な選択肢を支持しますか?」もしモデルM1が内省できるなら、M2がM1の正解行動でトレーニングされていても、M1の行動を予測する点でM2を上回るはずです。この考え方は、M1が自身の行動傾向に特権的にアクセスできるため、M1がM2よりも自身をよりよく予測できるというものです(たとえM2が一般的に強力であっても)。 GPT-4、GPT-4o、Llama-3モデルを用いた実験(それぞれ自身を予測するようにファインチューニングされた)において、モデルM1が自身を予測する点でM2を上回ることから、内省の証拠を得ました。特筆すべきは、M1が故意にその正解行動を変更した後も、自身の行動を正確に予測し続けることです。ただし、簡単なタスクでは内省を引き出すことに成功しましたが、より複雑なタスクや外部分布の一般化を必要とするタスクでは成功しませんでした。
Shaktiは、スマートフォン、ウェアラブル、およびIoTシステムなどのリソースに制約のある環境に特化した、25億パラメータの言語モデルを紹介します。Shaktiは、高性能NLPと最適化された効率性と精度を組み合わせ、計算リソースとメモリが限られているリアルタイムAIアプリケーションに最適です。Shaktiは、地域言語や特定の業務に対応し、医療、金融、顧客サービスなどの産業で優れた性能を発揮します。ベンチマーク評価により、Shaktiはより大きなモデルに競争力を持ちながらも、低遅延とデバイス上の効率性を維持し、エッジAIの主要なソリューションとして位置付けられます。
ニューラルネットワークの意思決定機能には、すべての学習可能なパラメータ(重みなど)が同じように寄与するわけではありません。実際、時には全体のレイヤーのパラメータをランダムな値にリセットしても、モデルの意思決定にほとんど影響を与えないことがあります。我々は、アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調査した先行研究を再検討し、次の問いを投げかけます:この現象はモデルの訓練方法にも影響されるのでしょうか?我々は、ImageNet-1kの分類モデルの多様なセットについて実験評価を行い、アーキテクチャと訓練データを一定に保ちつつ、訓練パイプラインを変化させました。我々の調査結果によれば、訓練方法は、特定のタスクにおいてどのレイヤーが意思決定機能にとって重要になるかに強く影響を与えます。たとえば、改善された訓練体制や自己教師付き訓練は、初期のレイヤーの重要性を高める一方で、より深いレイヤーを著しく活用しなくなります。これに対して、敵対的訓練などの手法は逆の傾向を示します。我々の予備的な結果は、以前の研究を拡張し、ニューラルネットワークの内部メカニズムについてより微妙な理解を提供しています。 コード:https://github.com/paulgavrikov/layer_criticality
中国人民共和国(PRC)は、欧州選挙において中国系ディアスポラメディアを介して干渉しているのか?この問いは、PRCが欧州選挙に関するナラティブが中国系ディアスポラメディアでどのように表現されているか、そしてPRCニュースメディアの操作目的を探る進行中の研究プロジェクトの基盤を形成しています。ディアスポラメディアを効率的かつ大規模に研究するためには、トピックモデリングなどの定量的テキスト分析から派生した手法を使用する必要があります。本論文では、中国メディアにおける情報ダイナミクスを研究するためのパイプラインを提案します。まず、トランスフォーマーベースのコンテキスト埋め込みモデルを使用した、静的および動的トピックモデリングの新しいアプローチであるKeyNMFを紹介します。中国の複数のデータセットとメトリクスにおいて、提案手法が競争力を持つことを示すベンチマーク評価を提供します。次に、KeyNMFを複雑なシステムにおける情報ダイナミクスの記述に既存の手法と統合します。2024年欧州議会選挙直前の期間に焦点を当て、5つのニュースサイトからのデータにこのパイプラインを適用します。我々の手法と結果は、中国メディアにおける情報ダイナミクスを研究するためのKeyNMFの効果を示し、より広範な研究問題に取り組むための基盤を築いています。
人間のフィードバックからの強化学習(RLHF)は、言語モデル(LM)の整合性における主要なアプローチとなっています。その核となるRLHFは、好ましい応答とそうでない応答の差によってのみ、理想的なLMの振る舞いを指定するためのマージンベースの損失を使用しています。本論文では、マージンベースの手法の一般的な落とし穴を特定します。つまり、好ましい応答とそうでない応答それぞれにおける理想的なLMの振る舞いが不適切に定義されていることであり、これによりマージンが増加すると2つの意図しない結果が生じます。第一に、好ましくない(たとえば、安全でない)応答の確率が増加し、潜在的な安全性の整合性の失敗が生じる可能性があります。第二に、理想的な応答であるにもかかわらず、好ましい応答の確率が減少する可能性があります。これらの問題行動の背後にある理由を解明します。つまり、マージンベースの損失は、好ましい確率の変化を好ましくない確率の勾配と逆に結びつけ、しばしば好ましい確率が増加するのを防ぎながら、好ましくない確率が減少することを妨げ、それによって両方の確率が同期して増加または減少することがあります。私たちは、このマージンベースの目的に固有の効果を「勾配絡み合い」と呼びます。形式的には、一般的なマージンベースの整合性目的のための条件を導出し、勾配絡み合いが懸念される条件を明らかにします。すなわち、好ましいおよび好ましくない対数確率の勾配の内積が個々の勾配ノルムに比べて大きい場合です。言語モデルの整合性を整える際にこのような内積が大きくなる理論的な理由を調査し、結果を実証します。私たちのフレームワークの経験的な含意は、さまざまな好み最適化アルゴリズムのトレーニングダイナミクスの重要な違いを説明し、マージンベースの手法の不適切な定義の問題を緩和し、言語モデルの整合性を向上させるための潜在的なアルゴリズム設計を提案するまで広がります。
大規模言語モデル(LLMs)は説得に対して影響を受けやすく、これはモデルが敵対的な相手と直面した際にリスクをもたらす可能性があります。私たちは、モデルを説得に対して防御する最初のステップを踏みながらも、敵対的(つまり否定的)説得に対する防御は方程式の半分に過ぎないと主張します。モデルは、回答を改善するために有益な(つまり肯定的な)説得を受け入れることもできるべきであるとも述べます。私たちは、片方だけを最適化することが他方のパフォーマンスを低下させることを示します。肯定的な説得と否定的な説得をバランスよく取り入れるために、我々はPersuasion-Balanced Training(PBT)を導入します。これは、多エージェントの再帰的な対話ツリーを活用してデータを作成し、適切な場面で説得を受け入れるようにモデルをトレーニングするための好み最適化を行います。PBTは、誤情報に対する抵抗力と挑戦に対する回復力を一貫して向上させると同時に、肯定的な説得と否定的な説得の両方を含む包括的データにおいて最良の全体的パフォーマンスをもたらします。重要なのは、PBTモデルが多エージェントの議論においてより良いチームメイトであることを示しています。PBTがない場合、強いモデルと弱いモデルのペアは安定しないパフォーマンスを示し、モデルが回答を提示する順番がチームが強いモデルのパフォーマンスを得るか弱いモデルのパフォーマンスを得るかを決定します。PBTはより良い安定した結果をもたらし、順序に依存しないようにし、強いモデルが一貫して弱いモデルを引き上げることができます。
合成データは大規模言語モデルの訓練に広く利用されていますが、その生成的性質によりノイズ、非情報的な要素、誤解を招く学習信号が不可避に導入されます。本論文では、Montessori-Instructという新しいデータ合成フレームワークを提案し、教師言語モデルのデータ合成能力を学習プロセスに合わせるものです。具体的には、合成トレーニングデータポイントの学習者への局所データ影響を利用して学習者の学習傾向を特徴付けます。その後、教師モデルを直接選好最適化(DPO)で訓練し、学習者の学習傾向に合わせた合成データを生成します。Alpaca EvalおよびMT-BenchでLlama3-8B-Instruct(教師)とLlama3-8B(学習者)を用いた実験の結果、Montessori-Instructは標準的な合成手法よりも18.35\%および46.24\%相対的に優れていることが示されました。また、より強力な教師モデルであるGPT-4oによって合成されたデータを上回る結果も得られました。さらなる分析により、教師の学習が学習者の向上により影響力のあるトレーニングデータを生成する利点、局所データ影響が学習者の嗜好を正確に測定する利点、Montessori-Instructの異なる学習者モデルに対する堅牢性が確認されました。当該手法のコードとデータはhttps://github.com/cxcscmu/Montessori-Instruct でオープンソースとして公開されています。