翻訳付きの日次キュレーションされたAI研究論文
本論文では、強力なオラクルからの選好フィードバックを用いて、大規模言語モデル(LLM)のポストトレーニングを行い、モデルが自己を反復的に改善する手法を研究する。LLMのポストトレーニングにおける典型的なアプローチは、人間のフィードバックからの強化学習(RLHF)であり、これは伝統的に報酬学習とその後のポリシー最適化を分離する。しかし、このような報酬最大化アプローチは、「点ごと」の報酬(例えばBradley-Terryモデル)の性質に制限され、複雑な非推移的または循環的な選好関係を表現できない。RLHFの進展により、報酬学習とポリシー最適化を単一の対照的な目的関数に統合して安定性を向上させることが示されているが、それでも報酬最大化の枠組みに縛られている。最近、新たな研究の波が報酬最大化の前提を回避し、「ペアごと」または一般的な選好を直接最適化する方向に進んでいる。本論文では、Direct Nash Optimization(DNO)を紹介する。これは、対照学習の簡潔さと安定性を、一般的な選好を最適化する理論的な一般性と組み合わせた、証明可能でスケーラブルなアルゴリズムである。DNOはバッチ処理されたオンラインポリシーアルゴリズムであり、回帰ベースの目的関数を使用するため、実装が直感的で効率的である。さらに、DNOは反復ごとに単調な改善を享受し、強力な教師モデル(例えばGPT-4)をも上回る改善が可能である。実験では、DNOによってアラインメントされた7BパラメータのOrca-2.5モデルが、AlpacaEval 2.0においてGPT-4-Turboに対する33%の勝率を達成し(応答長を制御した後でも)、初期モデルからの絶対的な改善率は26%(7%から33%)であった。これは、Mistral Large、Self-Rewarding LM(70Bパラメータ)、および旧バージョンのGPT-4など、はるかに多くのパラメータを持つモデルを上回る性能を示した。
言語モデルは、訓練中に有益なミスを示されることがほとんどありません。その結果、次のトークンを超えて先を見通すことに苦労し、エラーの連鎖に悩まされ、数ステップ先の行動の結果を予測するのに苦戦します。本論文では、検索プロセスを言語として表現し、平坦化された文字列——検索のストリーム(SoS)——として表すことで、言語モデルに検索を教える方法を示します。私たちは、さまざまな記号的検索戦略を捉える統一された検索言語を提案します。このアプローチを、入力された数値を算術演算で組み合わせて目標数値に到達するというシンプルだが難しいゲーム「Countdown」を用いて実証します。ヒューリスティックソルバーによって生成された検索ストリームのデータセットで、Transformerベースの言語モデルをゼロから事前学習させます。その結果、SoS事前学習により、最適な検索軌道のみを予測するように訓練されたモデルに比べて、検索精度が25%向上することがわかりました。さらに、このモデルを2つのポリシー改善手法——Advantage-Induced Policy Alignment(APA)とSelf-Taught Reasoner(STaR)——でファインチューニングします。ファインチューニングされたSoSモデルは、以前は解けなかった問題の36%を解決し、ヒューリスティックソルバーでは解けない問題も含まれています。私たちの結果は、言語モデルが検索を通じて問題を解決することを学び、柔軟に異なる検索戦略を使用するために自己改善し、潜在的に新しい戦略を発見できることを示しています。
ウェブクロールされた事前学習データセットは、CLIPの分類/検索やStable-Diffusionの画像生成など、マルチモーダルモデルの印象的な「ゼロショット」評価性能の基盤となっています。しかし、そのようなマルチモーダルモデルにおける「ゼロショット」汎化の概念がどれほど意味を持つかは不明確です。なぜなら、それらの事前学習データセットが「ゼロショット」評価の対象となる下流の概念をどの程度網羅しているかがわかっていないからです。本研究では、マルチモーダルモデルの下流概念に対する性能が、それらの概念が事前学習データセットに現れる頻度にどのように影響されるかを問います。この問いを34のモデルと5つの標準的な事前学習データセット(CC-3M、CC-12M、YFCC-15M、LAION-400M、LAION-Aesthetics)にわたって包括的に調査し、300GBを超えるデータアーティファクトを生成しました。一貫して見られるのは、「ゼロショット」汎化を示すどころか、マルチモーダルモデルは下流の「ゼロショット」性能を線形的に改善するために指数関数的に多くのデータを必要とし、サンプル効率の悪い対数線形スケーリングの傾向に従うということです。この傾向は、事前学習データセットと下流データセットのサンプルレベルの類似性を制御し、純粋に合成されたデータ分布でテストした場合でも持続します。さらに、私たちの分析に基づいてサンプリングされたロングテールデータでモデルをベンチマークすると、マルチモーダルモデル全体が低い性能を示すことを実証します。このロングテールテストセットを「Let it Wag!」ベンチマークとして提供し、この方向性のさらなる研究を促進します。全体として、私たちの研究は、大規模なトレーニングパラダイムの下での「ゼロショット」汎化能力の鍵がまだ見つかっていないことを示唆する、トレーニングデータに対する指数関数的な必要性を明らかにしています。
大規模言語モデル(LLM)は、ウェブナビゲーションを含む多くのインテリジェントエージェントタスクを推進してきた。しかし、既存のエージェントのほとんどは、現実世界のウェブページでは満足のいく性能を発揮できていない。その理由は主に3つある:(1) ウェブページ上のアクションの多様性、(2) モデルの処理能力を超えるHTMLテキスト、(3) ウェブのオープンドメイン性に起因する意思決定の複雑さである。この課題を踏まえ、我々はChatGLM3-6Bを基盤としたGPT-4を上回る自動ウェブナビゲーションエージェント「AutoWebGLM」を開発した。人間のブラウジングパターンに着想を得て、ウェブページを簡潔に表現するHTML簡略化アルゴリズムを設計し、重要な情報を保持した。カリキュラム学習のためのウェブブラウジングデータを構築するために、人間とAIのハイブリッド手法を採用した。その後、強化学習とリジェクトサンプリングを用いてモデルをブートストラップし、ウェブページの理解、ブラウザ操作、効率的なタスク分解をさらに促進した。テストのために、現実世界のウェブブラウジングタスクに対応するバイリンガルベンチマーク「AutoWebBench」を確立した。AutoWebGLMを多様なウェブナビゲーションベンチマークで評価し、その改善点とともに現実環境に対応するための根本的な課題を明らかにした。関連するコード、モデル、データはhttps://github.com/THUDM/AutoWebGLMで公開予定である。
最近の指示チューニングデータセットの進展は、数学的または論理的推論といった特定のタスクに主に焦点を当ててきました。会話中に言語モデルをトピック関連性に沿わせるためのデータ、特にチャットボットを本番環境に導入する上で重要な側面については、顕著なギャップが存在していました。本論文では、タスク指向のインタラクション中に言語モデルが主題に集中し続けるのを支援するため、CantTalkAboutThisデータセットを紹介します。このデータセットは、さまざまなドメインからの幅広い会話トピックに関する合成ダイアログで構成されています。これらのダイアログには、意図的にチャットボットを事前に定義されたトピックから逸脱させるためのディストラクターターンが散りばめられています。このデータセットで言語モデルをファインチューニングすることで、割り当てられた役割から逸脱しにくくなり、GPT-4-turboやMixtral-Instructのような汎用指示チューニングLLMと比較して、トピックの一貫性を維持する能力が向上します。さらに、予備的な観察によると、このデータセットでモデルをトレーニングすることで、細粒度の指示追従タスクにおけるパフォーマンスも向上することが示唆されています。
人々は、効果的にコミュニケーションを取り、仕事と私生活の両方で成功するために、紛争解決などの社会的スキルに依存しています。しかし、社会的スキルの練習環境は、ほとんどの人にとって通常手の届かないものです。どのようにして社会的スキルトレーニングをより利用可能で、アクセスしやすく、魅力的にすることができるでしょうか?コミュニケーションと心理学の学際的研究を基に、この視点論文では、専門分野に参入するための社会的スキルの障壁を特定します。その後、大規模言語モデルを活用した社会的スキルトレーニングのための汎用フレームワークを提示します。私たちのAIパートナー、AIメンターフレームワークは、体験学習と現実的な練習、そして個別化されたフィードバックを融合させています。この研究は最終的に、労働力開発と社会平等のより広範な影響に対処するための学際的なイノベーションを呼びかけています。
強化学習(Reinforcement Learning, RL)は、画像品質、美的感覚、指示追従能力を捉える報酬を直接最適化することで、拡散モデルを用いたガイド付き画像生成を改善してきました。しかし、その結果得られる生成ポリシーは、拡散モデルと同じ反復的なサンプリングプロセスを継承しており、生成が遅くなるという課題があります。この制限を克服するために、一貫性モデル(Consistency Models)が提案され、ノイズからデータを直接マッピングする新しいクラスの生成モデルを学習することで、わずか1回のサンプリングイテレーションで画像を生成できるモデルが実現されました。本研究では、タスク固有の報酬に対してテキストから画像への生成モデルを最適化し、高速な学習と推論を可能にするために、一貫性モデルをRLを用いてファインチューニングするフレームワークを提案します。私たちのフレームワークは「Reinforcement Learning for Consistency Model(RLCM)」と呼ばれ、一貫性モデルの反復的な推論プロセスをRL手順として定式化します。RLCMは、テキストから画像への生成能力においてRLファインチューニングされた拡散モデルを改善し、推論時間の計算量とサンプル品質のトレードオフを実現します。実験的に、RLCMがテキストから画像への一貫性モデルを、画像の圧縮性などプロンプトで表現が難しい目的や、美的品質など人間のフィードバックに基づく目的に適応できることを示します。RLファインチューニングされた拡散モデルと比較して、RLCMは大幅に高速に学習し、報酬目的の下で測定された生成品質を向上させ、わずか2回の推論ステップで高品質な画像を生成することで推論手順を高速化します。私たちのコードはhttps://rlcm.owenoertell.comで公開されています。
本研究では、中国語を優先的に扱う大規模言語モデル(LLM)開発への重要な転換を示す2BサイズのLLM「CT-LLM」を紹介する。CT-LLMは従来の手法とは異なり、ゼロから構築され、1,2000億トークン(うち中国語8000億トークン、英語3000億トークン、コード1000億トークン)を含む大規模なコーパスを主に中国語テキストデータとして活用している。この戦略的な構成により、モデルは中国語の理解と処理において卓越した能力を発揮し、アライメント技術によってさらに強化されている。CT-LLMはCHC-Benchにおいて顕著な性能を示し、中国語タスクで優れた結果を達成するとともに、SFTを通じて英語処理の熟練度も示している。本研究は、主に英語コーパスでLLMを訓練し、その後他の言語に適応させるという従来のパラダイムに挑戦し、LLM訓練手法の地平を広げるものである。中国語LLMの訓練プロセス全体をオープンソース化し、取得した大規模適切事前学習中国語コーパス(MAP-CC)、厳選された多分野中国語ハードケースベンチマーク(CHC-Bench)、および2Bサイズの中国語Tiny LLM(CT-LLM)を含む詳細なデータ処理手順を公開することで、学界と産業界におけるさらなる探求と革新を促進し、より包括的で多用途な言語モデルへの道を開くことを目指している。
本論文では、3Dガウススプラッティング(3DGS)における一般的なエラー要因、例えばぼやけ、不完全なカメラポーズ、色の不整合などに対処し、手持ちのスマートフォン撮影からの再構築といった実用的なアプリケーションにおける堅牢性の向上を目指します。主な貢献として、モーションブラーをカメラポーズ上のガウス分布としてモデル化し、カメラポーズの精緻化とモーションブラーの補正を統一的に扱えるようにしました。さらに、被写界深度によるぼやけの補償や、環境光や影、あるいはホワイトバランス設定の違いなどカメラ関連の要因による色の不整合に対処するメカニズムを提案します。提案する解決策は、3DGSの定式化にシームレスに統合されつつ、学習効率とレンダリング速度の利点を維持します。Scannet++やDeblur-NeRFといった関連するベンチマークデータセットを用いて実験的に検証を行い、最先端の結果を得て、関連するベースラインに対する一貫した改善を確認しました。
マルチモーダルセマンティックセグメンテーションは、AIエージェントの知覚とシーン理解を大幅に向上させ、特に低照度や露出過多といった悪条件下において有効です。従来のRGBに加えて、熱画像や深度情報といった追加モダリティ(Xモダリティ)を活用することで、補完的な情報を提供し、より堅牢で信頼性の高いセグメンテーションを実現します。本研究では、Selective Structured State Space ModelであるMambaを利用したSiamese Mambaネットワーク、Sigmaを導入します。従来のCNN(局所的な受容野に制限がある)やVision Transformers(ViTs)(二次の計算複雑性を伴うがグローバルな受容野を提供)とは異なり、我々のモデルは線形の計算複雑性でグローバルな受容野をカバーします。Siameseエンコーダを採用し、Mamba融合メカニズムを革新することで、異なるモダリティから必要な情報を効果的に選択します。さらに、デコーダを開発し、モデルのチャネル単位のモデリング能力を向上させます。我々の手法、Sigmaは、RGB-熱画像およびRGB-深度セグメンテーションタスクにおいて厳密に評価され、その優位性を示し、State Space Models(SSMs)のマルチモーダル知覚タスクへの初の成功した応用を記録しました。コードはhttps://github.com/zifuwan/Sigmaで公開されています。