翻訳付きの日次キュレーションされたAI研究論文
監督されたファインチューニング(SFT)は、大規模言語モデル(LLMs)を特定の領域やタスクに適応させる上で重要な役割を果たします。しかしながら、実用的な応用において収集されたデータには避けられないノイズが含まれるため、モデルの性能に大きな影響を及ぼす下流タスクにおいて重要な課題が生じます。そのため、ノイズに強いSFTフレームワークが急務となっており、モデルの下流タスクにおける能力を向上させる必要があります。この課題に対処するため、我々はノイズ検出と再ラベリングを行うロバストなSFTフレームワーク(RobustFT)を導入します。ノイズの識別には、推論を強化したモデルを用いた複数の専門家による協力システムを採用し、優れたノイズ検出を実現します。ノイズ除去フェーズでは、最も関連性が高く確信度の高い知識を取り入れ、信頼性の高い注釈を生成するための慎重な評価を行うコンテキスト強化戦略を採用します。さらに、応答エントロピーに基づく効果的なデータ選択メカニズムを導入し、ファインチューニングに保持されるのは高品質なサンプルのみとなるようにします。5つのデータセットを対象とした幅広い実験により、RobustFTがノイズの多いシナリオにおいて優れたパフォーマンスを発揮することが示されました。
複雑な推論タスクのための十分な人手による注釈付きデータがない場合、自己改善、つまりモデルが自身の出力によって訓練される方法が、性能向上の主要な手法として登場しています。ただし、これらの反復的な自己改善方法のメカニズムの根幹となる要因は、自己改善が効果的である条件や、現在の反復におけるボトルネックなど、依然として十分に理解されていません。本研究では、この反復プロセスにおける2つの重要な要因を監視し、提案する方法を特定します。それは、(1) モデルが十分に多様な応答を生成する能力(探索)と、(2) 外部報酬が高品質な候補と低品質な候補を区別する効果(活用)です。数学的推論を事例として用い、探索と活用のダイナミクスを追跡するための定量的分析を開始しました。その結果、モデルの探索能力が反復ごとに急速に低下し、外部報酬を活用する効果も低下することが明らかとなりました。これらの知見に基づいて、現在のポリシーモデルと利用可能な報酬に基づいて、探索と活用をバランスよく調整する自己学習推論フレームワークであるB-STaRを導入します。数学的推論、コーディング、常識的推論に関する実験では、B-STaRがトレーニング全体でモデルの探索能力を向上させるだけでなく、探索と活用のより効果的なバランスを実現し、優れた性能を発揮することが示されました。
大規模多モーダルモデル(LMMs)においては、推論能力は不可欠です。多モーダルの連鎖的思考アノテーションデータが不足している場合、モデルが自らの出力から学習する自己進化型トレーニングが、推論能力を向上させるための効果的かつスケーラブルなアプローチとして登場しています。その利用が増加しているにも関わらず、特に多モーダル推論の文脈における自己進化型トレーニングの包括的な理解は限られています。本論文では、多モーダル推論のための自己進化型トレーニングの複雑さに深く踏み込み、トレーニング方法、報酬モデル、およびプロンプトの変化という3つの主要要因を特定します。各要因を体系的に検証し、さまざまな構成がトレーニングの効果にどのように影響するかを探ります。当社の分析により、各要因に対する最適なベストプラクティスの一連が導かれ、多モーダル推論を最適化することを目指しています。さらに、トレーニング中の自己進化ダイナミクスと、パフォーマンス向上における自動バランシングメカニズムの影響を探求します。すべての調査を経て、多モーダル推論における自己進化型トレーニングの最終的なレシピを提示し、これらの設計選択をMSTaR(Reasoning用のMultimodal Self-evolving Training)と呼ぶフレームワークに結集させます。このフレームワークは、異なるベンチマークで異なるサイズのモデルに対して普遍的に効果的であり、MiniCPM-V-2.5(8B)、Phi-3.5-Vision(4B)、InternVL2(2B)などの5つの多モーダル推論ベンチマークで、追加の人間のアノテーションを使用せずに事前進化モデルを大幅に上回ることを実証しています。この研究は、多モーダル推論のための自己進化型トレーニングの理解における重要なギャップを埋め、将来の研究のための堅牢なフレームワークを提供しています。当社のポリシーおよび報酬モデル、収集されたデータは、多モーダル推論におけるさらなる調査を促進するために公開されています。
自己回帰(AR)モデルは、テキストや画像生成において最先端の性能を達成していますが、トークンごとの処理による生成の遅さに悩まされています。我々は野心的な問いを投げかけます:事前に学習されたARモデルを適応して、わずか1〜2ステップで出力を生成することは可能か?成功すれば、ARモデルの開発と展開を大幅に前進させるでしょう。既存の作業では、一度に複数のトークンを生成してAR生成を高速化しようとする試みは、トークン間の条件付き依存関係により出力分布を捉えることが基本的にできないため、数ステップの生成には効果が限定されています。この課題に対処するために、我々は蒸留されたデコーディング(DD)を提案します。これは、フローのマッチングを使用して、事前に学習されたARモデルの出力分布からガウス分布への確定的なマッピングを作成します。その後、このマッピングを蒸留するネットワークをトレーニングし、数ステップの生成を可能にします。DDは元のARモデルのトレーニングデータを必要とせず、より実用的です。我々は、最先端の画像ARモデルにおいてDDを評価し、ImageNet-256において有望な結果を示します。VARに対しては、10ステップの生成が必要な場合、DDは1ステップの生成を可能にし(6.3倍の高速化)、FIDが4.19から9.96に許容範囲内で増加します。LlamaGenにおいては、DDは256ステップから1ステップの生成に削減し、FIDが4.11から11.35に増加しつつ217.8倍の高速化を達成します。いずれの場合も、ベースライン手法はFIDが100を超えると完全に失敗します。DDはまた、テキストから画像への生成においても優れており、LlamaGenにおいて256ステップから2ステップの生成に削減し、FIDが25.70から28.95にわずかに増加します。画像ARモデルにおいて1ステップ生成の可能性を示す最初の作業として、DDはARモデルが本質的に遅いという一般的な考えに挑戦し、効率的なAR生成の新たな機会を開拓します。プロジェクトのウェブサイトは、https://imagination-research.github.io/distilled-decoding にあります。
o1モデルシリーズは、大規模な強化学習を用いて推論する能力を持つようにトレーニングされています。これらの高度な推論能力は、モデルの安全性と堅牢性を向上させる新たな手段を提供します。特に、私たちのモデルは、潜在的に安全でないプロンプトに対応する際に、熟考的な整合性を通じて安全ポリシーについて推論することができます。これにより、違法なアドバイスの生成、ステレオタイプな応答の選択、既知のジェイルブレイクに陥るリスクなどの特定のベンチマークにおいて最先端のパフォーマンスが実現されます。回答する前に思考の連鎖を組み込むようモデルをトレーニングすることは、大きな利点を開放する可能性がありますが、知能の高まりから生じる潜在的なリスクも増加させることになります。私たちの結果は、堅牢な整合性手法の構築、その有効性の徹底的なストレステスト、および細心のリスク管理プロトコルの維持の必要性を強調しています。この報告書では、OpenAI o1およびOpenAI o1-miniモデルに対する実施された安全作業、安全性評価、外部レッドチームによるテスト、および準備フレームワークの評価について概説しています。
大規模言語モデル(LLM)が中間推論ステップを生成し、それに注意を払うことで「より考える」ことを可能にする技術は、複雑な問題の解決に有望性を示しています。しかしながら、標準的なアプローチは、応答の直前に離散トークンのシーケンスを生成するため、著しい遅延コストが発生し、最適化が難しいことがあります。本研究では、凍結されたLLMにオフラインコプロセッサを追加することで、モデルのキー・バリュー(kv)キャッシュ上で動作することができることを示します。このコプロセッサは、キャッシュに一連の潜在的な埋め込みを追加し、後続のデコーディングの忠実度を向上させるよう設計されています。我々は、このコプロセッサを、デコーダーの標準事前トレーニングデータ上での言語モデリング損失を使用してトレーニングし、デコーダー自体は凍結したままにします。このアプローチにより、モデルはエンドツーエンドで微分可能な方法で、kvキャッシュに追加の計算を蒸留する方法を学習することができます。デコーダーが変更されていないため、コプロセッサはオフラインおよび非同期で動作し、コプロセッサが利用できない場合や特定のキャッシュが追加の計算を必要としない場合でも、言語モデルは通常通り機能することができます。実験的に示されたように、キャッシュが拡張されると、デコーダーは多数の後続トークンでより低いパープレキシティを達成します。さらに、タスク固有のトレーニングがなくても、実験は、キャッシュの拡張が一貫してパープレキシティを低下させ、推論集約的なタスクの性能を向上させることを示しています。
イン・コンテキスト・ラーニング(ICL)は、言語モデルが入力コンテキストに提供された例に基づいて予測を行う技術です。以前は、コンテキストウィンドウのサイズが表示できる例の数に制限を課しており、例の選択技術が重要で、最も効果的な例のセットを特定するために必要でした。しかし、最近登場したロングコンテキスト言語モデル(LCLMs)により、コンテキストに含めることができる例の数が大幅に増加しました。これにより、多数の例を使用する状況におけるICLのパフォーマンスがサンプル選択方法に依存するかどうかという重要な問題が生じました。この問いに答えるために、我々はLCLMsのコンテキストにおいてこれらのアプローチを再検討し、4つのタスクをカバーする18のデータセットで包括的な実験を行いました。驚くべきことに、洗練された例の選択技術は、単純なランダムサンプル選択方法よりも著しい改善をもたらさないことが観察されました。代わりに、LCLMsの登場により、ICLの課題が最も効果的な例を選択することから、コンテキストウィンドウを埋めるために十分な例を収集することへと基本的に変化したことが分かりました。特に、特定のデータセットでは、利用可能なすべての例を含めてもコンテキストウィンドウを十分に活用できないことがあります。しかし、単純なデータ拡張アプローチを用いてコンテキスト内の例を増やすことで、ICLのパフォーマンスを5%向上させることができました。
頑健なビデオ変分オートエンコーダ(VAE)を学習することは、ビデオの冗長性を減らし、効率的なビデオ生成を促進するために不可欠です。個々のフレームに画像VAEを直接適用することは、時間的な不整合や最適でない圧縮率を引き起こす可能性があります。既存のビデオVAEは時間的な圧縮に取り組み始めていますが、しばしば不十分な再構成性能に苦しんでいます。本論文では、高品質なビデオエンコーディングが可能な新しい強力なビデオオートエンコーダを提案します。まず、画像VAEを3D VAEに拡張するだけで空間と時間の圧縮を絡めることが、動きのぼやけや詳細の歪みのアーティファクトを導入する可能性があることに気付きました。したがって、空間情報をより良く符号化および復号化するために時間に注意した空間圧縮を提案します。さらに、軽量な動きの圧縮モデルを統合して、時間的な圧縮をさらに向上させます。次に、テキストからビデオデータセットに固有のテキスト情報を活用し、モデルにテキストガイダンスを組み込みます。これにより、再構成品質が大幅に向上し、特に詳細の保存と時間的な安定性が向上します。さらに、画像とビデオの両方についての共同トレーニングを通じて、モデルの汎用性をさらに向上させます。これにより、再構成品質が向上するだけでなく、画像とビデオの両方のオートエンコーディングを実行できるようになります。強力な最近のベースラインに対する包括的な評価は、当社の手法の優れた性能を示しています。プロジェクトのウェブサイトは、https://yzxing87.github.io/vae/ で見つけることができます。
最近、O1のようなモデルが代表的な例として登場し、数学やコーディングなどの推論タスクにおける長い思考連鎖(CoT)の効果を示しています。本論文では、長いCoTの成功をニューラル機械翻訳(MT)にもたらす試みとして、DRT-o1を紹介します。具体的には、比喩や隠喩を含む文学書を考慮した場合、これらのテキストを目標言語に翻訳することは文化の違いから実践上非常に難しいです。このような場合、直訳はしばしば意図された意味を効果的に伝えることができません。プロの人間翻訳者でさえ、翻訳プロセス全体で意味を保持するために相当な考慮が必要です。MTにおけるLLMの長い思考能力をシミュレートするために、まず既存の文学書から比喩や隠喩を含む文を収集し、その後、長い思考を介してこれらの文を翻訳するためのマルチエージェントフレームワークを開発します。マルチエージェントフレームワークでは、翻訳者がアドバイザーからの提案に基づいてソース文を反復的に翻訳し、長い思考を行います。長い思考の効果を確保するために、評価者も採用され、現在のラウンドでの翻訳が前回よりも優れているかどうかを判断します。このようにして、数万件の長い思考MTデータを収集し、それをDRT-o1のトレーニングに使用します。文学翻訳の実験結果は、DRT-o1の効果を示しています。Qwen2.5-7BおよびQwen2.5-14Bをバックボーンとして使用することで、DRT-o1によって達成された改善は、7.33〜8.26 BLEUおよび1.66〜3.36 CometScoreです。さらに、DRT-o1-7Bは、QwQ-32B-Previewを7.82 BLEUおよび1.46 CometScoreで上回り、その効果を示しています。このプロジェクトは、https://github.com/krystalan/DRT-o1 で入手可能です。
現在の生成AIシステムは、デフォルトで情報を提示するように調整されており、人間のチューターのように学習を促進することはありません。これらのシステムの様々な教育利用事例に対処するために、私たちは教育行動の注入の課題を教育的指示の追跡として再構築しました。トレーニングと評価の例には、後続のモデルのターンで現れる特定の教育属性を記述するシステムレベルの指示が含まれます。このフレームワークは、モデルを特定の教育学の定義に拘束することを避け、代わりに教師や開発者が望ましいモデルの振る舞いを指定できるようにします。また、迅速に拡大するGeminiモデルの機能に加えて、学習のためのGeminiモデルの改善の道を開けます。これらは、初期の技術レポートとは大きく異なる重要な変更点です。教育的指示の追跡を行うトレーニングが、Google AI Studioで利用可能なLearnLMモデルを生み出し、様々な学習シナリオで専門家によって大幅に好まれることを示します。平均的な好みの強さは、GPT-4oより31\%、Claude 3.5より11\%、Gemini 1.5 Proモデルに基づくLearnLMより13\%高いです。
大規模言語モデルは、コード生成において顕著な能力を示していますが、深いアルゴリズム的推論が必要な複雑なプログラミングタスクにはしばしば苦労します。学習された報酬モデルを介したプロセス監督は、推論ステップのガイドにおいて有望であるが、高価なトレーニングデータが必要であり、信頼性の低い評価に苦しんでいます。私たちは、アウトカムを洗練するプロセス監督という新しいパラダイムを提案します。このフレームワークは、推論ステップの監督対象としてアウトカムの洗練自体を扱います。私たちのアプローチは、具体的な実行シグナルを活用して推論ステップの監督を基礎付けし、同時に複数の解の軌跡を維持するために木構造の探索を使用します。実験では、私たちのアプローチがより小さなモデルでも競争的なプログラミングタスクにおいて高い成功精度とパフォーマンスメトリクスを達成できることが示され、従来の報酬モデルよりも信頼性の高い検証を作成でき、トレーニングPRMを必要としないことが示されました。私たちのアプローチは、5つのモデルと3つのデータセット全体で著しい改善を達成しています:正確性が平均26.9%、効率性が42.2%向上しています。結果は、具体的な検証シグナルを用いた構造化された推論空間を提供することが、複雑なプログラミングタスクの解決にとって重要であることを示唆しています。私たちはすべてのコードとデータを以下でオープンソース化しています:https://github.com/zhuohaoyu/ORPS
大規模言語モデル(LLMs)は科学分野で顕著な潜在能力を示していますが、根本的な疑問が未解決のままです。LLMsで人間の研究コミュニティをシミュレートすることは可能なのでしょうか?この問いに取り組むことは、アイデアのブレインストーミングの背後にあるプロセスを理解し、新しい科学的洞察を自動的に発見するインスピレーションを与える可能性があります。本研究では、ResearchTownという研究コミュニティシミュレーションのためのマルチエージェントフレームワークを提案します。このフレームワークでは、人間の研究コミュニティはエージェントデータグラフとして単純化され、研究者と論文はそれぞれエージェントタイプとデータタイプのノードとして表され、協力関係に基づいて接続されます。また、TextGNNというテキストベースの推論フレームワークを導入し、研究活動(例:論文の読み込み、論文の執筆、レビューの執筆など)をエージェントデータグラフ上の統一されたメッセージパッシングプロセスの特別な形態としてモデル化します。研究シミュレーションの品質を評価するために、ノードマスキング予測タスクを使用したスケーラブルで客観的な評価に基づくベンチマークであるResearchBenchを提案します。実験から、以下の3つの主要な結果が明らかになりました:(1)ResearchTownは、論文執筆やレビュー執筆などの共同研究活動をリアルにシミュレートできること;(2)ResearchTownは、複数の研究者と多様な論文による堅牢なシミュレーションを維持できること;(3)ResearchTownは、新しい研究方向をインスピレーションとして提供する可能性のある学際的な研究アイデアを生み出すことができることが示されました。
AIがあなたの仕事を処理する世界を想像してみてください - 研究資料を整理したり、レポートを起案したり、明日必要なプレゼンテーションを作成したりする間、あなたは眠っています。ただし、現在のデジタルエージェントは単純なタスクを実行できるものの、人間が日常的に行う複雑な実世界の仕事を処理する能力には程遠いです。私たちは、人間の認知を移転することを通じてこのビジョンに向けた重要な一歩を示すAIシステムであるPCエージェントを提案します。私たちの主要な洞察は、単純な「タスク」の実行から複雑な「仕事」の処理への道は、コンピュータの使用中に人間の認知プロセスを効率的に捉えて学ぶことにあるということです。この仮説を検証するために、次の3つの主要な革新を導入します:(1)高品質な人間-コンピュータ相互作用軌跡を完全な認知コンテキストで効率的に収集する軽量なインフラストラクチャであるPCトラッカー;(2)アクションの意味論と思考プロセスを完了して、生の相互作用データを豊かな認知軌跡に変換する2段階の認知完了パイプライン;および(3)意思決定のための計画エージェントと堅牢なビジュアルグラウンディングのためのグラウンディングエージェントを組み合わせたマルチエージェントシステム。PowerPointプレゼンテーション作成における初期実験では、わずか133の認知軌跡で訓練されたPCエージェントが、複数のアプリケーションをまたいで最大50のステップにわたる洗練された作業シナリオを処理できることが示されました。これは、私たちのアプローチのデータ効率性を示し、能力のあるデジタルエージェントを訓練する鍵は人間の認知データの収集にあることを強調しています。データ収集インフラストラクチャや認知完了方法を含む完全なフレームワークをオープンソース化することで、研究コミュニティに本当に能力のあるデジタルエージェントを開発する障壁を下げることを目指しています。
大規模言語モデル(LLM)がエージェントとしてますます展開されるにつれて、対話環境への統合やツールの使用は、モデル自体に関連する安全性に加えて新たな安全性の課題をもたらします。ただし、エージェントの安全性を評価する包括的なベンチマークが不足しているため、効果的な評価とさらなる改善が阻害されています。本論文では、LLMエージェントの安全性を評価するために設計された包括的なベンチマークであるAgent-SafetyBenchを紹介します。Agent-SafetyBenchには349の対話環境と2,000のテストケースが含まれ、8つの安全リスクカテゴリを評価し、危険な相互作用で頻繁に遭遇する10の一般的な障害モードをカバーしています。16の人気のあるLLMエージェントの評価では、懸念すべき結果が明らかになりました:エージェントのいずれも安全スコアが60%を超えていません。これは、LLMエージェントにおける重大な安全性の課題を浮き彫りにし、改善の必要性を強調しています。定量的な分析を通じて、重要な障害モードを特定し、現在のLLMエージェントにおける2つの基本的な安全性欠陥をまとめました:堅牢性の欠如とリスク認識の欠如。さらに、我々の調査結果は、防御プロンプトへの依存だけではこれらの安全性問題に対処するのに不十分であり、より高度で堅牢な戦略が必要であることを強調しています。Agent-SafetyBenchは、エージェントの安全性評価と改善におけるさらなる研究とイノベーションを促進するために、https://github.com/thu-coai/Agent-SafetyBench で公開されています。
マルチモーダル多人数会話(MMC)は、あまり研究されていないが重要な研究トピックであり、実世界のシナリオに適しているため、より広く利用される可能性があります。従来のマルチモーダル会話と比較して、MMCは、視覚的およびテキストの文脈の両方に現れる多くの対話者がいるため、より強力なキャラクター中心の理解能力が必要です。この問題の研究を促進するために、本論文ではFriends-MMCを提案し、24,000以上のユニークな発話がビデオコンテキストとペアになったMMCデータセットを含んでいます。対話のキャラクター中心の理解を探求するために、各発話のスピーカー、ビデオに現れる顔の名前と境界ボックスも注釈付けしています。このFriends-MMCデータセットを基に、会話スピーカーの識別と会話応答予測という2つの基本的なMMCタスクをさらに研究しています。どちらもビデオまたは画像を視覚的コンテキストとする多人数性を持っています。会話スピーカーの識別では、事前学習済みモデルなどの既存の手法の非効率性を示し、2つのモダリティのコンテキストを活用してより良いパフォーマンスを達成するために最適化ソルバーを利用するシンプルかつ効果的なベースライン手法を提案しています。会話応答予測では、Friend-MMCで生成的ダイアログモデルを微調整し、スピーカー情報の利点を分析しています。コードとデータセットはhttps://github.com/yellow-binary-tree/Friends-MMCで公開されており、会話の理解時にスピーカー情報のモデリングにさらなる注意を呼びかけています。
OpenAIの最近のReinforcement Fine-Tuning(RFT)の導入は、推論基盤モデルの潜在能力を示し、単純なパターン模倣を超えたファインチューニングの新しいパラダイムを提供しています。この技術レポートでは、OpenRFTを紹介し、RFTと同じ設定で汎用推論モデルをドメイン固有のタスクにファインチューニングする試みを紹介します。OpenRFTは、推論ステップデータの不足とトレーニングサンプルの数量の制約という2つの主要な課題に対処するために、ドメイン固有のサンプルを3つの方法で活用します:質問の拡張、推論プロセスデータの合成、およびフューショットICL。評価はSciKnowEvalで行われ、OpenRFTは各タスクにつきわずか100のドメイン固有サンプルで顕著な性能向上を達成しています。より多くの実験結果は後続バージョンで継続的に更新されます。ソースコード、データセット、モデルは以下で公開されています:https://github.com/ADaM-BJTU/OpenRFT
LLM(Large Language Models)の人間の意図との整合性を高めるための重要なステップとして、Instruction Fine-Tuning(IFT)はデータセットの品質に高い要求をしています。しかしながら、既存のIFTデータセットには、LLMの事前学習フェーズで学習した内部知識と矛盾する知識が含まれていることがよくあり、これはIFTの効果に大きく影響する可能性があります。この問題に対処するために、私たちはNILE(iNternal consIstency aLignmEnt)フレームワークを導入しました。このフレームワークは、IFTデータセットを最適化してLLMの能力をさらに引き出すことを目的としています。NILEは、指示データに対応する目標事前学習LLMの内部知識を引き出すことによって機能します。この内部知識は、IFTデータセット内の回答を修正するために活用されます。さらに、訓練サンプルをフィルタリングするための新しいInternal Consistency Filtering(ICF)手法を提案しており、これにより、LLMの内部知識との高い整合性が確保されます。私たちの実験では、NILEに整合したIFTデータセットが、複数のLLM能力評価データセット全体でLLMの性能を急激に向上させ、Arena-Hardでは最大66.6%、Alpaca-Eval V2では68.5%の向上を達成しました。さらなる分析により、NILEフレームワークの各構成要素がこれらの大幅な性能向上に貢献しており、事前学習の内部知識とのデータセットの整合性がLLMの潜在能力を最大限に引き出すために重要であるという説得力のある証拠が提供されています。