翻訳付きの日次キュレーションされたAI研究論文
初代の推論モデル、DeepSeek-R1-ZeroおよびDeepSeek-R1を紹介します。DeepSeek-R1-Zeroは、教師なし微調整(SFT)を行わずに大規模な強化学習(RL)によって訓練されたモデルであり、優れた推論能力を示しています。RLにより、DeepSeek-R1-Zeroは多くの強力で興味深い推論行動を自然に獲得します。ただし、読みづらさや言語の混在などの課題に直面しています。これらの問題に対処し、推論性能をさらに向上させるために、DeepSeek-R1を導入します。DeepSeek-R1は、RLの前にマルチステージのトレーニングとコールドスタートデータを組み込んでいます。DeepSeek-R1は、推論タスクにおいてOpenAI-o1-1217と同等の性能を達成します。研究コミュニティをサポートするために、DeepSeek-R1-Zero、DeepSeek-R1、およびQwenとLlamaに基づいて抽出された6つの密なモデル(1.5B、7B、8B、14B、32B、70B)をオープンソース化します。
次のトークン予測を用いた言語モデルの事前学習は、計算リソースの拡張に効果的であることが証明されていますが、利用可能な訓練データの量に制限があります。強化学習(RL)のスケーリングは、人工知能の継続的な改善のための新たな軸を開くものであり、大規模言語モデル(LLMs)が訓練データをスケーリングすることが可能であるという約束があります。ただし、これまでの公表された研究成果は競争力のある結果を生み出していませんでした。このため、私たちは、Kimi k1.5のトレーニング手法について報告し、最新のマルチモーダルLLMをRLで訓練した内容を含め、RLトレーニング手法、マルチモーダルデータのレシピ、およびインフラの最適化について述べます。長い文脈のスケーリングと改善されたポリシーオプティマイゼーション手法は、私たちのアプローチの重要な要素であり、より複雑な手法(モンテカルロ木探索、価値関数、プロセス報酬モデルなど)に頼らずに、シンプルで効果的なRLフレームワークを確立しています。特筆すべきは、当システムが複数のベンチマークやモダリティにおいて最先端の推論性能を達成していることです。たとえば、AIMEで77.5、MATH 500で96.2、Codeforcesで94番目のパーセンタイル、MathVistaで74.9となっており、OpenAIのo1に匹敵しています。さらに、長いCoT技術を用いた効果的なlong2short手法を提案し、short-CoTモデルを改善するためにlong-CoT技術を使用しており、最先端のshort-CoT推論結果を得ています。たとえば、AIMEで60.8、MATH500で94.6、LiveCodeBenchで47.3となっており、GPT-4oやClaude Sonnet 3.5などの既存のshort-CoTモデルを大幅に上回っています(最大+550%)。
本論文では、画像と動画の理解のためのより高度なマルチモーダル基盤モデルであるVideoLLaMA3を提案します。VideoLLaMA3の中心的な設計思想は、ビジョン中心です。"ビジョン中心"の意味は二重であり、ビジョン中心のトレーニングパラダイムとビジョン中心のフレームワーク設計を指します。ビジョン中心のトレーニングパラダイムの主要な洞察は、高品質の画像テキストデータが画像と動画の理解の両方にとって重要であるということです。大規模なビデオテキストデータセットを準備する代わりに、大規模かつ高品質な画像テキストデータセットの構築に焦点を当てています。VideoLLaMA3には4つのトレーニング段階があります:1)ビジョン中心のアライメント段階、ビジョンエンコーダーとプロジェクターをウォームアップする段階;2)ビジョン言語の事前トレーニング段階、大規模な画像テキストデータを用いてビジョンエンコーダー、プロジェクター、LLMを調整する段階;3)マルチタスクのファインチューニング段階、画像テキストSFTデータを組み込んで下流タスクに、およびビデオテキストデータを用いてビデオ理解の基盤を築く段階;4)ビデオ中心のファインチューニング、モデルの動画理解能力をさらに向上させる段階です。フレームワーク設計に関して、画像の細かい詳細をよりよく捉えるために、事前学習されたビジョンエンコーダーは、固定数のトークンではなく、異なるサイズの画像を対応する数のビジョントークンにエンコードするように適応されます。動画入力に関しては、類似性に応じてビジョントークンの数を減らすことで、動画の表現がより正確でコンパクトになります。ビジョン中心の設計の恩恵を受けて、VideoLLaMA3は画像と動画の理解のベンチマークで優れた性能を達成しています。
仮想映画制作には、台本執筆、仮想撮影、俳優の正確な配置と行動など、複雑な意思決定プロセスが必要です。言語エージェントベースの社会における自動意思決定の最近の進歩に触発され、本論文では、構築された3D仮想空間におけるエンドツーエンドの映画自動化のための新しいLLMベースのマルチエージェント協調フレームワークであるFilmAgentを紹介します。FilmAgentは、監督、脚本家、俳優、撮影監督など、さまざまなクルーの役割をシミュレートし、映画制作ワークフローの主要段階をカバーします:(1)アイデア開発は、ブレインストーミングされたアイデアを構造化されたストーリーの概要に変換します;(2)台本執筆は、各シーンの台詞やキャラクターの行動を詳細に説明します;(3)撮影は、各ショットのカメラセットアップを決定します。エージェントチームは、反復的なフィードバックと修正を通じて協力し、中間スクリプトを検証し幻影を減らします。我々は、15のアイデアと4つの主要な側面で生成されたビデオを評価します。人間の評価によると、FilmAgentはすべての側面ですべてのベースラインを上回り、平均で5点満点中3.98点を獲得し、映画制作におけるマルチエージェントの協力の実現可能性を示しています。さらなる分析では、FilmAgentは、より進んだGPT-4oモデルを使用していないにもかかわらず、単一エージェントo1を上回り、うまく調整されたマルチエージェントシステムの利点を示しています。最後に、OpenAIのテキストからビデオへのモデルSoraと当社のFilmAgentの補完的な強みと弱みについて議論します。
大規模言語モデル(LLM)は印象的な性能を示すが、再トレーニングなしに迅速に人間の好みに適応する柔軟性に欠けています。本研究では、推論中に人間の好みとLLMの出力を整合させ、モデルパラメータを更新する必要がないTest-time Preference Optimization(TPO)フレームワークを紹介します。純粋に数値的な報酬に頼るのではなく、TPOは報酬信号をテキストの批評に変換し、それらをテキストの報酬として使用して応答を反復的に改良します。指示の遵守、好みの整合性、安全性、数学をカバーするベンチマークでの評価により、TPOは徐々に人間の好みと整合性を向上させます。特筆すべきは、わずか数回のTPOステップの後、最初は整合していなかったLlama-3.1-70B-SFTモデルが整合した対応モデルであるLlama-3.1-70B-Instructを上回ることができることです。さらに、TPOは推論中の探索幅と深さの両方で効率的にスケーリングします。事例研究を通じて、TPOがLLMが報酬信号を解釈し、それに応じて行動する能力を活用する方法を説明します。我々の研究成果は、テスト時の好み最適化のための実用的で軽量な代替手段としてTPOを確立し、リアルタイムでの整合性を達成します。我々のコードはhttps://github.com/yafuly/TPO で公開されています。
Mixture-of-Experts(MoE)モデルは、トークンを特定の専門モジュールに割り当てるためにルーターを主に使用し、部分的なパラメータのみを活性化させ、しばしば密なモデルを上回ります。我々は、ルーターの意思決定と専門家の実行との分離が重要でありながら見過ごされている問題であり、最適でない専門家の選択と効果的な学習をもたらすと主張します。この問題に対処するために、Autonomy-of-Experts(AoE)を提案します。これは、専門家が自律的に入力を処理するために自ら選択する革新的なMoEパラダイムです。AoEは、専門家がトークンを効果的に処理する能力について自覚しており、その自己活性化のスケールに反映されるという洞察に基づいています。AoEでは、ルーターが取り除かれ、代わりに専門家が入力のための内部活性化を事前計算し、その活性化ノルムに基づいてランク付けされます。上位ランクの専門家のみが前進パスを続行し、他の専門家は中止します。活性化の事前計算のオーバーヘッドは、低ランクの重み因数分解によって削減されます。この自己評価してからパートナー比較するアプローチにより、改善された専門家選択と効果的な学習が確保されます。我々は、7億から40億のパラメータを持つ言語モデルを事前トレーニングし、AoEが効率に比して従来のMoEモデルを上回ることを実証しています。
最近、長期推論LLM(例:OpenAIのO1)は、人間が複雑な問題を考える方法に類似した拡張推論プロセスを採用しています。この推論パラダイムは、モデルの問題解決能力を大幅に向上させ、有望な結果を達成しています。ただし、長期推論プロセスは推論時間の著しい増加をもたらします。長期推論LLMの推論オーバーヘッドを削減することは、精度を確保しつつも重要な課題です。本論文では、長期推論モデルが問題の難易度や推論の冗長性に基づいてトークン予算を効果的に割り当てることに苦労していることを実験的に示します。この課題に対処するために、推論オーバーヘッドを最小限に抑えつつも精度を維持することを目的としたLength-Harmonizing Fine-Tuning(O1-Pruner)を提案します。この効果的なファインチューニング手法は、まずLLMのベースライン性能を事前サンプリングによって推定し、その後、RLスタイルのファインチューニングを使用して、モデルに精度制約下でより短い推論プロセスを生成するよう促します。これにより、モデルは効率的な推論を達成し、冗長性を低く抑えつつも精度を維持できます。さまざまな数学的推論ベンチマークでの実験結果は、O1-Prunerが推論オーバーヘッドを大幅に削減するだけでなく、より高い精度を達成しており、この課題への新しい有望な解決策を提供しています。私たちのコードは近日中にhttps://github.com/StarDewXXX/O1-Pruner に公開されます。
Best-of-N(BoN)サンプリングは、大規模言語モデル(LLM)のテスト時スケーリングのための一般的な戦略であり、複数の世代から最適な候補解を選択するために報酬モデルに依存しています。ただし、従来の報酬モデルはしばしば恣意的で一貫性のないスコアを割り当てるため、その効果が制限されています。この課題に対処するために、私たちはBoNサンプリング用にペアワイズ報酬モデル(Pairwise RM)を提案し、ノックアウトトーナメントを組み合わせます。絶対的なスコアの割り当てではなく、1つの数学問題が与えられた場合、Pairwise RMは2つの候補解の正確さを同時に評価します。このアプローチにより、恣意的なスコアリングの必要性がなくなり、並列比較を通じた解の交差検証が可能となります。ノックアウトトーナメントでは、Pairwise RMが候補解間でペアワイズ比較を行い、間違った解を反復的に排除します。私たちは、NumiaMathから導出された443Kのペアワイズ比較からなる大規模データセット\ourdatasetを構築し、gemini-1.5-flashを使用して注釈付けを行い、Pairwise RMを教師付き微調整を通じてトレーニングします。MATH-500とOlympiad Benchでの実験は、従来の識別的報酬モデルに比べて大幅な改善を示しています。また、難解な問題の上位50%で40\%から60\%の相対的な改善が達成されています。
コンピュータビジョンにおける多視点3D再構築は、特に多様な視点にわたる正確でスケーラブルな表現が必要なアプリケーションにおいて、中核的な課題となっています。DUSt3Rなどの現在の主要な手法は、基本的にペアごとに画像を処理し、複数の視点からの再構築には高コストなグローバルアラインメント手法が必要となります。本研究では、多視点における効率的でスケーラブルな3D再構築を実現するDUSt3Rの新しい多視点一般化であるFast 3D Reconstruction(Fast3R)を提案します。Fast3Rは、Transformerベースのアーキテクチャを用いて、多くの視点を並行して処理することで、1回の処理でN枚の画像を前方に進め、反復的なアラインメントの必要性を回避します。カメラポーズ推定と3D再構築に関する幅広い実験を通じて、Fast3Rは最先端のパフォーマンスを示し、推論速度の大幅な向上と誤差蓄積の削減を実現しています。これらの結果により、Fast3Rは再構築精度を損なうことなく、スケーラビリティを向上させる堅牢な多視点アプリケーションの代替手段として確立されています。
大規模言語モデル(LLMs)は人工知能を変革し、自律的な計画と実行が可能なタスク指向システムに進化しています。LLMsの主要な応用の1つは、会話型AIシステムであり、複数のターンの対話をナビゲートし、特定のドメイン固有のAPIを統合し、厳格なポリシー制約に従う必要があります。しかし、これらのエージェントを評価することは依然として大きな課題であり、従来の方法では実世界の相互作用の複雑さと変動性を捉えることができません。私たちは、包括的に会話型AIシステムを評価するために設計されたスケーラブルでオープンソースのマルチエージェントフレームワークであるIntellAgentを紹介します。IntellAgentは、ポリシーに基づくグラフモデリング、リアルなイベント生成、対話型ユーザーエージェントシミュレーションを組み合わせることで、多様で合成的なベンチマークの作成を自動化します。この革新的なアプローチは、静的で手動でキュレーションされたベンチマークの粗いメトリクスの制限に対処する細かい診断を提供します。IntellAgentは、会話型AIを評価する上でのパラダイムシフトを表しています。実際の複数ポリシーのシナリオをさまざまな複雑さレベルでシミュレートすることで、IntellAgentはエージェントの能力とポリシー制約の微妙な相互作用を捉えます。従来の方法とは異なり、IntellAgentは関係、尤度、およびポリシー相互作用の複雑さを表すためにグラフベースのポリシーモデルを使用し、高度な詳細な診断を可能にします。IntellAgentはまた、重要なパフォーマンスのギャップを特定し、ターゲットとなる最適化のための実用的な洞察を提供します。そのモジュラーでオープンソースの設計は、新しいドメイン、ポリシー、およびAPIのシームレスな統合をサポートし、再現性とコミュニティの協力を促進します。私たちの調査結果は、IntellAgentが研究と展開を結びつける課題に取り組むことで、会話型AIの進歩のための効果的なフレームワークとして機能することを示しています。このフレームワークは、https://github.com/plurai-ai/intellagent で入手可能です。