翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)はその驚異的な能力にもかかわらず、動的で複雑な環境において過去のインタラクション情報を効果的に活用するのに苦戦しています。メモリシステムは、永続的な情報の保存、検索、利用メカニズムを導入することで、LLMがステートレスなインタラクションを超えることを可能にします。しかし、既存のメモリシステムはしばしば大幅な時間と計算コストを伴います。この問題に対処するため、我々はLightMemという新しいメモリシステムを提案します。LightMemは、メモリシステムの性能と効率性のバランスを取ることを目指しています。Atkinson-Shiffrinの人間の記憶モデルに着想を得て、LightMemはメモリを3つの補完的な段階に整理します。まず、認知に基づいた感覚記憶が軽量な圧縮を通じて無関係な情報を迅速にフィルタリングし、トピックに基づいて情報をグループ化します。次に、トピックを意識した短期記憶がこれらのトピックベースのグループを統合し、より構造化されたアクセスのために内容を整理し要約します。最後に、睡眠時間更新を伴う長期記憶が、オンライン推論から統合を切り離すオフラインプロセスを採用します。GPTとQwenをバックボーンとしたLongMemEvalでの実験では、LightMemが精度において強力なベースラインを上回り(最大10.9%の向上)、トークン使用量を最大117倍、API呼び出しを最大159倍、実行時間を12倍以上削減することが示されました。コードはhttps://github.com/zjunlp/LightMemで公開されています。
本論文では、コアアテンションの分散処理(Core Attention Disaggregation, CAD)を提案する。この技術は、コアアテンション計算であるsoftmax(QK^T)Vをモデルの他の部分から切り離し、専用のデバイスプールで実行することで、長文脈大規模言語モデルの学習を改善する。既存のシステムでは、コアアテンションは他のレイヤーと共配置されているが、長い文脈長では、他のコンポーネントのほぼ線形な計算量増加に比べて二次的に増加するコアアテンションの計算量が、データ並列およびパイプライン並列グループ間での負荷不均衡や遅延を引き起こす。CADは、2つの観察に基づいて実現されている。第一に、コアアテンションはステートレスであり、学習可能なパラメータを持たず、最小限の一時データしか持たないため、負荷分散は計算バウンドなタスクのスケジューリングに帰着する。第二に、コアアテンションは合成可能であり、現代のアテンションカーネルは、任意の長さのトークンレベルの断片を融合したバッチで処理する際にも高い効率を維持する。CADは、コアアテンションをトークンレベルのタスクに分割し、それらを専用のアテンションサーバーにディスパッチする。これらのサーバーは、カーネル効率を犠牲にすることなく、計算量を均等化するためにタスクを動的に再バッチングする。我々は、DistCAというシステムにCADを実装した。DistCAは、ピンポン実行スキームを使用して通信と計算を完全にオーバーラップさせ、アテンションサーバー上でのインプレース実行によりメモリ使用量を削減する。512台のH200 GPUと最大512kトークンの文脈長において、DistCAはエンドツーエンドの学習スループットを最大1.35倍向上させ、データ並列およびパイプライン並列の遅延を排除し、ほぼ完璧な計算およびメモリバランスを達成する。
生成的世界モデル(WMs)は現在、驚くべき視覚的リアリズムで世界をシミュレートすることが可能であり、これにより、それらが具現化されたエージェントに意思決定のための予測的知覚を提供できるかどうかという疑問が自然に浮かび上がる。この疑問に対する進展は、断片的な評価によって制限されてきた:既存のベンチマークのほとんどは、視覚的品質を孤立して強調するオープンループプロトコルを採用しており、具現化された有用性という核心的な問題、すなわちWMsが実際にエージェントが具現化されたタスクを成功させるのに役立つかどうか、を未解決のままにしている。このギャップを埋めるために、我々はWorld-in-Worldを導入する。これは、実際のエージェントと環境の相互作用を反映したクローズドループ世界でWMsをベンチマークする最初のオープンプラットフォームである。World-in-Worldは、統一されたオンラインプランニング戦略と標準化されたアクションAPIを提供し、異種のWMsを意思決定に利用可能にする。我々は、多様なWMsを厳密に評価し、タスクの成功を主要な指標として優先し、視覚的品質に焦点を当てる一般的なアプローチを超える4つのクローズドループ環境を選定した。また、具現化された設定における世界モデルの最初のデータスケーリング法則を提示する。我々の研究は、3つの驚くべき発見を明らかにした:(1)視覚的品質だけではタスクの成功を保証せず、制御可能性がより重要である;(2)事前学習済みのビデオジェネレータをアップグレードするよりも、アクション-観測データを用いた事後学習のスケーリングがより効果的である;(3)推論時の計算リソースをより多く割り当てることで、WMsはクローズドループ性能を大幅に向上させることができる。
テキストから画像(T2I)生成における最近の進展は、生成された画像がテキストプロンプトの意味をどれだけ正確に反映しているかを評価するための信頼性の高いベンチマークの重要性を強調しています。しかし、(1) 既存のベンチマークは、実世界での適用性に不可欠な多様なプロンプトシナリオと多言語サポートを欠いている。(2) 主要な次元にわたる粗い評価しか提供せず、細かいサブ次元の範囲が狭く、詳細なサブ次元評価が不十分である。これらの制限に対処するため、我々はT2I生成のための統一的な意味評価ベンチマークであるUniGenBench++を導入します。具体的には、600のプロンプトを階層的に組織化し、カバレッジと効率性を確保しています:(1) 5つの主要なプロンプトテーマと20のサブテーマにわたる多様な実世界シナリオを網羅。(2) 10の主要評価基準と27のサブ評価基準にわたってT2Iモデルの意味的一貫性を包括的に探り、各プロンプトが複数のテストポイントを評価します。モデルの言語とプロンプト長の変動に対する堅牢性を厳密に評価するため、各プロンプトの英語版と中国語版を短い形式と長い形式で提供します。クローズドソースのマルチモーダル大規模言語モデル(MLLM)、すなわちGemini-2.5-Proの一般的な世界知識と詳細な画像理解能力を活用し、信頼性の高いベンチマーク構築と効率的なモデル評価のためのパイプラインを開発しました。さらに、コミュニティの利用をさらに促進するため、T2Iモデルの出力をオフラインで評価可能な堅牢な評価モデルを訓練します。オープンソースおよびクローズドソースのT2Iモデルの包括的なベンチマークを通じて、それらの強みと弱みを様々な側面から体系的に明らかにします。
我々は、初のオープンソースかつ最先端の思考モデルであるRing-1Tを発表します。このモデルは1兆の総パラメータを有し、トークンあたり約500億のパラメータを活性化します。このような兆規模パラメータのモデルを訓練することは、訓練-推論の不一致、ロールアウト処理の非効率性、RLシステムのボトルネックといった前例のない課題を引き起こします。これらの課題に対処するため、我々は3つの相互に関連する革新を先駆けました:(1) IcePopは、トークンレベルの不一致マスキングとクリッピングによりRL訓練を安定化し、訓練-推論のミスマッチによる不安定性を解決します;(2) C3PO++は、トークン予算下での長いロールアウトに対してリソース利用効率を向上させ、動的に分割することで高い時間効率を実現します;(3) ASystemは、兆規模パラメータモデルの訓練を妨げるシステム的なボトルネックを克服するために設計された高性能RLフレームワークです。Ring-1Tは重要なベンチマークで画期的な結果を達成しました:AIME-2025で93.4、HMMT-2025で86.72、CodeForcesで2088、ARC-AGI-v1で55.94を記録しました。特に、IMO-2025で銀メダルレベルの結果を達成し、その卓越した推論能力を裏付けています。1兆パラメータのMoEモデルをコミュニティに公開することで、研究コミュニティに最先端の推論能力への直接的なアクセスを提供します。この貢献は、大規模推論知能の民主化における重要なマイルストーンを示し、オープンソースモデルの性能における新たな基準を確立します。
大規模言語モデル(LLM)は化学発見を進展させる大きな可能性を秘めているものの、現状のLLMは核心的な化学知識を欠き、信頼性の低い推論プロセスを生成し、多様な化学タスクにおいて最適な性能を発揮できていない。これらの課題に対処するため、我々はChem-Rを提案する。これは化学者の熟慮プロセスを模倣するように設計された、汎用性の高い化学推論モデルである。Chem-Rは、高度な推論能力を段階的に構築する3段階のフレームワークを通じて訓練される。具体的には、1)化学基礎訓練:核心的な化学知識を確立する、2)化学推論プロトコル蒸留:体系的な信頼性の高い問題解決を導くために、構造化された専門家のような推論トレースを組み込む、3)マルチタスクグループ相対ポリシー最適化:分子レベルおよび反応レベルの多様なタスクにおいてバランスの取れた性能を最適化する。この構造化されたパイプラインにより、Chem-Rは包括的なベンチマークにおいて最先端の性能を達成し、分子タスクでは最大46%、反応タスクでは最大66%の性能向上でGemini-2.5-ProやDeepSeek-R1などの主要な大規模言語モデルを凌駕した。同時に、Chem-Rは既存の化学基盤モデルに対しても、分子レベルおよび反応レベルの両方のタスクで一貫して優れた性能を示した。これらの結果は、Chem-Rの堅牢な汎化能力、解釈可能性、そして次世代のAI駆動型化学発見の基盤としての潜在能力を強調するものである。
拡散トランスフォーマー(DiT)を用いた長時間動画生成は、シーケンス長に対するフルアテンションの二次スケーリングによってボトルネックとなっています。アテンションは高度に冗長であり、出力は少数のクエリ-キーペアによって支配されます。既存のスパース手法はブロック単位の粗い推定に依存しており、その精度と効率のトレードオフはブロックサイズによって制約されています。本論文では、Mixture-of-Groups Attention(MoGA)を提案します。これは、ブロック単位の推定を必要とせず、軽量で学習可能なトークンルーターを使用してトークンを正確にマッチングする効率的なスパースアテンションです。意味を考慮したルーティングにより、MoGAは効果的な長距離相互作用を可能にします。カーネルフリーの手法として、MoGAはFlashAttentionやシーケンス並列処理を含む現代のアテンションスタックとシームレスに統合されます。MoGAを基盤として、約580kのコンテキスト長で24fpsの480p、分単位のマルチショット動画をエンドツーエンドで生成する効率的な長時間動画生成モデルを開発しました。様々な動画生成タスクにおける包括的な実験により、本手法の有効性が検証されています。
マルチモーダル大規模言語モデル(MLLMs)は全体的な理解において優れているものの、複雑なシーンを含む密集した世界を捉えることには苦戦しており、細部の緻密な分析やオブジェクト間の相互関係の理解が求められます。リージョンレベルのMLLMsは有望な一歩でした。しかし、これまでの試みは一般的に与えられたリージョンを孤立して理解するように最適化されており、重要なグローバルコンテキストを無視していました。この問題を解決するため、我々は包括的なリージョンレベル視覚理解のためのGrasp Any Region(GAR)を提案します。効果的なRoIアラインド特徴リプレイ技術を活用したGARは、(1)必要なグローバルコンテキストを活用した精密な知覚、(2)複数のプロンプト間の相互作用のモデリングをサポートします。これにより、(3)任意のリージョンに関する特定の自由形式の質問に答えるための高度な構成推論を自然に達成し、受動的な記述から能動的な対話へのパラダイムシフトを実現します。さらに、我々はGAR-Benchを構築し、単一リージョンの理解をより正確に評価するだけでなく、より重要なことに、複数のリージョン間の相互作用と複雑な推論を測定します。広範な実験により、GAR-1Bは最先端のキャプション生成能力を維持するだけでなく(例えば、DLC-BenchでDAM-3Bを+4.5上回る)、複数のプロンプト間の関係をモデル化する高度な理解能力においても優れており、GAR-Bench-VQAではInternVL3-78Bを上回りました。さらに重要なことに、ゼロショットのGAR-8Bは、VideoRefer-BenchQにおいてドメイン内のVideoRefer-7Bを上回り、その強力な能力が容易にビデオに転移可能であることを示しています。
本研究では、長文脈を光学的2Dマッピングにより圧縮する可能性を探るための初期調査として、DeepSeek-OCRを提案する。DeepSeek-OCRは、DeepEncoderとデコーダーとしてのDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。具体的には、DeepEncoderはコアエンジンとして機能し、高解像度入力下での低アクティベーションを維持しつつ、高い圧縮率を達成して視覚トークンの数を最適かつ管理可能な範囲に保つように設計されている。実験結果によると、テキストトークン数が視覚トークン数の10倍以内(つまり圧縮率が10倍未満)の場合、モデルは97%のデコード(OCR)精度を達成できる。圧縮率が20倍の場合でも、OCR精度は約60%を維持する。これは、歴史的な長文脈圧縮やLLMにおける記憶忘却メカニズムなどの研究分野において、非常に有望な結果を示している。さらに、DeepSeek-OCRは高い実用性も示している。OmniDocBenchにおいて、100視覚トークンしか使用せずにGOT-OCR2.0(256トークン/ページ)を上回り、800視覚トークン未満でMinerU2.0(平均6000+トークン/ページ)を凌駕する。実際の運用では、DeepSeek-OCRは1台のA100-40Gで1日あたり20万ページ以上のLLM/VLM用トレーニングデータを生成できる。コードとモデルウェイトはhttp://github.com/deepseek-ai/DeepSeek-OCRで公開されている。
マルチモーダル大規模言語モデル(MLLM)はビデオキャプション生成において高い能力を示しているが、実用的なアプリケーションでは、網羅的で制約のない記述ではなく、特定のユーザー指示に従ったキャプションが求められる。しかし、現在のベンチマークは主に記述の包括性を評価しており、指示追従能力をほとんど考慮していない。このギャップを埋めるため、我々は制御可能なビデオキャプション評価のための新しいベンチマーク「IF-VidCap」を導入した。これは1,400の高品質サンプルを含む。既存のビデオキャプションや一般的な指示追従ベンチマークとは異なり、IF-VidCapはキャプションを2つの次元で評価する体系的なフレームワークを採用している:形式の正確性と内容の正確性である。20以上の主要なモデルに対する包括的な評価により、微妙な状況が明らかになった:プロプライエタリモデルの優位性は続いているものの、その性能差は縮まっており、トップクラスのオープンソースソリューションがほぼ同等の性能を達成している。さらに、複雑な指示に対しては、高密度キャプション生成に特化したモデルが汎用MLLMに劣ることも判明し、今後の研究では記述の豊かさと指示追従の忠実性の両方を同時に進めるべきであることが示唆された。
拡散モデルは生成品質において最先端の性能を達成しているものの、依然として計算コストの高いサンプリングが課題となっている。最近の研究では、勾配ベースの最適化手法を用いて、完全なサンプリングプロセスから数ステップのODE拡散ソルバーを蒸留することで、関数評価の回数を数十回からわずか数回に削減するアプローチが提案されている。しかし、これらの手法は複雑な訓練技術に依存することが多く、細部の詳細を明示的に保持することに焦点を当てていない。本論文では、追加の訓練トリックを必要とせず、既存のアプローチよりも品質を向上させるODEサンプラーの単純なパラメータ化である「Generalized Solver」を紹介する。さらに、元の蒸留損失を敵対的訓練と組み合わせることで、アーティファクトを軽減し、詳細の忠実度を向上させる。この結果得られる手法を「Generalized Adversarial Solver」と呼び、類似のリソース制約下で既存のソルバー訓練手法と比較して優れた性能を示す。コードはhttps://github.com/3145tttt/GASで公開されている。
大規模言語モデル(LLM)を個々のユーザーの好みに忠実にパーソナライズすることは、重要な課題であるが、同時に困難なタスクでもある。教師ありファインチューニング(SFT)は迅速に性能の頭打ちに達し、人間のフィードバックからの標準的な強化学習(RLHF)もパーソナライズの微妙なニュアンスに対応するのに苦戦している。スカラーベースの報酬モデルは報酬ハッキングに陥りやすく、冗長で表面的にパーソナライズされた応答を引き起こす。これらの制約を解決するため、我々は「Critique-Post-Edit」を提案する。これは、より忠実で制御可能なパーソナライズを実現する堅牢な強化学習フレームワークである。本フレームワークは、以下の2つの主要なコンポーネントを統合している:(1)報酬ハッキングに抵抗する多次元スコアとテキスト批評を提供するパーソナライズド生成報酬モデル(GRM)、および(2)ポリシーモデルがこれらの批評に基づいて自身の出力を修正し、より的を絞った効率的な学習を実現する「Critique-Post-Edit」メカニズムである。厳密な長さ制御評価の下で、我々の手法はパーソナライズベンチマークにおいて標準的なPPOを大幅に上回る性能を示した。パーソナライズドQwen2.5-7Bは平均11%の勝率向上を達成し、パーソナライズドQwen2.5-14BモデルはGPT-4.1の性能を凌駕した。これらの結果は、忠実で効率的かつ制御可能なパーソナライズへの実践的な道筋を示している。
近年の視覚言語モデル(VLM)の進歩は、多様なマルチモーダルタスクにおいて顕著な進展を遂げてきたが、限られた視点からの3D空間関係の理解は依然として重要な課題である。従来の推論手法は、純粋なテキスト(例:位相的認知地図)や2D視覚的手がかりに依存することが一般的であった。しかし、これらの手法の限定的な表現能力は、3D空間的想像力を必要とする特定のタスクにおける性能を妨げている。この制約を克服するため、我々は3DThinkerを提案する。このフレームワークは、人間のように推論しながら画像に埋め込まれた豊富な幾何学的情報を効果的に活用することができる。我々のフレームワークは、3D事前入力を一切必要とせずに推論中に3Dメンタル化を可能にする初めてのものであり、明示的にラベル付けされた3Dデータに依存しない。具体的には、我々のトレーニングは2段階で構成される。まず、VLMが推論中に生成する3D潜在表現を3D基盤モデル(例:VGGT)のそれと整合させるための教師あり学習を行う。次に、結果信号のみに基づいて推論軌跡全体を最適化し、基盤となる3Dメンタル化を洗練させる。複数のベンチマークにわたる広範な実験により、3DThinkerが強力なベースラインを一貫して上回り、マルチモーダル推論に3D表現を統合する新たな視点を提供することが示された。我々のコードはhttps://github.com/zhangquanchen/3DThinkerで公開予定である。
多言語透かしは、大規模言語モデル(LLM)の出力を言語間で追跡可能にすることを目指しているが、現在の手法はまだ不十分である。クロスリンガルな堅牢性が主張されているにもかかわらず、それらは高リソース言語でのみ評価されている。我々は、既存の多言語透かし手法が真に多言語的ではないことを示す:それらは中・低リソース言語における翻訳攻撃下で堅牢性を維持できない。この失敗は、特定の言語に対してトークナイザーの語彙に含まれる完全語トークンが少ない場合に失敗する意味的クラスタリングに起因する。これを解決するため、我々はSTEAMを導入する。これは、翻訳によって失われた透かしの強度を復元する逆翻訳ベースの検出手法である。STEAMは任意の透かし手法と互換性があり、異なるトークナイザーや言語にわたって堅牢で、非侵襲的であり、新しい言語への拡張も容易である。17言語において平均+0.19 AUCおよび+40%p TPR@1%の向上を達成し、STEAMは多様な言語間で公平な透かしを実現するためのシンプルで堅牢な道筋を提供する。
近年のマルチモーダル大規模言語モデル(MLLM)の発展により、AIの視覚モダリティ理解能力が大幅に向上しました。しかし、既存の評価ベンチマークは単一ターンの質問応答に限定されており、現実世界のシナリオにおける多段階対話の複雑性を見落としています。このギャップを埋めるため、我々はMT-Video-Benchを導入します。これは、多段階対話におけるMLLMを評価するための包括的な映像理解ベンチマークです。具体的には、MT-Video-Benchは主に知覚性と相互作用性に焦点を当てた6つのコア能力を評価し、多様なドメインから厳選された987の多段階対話を網羅しています。これらの能力は、インタラクティブなスポーツ分析や多段階の映像ベースのインテリジェントチュータリングなど、現実世界のアプリケーションと厳密に連携しています。MT-Video-Benchを用いて、我々は様々な最先端のオープンソースおよびクローズドソースのMLLMを広範に評価し、多段階映像対話の処理におけるそれらの顕著な性能差と限界を明らかにしました。このベンチマークは、今後の研究を促進するために公開されます。
近年のビデオ生成技術の進歩により、視覚的に魅力的なビデオを生成することが可能となり、コンテンツ制作、エンターテイメント、仮想現実など幅広い応用が期待されています。しかし、既存の拡散トランスフォーマーベースのビデオ生成モデルのほとんどは、出力幅と高さに対するアテンションメカニズムの二次計算複雑性のため、低解像度の出力(<=720P)に限定されています。この計算上のボトルネックにより、ネイティブの高解像度ビデオ生成(1080P/2K/4K)は、トレーニングと推論の両方において非現実的となっています。この課題に対処するため、我々はUltraGenを提案します。これは、i)効率的で、ii)エンドツーエンドのネイティブ高解像度ビデオ合成を可能にする新しいビデオ生成フレームワークです。具体的には、UltraGenは、グローバル-ローカルアテンション分解に基づく階層型デュアルブランチアテンションアーキテクチャを特徴とし、フルアテンションを高忠実度の地域コンテンツのためのローカルアテンションブランチと、全体的な意味的一貫性のためのグローバルアテンションブランチに分離します。さらに、グローバル依存関係を効率的に学習するための空間圧縮グローバルモデリング戦略と、異なるローカルウィンドウ間の情報フローを強化しながら計算コストを削減する階層型クロスウィンドウローカルアテンションメカニズムを提案します。大規模な実験により、UltraGenが事前学習済みの低解像度ビデオモデルを初めて1080Pおよび4K解像度に効果的にスケーリングできることが示され、質的および量的評価の両方において、既存の最先端手法や超解像ベースの二段階パイプラインを凌駕することが実証されました。
データ品質は、大規模言語モデル(LLM)の教師ありファインチューニング(SFT)を強化する上で重要な役割を果たし、トークンレベルのデータ選択はその細粒度の性質から有望な方向性として浮上している。強力な実証性能を持つにもかかわらず、既存のトークンレベル選択手法は2つの主要な制限を共有している:(1)追加の参照モデルのトレーニングまたはアクセスを必要とすること、(2)損失情報のみに依存してトークンを選択するため、損失ベースの指標に好まれない意味的に重要なトークンを十分に保持できないこと。これらの課題に対処するため、我々はssToken、すなわち自己調整型かつ意味認識型のトークン選択アプローチを提案する。ssTokenは、容易にアクセス可能な履歴モデルを活用して、現在のモデルとのトークンごとの損失差を計算し、これが自己調整信号として機能し、モデルがその最適化軌跡に沿って適応的にトークンを選択できるようにする。これにより、従来の研究のようにオフラインでトレーニングされた参照モデルからの過剰な損失に依存する必要がなくなる。さらに、損失ベースの選択とは直交し、補完的な意味情報を提供する意味認識型の注意ベースのトークン重要度推定指標を導入し、より効果的なフィルタリングを実現する。異なるモデルファミリーとスケールにわたる広範な実験により、自己調整型選択と意味認識型選択のいずれもが全データファインチューニングを上回り、それらの統合であるssTokenは相乗効果を発揮し、従来のトークンレベル選択手法をさらに凌駕し、トレーニング効率を維持しながら性能向上を達成することが実証された。
元のCLIPテキストエンコーダは、最大77トークンという入力長の制限があり、長文の効果的な処理や細粒度の意味理解を行う能力が制約されています。さらに、CLIPテキストエンコーダは多言語入力に対応していません。これらの制限により、より広範なタスクへの適用性が大幅に制約されています。最近の研究では、CLIPテキストエンコーダをLLMベースのエンベッダーに置き換えることで、長文処理、多言語理解、細粒度の意味理解能力を向上させようとする試みが行われています。しかし、LLMの表現空間とCLIPの視覚言語空間は、事前に独立して学習されており、アライメントの事前情報がないため、コントラスティブ学習を用いた直接的なアライメントは、CLIP画像エンコーダの内在的な視覚言語アライメントを損ない、事前学習で獲得された知識の活用が不十分になる可能性があります。この課題に対処するため、我々はProCLIPを提案します。ProCLIPは、カリキュラム学習に基づく段階的な視覚言語アライメントフレームワークであり、CLIP画像エンコーダとLLMベースのエンベッダーを効果的にアライメントします。具体的には、ProCLIPはまず、CLIPのテキストエンコーダからLLMベースのエンベッダーに知識を蒸留し、CLIPの豊富な事前学習知識を活用しながら、LLMエンベッダーとCLIP画像エンコーダの間の初期アライメントを確立します。その後、ProCLIPは、画像テキストコントラスティブチューニングを通じて、CLIP画像エンコーダとLLMベースのエンベッダーをさらにアライメントし、自己蒸留正則化を用いて過学習を防ぎます。より効果的なアライメントを実現するため、表現継承とコントラスティブチューニングの際に、インスタンス意味アライメント損失と埋め込み構造アライメント損失が採用されています。コードはhttps://github.com/VisionXLab/ProCLIPで公開されています。
近年、視覚コンテンツ(例えば、画像、動画、3Dオブジェクト/シーン)の大規模生成モデルが著しい進展を遂げている。しかし、大規模な動画生成モデルの訓練は、テキストと動画のクロスモーダルな整合性、長いシーケンス、複雑な時空間依存性のため、特に困難でリソース集約的である。これらの課題に対処するため、我々はデータ処理、モデルアーキテクチャ、訓練戦略、および大規模動画生成モデルのインフラストラクチャという4つの柱を最適化する訓練フレームワークを提案する。これらの最適化により、データ前処理、動画圧縮、パラメータスケーリング、カリキュラムベースの事前訓練、整合性に焦点を当てた事後訓練の全ての段階において、効率性と性能が大幅に向上した。結果として得られたモデル、MUG-V 10Bは、全体的に最近の最先端の動画生成器に匹敵し、eコマース指向の動画生成タスクにおいては、人間評価で主要なオープンソースベースラインを上回った。さらに重要なことに、モデル重み、Megatron-Coreベースの大規模訓練コード、動画生成および強化のための推論パイプラインを含む完全なスタックをオープンソース化した。我々の知る限り、これはMegatron-Coreを活用して高い訓練効率とほぼ線形のマルチノードスケーリングを実現する大規模動画生成訓練コードの初の公開リリースである。詳細はhttps://github.com/Shopee-MUG/MUG-V{我々のウェブページ}で確認できる。
動的な空間関係の推論は、観察者と物体が同時に移動することが多いため、極めて重要である。視覚言語モデル(VLM)や視覚専門家モデルは2Dタスクや静的なシナリオにおいて優れた性能を発揮するが、動的な3Dシナリオを完全に理解する能力は依然として限られている。本研究では、動的空間知能(Dynamic Spatial Intelligence)を導入し、DSI-Benchというベンチマークを提案する。このベンチマークは、約1,000の動画と、観察者と物体の9つの分離された運動パターンをカバーする1,700以上の手動アノテーション付き質問から構成されている。空間的および時間的に対称な設計により、バイアスが軽減され、モデルの自己運動と物体運動に関する推論を体系的に評価することが可能となる。14のVLMおよび専門家モデルの評価を通じて、モデルが観察者と物体の運動を混同しがちであること、意味的バイアスを示すこと、動的シナリオにおける相対的な関係を正確に推論できないことといった主要な限界が明らかになった。DSI-Benchは、動的空間知能を備えた汎用モデルおよび専門家モデルの今後の発展に向けた貴重な知見と洞察を提供する。
大規模言語モデル(LLM)エージェントは自動取引において有望であるものの、依然として重大な制約に直面している。代表的なマルチエージェントフレームワークは、非効率性に悩まされ、一貫性のないシグナルを生成し、市場のフィードバックから一貫した戦略を学ぶために必要なエンドツーエンドの最適化を欠いている。この問題に対処するため、我々はAlphaQuanterを提案する。これは、強化学習(RL)を用いて透明性の高いツール拡張意思決定ワークフロー上で動的なポリシーを学習するシングルエージェントフレームワークであり、単一のエージェントがツールを自律的に調整し、必要に応じて積極的に情報を取得することを可能にし、透明性と監査可能性のある推論プロセスを確立する。大規模な実験により、AlphaQuanterが主要な金融指標において最先端の性能を達成することが示された。さらに、その解釈可能な推論は洗練された戦略を明らかにし、人間のトレーダーにとって新規かつ価値ある洞察を提供する。データ取得およびエージェントトレーニングのコードは、https://github.com/AlphaQuanter/AlphaQuanter で公開されている。
本研究では、ポストトレーニングされたモデルから、モデルの特定の能力(長文脈推論、安全性、指示追従、数学的能力など)を向上させるために有用な、相当量のアライメントトレーニングデータを抽出可能であることを示します。これまでの記憶化に関する研究の大半は、文字列マッチングによるトレーニングデータ抽出の成功度を測定することに焦点を当ててきましたが、我々は、埋め込みモデルが我々の特定の目的により適していると主張します。高品質な埋め込みモデルを通じて測定される距離は、編集距離のような異なる指標では捉えにくい文字列間の意味的類似性を特定できます。実際、我々の調査では、近似文字列マッチングは、指標を過小評価する些細なアーティファクトのため、抽出可能なデータ量を(控えめに見積もっても10倍)大幅に過小評価していたでしょう。興味深いことに、SFTやRLなどのポストトレーニング段階で使用されたトレーニングデータを、モデルが容易に再生することがわかりました。このデータを使用してベースモデルをトレーニングすることで、元のパフォーマンスのかなりの部分を回復できることを示します。我々の研究は、アライメントデータの抽出に関する見過ごされがちなリスクを明らかにしたと考えています。最後に、我々の研究は、蒸留手法の下流効果に関する興味深い議論を提起します。モデルがトレーニングセットの側面を再生しているように見えるため、蒸留は間接的にモデルの元のデータセットでトレーニングを行っていると考えることができます。
大規模マルチモーダルモデル(LMM)を用いたビデオ推論は、高コストな強化学習(RL)と冗長な連鎖思考(chain-of-thought)に依存しており、トレーニングと推論の両方において大幅な計算オーバーヘッドを引き起こします。さらに、これらの推論モデルにおける思考プロセスを制御するメカニズムは非常に限られています。本論文では、モデルの出力のエントロピーを信号として用いることで、高品質なモデルが一連のマイクロ探索とマイクロ活用を経て、推論プロセスを確実に基盤づける(つまり、モデルが探索や回答を考えている際に過度のランダム性を避ける)ことを発見しました。さらに、この「思考」プロセスが終了すると、より正確なモデルは最終的な活用フェーズを通じてエントロピーを大幅に減少させ、より確実な解の軌道への収束を示すことを観察しました。これらの理論的に基づいた新たな知見を活用し、RLや教師ありファインチューニングを使用せずに、推論時に直接モデルの動作を調整します。具体的には、推論中に提案するアプローチ「V-Reason(Video-Reason)」は、エントロピーベースの目的関数を用いて、小さなトレーニング可能なコントローラーで数回の最適化ステップを実行し、LMMの値キャッシュを適応させます。つまり、データセットやRLからの監督は必要ありません。この調整により、推論中のモデルのマイクロ探索と活用の動作が改善されます。実験結果は、提案手法がベースの指示チューニングモデルを大幅に上回り、RLトレーニングモデルとの平均精度の差を0.6%以内に縮め、トレーニングなしで効率性の大幅な向上をもたらすことを示しています。具体的には、RLモデルと比較して出力トークンが58.6%削減されます。
医療診断アプリケーションでは、多様な医療データ(画像、患者歴、検査結果)を処理し、テキストレポートや視覚的コンテンツ(注釈、セグメンテーションマスク、画像)を含む多様な出力を生成できるモデルが必要とされています。しかし、既存の医療AIシステムはこの統一されたプロセスを分断しています。医療画像理解モデルは画像を解釈しますが視覚的出力を生成できず、医療画像生成モデルは画像を合成しますがテキスト説明を提供できません。これにより、データ表現、特徴統合、タスクレベルのマルチモーダル能力にギャップが生じています。この問題に対処するため、我々は診断ワークフローから着想を得た「Observation-Knowledge-Analysis(OKA)」パラダイムに基づくマルチレベルフレームワークを提案します。具体的には、観察レベルでは、多様なユニモーダルデータをマルチモーダルペアに再フォーマットした5.6M以上のサンプルを含むUniMed-5Mデータセットを構築します。知識レベルでは、医療マルチモーダル知識を体系的に導入するProgressive Curriculum Learningを提案します。分析レベルでは、単一アーキテクチャ内で画像理解と生成タスクを同時に分析する初の医療統一マルチモーダルモデルUniMedVLを導入します。UniMedVLは5つの医療画像理解ベンチマークで優れた性能を達成し、8つの医療画像モダリティにおいて専門モデルと同等の生成品質を実現します。重要なことに、我々の統一アーキテクチャは双方向の知識共有を可能にします。生成タスクが視覚理解特徴を強化し、従来分離されていた能力を単一の医療フレームワークに統合することで、多様な医療視覚言語タスク全体で改善がもたらされることを示しています。コードはhttps://github.com/uni-medical/UniMedVLで公開されています。
本論文では、Mono4DGS-HDRを紹介する。これは、交互に露出を変えて撮影された未整列の単眼低ダイナミックレンジ(LDR)ビデオから、レンダリング可能な4次元高ダイナミックレンジ(HDR)シーンを再構築する初のシステムである。このような困難な課題に取り組むため、ガウススプラッティングに基づく二段階最適化アプローチを統合したフレームワークを提案する。第一段階では、正射影カメラ座標空間におけるビデオHDRガウス表現を学習し、カメラポーズを必要とせずに堅牢な初期HDRビデオ再構築を実現する。第二段階では、ビデオガウスをワールド空間に変換し、カメラポーズと共にワールドガウスを共同で精緻化する。さらに、HDR外観の時間的一貫性を向上させるための時間的輝度正則化戦略を提案する。本タスクはこれまで研究されていないため、公開されているデータセットを用いてHDRビデオ再構築のための新しい評価ベンチマークを構築した。広範な実験により、Mono4DGS-HDRが、最新の手法を適用した代替ソリューションよりも、レンダリング品質と速度の両面で大幅に優れていることが示された。
大規模言語モデル(LLM)は自然言語における強力な推論能力を有していますが、その動作は通常、語彙トークンを出力することに限定されています。その結果、記号演算子やシミュレーターなどの外部環境との相互作用は、事前に定義された形式のテキストで表現され、解析され、外部インターフェースにルーティングされる必要があります。これにより、モデルの言語は推論と制御の両方の役割を担うことになり、LLM外部に手作りのパーサーが必要となります。この問題に対処するため、我々は環境との相互作用を言語から分離し、語彙を超えた拡張行動空間(ExpA)に内部化します。モデルはデフォルトの言語環境で推論を開始しますが、任意の時点でルーティングアクションをトリガーし、外部環境に切り替えることができます。そこから、モデルは環境固有のアクションを呼び出し、環境からのフィードバックを受け取り、結果として言語に戻る可能性があります。拡張行動空間と新しい環境の効果的な探索を促進するため、反事実的政策最適化を伴うExpA強化学習(EARL)を導入します。多段階の相互作用と条件付き計画を必要とするタスクにおいて、EARLは語彙制約付きアクションを持つ強力なベースラインを上回ります。計算機ベースのマルチタスク学習において堅牢な性能を発揮し、部分的に観測されるソート問題では、古典的な設計と競合する効率的なアルゴリズムを自己発見しながら、Sort-4の完全な精度を達成します。
コードエージェントは、GitHubなどのプラットフォームでバグを自律的に修正する役割を担うことが増えているが、そのセキュリティ評価はほぼ機能的正しさに焦点を当てている。本論文では、実世界のコードエージェントに対する新たな脅威を明らかにする:機能的正しさを満たすが脆弱性を含むパッチ(Functionally Correct yet Vulnerable: FCVパッチ)である。我々が提案するFCV-Attackは、悪意のある攻撃者が意図的に作成するか、善意の開発者が無意識に導入する可能性があり、SOTAのLLM(例:ChatGPTやClaude)やエージェントスキャフォールド(例:SWE-agentやOpenHands)がこのFCV脅威に対して脆弱であることを示す。SWE-Benchにおける12のエージェント-モデル組み合わせにおいて、攻撃はブラックボックスアクセスとコードエージェントへの単一のクエリのみを必要とする。例えば、CWE-538(情報漏洩脆弱性)の場合、FCV-AttackはGPT-5 Mini + OpenHandsで40.7%の攻撃成功率を達成する。我々の結果は、現在の評価パラダイムで見過ごされている重要なセキュリティ脅威を明らかにし、コードエージェントに対するセキュリティを意識した防御策の開発を促すものである。
大規模マルチモーダルモデル(LMMs)は科学研究にますます応用されているが、論文のマルチモーダルな複雑性を確実に理解し推論できるかどうかは依然として不明である。中心的な課題は、テキスト、図、表、数式にわたる不整合を検出し解決することであり、これらの問題はしばしば微妙で分野固有であり、最終的には明確性、再現性、信頼性を損なう。既存のベンチマークはこの問題を見落としており、単一のモダリティを分離するか、現実世界の複雑性を捉えられない人工的なエラーに依存している。我々はPRISMM-Bench(Peer-Review-sourced Inconsistency Set for Multimodal Models)を導入する。これは、科学論文における実際の査読者指摘の不整合に基づいた初のベンチマークである。査読データのマイニング、LLM支援のフィルタリング、人間による検証を経た多段階のパイプラインを通じて、242本の論文から262の不整合を精選した。このセットに基づき、不整合の識別、修正、ペアマッチングの3つのタスクを設計し、モデルが異なるモダリティにわたる不整合を検出し、修正し、推論する能力を評価する。さらに、多肢選択評価における選択肢のみのショートカットという有名な問題(モデルが質問を真に理解せずに回答パターンを利用する)に対処するため、言語的バイアスを最小化する構造化されたJSONベースの回答表現を導入し、表面的なスタイルの手がかりへの依存を減らす。21の主要なLMMs(大規模オープンウェイトモデル:GLM-4.5V 106B、InternVL3 78B、およびプロプライエタリモデル:Gemini 2.5 Pro、高推論能力を持つGPT-5)をベンチマークした結果、驚くほど低い性能(26.1-54.2%)が明らかになり、マルチモーダル科学推論の課題が浮き彫りとなり、信頼できる科学アシスタントに向けた進歩が促された。
再現可能な科学の基盤は、正確で論理的に順序付けられ、実行可能なプロトコルにある。自然言語クエリを通じてこれらのプロトコルを自律的に生成することは、再現プロセスの効率を大幅に向上させる可能性がある。しかし、現在の主要な大規模言語モデル(LLMs)は、不完全または一貫性のないプロトコルを生成することが多く、その有用性を制限している。この制限に対処するため、まず、27の生物学的サブフィールドにまたがり、理解と問題解決の両方のタスクを含む12,000以上の構造化プロトコルからなる大規模データセットであるSciRecipeを紹介する。さらに、プロトコル生成を改善するために、「スケッチアンドフィル」パラダイムを提案する。このパラダイムは、分析、構造化、表現を分離し、各ステップが明確かつ検証可能であることを保証する。これを補完するために、構造化されたコンポーネントベースの報酬メカニズムは、ステップの粒度、アクションの順序、および意味的忠実性を評価し、モデルの最適化を実験の信頼性と一致させる。これらのコンポーネントを基に、知識獲得から操作推論、そして最終的に堅牢で実行可能なプロトコル生成へと進む段階的な「知識から行動へ」のプロセスを通じて訓練されたThothを開発する。複数のベンチマークにおいて、ThothはプロプライエタリおよびオープンソースのLLMsを一貫して上回り、ステップの整合性、論理的な順序付け、および意味的精度において大幅な改善を達成する。我々のアプローチは、知識と実験実行を結びつける信頼性の高い科学アシスタントへの道を開くものである。すべてのデータ、コード、およびモデルは公開される予定である。
画像品質は、ウェブプラットフォーム上で視覚的に魅力的なコンテンツを提供する上で重要な要素である。しかし、オンラインソーシャルネットワーク(OSNs)によって適用される非可逆操作により、画像はしばしば劣化し、ユーザー体験に悪影響を及ぼす。画像復元とは、与えられた劣化した入力から高品質なクリーンな画像を回復するプロセスである。近年、複数のタスク(オールインワン)を同時に処理できる画像復元モデルが注目を集めている。しかし、これらのモデルはしばしば過剰な数の学習可能なパラメータを有しており、計算効率が低い。本論文では、複数タスク画像復元モデルを圧縮する戦略を提案する。過剰パラメータ化された深層モデル内で、密なモデルの性能に匹敵し、あるいはそれを上回る高度に疎なサブネットワークを発見することを目指す。提案モデルであるMIR-Lは、複数ラウンドにわたって低い大きさの重みを除去し、残りの重みを元の初期化値にリセットする反復的プルーニング戦略を採用する。この反復プロセスは、複数タスク画像復元モデルの最適化において重要であり、高い疎性レベルにおいても最先端の性能を維持または向上させる「ウィニングチケット」を効果的に発見する。脱雨、脱霧、およびノイズ除去タスクのベンチマークデータセットでの実験的評価により、MIR-Lは学習可能なパラメータの10%のみを保持しながらも、高い画像復元性能を維持することが示された。我々のコード、データセット、および事前学習済みモデルは、https://github.com/Thomkat/MIR-L で公開されている。
大規模言語モデルの推論における中心的な課題は、生成速度と出力品質のトレードオフである。自己回帰モデルは高品質なテキストを生成するが、トークンを逐次的に生成する。拡散モデルはトークンを並列に生成できるが、同じ品質を達成するために多くの反復を必要とすることが多い。我々は、両パラダイムの強みを組み合わせたハイブリッド手法である計画拡散(planned diffusion)を提案する。計画拡散は2段階で動作する:まず、モデルは出力をより小さな独立したスパンに分割する短い自己回帰計画を作成する。次に、モデルは拡散を用いてこれらのスパンを同時に生成する。このアプローチは、速度と品質のパレートフロンティアを拡大し、高速で高品質なテキスト生成への実用的な道筋を提供する。805の指示追従プロンプトからなるAlpacaEvalにおいて、計画拡散は品質とレイテンシの間でパレート最適なトレードオフを達成し、自己回帰生成に対して1.27倍から1.81倍の高速化を実現し、勝率の低下はそれぞれ0.87%から5.4%に留まった。我々の感度分析は、計画拡散の計画メカニズムが最小限で信頼性が高く、品質とレイテンシのトレードオフを柔軟に制御するためのシンプルなランタイム調整が存在することを示している。
大規模言語モデル(LLMs)は、強力ではあるが浅いアラインメントを示す:アシスタントのターンの開始時に拒否が期待される場合、有害なクエリを直接拒否するが、いったん有害な継続が進行中になると(敵対的攻撃または有害なアシスタントプリフィル攻撃を介して)、この保護は崩壊する。これにより、根本的な疑問が生じる:LLMsの内在する浅いアラインメントを解放して、任意の生成深度での安全性を確保できるか?この目標を達成するために、我々はAny-Depth Alignment(ADA)を提案する。これは、無視できるオーバーヘッドで効果的な推論時防御である。ADAは、浅い拒否トレーニングでの繰り返し使用により、アラインメントがアシスタントヘッダートークンに集中し、これらのトークンがモデルの強力なアラインメント事前情報を持つという我々の観察に基づいて構築されている。これらのトークンを途中で再導入することにより、ADAはモデルに有害性を再評価させ、生成の任意の時点で拒否を回復させる。多様なオープンソースモデルファミリー(Llama、Gemma、Mistral、Qwen、DeepSeek、gpt-oss)において、ADAはベースモデルのパラメータを変更することなく、堅牢な安全性パフォーマンスを達成する。数十から数千トークンに及ぶ挑戦的な敵対的プリフィル攻撃に対して、ほぼ100%の拒否率を確保する。さらに、ADAは、GCG、AutoDAN、PAIR、TAPなどの著名な敵対的プロンプト攻撃の平均成功率を3%未満に削減する。これはすべて、良性タスクでの有用性を最小限の過剰拒否で維持しながら達成される。ADAは、ベースモデルがその後の指示チューニング(良性または敵対的)を受けた後も、この回復力を維持する。
命令チューニングされた大規模言語モデル(IT-LLM)は、強力なゼロショット推論能力を示すが、単純で自己完結した命令を実行する能力は十分に検証されておらず、これは複雑な命令追従の基盤となるものである。我々は、MMLUおよびMMLU-Proベンチマークを改変し、オプションラベルの形式(アルファベット、数字、ローマ数字)を体系的に変化させながら、その意味を同一に保つ4つのパラダイムの下で20のIT-LLMを評価した。具体的には、(1) 明示的な指示がある場合、ラベルの変更が大きな性能シフトを引き起こし(例:ローマ数字 vs. 数字で-30.45%)、指示形式のバイアスが明らかになった。(2) 指示がない場合、性能はさらに低下し(最大-10.84%)、ラベルに対する感度が強まり、明示的なガイダンスの重要性が強調された。(3) オプションの内容を除去すると、数字ラベルを除いてモデルはランダム選択のベースラインを下回り、原子指示への弱い遵守が示唆された。(4) 3ショットの例示は、堅牢性や忠実性の向上に有意な効果をもたらさず、生成分析では特に非数字形式でのラベルエラーが持続することが明らかになった。モデルサイズ全体を通じて、より大きなLLMは高い精度を達成するが、命令遵守の一貫性は保たれなかった。これらの結果は、現在の命令チューニングパラダイムの不十分さを露呈し、原子指示追従を明示的にターゲットとした評価方法とトレーニング戦略の必要性を強調している。
人工エージェントが単にコミュニケーションを取るだけでなく、進化し、適応し、私たちが完全には予測できない方法で世界を再構築できるとしたらどうだろうか?LLM(大規模言語モデル)がマルチエージェントシステムや社会シミュレーションを駆動する中、私たちは終わりなく変化し続ける環境をモデル化する新たな可能性を目の当たりにしている。しかし、現在のほとんどのシミュレーションは、事前に定義されたタスク、限定的なダイナミクス、そして硬直した評価基準によって特徴づけられる静的なサンドボックス内に制約されている。これらの制約は、現実世界の社会の複雑さを捉えることを妨げている。本論文では、静的でタスク特化型のベンチマークが根本的に不十分であり、再考されるべきであると主張する。LLMとマルチエージェントダイナミクスを融合させる新興アーキテクチャを批判的に検討し、安定性と多様性のバランス、予期せぬ行動の評価、そしてより複雑なスケールへの拡張といった主要な課題を指摘し、この急速に進化する分野のための新たな分類体系を紹介する。最後に、オープンエンド性、継続的な共進化、そしてレジリエントで社会的に整合性のあるAIエコシステムの開発を中心とした研究ロードマップを提示する。私たちは、コミュニティに対して静的なパラダイムを超え、次世代の適応的で社会的に意識されたマルチエージェントシミュレーションの形成に貢献するよう呼びかける。
我々は、Global Terrorism Database(GTD、1970-2016)を用いて、週次のテロ事件発生件数の短期予測を研究する。再現可能なパイプラインを固定の時間ベースの分割で構築し、Bidirectional LSTM(BiLSTM)を強力な古典的アンカー(季節的ナイーブ、線形/ARIMA)および深層LSTM-Attentionベースラインと比較評価する。テストセットにおいて、BiLSTMはRMSE 6.38を達成し、LSTM-Attention(9.19;+30.6%)および線形ラグ回帰ベースライン(+35.4% RMSE改善)を上回り、MAEとMAPEにおいても並行して改善を示した。時間的メモリ、トレーニング履歴の長さ、空間粒度、ルックバックサイズ、および特徴グループを変化させたアブレーション研究により、長期的な歴史データでトレーニングされたモデルが最も良い汎化性能を示すこと、中程度のルックバック(20-30週)が強力なコンテキストを提供すること、および双方向エンコーディングがウィンドウ内の蓄積と余波のパターンを捉えるために重要であることが明らかになった。特徴グループの分析によると、短期構造(ラグ付き件数とローリング統計)が最も寄与し、地理的および犠牲者関連の特徴が追加的な向上をもたらすことが示された。我々はコード、設定、およびコンパクトな結果表を公開し、GTDのライセンスと研究専用使用を文書化したデータ/倫理声明を提供する。全体として、本研究はGTD事件予測のための透明性が高く、ベースラインを上回る参照を提供する。
信頼性が検証可能なデータは、現代の言語モデルにおける能力向上の主要な推進力となっており、検証可能な報酬を用いた安定した強化学習や、数学、コーディング、エージェントタスクにわたる能力を効果的に蒸留することを可能にしている。しかし、一般化可能な合成検証データの構築は、幻覚を起こしやすい生成や、強力な解決策と弱い解決策を区別できない脆弱または些細な検証アーティファクトのため、依然として困難である。既存のアプローチは、ドメイン間で転移しないタスク固有のヒューリスティックや事後フィルタに依存することが多く、検証可能性を評価する原則的で普遍的な評価器を欠いている。本研究では、最小限のシード監視から、問題、多様な候補解決策、および検証アーティファクトを共同で合成し、人間が注釈を付けたチェックと戦略誘導チェックの間の一致を強制する一貫性ベースの評価器を通じて戦略を反復的に発見する、進化的でタスクに依存しない、戦略誘導型の実行可能チェック可能なデータ合成フレームワークを導入する。このパイプラインは、フィルタリングを原則的な合成にアップグレードし、一貫性があり検証可能なトレーニングインスタンスを信頼性高く組み立て、ドメイン固有のルールなしに一般化する。我々の実験は、提案されたアプローチがRLVRおよびモデル蒸留トレーニングパラダイムの両方において有効であることを示している。結果は、我々の合成データを用いたトレーニングが、LiveCodeBenchおよびAgentBench-OSタスクの両方で大幅な改善をもたらすことを示しており、本フレームワークの堅牢な一般化能力を強調している。
ツール拡張型大規模言語モデル(LLMs)は、複雑なクエリを分解し、外部の証拠を検索し、根拠に基づいた応答を合成する深層研究エージェントとして台頭しつつある。しかし、現在のエージェントは、浅い検索、弱いアライメント指標、脆弱なツール使用行動によって制限されている。本論文では、堅牢性、アライメント、スケーラビリティを目的とした統一された強化学習フレームワークの下で構築された7Bパラメータの深層研究エージェント、PokeeResearch-7Bを紹介する。PokeeResearch-7Bは、アノテーションフリーのAIフィードバックからの強化学習(RLAIF)フレームワークによって訓練され、事実の正確性、引用の忠実性、指示の遵守を捉えたLLMベースの報酬信号を使用してポリシーを最適化する。チェーン・オブ・シンク駆動型のマルチコール推論スキャフォールドは、自己検証とツール障害からの適応的復旧を通じて堅牢性をさらに向上させる。10の主要な深層研究ベンチマークにおいて、PokeeResearch-7Bは7Bスケールの深層研究エージェントの中で最先端の性能を達成した。これは、慎重な強化学習と推論設計が、効率的で回復力のある研究レベルのAIエージェントを生み出すことができることを示している。モデルと推論コードはMITライセンスの下でhttps://github.com/Pokee-AI/PokeeResearchOSSにてオープンソース化されている。