翻訳付きの日次キュレーションされたAI研究論文
私たちは、MiMo-VL-7B-SFTとMiMo-VL-7B-RLという2つの強力な視覚言語モデルをオープンソース化しました。これらのモデルは、一般的な視覚理解とマルチモーダル推論の両方において、最先端の性能を発揮します。MiMo-VL-7B-RLは、評価された40タスクのうち35タスクでQwen2.5-VL-7Bを上回り、OlympiadBenchでは59.4のスコアを記録し、最大78Bパラメータのモデルをも凌駕します。GUIグラウンディングアプリケーションでは、OSWorld-Gで56.1を達成し、UI-TARSのような専門モデルをも上回る新たな基準を確立しました。私たちのトレーニングは、4段階の事前学習(2.4兆トークン)と、多様な報酬信号を統合したMixed On-policy Reinforcement Learning(MORL)を組み合わせています。高品質な推論データと長いChain-of-Thoughtを事前学習段階に組み込むことの重要性、および同時多領域最適化の課題にもかかわらず混合RLの利点を明らかにしました。また、再現性を促進し、分野を進歩させるために、50以上のタスクをカバーする包括的な評価スイートを提供します。モデルのチェックポイントと完全な評価スイートは、https://github.com/XiaomiMiMo/MiMo-VL で利用可能です。
複雑なテキストタスクにおけるDeepseek-R1の卓越した推論能力に触発され、多くの研究がマルチモーダル大規模言語モデル(MLLM)において同様の能力を引き出すために、直接的に強化学習(RL)を適用しようと試みています。しかし、それらは依然として複雑な推論を活性化することに苦戦しています。本論文では、マルチモーダルRLを単独で検討するのではなく、現在のトレーニングパイプラインを深く掘り下げ、以下の3つの重要な現象を特定しました:1)効果的なコールドスタート初期化は、MLLMの推論能力を向上させるために極めて重要です。興味深いことに、慎重に選ばれたテキストデータのみで初期化することで、マルチモーダルRLを適用する前でも、多くの最近のマルチモーダル推論モデルを上回る性能が得られることがわかりました。2)マルチモーダルRLに適用される標準的なGRPOは、勾配停滞に悩まされ、トレーニングの安定性と性能を低下させます。3)マルチモーダルRLフェーズの後に続くテキストのみのRLトレーニングは、マルチモーダル推論をさらに向上させます。この段階的なトレーニングアプローチは、知覚的基盤と認知的推論の発展を効果的にバランスさせます。上記の洞察を取り入れ、マルチモーダルRLの問題に対処することで、我々はReVisual-R1を導入し、MathVerse、MathVision、WeMath、LogicVista、DynaMath、そして挑戦的なAIME2024およびAIME2025を含む困難なベンチマークにおいて、オープンソースの7B MLLMの中で新たな最先端を達成しました。
大規模言語モデル(LLMs)は、エンボディドエージェントの一部として、ユーザーからの自然言語指示に基づく行動計画に典型的に使用される。しかし、現実世界の環境における曖昧な指示の処理は、LLMsにとって依然として課題である。タスクの曖昧性検出のための様々な手法が提案されているが、それらは異なるデータセットでテストされており、普遍的なベンチマークがないため、比較が困難である。このため、我々はキッチン環境におけるロボットへの曖昧な指示を扱う完全なテキストデータセットであるAmbiK(Ambiguous Tasks in Kitchen Environment)を提案する。AmbiKはLLMsの支援により収集され、人間による検証が行われている。このデータセットは、曖昧なタスクとその明確な対応タスクの1000ペアを含み、曖昧性のタイプ(人間の選好、常識的知識、安全性)によって分類されている。さらに、環境の説明、明確化のための質問と回答、ユーザーの意図、およびタスク計画が含まれており、合計2000のタスクが収録されている。AmbiKが研究者たちに曖昧性検出手法の統一的な比較を可能にすることを期待している。AmbiKはhttps://github.com/cog-model/AmbiK-datasetで公開されている。
推論モデルは、数学、コード、科学を含む多くのベンチマークにおいて急速な進歩を遂げてきた。しかし、最先端のモデルがしばしば公開情報のほとんどない独自のデータセットに依存しているため、推論のための最適なトレーニング手法についてはまだ多くの未解決の疑問が残されている。この問題に対処するため、OpenThoughtsプロジェクトの目標は、推論モデルのトレーニング用のオープンソースデータセットを作成することである。初期の探求の後、我々のOpenThoughts2-1Mデータセットは、OpenThinker2-32Bを生み出し、AIMEやLiveCodeBenchなどの標準的な推論ベンチマークにおいてDeepSeek-R1-Distill-32Bに匹敵する、公開された推論データでトレーニングされた最初のモデルとなった。その後、我々はデータ生成パイプラインの各ステップを1,000以上の制御実験で体系的に調査し、OpenThoughts3をさらに改善した。パイプラインを1.2Mの例にスケールアップし、QwQ-32Bを教師として使用することで、OpenThinker3-7Bモデルが得られ、これは最先端の結果を達成した:AIME 2025で53%、LiveCodeBench 06/24-01/25で51%、GPQA Diamondで54%である。我々のすべてのデータセットとモデルはhttps://openthoughts.aiで利用可能である。
長文生成は、大規模言語モデル(LLM)にとって依然として重要な課題であり、特に一貫性の維持、論理的一貫性の確保、およびシーケンス長が増加するにつれてテキスト品質を保つことが困難です。これらの制約に対処するため、我々はSuperWriter-Agentを提案します。これは、長文生成の品質と一貫性を向上させるために設計されたエージェントベースのフレームワークです。SuperWriter-Agentは、生成パイプラインに明示的な構造化された思考プロセスを導入し、計画と洗練の段階を組み込むことで、モデルがプロの作家のような慎重で認知的に基づいたプロセスをたどるよう導きます。このフレームワークに基づいて、我々は7BのSuperWriter-LMを訓練するための教師ありファインチューニングデータセットを構築します。さらに、モンテカルロ木探索(MCTS)を使用して最終的な品質評価を伝播し、各生成ステップを最適化する階層的な直接選好最適化(DPO)手順を開発します。多様なベンチマークでの実験結果は、SuperWriter-LMが最先端の性能を達成し、自動評価と人間評価の両方において、より大規模なベースラインモデルを凌駕することを示しています。さらに、包括的なアブレーション研究は、階層的DPOの有効性を実証し、構造化された思考ステップを組み込むことが長文生成の品質を向上させる上で価値があることを強調しています。
既存の長文脈言語モデル(LCLM)評価フレームワークは、大まかに実世界タスクと合成タスクの2つに分類される。これらのアプローチは有用である一方、それぞれ固有の限界を伴っている。実世界タスクは解釈や特性化が複雑すぎる上、データ汚染の影響を受けやすい。一方、合成タスクはしばしば「干し草の山の中の針(NIAH)」形式を採用しており、「針」と「干し草の山」の間の一貫性の欠如が、現実的なアプリケーションの代理としての妥当性を損なっている。これらの課題に対応するため、我々は理想的な長文脈評価フレームワークが持つべき3つの本質的特徴を提唱する:シームレスな文脈、制御可能な設定、そして健全な評価である。本研究では、LongBioBenchという新たなベンチマークを紹介する。これは人工的に生成された伝記を利用し、理解、推論、信頼性の次元でLCLMを評価するための制御環境を提供する。合計18のLCLMを含む実験的評価により、ほとんどのモデルが検索結果に対する意味理解と基本的な推論において依然として欠陥を示し、文脈長が増すにつれて信頼性が低下することが実証された。さらに分析を進めると、既存の合成ベンチマークが採用している設計上の選択、例えば文脈的非一貫性、数値的な針、ディストラクターの不在などが、モデルの長文脈能力をテストする上で脆弱性を生み出していることが明らかになった。また、長文脈継続事前学習は主にRoPE埋め込みを調整して拡張された文脈長に対応していることも示された。要約すると、従来の合成ベンチマークと比較して、LongBioBenchは本物の言語タスクを反映しつつ制御性を維持するという点でより優れたトレードオフを達成しており、高い解釈可能性と設定可能性を備えている。
ビデオの連続的な構造は、マルチモーダル大規模言語モデル(MLLMs)が複数フレームの証拠を特定し、マルチモーダル推論を行う能力に対して課題を提起します。しかし、既存のビデオベンチマークは主に理解タスクに焦点を当てており、モデルが質問で言及されたフレーム(以下「質問フレーム」と呼ぶ)とその周辺の少数のフレームをマッチングさせることのみを要求しています。このギャップを埋めるため、我々はMMR-V: A Benchmark for Multimodal Deep Reasoning in Videosを提案します。このベンチマークは以下の特徴を持ちます。(1) 長距離・複数フレーム推論: モデルは、質問フレームから遠く離れた証拠フレームを推論・分析する必要があります。(2) 知覚を超えた推論: 質問は、直接的な知覚だけでは答えられず、隠された情報に対する推論を必要とします。(3) 信頼性: すべてのタスクは手動でアノテーションされ、現実世界のユーザー理解を参照して一般的な認識と整合性を保ちます。(4) 混乱性: モデルのショートカットを減らすために慎重に設計されたディストラクターアノテーション戦略。MMR-Vは317のビデオと1,257のタスクで構成されています。実験結果から、現在のモデルはマルチモーダル推論に依然として苦戦しており、最高性能のモデルであるo4-miniでさえ52.5%の精度しか達成できません。さらに、現在の推論強化戦略(Chain-of-Thoughtおよびスケーリングテストタイムコンピュート)は限定的な改善しかもたらしません。さらなる分析から、マルチモーダル推論に必要なCoTはテキスト推論におけるそれとは異なることが示唆され、これが性能向上の限定的な理由の一部を説明しています。MMR-Vがマルチモーダル推論能力の向上に向けたさらなる研究を刺激することを期待しています。
大規模言語モデル(LLM)の開発は、信頼性のある評価に依存している。しかし、現在の評価の多くは公開ベンチマークに基づいており、データ汚染の問題が公平性を著しく損なう可能性がある。これまでの研究では、汚染に対処するために動的なベンチマークの構築に焦点を当ててきた。しかし、新しいベンチマークを継続的に構築することはコストがかかり、循環的である。本研究では、汚染されたモデル自体のメカニズムを分析することで、汚染問題に取り組むことを目指す。実験を通じて、汚染されたモデルの過大評価は、パラメータがトレーニング中にショートカット解を獲得することによる可能性が高いことを発見した。さらに、比較的および因果的分析を通じてショートカットニューロンを特定する新しい方法を提案する。これに基づき、ショートカットニューロンを抑制する評価方法であるショートカットニューロンパッチングを導入する。実験により、本手法が汚染を軽減する効果があることが検証された。さらに、本手法の評価結果は、最近リリースされた信頼性のあるベンチマークであるMixEvalと強い線形相関を示し、スピアマン係数(rho)が0.95を超えた。この高い相関は、本手法がモデルの真の能力を密接に反映し、信頼性が高いことを示している。さらに、さまざまなベンチマークおよびハイパーパラメータ設定において本手法の汎用性を実証する実験を行った。コード: https://github.com/GaryStack/Trustworthy-Evaluation
ビデオゲームやバーチャルリアリティなどの実世界のアプリケーションでは、ユーザーがカスタムカメラ軌道に沿って探索可能な3Dシーンをモデル化する能力が求められることが多い。テキストや画像から3Dオブジェクトを生成する分野では大きな進展が見られるものの、長距離にわたる3D整合性を持ち、探索可能な3Dシーンを作成することは依然として複雑で困難な問題である。本研究では、Voyagerという新しいビデオ拡散フレームワークを提案する。このフレームワークは、単一の画像とユーザー定義のカメラパスから、世界整合性のある3D点群シーケンスを生成する。既存のアプローチとは異なり、Voyagerはエンドツーエンドのシーン生成と再構築を実現し、フレーム間の内在的な整合性を確保することで、構造復元(Structure-from-Motion)や多視点ステレオ(Multi-View Stereo)などの3D再構築パイプラインを不要にする。本手法は以下の3つの主要なコンポーネントを統合している:1) 世界整合性ビデオ拡散:既存の世界観測を条件として、整列したRGBと深度ビデオシーケンスを共同生成する統一アーキテクチャ、2) 長距離世界探索:ポイントカリングを備えた効率的なワールドキャッシュと、コンテキストを意識した整合性を保ちながらシーンを反復的に拡張するためのスムーズなビデオサンプリングを可能にする自己回帰推論、3) スケーラブルなデータエンジン:任意のビデオに対するカメラポーズ推定とメトリック深度予測を自動化するビデオ再構築パイプライン。これにより、大規模で多様なトレーニングデータのキュレーションを手動の3Dアノテーションなしで実現する。これらの設計を組み合わせることで、視覚品質と幾何学的精度において既存手法を明確に上回り、多様な応用が可能となる。
拡散モデルはテキストから画像生成において顕著な成功を収めているものの、指示駆動型の画像編集においては重大な課題に直面しています。本研究は、これらのモデルが特に大幅なレイアウト変更を伴う構造的に一貫しない編集に苦戦するという重要な課題を指摘しています。このギャップを埋めるため、我々はDiffusion Transformer(DiT)アーキテクチャを基盤とした統一的な画像編集フレームワーク「Image Editing As Programs(IEAP)」を提案します。IEAPの中核は、複雑な編集指示を原子操作のシーケンスに分解する還元論的なアプローチです。各操作は、同じDiTバックボーンを共有する軽量なアダプターを介して実装され、特定のタイプの編集に特化しています。視覚言語モデル(VLM)ベースのエージェントによってプログラムされたこれらの操作は、任意の構造的に一貫しない変換を協調的にサポートします。このように編集をモジュール化しシーケンス化することで、IEAPは単純な調整から大幅な構造変更まで、幅広い編集タスクにわたって堅牢に一般化します。大規模な実験により、IEAPが様々な編集シナリオにおける標準ベンチマークで最先端の手法を大幅に上回ることを実証しています。これらの評価において、我々のフレームワークは特に複雑な多段階の指示に対して優れた精度と意味的忠実性を提供します。コードはhttps://github.com/YujiaHu1109/IEAPで公開されています。
大規模言語モデル(LLMs)は、図やチャートのプロットなどの可視化タスクにおいて、コードの正確性と視覚的意味論の両方に依存するため、しばしば困難を抱えている。既存の指示チューニングデータセットは、実行に基づく監督を欠いており、反復的なコード修正に対するサポートも限られているため、脆弱で信頼性の低いプロット生成が生じる。本論文では、Pythonベースの可視化と自己修正のための大規模指示チューニングデータセットであるVisCode-200Kを提案する。VisCode-200Kは、以下の2つのソースから得られた20万以上の例を含む:(1)オープンソースリポジトリから検証済みのプロットコードと、自然言語指示およびレンダリングされたプロットをペアにしたもの;(2)Code-Feedbackから得られた4万5千のマルチターン修正対話で、モデルがランタイムフィードバックを使用して誤ったコードを修正できるようにする。VisCode-200Kを用いてQwen2.5-Coder-Instructをファインチューニングし、VisCoderを作成し、PandasPlotBenchで評価した。VisCoderは、強力なオープンソースベースラインを大幅に上回り、GPT-4o-miniのようなプロプライエタリモデルの性能に近づいた。さらに、反復的修復を評価するために自己デバッグ評価プロトコルを採用し、実行可能で視覚的に正確なコード生成に対するフィードバック駆動学習の利点を実証した。
拡散モデルはテキストや画像入力から高品質で高解像度のビデオシーケンスを生成できるが、シーンの照明やフレーム間の視覚的外観を制御する際に幾何学的な手がかりを明示的に統合していない。この制限に対処するため、我々はIllumiCraftを提案する。これは、3つの補完的な入力を受け入れるエンドツーエンドの拡散フレームワークである:(1)詳細な照明制御のためのハイダイナミックレンジ(HDR)ビデオマップ、(2)ランダム化された照明変化を伴う合成リライトフレーム(オプションで静的背景参照画像とペアに可能)による外観の手がかり、(3)正確な3D幾何学情報を捕捉する3Dポイントトラック。照明、外観、幾何学の手がかりを統一された拡散アーキテクチャ内に統合することで、IllumiCraftはユーザー定義のプロンプトに沿った時間的に一貫したビデオを生成する。背景条件付きおよびテキスト条件付きのビデオリライティングをサポートし、既存の制御可能なビデオ生成手法よりも優れた忠実度を提供する。プロジェクトページ:https://yuanze-lin.me/IllumiCraft_page
Qwen-Math、MiMo、Phi-4などの強力な大規模言語モデル(LLM)は、事前学習段階から継承された膨大な推論ポテンシャルを有していることが確認されています。強化学習(RL)を適用することで、これらのモデルは推論タスクにおいて劇的な改善を示します。最近の研究では、たった一つの問題に対するRLでも、これらのモデルの推論能力を引き出せることが示されています。しかし、RLは高コストであるだけでなく、不安定でもあります。ワンショットRLでさえ数百GPU時間を要します。これにより、強力なベースLLMの推論ポテンシャルを引き出すためのより効率的な方法は存在するのか、という重要な疑問が浮上します。本研究では、たった一つの問題に対するCritique Fine-Tuning(CFT)が、LLMの推論ポテンシャルを効果的に引き出せることを実証します。私たちの手法は、単一の問題に対する多様なモデル生成ソリューションを収集し、教師LLMを用いて詳細な批評を提供することで、批評データを構築します。1.5Bから14BパラメータまでのQwenおよびLlamaファミリーモデルをCFTデータでファインチューニングし、多様な推論タスクにおいて顕著な性能向上を観察しました。例えば、わずか5GPU時間のトレーニングで、Qwen-Math-7B-CFTは6つの数学ベンチマークで平均15%、3つの論理推論ベンチマークで16%の改善を示しました。これらの結果は、20分の1の計算量でRLと同等またはそれ以上の性能に匹敵します。アブレーションスタディは、異なるプロンプト問題に対するワンショットCFTの堅牢性を明らかにしています。これらの結果は、ワンショットCFTが、現代のLLMの推論能力を引き出すためのシンプルで汎用的、かつ計算効率の良いアプローチであることを強調しています。
Psi-Samplerを紹介します。これは、効果的な推論時の報酬整合を実現するため、pCNLベースの初期粒子サンプリングを組み込んだSMCベースのフレームワークです。スコアベース生成モデルを用いた推論時の報酬整合は、事前学習から事後学習最適化へのパラダイムシフトに伴い、最近注目を集めています。このトレンドの中心にあるのは、Sequential Monte Carlo(SMC)をノイズ除去プロセスに適用する手法です。しかし、既存の手法では通常、ガウシアン事前分布から粒子を初期化しており、報酬に関連する領域を十分に捉えられず、サンプリング効率が低下する問題がありました。我々は、報酬を考慮した事後分布から初期化することで、整合性能が大幅に向上することを実証しました。高次元潜在空間での事後サンプリングを可能にするため、次元ロバストな提案と勾配情報を活用したダイナミクスを組み合わせたpreconditioned Crank-Nicolson Langevin(pCNL)アルゴリズムを導入しました。このアプローチにより、効率的でスケーラブルな事後サンプリングが可能となり、レイアウトから画像生成、数量認識生成、美的選好生成など、様々な報酬整合タスクにおいて一貫して性能が向上することが、実験により示されました。
大規模言語モデル(LLMs)およびマルチモーダルLLMsは、SVG処理において有望な能力を示しているが、既存のベンチマークは現実世界のカバレッジが限定的で、複雑さの階層化が不十分であり、評価パラダイムが断片的であるという課題を抱えている。本論文では、理解、編集、生成という3つの進展的な次元にわたる2,377のクエリから成る包括的なベンチマーク「SVGenius」を紹介する。24のアプリケーションドメインからの実世界データに基づき、体系的な複雑さの階層化を行ったSVGeniusは、8つのタスクカテゴリと18のメトリクスを通じてモデルを評価する。異なるスケール、アーキテクチャ、トレーニングパラダイム、アクセスレベルにわたる22の主流モデルを評価した結果、プロプライエタリモデルがオープンソースモデルを大幅に上回る一方で、すべてのモデルが複雑さの増加に伴い体系的な性能低下を示し、現在のアプローチにおける根本的な限界が明らかになった。ただし、これらの限界を克服するためには、純粋なスケーリングよりも推論を強化したトレーニングがより効果的であることが示されたものの、スタイル転送はすべてのモデルタイプにおいて最も困難な能力であることが判明した。SVGeniusは、SVG処理における初の体系的な評価フレームワークを確立し、より優れたベクターグラフィックスモデルの開発と自動化されたグラフィックデザインアプリケーションの進展に向けた重要な洞察を提供する。付録および補足資料(すべてのデータとコードを含む)はhttps://zju-real.github.io/SVGeniusで公開されている。
LayerFlowを紹介します。これはレイヤーを意識したビデオ生成のための統合ソリューションです。レイヤーごとのプロンプトを与えることで、LayerFlowは透明な前景、クリーンな背景、そしてブレンドされたシーンのビデオを生成します。また、ブレンドされたビデオを分解したり、与えられた前景に対する背景を生成するなど、多様なバリエーションもサポートします。テキストからビデオへの拡散トランスフォーマーを出発点として、異なるレイヤーのビデオをサブクリップとして整理し、レイヤー埋め込みを活用して各クリップと対応するレイヤーごとのプロンプトを区別します。これにより、前述のバリエーションを一つの統合フレームワークでシームレスにサポートします。高品質なレイヤーごとのトレーニングビデオが不足しているため、高品質なレイヤーアノテーションを持つ静止画像に対応するための多段階トレーニング戦略を設計しました。具体的には、まず低品質のビデオデータでモデルをトレーニングします。次に、モーションLoRAを調整して、モデルが静止フレームと互換性を持つようにします。その後、高品質なレイヤー画像とコピーペーストされたビデオデータの混合データでコンテンツLoRAをトレーニングします。推論時には、モーションLoRAを除去することで、望ましいレイヤーを持つ滑らかなビデオを生成します。
Direct Preference Optimization (DPO) は最近、テキストからビデオへの拡散モデルのポストトレーニング技術として適用されている。トレーニングデータを取得するために、アノテーターは独立したノイズから生成された2つのビデオ間の選好を提供するよう求められる。しかし、このアプローチは細かい比較を妨げ、低モーションのクリップにアノテーターを偏らせる傾向があることを指摘する。なぜなら、それらはしばしば視覚的なアーティファクトが少ないためである。本研究では、これらの欠点を解決するためにDenseDPOという手法を提案し、以下の3つの貢献を行う。第一に、DPOのための各ビデオペアを、グラウンドトゥルースビデオの破損コピーをデノイズすることで作成する。これにより、モーション構造が類似しつつ局所的な詳細が異なる整列されたペアが得られ、モーションバイアスを効果的に中和する。第二に、得られた時間的整列を活用して、クリップ全体ではなく短いセグメントに対する選好をラベル付けし、より密で正確な学習信号を生成する。ラベル付けデータの3分の1のみで、DenseDPOはモーション生成を大幅に改善し、テキストアライメント、視覚品質、時間的一貫性においてバニラDPOと同等の性能を達成する。最後に、DenseDPOが既存のVision Language Models (VLMs) を使用した自動選好アノテーションを可能にすることを示す。GPTは、タスク固有にファインチューンされたビデオ報酬モデルと同様にセグメントレベルの選好を正確に予測し、これらのラベルでトレーニングされたDenseDPOは人間のラベルを使用した場合に近い性能を達成する。
近年、大規模言語モデル(LLMs)は、数学やコーディングなど慎重な思考を要するIQ関連領域で著しい進歩を遂げてきた。しかし、特にポストトレーニングの観点から、LLMsの社会的領域における認知発達を向上させることは未だ十分に検討されていない。数学が主にシステム2の認知(慎重で段階的な推論)に依存するのに対し、社会の世界は独自のタイムラインに従い、直感的な反応(システム1)や表面的な思考から意図的な思考(システム2)まで、より豊かな認知モードの融合を必要とすることに着目し、我々はLLMsの社会的知能を向上させるための時間認識型階層的認知強化学習(TimeHC-RL)を提案する。実験では、8つの多様なデータパターンを持つデータセットにおいて、5つのポストトレーニングパラダイムと2つのテストタイム介入パラダイムを通じて、LLMsの社会的知能を体系的に向上させ、TimeHC-RL手法の有効性を検証した。実験結果は、広く採用されているシステム2 RL手法と比較して、我々が提案するTimeHC-RL手法の優位性を示している。この手法は7Bバックボーンモデルに翼を与え、DeepSeek-R1やOpenAI-O3のような先進モデルと肩を並べる性能を実現した。さらに、ポストトレーニングとテストタイム介入の観点からLLMsの社会的知能を向上させるための体系的探求により、いくつかの貴重な知見が得られた。
長文生成の効率化は、大規模言語モデルにとって重要な課題です。最近のスパースデコーディング手法は効率を向上させますが、KVキャッシュの不整合が発生し、近似誤差が蓄積して生成品質が低下する問題があります。本研究では、ブロックスパースアテンションと定期的な密な補正を組み合わせた、シンプルかつ効果的な手法であるRectified Sparse Attention(ReSA)を提案します。ReSAは、一定間隔で密なフォワードパスを使用してKVキャッシュを更新することで、誤差の蓄積を抑え、事前学習分布との整合性を維持します。数学的推論、言語モデリング、検索タスクにわたる実験により、ReSAが大幅な効率向上を図りつつ、ほぼロスレスな生成品質を達成することが実証されました。特に、ReSAは256Kのシーケンス長でのデコーディングにおいて最大2.42倍のエンドツーエンドの高速化を実現し、スケーラブルな長文コンテキスト推論の実用的なソリューションとなっています。コードはhttps://aka.ms/ReSA-LMで公開されています。
大規模言語モデル(LLM)エージェントは、特に知性的で人間好みのゲームキャラクターを通じて、ゲーム業界を再構築しつつある。しかし、既存のゲームベンチマークは実用的なニーズに応えられていない:様々なゲームジャンルにわたる多様なLLM能力の評価、複雑なゲームプレイに不可欠なエージェントモジュールの研究、事前学習済みLLMをゲームエージェントに適合させるためのファインチューニングデータセットが不足している。これらのギャップを埋めるため、我々は\benchname{}を提案する。これは、多様な現実世界のビデオゲームにわたってLLMエージェントを訓練・評価するための基盤となるベンチマークである。既存のベンチマークとは異なり、Orakは主要なジャンルを網羅する12の有名なビデオゲームを含み、複雑なゲームシナリオに不可欠なLLM能力とエージェントモジュールの包括的な研究を可能にする。LLMの一貫した評価を支援するため、Model Context Protocol(MCP)に基づくプラグアンドプレイインターフェースを導入し、LLMがゲームとシームレスに接続し、エージェントモジュールを操作できるようにする。さらに、多様なゲームジャンルにわたるLLMゲームプレイ軌跡からなるファインチューニングデータセットを提案する。Orakは、一般的なゲームスコアリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、ファインチューニング効果の詳細な分析を含む包括的な評価フレームワークを提供し、汎用ゲームエージェントの構築に向けた基盤を確立する。コードはhttps://github.com/krafton-ai/Orakで利用可能である。
本論文では、TalkingMachinesを紹介します。これは、事前学習済みのビデオ生成モデルをリアルタイムの音声駆動型キャラクターアニメーターに変換する効率的なフレームワークです。TalkingMachinesは、音声大規模言語モデル(LLM)をビデオ生成基盤モデルと統合することで、自然な会話体験を実現します。主な貢献は以下の通りです:(1)事前学習済みのSOTA画像-ビデオDiTを、180億パラメータの音声駆動型アバター生成モデルに適応させました;(2)双方向教師モデルからスパース因果的自己回帰型学生モデルへの非対称知識蒸留により、エラー蓄積のない無限ビデオストリーミングを可能にしました;(3)高スループットで低遅延の推論パイプラインを設計し、以下の主要なエンジニアリング最適化を組み込みました:(a)DiTとVAEデコーダを別々のデバイスに分散配置、(b)CUDAストリームを使用したデバイス間通信と計算の効率的なオーバーラップ、(c)冗長な再計算を排除してフレーム生成スループットを最大化。デモビデオはこちらをご覧ください - https://aaxwaz.github.io/TalkingMachines/
最近の研究によると、大規模言語モデル(LLM)は審判役として機能する際に自己選好バイアスを示すことが明らかになっています。これは、他のモデルが生成した応答よりも、自分自身が生成した応答を好む傾向があることを意味します。既存の手法では、通常、審判モデルが自身の応答に与えるスコアと他のモデルの応答に与えるスコアの差を計算することで、このバイアスを測定します。しかし、このアプローチでは、自己選好バイアスと応答の質が混同されてしまいます。なぜなら、審判モデルが生成した高品質な応答も、バイアスがなくても正のスコア差を生む可能性があるからです。この問題を解決するため、我々は応答の実際の質を代理するものとしてゴールドジャッジメントを導入し、審判モデルが自身の応答に与えるスコアと対応するゴールドジャッジメントの差を測定するDBGスコアを提案します。ゴールドジャッジメントは真の応答の質を反映するため、DBGスコアはバイアス測定における応答の質の交絡効果を軽減します。DBGスコアを用いて、我々はバージョン、サイズ、推論能力が異なるLLMにわたる自己選好バイアスを評価する包括的な実験を実施しました。さらに、自己選好バイアスに影響を与え、それを軽減する2つの要因、すなわち応答テキストのスタイルと審判モデルのポストトレーニングデータについて調査しました。最後に、アテンションベースの視点から自己選好バイアスの潜在的なメカニズムを探ります。我々のコードとデータはhttps://github.com/zhiyuanc2001/self-preferenceで公開されています。
大規模言語モデル(LLM)の進化が続く中、最新かつ体系的なベンチマークの必要性がますます重要となっている。しかし、既存のデータセットの多くは散在しており、管理が難しく、特定のニーズやドメインに合わせた評価を行うことが困難である。特に、数学やコードなどの分野におけるドメイン特化モデルの重要性が高まっているにもかかわらず、この課題は顕著である。本論文では、研究者や開発者がLLMをより効果的に評価することを可能にする動的なベンチマークリポジトリであるBenchHubを紹介する。BenchHubは、多様なドメインからベンチマークデータセットを集約し、自動的に分類する。38のベンチマークにわたる303Kの質問を統合し、継続的な更新とスケーラブルなデータ管理をサポートする設計となっている。これにより、さまざまなドメインやユースケースに合わせた柔軟でカスタマイズ可能な評価が可能となる。さまざまなLLMファミリーを用いた広範な実験を通じて、モデルの性能がドメイン固有のサブセット間で大きく異なることを示し、ドメインを意識したベンチマークの重要性を強調する。BenchHubは、データセットの再利用を促進し、モデル比較の透明性を高め、既存のベンチマークにおける過小評価されている領域を容易に特定するための重要なインフラを提供し、LLM評価研究の進展に貢献すると考えられる。
近年の生成AIの進歩により、スタイルキャプション付きテキスト音声合成(CapTTS)の分野は大きく変貌を遂げました。しかし、標準化された包括的なデータセットの不足や、CapTTSを基盤とした下流タスクに関する研究が限られているため、CapTTSを実世界のアプリケーションに適応させることは依然として課題となっています。これらのギャップを埋めるため、我々はCapSpeechという新しいベンチマークを導入しました。CapSpeechは、音響イベント付きスタイルキャプション付きテキスト音声合成(CapTTS-SE)、アクセントキャプション付きTTS(AccCapTTS)、感情キャプション付きTTS(EmoCapTTS)、チャットエージェント向けテキスト音声合成(AgentTTS)など、CapTTS関連の一連のタスクを対象としています。CapSpeechは、1000万以上の機械注釈付きオーディオキャプションペアと、約36万の人間注釈付きオーディオキャプションペアで構成されています。さらに、AgentTTSとCapTTS-SEタスク向けに、プロの声優と経験豊富な音響エンジニアによって収集・録音された2つの新しいデータセットを導入しました。データセットに加えて、CapSpeech上で自己回帰モデルと非自己回帰モデルを用いた包括的な実験を実施しました。その結果、多様な話し方において高忠実度かつ高明瞭度の音声合成が実現できることが示されました。我々の知る限り、CapSpeechはCapTTS関連タスク向けの包括的な注釈を提供する最大のデータセットです。実験とその結果は、CapTTSシステム開発の課題に対する貴重な知見をさらに提供します。
拡散モデルは最近、物体除去などの多くの生成タスクにおいて大きな成功を収めています。しかしながら、既存の画像分解手法は、マスク事前依存性、静的物体の仮定、データセットの不足により、半透明または透明なレイヤーのオクルージョンを分離するのに苦労しています。本論文では、半透明/透明なアルファレイヤーの非線形オクルージョンの条件下で、単一の重なり合った画像から構成レイヤーを復元することを目指す新しいタスク、アルファ合成画像のレイヤーごとの分解に取り組みます。レイヤーの曖昧さ、一般化、データ不足の課題に対処するため、まず初めての大規模で高品質な透明および半透明レイヤー分解のためのデータセットであるAlphaBlendを導入し、6つの実世界のサブタスク(例:半透明のフレア除去、半透明の細胞分解、ガラス製品の分解)をサポートします。このデータセットを基に、入力画像、セマンティックプロンプト、ブレンドタイプを条件とした可能なレイヤー分解の事後分布を学習する拡散TransformerベースのフレームワークであるDiffDecomposeを提案します。DiffDecomposeは、アルファマットを直接回帰するのではなく、コンテキスト内分解を実行し、レイヤーごとの教師なしで1つまたは複数のレイヤーを予測できるようにし、レイヤー間のピクセルレベルの対応を維持するためにレイヤー位置エンコーディングクローニングを導入します。提案されたAlphaBlendデータセットと公開されているLOGOデータセットでの広範な実験により、DiffDecomposeの有効性が検証されました。コードとデータセットは論文受理後に公開されます。私たちのコードは以下で利用可能です:https://github.com/Wangzt1121/DiffDecompose。
推測的デコーディングは、小さなドラフトモデルを使用して複数のトークンを予測し、大きなターゲットモデルを使用してこれらのトークンを並列に検証することで、大規模言語モデル(LLM)の推論を加速します。最近の研究では、ターゲットモデルの隠れ状態を活用してドラフトモデルの予測精度を向上させています。しかし、既存の手法では、ドラフトモデルが生成する特徴量における誤差の蓄積により、後続の位置におけるドラフトトークンの予測品質が低下する問題があります。本論文では、指定された位置(複数可)でトークンを生成するために、複数の位置特化ドラフト層で構成されるPosition Specialists(PosS)を提案します。Position Specialistsは、各スペシャリストが特定のレベルのドラフトモデル特徴量の偏差にのみ焦点を当てるため、ドラウンドごとの後続位置におけるトークンの受容率を大幅に向上させます。Llama-3-8B-InstructおよびLlama-2-13B-chatを用いた6つのデータセットでの実験結果は、PosSが平均受容長と高速化率においてベースラインを効果的に改善することを示しています。私たちのコードベースはhttps://github.com/shrango/PosSで公開されています。
最近のChain-of-Thought(CoT)推論の進展により、複雑なビデオ理解が向上していますが、既存の手法は様々なビデオコンテンツにわたるドメイン固有のスキル(例:イベント検出、空間関係理解、感情理解)に適応するのに苦労することが多いです。この問題に対処するため、我々はVideo-Skill-CoT(別名Video-SKoT)を提案します。これは、ドメイン適応型ビデオ推論のためのスキルを意識したCoTの監視を自動的に構築し活用するフレームワークです。まず、スキルベースのCoTアノテーションを構築します。トレーニング質問からドメインに関連する推論スキルを抽出し、共有スキル分類にクラスタリングし、各ビデオ質問ペアに合わせた詳細な多段階CoT根拠を作成します。次に、スキル固有のエキスパート学習フレームワークを導入します。各エキスパートモジュールは推論スキルのサブセットに特化し、収集したCoT監視を使用して軽量アダプターでトレーニングされます。提案手法の有効性を3つのビデオ理解ベンチマークで実証し、Video-SKoTが強力なベースラインを一貫して上回ることを示します。また、複数のビデオドメインにわたる異なるCoTアノテーションパイプラインと学習されたスキルの比較に関する詳細な分析も提供します。
敵対的入力攻撃は、CLIP埋め込みに大きな変化を引き起こす可能性がある。これは、テキストから画像を生成するモデルや大規模視覚言語モデルなど、パイプラインにCLIPを組み込んだモデルの下流の頑健性に影響を与える。CLIP画像エンコーダの頑健性を向上させるためのいくつかの取り組みが行われているが、テキストエンコーダの頑健性は未だに検討されていない。本研究では、この文献上のギャップを埋める。我々は、テキスト領域における効率的な敵対的ファインチューニング手法であるLEAFを提案し、大規模なCLIPモデルにスケールする能力を持つ。我々のモデルは、頑健な画像エンコーダが提供する視覚性能を維持しつつ、テキスト領域におけるゼロショット敵対的精度を大幅に向上させる。テキストから画像を生成する拡散モデルと組み合わせることで、敵対的ノイズ下での生成品質を向上させることができる。また、マルチモーダル検索タスクにおいて我々の頑健なCLIPエンコーダを使用することで、標準的なCLIPモデルと比較して敵対的ノイズ下でのリコールを改善する。最後に、頑健なテキストエンコーダが、直接最適化を介して入力テキストの埋め込みからの再構築を容易にすることを示す。
数値的フィードバック(スカラー報酬など)を用いた強化学習(RL)の最近の進展により、大規模言語モデル(LLM)の複雑な推論能力が大幅に向上しています。しかしながら、数値的フィードバックのみに依存するRLには、性能の停滞、自己反省の限定的な効果、そして持続的な失敗という3つの主要な課題が存在することが明らかになりました。本研究では、性能が停滞した後でも、RLでファインチューニングされたモデルが、自然言語による批評を活用することで、持続的に失敗していた問題に対して正しい改善案を生成できることを実証します。この知見に基づき、自然言語と数値的フィードバックを統合した効果的なポリシー最適化のためのオンラインRLフレームワーク「Critique-GRPO」を提案します。Critique-GRPOは、LLMが初期応答と批評に基づく改善案を同時に学習しつつ、探索を維持することを可能にします。Qwen2.5-7B-BaseおよびQwen3-8B-Baseを用いた広範な実験により、Critique-GRPOが、8つの難易度の高い数学、STEM、および一般的な推論タスクにおいて、教師あり学習ベースおよびRLベースのファインチューニング手法を一貫して上回り、平均pass@1スコアをそれぞれ約4.5%および5%向上させることが示されました。特に、Critique-GRPOは、オンラインRLに専門家のデモンストレーションを組み込んだ強力なベースラインを凌駕しています。さらなる分析から、ポリシー探索に関する2つの重要な洞察が得られました:(1)エントロピーが高いことが必ずしも探索からの効率的な学習を保証するわけではないこと、(2)長い応答が必ずしも効果的な探索につながるわけではないことです。
継続学習(Continual Learning, CL)は、ニューラルネットワークが既存の知識を保持しつつ(安定性)、新たな知識を段階的に獲得する能力(可塑性)を実現することを目指す。事前学習モデル(Pre-trained Models, PTMs)はCLにおいて重要な役割を果たしているが、既存のアプローチでは安定性を保つためにPTMのバックボーンを凍結することが一般的であり、これが特にドメインギャップが大きい増分タスクにおいて可塑性を制限する要因となっている。一方、PTM全体を逐次的にファインチューニングすると、汎化可能な知識の破壊的な忘却(catastrophic forgetting)が生じるリスクがあり、安定性と可塑性のトレードオフが顕在化する。この課題に対処するため、本研究では、コアCLプロセスの前にPTMを適応させる「Adapting PTMs before the core CL process(ACL)」という新たなフレームワークを提案する。ACLは、既存のCLアプローチ(例:プロンプトチューニング)を用いて各新タスクを学習する前に、プラグアンドプレイ型の適応フェーズを通じてPTMバックボーンを最適化する。ACLは、埋め込みを元のクラスプロトタイプに近づけつつ他のクラスから遠ざけることで可塑性を向上させ、理論的および実験的に安定性と可塑性のバランスを取ることが示されている。広範な実験により、ACLがベンチマークおよび統合手法においてCLの性能を大幅に向上させ、PTMベースのCLに対する汎用的なソリューションを提供することが実証された。
LLM-as-a-judgeは、大規模言語モデル(LLM)が別のLLMの出力を自動的に評価するフレームワークです。本論文では、定量化されたLLM評価者を提案します。これらは、回帰モデルを用いて既存のLLM評価者の評価スコアを特定のドメインにおける人間のスコアに合わせるものです。モデルは、評価者のテキスト評価とスコアを使用して、元の評価者のスコアを改善するように訓練されます。絶対的および相対的フィードバックの異なるタイプに対応する4つの定量化評価者を提示し、本フレームワークの汎用性と多様性を示します。本フレームワークは、教師ありファインチューニングよりも計算効率が高く、人間のフィードバックが限られている場合(本手法のほとんどの応用で想定される状況)には統計的効率も高くなります。これらの主張を、2つの基本評価者を用いて4つのデータセットで実証的に検証します。実験結果から、定量化評価者が事後モデリングを通じて既存の評価者の予測力を効果的に改善できることが示されています。
大規模なデータセットで訓練された基盤モデルは、様々な領域で強力なゼロショット能力を発揮します。データとモデルサイズが制約される状況でその成功を再現するため、基盤モデルから小さな学生ネットワークへ知識を転送する手法として、知識蒸留が確立されたツールとなっています。しかし、蒸留の効果は利用可能な訓練データによって大きく制限されます。本研究では、知識蒸留における共変量シフトという一般的な実践的問題に取り組みます。これは、訓練中に出現するがテスト時には現れない偽の特徴量が問題となる状況です。我々は次の問いを立てます:これらの偽の特徴量が未知であるが、ロバストな教師モデルが利用可能な場合、学生モデルもそれらに対してロバストになることは可能か?この問題に対処するため、教師と学生の間の不一致を最大化することで画像を生成する、新たな拡散ベースのデータ拡張戦略を導入します。これにより、学生モデルが苦戦する挑戦的なサンプルを効果的に作成します。実験結果は、CelebAやSpuCo Birdsにおける最悪グループ精度と平均グループ精度、および共変量シフト下のspurious ImageNetにおける偽のmAUCにおいて、我々のアプローチが最先端の拡散ベースのデータ拡張ベースラインを上回り、大幅な改善をもたらすことを示しています。
逆変換や指示ベースの画像編集における最近の進展にもかかわらず、既存の手法は主に単一の目立つオブジェクトの編集に優れているものの、複数のエンティティを含む複雑なシーンに適用すると大幅に苦戦しています。このギャップを定量化するため、まずRefCOCOに基づいた厳密な実世界ベンチマークであるRefEdit-Benchを導入しました。このベンチマークでは、数百万のサンプルで訓練されたベースラインでさえも低い性能しか示しません。この制限を克服するために、私たちはスケーラブルな合成データ生成パイプラインで訓練された指示ベースの編集モデルであるRefEditを導入しました。わずか20,000の編集トリプレットで訓練されたRefEditは、数百万のデータで訓練されたFlux/SD3モデルベースのベースラインを上回ります。さまざまなベンチマークでの広範な評価により、私たちのモデルが参照表現タスクで優れているだけでなく、従来のベンチマークでの性能も向上し、クローズドソース手法に匹敵する最先端の結果を達成することが示されました。再現性のためにデータとチェックポイントを公開します。
大規模言語モデル(LLM)は、幅広いタスクにおいて人間に近い性能を示し、一般的な会話を維持する能力が高く評価されています。しかし、エージェント型AIシステムの台頭により、言語モデルが少数の専門タスクを繰り返し、ほとんど変化なく実行するアプリケーションが大量に出現しています。 ここでは、小規模言語モデル(SLM)が十分に強力であり、本質的に適しており、エージェントシステムにおける多くの呼び出しにおいて必然的に経済的であるため、エージェント型AIの未来であるという立場を提示します。私たちの主張は、SLMが示す現在の能力レベル、エージェントシステムの一般的なアーキテクチャ、および言語モデル展開の経済性に基づいています。さらに、汎用会話能力が不可欠な状況では、異種エージェントシステム(つまり、複数の異なるモデルを呼び出すエージェント)が自然な選択であると主張します。エージェントシステムにおけるSLMの採用に対する潜在的な障壁について議論し、一般的なLLMからSLMへのエージェント変換アルゴリズムの概要を説明します。 私たちの立場は、価値声明として定式化され、LLMからSLMへの部分的シフトがAIエージェント業界に与える運用および経済的影響の重要性を強調しています。AIリソースの効果的な使用に関する議論を刺激し、現在のAIコストを下げる取り組みを進めることを目指しています。私たちの立場に対する貢献と批判の両方を呼びかけ、そのようなすべての対応をhttps://research.nvidia.com/labs/lpr/slm-agentsで公開することを約束します。
フローチャートは意思決定プロセスを可視化するための重要なツールである。しかし、その非線形構造と複雑な視覚-テキスト関係のため、LLM(大規模言語モデル)を用いて解釈することは困難であり、視覚-言語モデルはこれらの図を分析する際に存在しない接続や決定経路を頻繁に幻覚する。これにより、物流、医療、エンジニアリングなどの重要な領域における自動化されたフローチャート処理の信頼性が損なわれる。本論文では、フローチャートを参照するLLMの応答を特定のコンポーネントに基づいて追跡するFine-grained Flowchart Attribution(細粒度フローチャート帰属)タスクを導入する。Flowchart Attributionは、LLMの予測の検証可能性を確保し、生成された応答をフローチャートの構造にリンクすることで説明可能性を向上させる。我々は、グラフベースの推論を通じて細粒度の事後帰属を行うニューロシンボリックエージェントであるFlowPathAgentを提案する。これはまずフローチャートをセグメント化し、次に構造化されたシンボリックグラフに変換し、その後エージェントアプローチを用いてグラフと動的に相互作用し、帰属パスを生成する。さらに、様々なスタイル、ドメイン、質問タイプにわたるフローチャート帰属を評価するための新しいベンチマークであるFlowExplainBenchを提示する。実験結果は、FlowPathAgentがフローチャートQAにおけるLLMの回答の視覚的幻覚を軽減し、提案したFlowExplainBenchデータセットにおいて強力なベースラインを10-14%上回ることを示している。
プルーニングは近年、大規模言語モデル(LLMs)のパラメータ規模を削減し、推論効率を向上させるために広く採用されています。主流のプルーニング技術は、均一なレイヤーごとのプルーニング戦略に依存することが多く、高いスパース性レベルでは性能の大幅な低下を引き起こす可能性があります。LLMsの各レイヤーの貢献度が異なることを認識した最近の研究では、非均一なレイヤーごとのプルーニングに焦点が移っています。しかし、これらのアプローチは事前に定義された値に依存することが多く、最適な性能が得られない場合があります。これらの制限を克服するため、我々はDynamic Layerwise Pruning(DLP)と呼ばれる新しい手法を提案します。このアプローチは、モデルの重みと入力活性化情報を統合することで各レイヤーの相対的な重要性を適応的に決定し、それに応じてプルーニング率を割り当てます。実験結果は、DLPが複数のLLMsにおいて高いスパース性レベルでもモデルの性能を効果的に維持することを示しています。具体的には、70%のスパース性において、DLPはLLaMA2-7Bのパープレキシティを7.79減少させ、最先端の手法と比較して平均精度を2.7%向上させました。さらに、DLPは様々な既存のLLM圧縮技術と互換性があり、Parameter-Efficient Fine-Tuning(PEFT)にシームレスに統合できます。今後の研究を促進するため、コードをhttps://github.com/ironartisan/DLPで公開しています。
近年の長時間動画と言語理解のベンチマークは、ビデオ大規模マルチモーダルモデル(Video-LMMs)の進展を促進してきた。しかし、十分に注釈付けされた長時間動画の不足により、1時間規模のビデオ大規模言語モデル(Video-LLMs)の訓練は十分に検討されていない。このギャップを埋めるため、我々は大規模な1時間規模の動画指示追従データセットであるVideoMarathonを提案する。このデータセットは、3分から60分までの多様なドメインから収集された約9,700時間の長時間動画を含む。具体的には、時間性、空間性、物体、行動、シーン、イベントという6つの基本トピックにまたがる330万の高品質なQAペアを提供する。既存の動画指示データセットと比較して、VideoMarathonは訓練動画の時間を最大1時間まで大幅に拡張し、短期および長期の動画理解を必要とする22の多様なタスクをサポートする。VideoMarathonを基盤として、我々は1時間規模の動画と言語モデリングのための強力で効率的なVideo-LMMであるHour-LLaVAを提案する。これは、メモリ拡張モジュールを活用して、1-FPSのサンプリングで1時間の動画訓練と推論を可能にする。このモジュールは、キャッシュされた全動画コンテキストからユーザーの質問に関連し、時空間的に情報量の多い意味を適応的に統合する。実験では、Hour-LLaVAは複数の長時間動画と言語ベンチマークで最高の性能を達成し、VideoMarathonデータセットの高品質とHour-LLaVAモデルの優位性を実証した。
大規模言語モデル(LLM)を基盤とし、マルチエージェント構成で展開されるエージェンシックAIシステムは、企業や社会の領域における知的自律性、協調、意思決定を再定義しています。本レビューでは、LLMベースのエージェンシックマルチエージェントシステム(AMAS)における信頼、リスク、セキュリティ管理(TRiSM)の構造化された分析を提示します。まず、エージェンシックAIの概念的基盤、従来のAIエージェントとのアーキテクチャ的差異、およびスケーラブルなツール使用自律性を可能にする新興システム設計を検討します。次に、エージェンシックAIフレームワークにおけるTRiSMを、ガバナンス、説明可能性、ModelOps、プライバシー/セキュリティの4つの柱を通じて詳細に説明し、それぞれをエージェンシックLLMに即して文脈化します。独自の脅威ベクトルを特定し、エージェンシックAIアプリケーションの包括的なリスク分類を提示し、現実世界の脆弱性を示すケーススタディで補強します。さらに、分散型LLMエージェントシステムにおける信頼構築メカニズム、透明性と監視技術、最先端の説明可能性戦略についても調査します。また、信頼、解釈可能性、人間中心のパフォーマンスを評価するための指標を、オープンベンチマークの課題とともにレビューします。セキュリティとプライバシーについては、暗号化、敵対的防御、進化するAI規制への準拠を通じて対応します。本論文は、責任あるエージェンシックAIのロードマップで締めくくり、新興マルチエージェントシステムを堅牢なTRiSM原則に整合させ、安全で説明責任があり透明性のある展開を実現するための研究方向性を提案します。
高温超伝導材料の発見は、人類の産業と日常生活にとって極めて重要な意義を有する。近年、人工知能(AI)を用いて超伝導転移温度を予測する研究が注目を集めており、これらのツールの多くは驚異的な精度を達成していると主張している。しかし、この分野では広く受け入れられたベンチマークデータセットが不足しており、異なるAIアルゴリズム間の公平な比較を著しく妨げ、これらの手法のさらなる進展を阻害している。本研究では、常圧下における高温超伝導ベンチマークデータセット「HTSC-2025」を提示する。この包括的なデータセットは、BCS超伝導理論に基づいて理論物理学者によって2023年から2025年に発見された理論的に予測された超伝導材料を網羅しており、著名なX_2YH_6系、ペロブスカイトMXH_3系、M_3XH_8系、LaH_{10}構造進化から派生したケージ状BCNドープ金属原子系、およびMgB_2から進化した二次元ハニカム構造系を含む。HTSC-2025ベンチマークはhttps://github.com/xqh19970407/HTSC-2025でオープンソース化されており、継続的に更新される予定である。このベンチマークは、AIベースの手法を用いた超伝導材料の発見を加速する上で極めて重要である。
大規模言語モデルの推論能力を強化学習(RL)を用いて効果的に向上させることは、依然として重要な課題である。既存のアプローチは主に2つの対照的な利点推定粒度を採用している。トークンレベル手法(例:PPO)は、細かい粒度の利点信号を提供することを目指すが、正確な批評家モデルの訓練が困難であるため、推定が不正確になる。一方、軌跡レベル手法(例:GRPO)は、最終報酬からの粗い粒度の利点信号にのみ依存し、信用割り当てが不正確になる。これらの制限を解決するため、我々は中間粒度のセグメントレベル利点推定を活用する新しいRLフレームワークであるSegment Policy Optimization(SPO)を提案する。SPOは、軌跡レベル手法よりも正確な信用割り当てを提供し、トークンレベル手法よりも少ない推定点を必要とするため、批評家モデルなしでモンテカルロ(MC)に基づく正確な利点推定を可能にする。SPOは、以下の3つの新戦略を特徴とするコンポーネントを備えている:(1)柔軟なセグメント分割、(2)正確なセグメント利点推定、(3)セグメント利点を用いたポリシー最適化(新たな確率マスク戦略を含む)。さらに、SPOを2つの特定のシナリオに具体化した:(1)短い連鎖思考(CoT)のためのSPO-chainは、新たなカットポイントベースの分割と連鎖ベースの利点推定を特徴とし、GSM8KにおいてPPOおよびGRPOよりも6-12パーセントポイントの精度向上を達成した。(2)長いCoTのためのSPO-treeは、新たなツリーベースの利点推定を特徴とし、MC推定のコストを大幅に削減し、MATH500において2Kおよび4Kコンテキスト評価でGRPOよりも7-11パーセントポイントの精度向上を達成した。我々はコードをhttps://github.com/AIFrameResearch/SPOで公開している。
物体参照タスクは、与えられた自然言語の記述に一致する画像内のすべての物体を検出することを目的としています。我々は、堅牢な物体参照モデルは「グラウンディング」されているべきだと主張します。つまり、その予測は説明可能であり、かつ視覚的内容に忠実であるべきです。具体的には、以下の2つの重要な特性を満たす必要があります:1) 検証可能であること。予測を正当化する解釈可能な推論を生成し、視覚的証拠と明確に結びつけること。2) 信頼できること。与えられた表現に一致する物体が画像内に存在しない場合に、予測を控えることを学習すること。しかし、ほとんどの手法は参照タスクを直接的なバウンディングボックス予測タスクとして扱っており、解釈可能性が限られており、一致する物体がない表現を拒否するのに苦労しています。本研究では、物体参照を明示的なCoT(Chain-of-Thought)推論タスクとして定式化するモデル、Rex-Thinkerを提案します。参照表現が与えられた場合、まず参照される物体カテゴリに対応するすべての候補物体インスタンスを特定します。その後、Rex-Thinkerは各候補に対して段階的な推論を行い、与えられた表現に一致するかどうかを評価し、最終的な予測を行います。このパラダイムをサポートするため、HumanRefデータセット上でGPT-4oにプロンプトをかけて、大規模なCoTスタイルの参照データセットであるHumanRef-CoTを構築しました。各推論トレースは、計画、行動、要約の構造化されたフォーマットに従っており、モデルが物体候補に対して分解された解釈可能な推論を学習できるようにしています。次に、Rex-Thinkerを2段階でトレーニングします:構造化された推論を実行する方法をモデルに教えるためのコールドスタートの教師ありファインチューニングフェーズと、精度と汎化性を向上させるためのGRPOベースの強化学習フェーズです。実験結果は、我々のアプローチがドメイン内評価において精度と解釈可能性の両方で標準的なベースラインを上回り、また、幻覚出力を拒否する能力が向上し、ドメイン外設定においても強い汎化性を示すことを示しています。
継続学習(Continual Learning, CL)の探求は、ニューラルネットワークに段階的に学習し適応する能力を与えることを目指している。この探求の中心となるのは、安定性と可塑性のジレンマに対処することであり、これは二つの相反する目標のバランスを取ることを含む:すでに学習した知識を保持することと、新しい知識を獲得することである。多くのCL手法がこのトレードオフを達成しようとしているが、それらはしばしばネットワークアーキテクチャが安定性と可塑性に与える影響を見落としており、トレードオフをパラメータレベルに限定している。本論文では、アーキテクチャレベルでの安定性と可塑性の衝突について掘り下げる。我々は、同等のパラメータ制約の下で、より深いネットワークは可塑性が高く、より広いネットワークは優れた安定性を示すことを明らかにする。このアーキテクチャレベルのジレンマに対処するため、我々はDual-Archと称する新しいフレームワークを導入する。このフレームワークは、CLのプラグインコンポーネントとして機能し、二つの異なる独立したネットワークの補完的な強みを活用する:一つは可塑性に特化し、もう一つは安定性に特化している。各ネットワークは、それぞれの目的に合わせて特別に設計された軽量なアーキテクチャを持つ。大規模な実験により、Dual-Archが既存のCL手法の性能を向上させながら、パラメータ数において最大87%のコンパクトさを実現することが示された。
出版物データベースは、多様なウェブソースからの正確なメタデータ抽出に依存しているが、ウェブレイアウトやデータ形式のばらつきがメタデータ提供者にとって課題となっている。本論文では、リンクされたウェブ文書の文脈的ランキングを行う新しい手法であるCRAWLDocを紹介する。CRAWLDocは、デジタルオブジェクト識別子(DOI)などの出版物のURLを起点として、ランディングページおよびPDF、ORCIDプロファイル、補足資料などのすべてのリンクされたウェブリソースを取得する。これらのリソースを、アンカーテキストやURLとともに統一された表現に埋め込む。CRAWLDocの評価のために、コンピュータサイエンス分野の主要な6つの出版社から600件の出版物を手動でラベル付けした新しいデータセットを作成した。CRAWLDocは、出版社やデータ形式を超えて関連文書をレイアウトに依存せずに堅牢にランク付けすることを実証している。これにより、様々なレイアウトや形式のウェブ文書からのメタデータ抽出の改善の基盤が築かれる。ソースコードとデータセットはhttps://github.com/FKarl/CRAWLDocでアクセス可能である。
視覚言語モデル(VLM)のリスクを軽減する方法の一つは、学習データから危険なサンプルを除去することです。しかし、有害な画像が小さな無害に見えるパッチに分割され、多くの学習サンプルに散りばめられた場合、このようなデータの管理は簡単に回避されてしまいます。VLMは学習中にこれらの断片を組み合わせることを学び、推論時に完全な画像やテキスト参照から有害な応答を生成する可能性があります。例えば、血まみれのシーンの画像パッチが「安全」という説明と共に学習された場合、VLMは後で完全な画像やそのシーンへのテキスト参照を「安全」と説明するかもしれません。我々は、この攻撃を可能にするVLMの核心的な能力を「視覚的縫合」と定義します。これは、同じテキスト説明を共有する複数の学習サンプルに分散した視覚情報を統合する能力です。本研究では、まず、各画像が一意の合成IDでラベル付けされた3つのデータセットにおいて、一般的なオープンソースVLMの視覚的縫合能力を実証します。各(画像、ID)ペアを異なる粒度で{(パッチ、ID)}ペアに分割してファインチューニングを行い、チューニングされたモデルが完全な画像やテキスト参照から正しいIDを言語化できることを確認します。これを基に、危険な画像のパッチを使用し、IDを「安全」や「危険」などのテキスト説明に置き換えることで、前述の敵対的データ汚染シナリオをシミュレートします。これにより、有害なコンテンツがパッチでの管理を回避し、後に視覚的縫合を通じて再構築されることで、深刻なVLMの安全性リスクが生じることを示します。コードはhttps://github.com/ZHZisZZ/visual-stitchingで公開されています。
実世界の画像からの3D再構成は、照明条件の不整合や一時的なノイズ要因により依然として困難な課題です。既存の手法は、低品質な学習データを扱うためにヒューリスティックな戦略に依存することが多く、安定した一貫性のある再構成を実現するのに苦戦し、視覚的なアーティファクトが頻繁に発生します。本研究では、Asymmetric Dual 3DGSという新しいフレームワークを提案します。この手法は、これらのアーティファクトがランダム性の影響で異なる学習実行間で変動するという性質を活用します。具体的には、2つの3D Gaussian Splatting (3DGS)モデルを並列に学習させ、一貫性制約を課すことで信頼性の高いシーン形状への収束を促し、不整合なアーティファクトを抑制します。2つのモデルが確認バイアスにより類似した失敗モードに陥るのを防ぐため、マルチキュー適応マスクと自己教師ありソフトマスクという2つの補完的なマスクを適用する発散的マスキング戦略を導入し、非対称な学習プロセスを実現することで共有エラーモードを削減します。さらに、学習効率を向上させるため、Dynamic EMA Proxyという軽量バリアントを提案します。これは、2つのモデルのうち1つを動的に更新される指数移動平均(EMA)プロキシに置き換え、発散を維持するための交互マスキング戦略を採用します。挑戦的な実世界データセットを用いた広範な実験により、本手法が既存のアプローチを一貫して上回りつつ高い効率を達成することが示されました。コードと学習済みモデルは公開予定です。
Stable Diffusion 3のようなフローベースの潜在生成モデルは、驚くべき品質の画像を生成することができ、フォトリアルなテキストから画像への生成さえ可能にします。その印象的な性能は、これらのモデルが逆画像問題においても強力な事前分布として機能すべきであることを示唆していますが、そのアプローチはまだ同等の忠実度を実現していません。これにはいくつかの主要な障害があります:(i) 低次元の潜在空間へのエンコーディングにより、基礎となる(順方向の)マッピングが非線形になること、(ii) データの尤度項が通常扱いにくいこと、(iii) 学習済み生成モデルが推論中に稀で非典型的なデータモードを回復するのに苦労することです。本論文では、フローベース生成モデルを逆問題の事前分布として活用する、新しいトレーニング不要の変分フレームワークであるFLAIRを提案します。そのために、劣化の種類に依存しないフローマッチングのための変分目的関数を導入し、それを非典型的なモードを回復するための決定論的な軌道調整と組み合わせます。観測データとの正確な一貫性を強制するために、データ忠実度項と正則化項の最適化を分離します。さらに、オフラインの精度推定に基づいて正則化の強度を調整する時間依存のキャリブレーションスキームを導入します。標準的な画像ベンチマークでの結果は、FLAIRが再構成品質とサンプルの多様性の両面で、既存の拡散ベースおよびフローベースの方法を一貫して上回ることを示しています。
多段階の記号的推論は、金融タスクにおける下流のパフォーマンスを向上させるために重要です。しかし、この能力を体系的に評価するためのベンチマークが不足しています。FinQAやConvFinQAなどの既存のデータセットは、最終的な数値的な答えのみを監督しており、中間の推論ステップを評価していません。この問題に対処するため、我々は検証可能なChain-of-Thought(CoT)金融推論を目的とした最初の記号的ベンチマークであるFinChainを導入します。12の金融ドメインにわたる54のトピックをカバーするFinChainは、各トピックに対して5つのパラメータ化されたテンプレートを提供し、それぞれが推論の複雑さと必要なドメイン知識を変化させます。各データセットインスタンスには実行可能なPythonトレースが含まれており、広範なトレーニングデータの自動生成と他のドメインへの容易な適応を可能にします。また、最終的な答えと中間の推論の両方を自動評価する新しい指標であるChainEvalも導入します。我々のデータセットで30のLLMをベンチマークした結果、最先端のモデルでさえ多段階の金融推論において大幅な改善の余地があることがわかりました。FinChainのすべてのテンプレートと評価指標はhttps://github.com/mbzuai-nlp/finchainで公開されています。
複雑な視聴覚シーンに対して正確な音を生成することは、特に複数の物体や音源が存在する状況では困難な課題です。本論文では、画像内のユーザーが選択した視覚的物体に基づいて音生成を行う「インタラクティブな物体認識音声生成」モデルを提案します。私たちの手法は、物体中心の学習を条件付き潜在拡散モデルに統合し、マルチモーダルアテンションを通じて画像領域とそれに対応する音を関連付けることを学習します。テスト時には、画像セグメンテーションを利用して、ユーザーが「物体」レベルでインタラクティブに音を生成できるようにします。理論的には、私たちのアテンションメカニズムがテスト時のセグメンテーションマスクを機能的に近似し、生成された音声が選択された物体と整合することを検証します。定量的および定性的な評価により、私たちのモデルがベースラインを上回り、物体とそれに関連する音の間の整合性が向上することが示されています。プロジェクトページ: https://tinglok.netlify.app/files/avobject/
データのアノテーションは時間とコストを要する作業であるが、教師あり機械学習において本質的に必要とされる。アクティブラーニング(AL)は、人間によるラベリング作業を最小化するために確立された手法であり、最も情報量の多い未ラベルサンプルを反復的に選択して専門家によるアノテーションを行うことで、全体の分類性能を向上させる。ALは数十年にわたって知られているにもかかわらず、実世界のアプリケーションではまだほとんど使用されていない。NLPコミュニティにおけるALに関する2つのウェブ調査で示されたように、実践者がALを使用しない主な理由は2つある。第一に、ALを設定する複雑さ、第二に、その有効性に対する信頼の欠如である。我々は、これらの理由が同じ原因、すなわちALの大きなハイパーパラメータ空間に起因すると仮説を立てた。このほとんど未探索のハイパーパラメータ空間は、しばしば誤解を招き、再現性のないAL実験結果を引き起こす。本研究では、まず460万以上のハイパーパラメータの組み合わせからなる大規模なハイパーパラメータグリッドを構築し、次に、これまでで最大規模のAL研究においてすべての組み合わせの性能を記録し、最後に、各ハイパーパラメータが実験結果に与える影響を分析した。最終的に、各ハイパーパラメータの影響に関する推奨事項を示し、具体的なAL戦略の実装が驚くほど大きな影響を与えることを実証し、最小限の計算コストで再現性のあるAL実験を行うための実験設計を概説した。これにより、将来のAL研究がより再現性と信頼性を高めることに貢献する。
マルチモーダル大規模言語モデル(MLLM)の急速な発展に伴い、複雑なコンピュータタスクを達成可能な自律的なコンピュータ利用エージェントとしての展開が進んでいます。しかし、重要な課題が浮上しています:対話シナリオ向けに設計・調整された一般的なMLLMの安全性リスク原則は、現実世界のコンピュータ利用シナリオに効果的に転用できるのでしょうか?既存のMLLMベースのコンピュータ利用エージェントの安全性リスク評価に関する研究には、現実的なインタラクティブ環境の欠如や、特定のリスクタイプに限定された焦点など、いくつかの制約があります。これらの制約は、現実世界の環境の複雑性、多様性、変動性を無視しており、コンピュータ利用エージェントの包括的なリスク評価を制限しています。この問題に対処するため、我々はRiOSWorldを導入しました。これは、現実世界のコンピュータ操作中におけるMLLMベースのエージェントの潜在的なリスクを評価するためのベンチマークです。我々のベンチマークは、ウェブ、ソーシャルメディア、マルチメディア、OS、メール、オフィスソフトウェアなど、さまざまなコンピュータアプリケーションにわたる492のリスクタスクを含んでいます。これらのリスクは、リスクの発生源に基づいて2つの主要なクラスに分類されます:(i)ユーザー起因のリスクと(ii)環境起因のリスク。評価においては、安全性リスクを2つの観点から評価します:(i)リスク目標の意図と(ii)リスク目標の達成。RiOSWorldにおけるマルチモーダルエージェントを用いた広範な実験により、現在のコンピュータ利用エージェントが現実世界のシナリオで重大な安全性リスクに直面していることが示されました。我々の研究結果は、現実世界のコンピュータ操作におけるコンピュータ利用エージェントの安全性調整の必要性と緊急性を強調し、信頼できるコンピュータ利用エージェントの開発に貴重な洞察を提供します。我々のベンチマークは、https://yjyddq.github.io/RiOSWorld.github.io/ で公開されています。