翻訳付きの日次キュレーションされたAI研究論文
幻覚検出は、大規模言語モデル(LLMs)の安全かつ信頼性の高い展開において、特に事実の正確性が求められるアプリケーションにおいて、基本的な課題として残っている。既存の幻覚ベンチマークは、多くの場合シーケンスレベルで動作し、英語に限定されており、包括的な評価に必要な細粒度かつ多言語の監視を欠いている。本研究では、14言語にわたるスパンレベルの幻覚を注釈付けた大規模多言語データセットであるPsiloQAを紹介する。PsiloQAは、GPT-4oを使用してWikipediaから質問-回答ペアを生成し、コンテキストなしの設定で多様なLLMsから潜在的に幻覚を含む回答を引き出し、GPT-4oを使用してゴールデン回答と検索されたコンテキストを比較することで幻覚スパンを自動的に注釈付けるという、自動化された3段階のパイプラインを通じて構築された。我々は、不確実性の定量化、LLMベースのタグ付け、ファインチューニングされたエンコーダモデルなど、幅広い幻覚検出方法を評価し、エンコーダベースのモデルが言語間で最も強い性能を発揮することを示す。さらに、PsiloQAは効果的なクロスリンガル一般化を示し、他のベンチマークへの堅牢な知識転移をサポートする一方で、人間による注釈付きデータセットよりも大幅にコスト効率が高い。我々のデータセットと結果は、多言語設定におけるスケーラブルで細粒度の幻覚検出の開発を推進するものである。
近年、エージェント型強化学習(Agentic RL)は、ウェブエージェントの多段階かつ長期的なツール使用能力を促進する上で大きな進展を遂げてきた。主流のエージェント型RLアルゴリズムは、エントロピーの指導の下で不確実性の高いツール呼び出しステップを自律的に探索するが、エントロピー信号への過度の依存はさらなる制約を課し、トレーニングの崩壊を招く可能性がある。本論文では、エントロピーが引き起こす課題を深く掘り下げ、ロールアウトとポリシー更新の両フェーズでエントロピーをバランスさせるように設計されたエージェント型RLアルゴリズムである「エージェント型エントロピーバランスポリシー最適化(AEPO)」を提案する。AEPOは2つのコアコンポーネントから構成される:(1)エントロピー事前監視を通じてグローバルおよびブランチサンプリング予算を適応的に割り当てるとともに、連続する高エントロピーツール呼び出しステップにブランチペナルティを課すことで過剰なブランチング問題を防ぐ動的エントロピーバランスロールアウトメカニズム、および(2)高エントロピークリッピング項にストップグラデント操作を挿入して高エントロピートークンの勾配を保存し適切に再スケーリングするとともに、エントロピーを考慮したアドバンテージ推定を組み込むことで高不確実性トークンの学習を優先するエントロピーバランスポリシー最適化。14の挑戦的なデータセットにわたる結果は、AEPOが7つの主流RLアルゴリズムを一貫して上回ることを示している。わずか1KのRLサンプルで、AEPOを適用したQwen3-14Bは、Pass@1においてGAIAで47.6%、Humanity's Last Examで11.2%、WebWalkerで43.0%、Pass@5においてGAIAで65.0%、Humanity's Last Examで26.0%、WebWalkerで70.0%という印象的な結果を達成した。さらなる分析により、AEPOがロールアウトサンプリングの多様性を向上させつつポリシーエントロピーを安定させ、スケーラブルなウェブエージェントトレーニングを促進することが明らかになった。
同一性を保持した生成は、テキストから画像への研究において重要な焦点となっており、最近のモデルは参照となる同一性に沿った画像を生成する点で顕著な成功を収めています。しかし、同一人物の複数の画像を含む大規模なペアデータセットの不足により、ほとんどのアプローチは再構成ベースのトレーニングを採用せざるを得ません。この依存性は、モデルが参照となる顔を直接複製する「コピー&ペースト」と呼ばれる失敗モードを引き起こし、ポーズ、表情、照明の自然な変化にわたって同一性を保持することができません。このような過度の類似性は制御性を損ない、生成の表現力を制限します。これらの制約に対処するため、我々は(1)複数人物シナリオに特化した大規模なペアデータセット「MultiID-2M」を構築し、各同一性に対して多様な参照を提供します;(2)コピー&ペーストのアーティファクトと、同一性の忠実度と多様性のトレードオフを定量化するベンチマークを導入します;(3)ペアデータを活用して忠実度と多様性のバランスを取る対照的な同一性損失を用いた新しいトレーニングパラダイムを提案します。これらの貢献により、拡散モデルベースの「WithAnyone」を開発し、コピー&ペーストを効果的に軽減しながら高い同一性の類似性を保持します。広範な定性的および定量的な実験により、WithAnyoneがコピー&ペーストのアーティファクトを大幅に削減し、ポーズや表情の制御性を向上させ、強い知覚品質を維持することが示されました。ユーザー調査では、我々の手法が高い同一性の忠実度を達成しつつ、表現力豊かな制御可能な生成を実現することがさらに検証されました。
AIが受動的なツールから能動的かつ適応的なパートナーへと進化する時代において、我々は日常生活における先行的かつリアルタイムな支援を可能にする新たなパラダイム「AI for Service(AI4Service)」を提案する。既存のAIサービスは、依然としてユーザーの明示的なコマンドに応答する反応型が主流である。しかし、真に知的で有用なアシスタントは、ユーザーのニーズを予測し、適切なタイミングで先行的に行動を起こす能力を持つべきであると主張する。このビジョンを実現するため、我々は「Alpha-Service」という統一フレームワークを提案する。このフレームワークは、エゴセントリックな映像ストリームからサービス機会を検出して「いつ介入すべきか(Know When)」を判断し、汎用的かつ個別化されたサービスを提供する「どのように支援すべきか(Know How)」という2つの根本的な課題に取り組む。フォン・ノイマン型コンピュータアーキテクチャに着想を得て、AIグラスを基盤とするAlpha-Serviceは、知覚を担う入力ユニット、タスクスケジューリングを担う中央処理ユニット、ツール活用を担う算術論理ユニット、長期的なパーソナライゼーションを担うメモリユニット、そして自然な人間とのインタラクションを担う出力ユニットという5つの主要コンポーネントで構成される。初期的な探求として、我々はAIグラス上に展開されたマルチエージェントシステムを通じてAlpha-Serviceを実装した。リアルタイムのブラックジャックアドバイザー、博物館ツアーガイド、ショッピングフィットアシスタントなどのケーススタディを通じて、環境をシームレスに知覚し、ユーザーの意図を推論し、明示的な指示なしにタイムリーかつ有用な支援を提供する能力を実証した。
ネイティブな視覚言語モデル(VLMs)の構築は、進化するモデルアーキテクチャとトレーニングパラダイムによって形作られ、従来のモジュール型VLMsに対する新たな競争相手として台頭してきた。しかし、その広範な探求と普及には、二つの未解決の問題が影を落としている:(-)ネイティブVLMsをモジュール型と区別する根本的な制約は何か、そしてこれらの障壁をどの程度克服できるか?(-)ネイティブVLMsの研究をよりアクセスしやすく民主化し、それによってこの分野の進展を加速するにはどうすればよいか?本論文では、これらの課題を明確にし、ネイティブVLMsを構築するための指針を提示する。具体的には、一つのネイティブVLMプリミティブは、(i)共有された意味空間内でピクセルと単語の表現を効果的に整合させること、(ii)以前は分離されていた視覚と言語モジュールの強みをシームレスに統合すること、(iii)統一された視覚言語エンコーディング、整合、推論をサポートする様々なクロスモーダル特性を本質的に具備すること、を満たすべきである。そこで、我々は第一原理から構築された新たなネイティブVLMsファミリーであるNEOを立ち上げ、多様な実世界のシナリオにおいてトップクラスのモジュール型モデルと競合する能力を有する。わずか3億9000万の画像テキスト例を用いて、NEOは視覚知覚をゼロから効率的に発展させ、我々の精巧なプリミティブから構築された密で単一のモデル内での視覚言語の衝突を緩和する。我々はNEOを、スケーラブルで強力なネイティブVLMsの基盤として位置づけ、再利用可能な豊富なコンポーネントとともに、コスト効率が高く拡張可能なエコシステムを促進する。我々のコードとモデルは、https://github.com/EvolvingLMMs-Lab/NEO で公開されている。
本報告では、ドキュメント解析に特化したSOTA(State-of-the-Art)かつリソース効率の高いモデルであるPaddleOCR-VLを提案する。その中核を成すのはPaddleOCR-VL-0.9Bであり、これはコンパクトでありながら強力な視覚言語モデル(VLM)である。このモデルは、NaViTスタイルの動的解像度視覚エンコーダとERNIE-4.5-0.3B言語モデルを統合し、正確な要素認識を可能にしている。この革新的なモデルは、109言語を効率的にサポートし、テキスト、表、数式、チャートなどの複雑な要素の認識に優れながら、最小限のリソース消費を維持する。広く使用されている公開ベンチマークおよび社内ベンチマークでの包括的な評価を通じて、PaddleOCR-VLはページレベルでのドキュメント解析および要素レベルの認識においてSOTA性能を達成した。既存のソリューションを大幅に上回り、トップクラスのVLMに対して強い競争力を示し、高速な推論速度を実現している。これらの強みにより、実世界のシナリオでの実用的な展開に非常に適している。
ビデオ生成モデルは、特に現実的なシナリオにおいて顕著な進歩を遂げてきたが、想像力豊かなシナリオではその性能が著しく低下する。これらのプロンプトは、訓練分布の外にある長距離の意味的関係を持つ稀に共起する概念を含むことが多い。既存の手法は、ビデオ品質を向上させるためにテスト時のスケーリングを適用するが、固定された探索空間と静的な報酬設計により、想像力豊かなシナリオへの適応性が制限されている。このギャップを埋めるため、我々はImagerySearchを提案する。これは、プロンプトに基づいて推論探索空間と報酬関数を動的に調整する適応型テスト時探索戦略であり、プロンプト内の意味的関係に応じて変化する。これにより、挑戦的な想像力豊かな設定において、より一貫性があり視覚的に妥当なビデオを生成することが可能となる。この方向性の進展を評価するため、我々はLDT-Benchを導入する。これは、長距離の意味的プロンプトに特化した初のベンチマークであり、2,839の多様な概念ペアと創造的生成能力を評価する自動化されたプロトコルで構成されている。大規模な実験により、ImagerySearchがLDT-Benchにおいて強力なビデオ生成ベースラインおよび既存のテスト時スケーリング手法を一貫して上回り、VBenchにおいても競争力のある改善を達成することが示され、多様なプロンプトタイプにわたる有効性が実証された。今後の想像力豊かなビデオ生成研究を促進するため、LDT-Benchとコードを公開する予定である。
本論文では、BitNet蒸留(BitDistill)を提案する。これは、市販のフル精度大規模言語モデル(LLM、例:Qwen)を特定の下流タスク向けに1.58ビット精度(すなわち、三値重み{-1, 0, 1})に微調整する軽量パイプラインであり、最小限の計算コストで強力なタスク特化性能を実現する。具体的には、BitDistillは3つの主要な技術を組み込んでいる:BitNetで導入されたSubLNモジュール、MiniLMに基づくマルチヘッドアテンション蒸留、そして、特定のタスクにおいて微調整されたフル精度LLMと1.58ビットLLMの性能差のスケーラビリティ問題を緩和するための重要なウォームアップステップとして機能する継続的事前学習である。実験結果は、BitDistillがモデルサイズにわたってフル精度の対応モデルと同等の性能を達成しつつ、最大10倍のメモリ節約とCPU上での2.65倍の高速推論を可能にすることを示している。コードはhttps://github.com/microsoft/BitNetで公開されている。
検証可能な報酬を伴う強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させるための核心的なパラダイムとして近年注目を集めている。テスト時に検証信号が不足する問題に対処するため、従来の研究では、モデルの自己検証能力の訓練を標準的なRLVRプロセスに組み込み、単一のLLM内で推論能力と検証能力を統合するアプローチが取られてきた。しかし、これまでの手法では、LLMが2つの異なるプロンプトテンプレートを使用して解決策と自己検証を順次生成する必要があり、効率が大幅に低下していた。本研究では、自己検証のRL目的関数の閉形式解が驚くほど単純な形式に還元できることを理論的に明らかにする。具体的には、解決策の真の推論報酬は、その最後のトークンにおける自己報酬スコアに等しく、このスコアは、解決策の最後のトークンにおいて事前に指定された任意のトークンに割り当てられたポリシーモデルの次トークン対数確率と事前に計算された定数との差をKL係数でスケーリングしたものとして計算される。この知見に基づき、我々はLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。このアルゴリズムは、元のRLVR損失に、最後のトークン自己報酬スコアと検証器ベースの推論報酬を整合させるMSE損失を単純に追加し、LLMの推論能力と自己報酬能力を共同で最適化する。最適化された自己報酬スコアは、訓練とテストの両方でモデルの性能を向上させるために利用可能である。特に、我々のアルゴリズムは、生成直後の最後のトークンの次トークン確率分布からこれらのスコアを導出するため、追加のトークン推論の最小限のコストしかかからない。実験結果は、我々の手法がモデルの推論性能を向上させるだけでなく、顕著な自己報酬能力を備えさせることで、推論時のスケーリング性能を向上させることを示している。
本研究では、拡散型大規模言語モデル(DLMs)におけるキー・バリュー(KV)キャッシュを適応的に再計算し、予測精度を最大化しながらデコード遅延を最小化する方法を検討する。従来の手法では、すべてのデノイジングステップとレイヤーにおいて、すべてのトークンに対してQKVを再計算していたが、特に浅いレイヤーではKV状態がほとんど変化しないため、大幅な冗長性が生じていた。我々は以下の3つの観察を行った:(1) 遠く離れた{bf MASK}トークンは主に長さバイアスとして機能し、アクティブな予測ウィンドウを超えてブロック単位でキャッシュ可能である、(2) KVの動的変化は深さとともに増加するため、深いレイヤーから選択的にリフレッシュを行うことで十分である、(3) 最も注目されるトークンはKVのドリフトが最小であり、他のトークンのキャッシュ変更に対する保守的な下限を提供する。これらの観察に基づき、我々は{bf Elastic-Cache}を提案する。これは、トレーニング不要でアーキテクチャに依存しない戦略であり、{いつ}リフレッシュするか(最も注目されるトークンに対する注意認識ドリフトテストにより決定)と{どこで}リフレッシュするか(選択されたレイヤー以降を再計算し、浅いレイヤーのキャッシュとウィンドウ外のMASKキャッシュを再利用する深さ認識スケジュールにより決定)を共同で決定する。固定周期スキームとは異なり、Elastic-Cacheは拡散型LLMに対して適応的かつレイヤー認識型のキャッシュ更新を行い、冗長な計算を削減し、生成品質の低下をほとんど伴わずにデコードを加速する。LLaDA-Instruct、LLaDA-1.5、およびLLaDA-Vを用いた数学的推論とコード生成タスクにおける実験では、一貫した高速化が確認された:GSM8K(256トークン)で8.7倍、長いシーケンスで45.1倍、HumanEvalで4.8倍の高速化を達成し、ベースラインよりも高い精度を維持した。我々の手法は、既存の信頼度ベースのアプローチよりも大幅に高いスループット(GSM8Kで6.8倍)を実現しつつ、生成品質を維持し、拡散型LLMの実用的な展開を可能にする。
大規模言語モデル(LLM)ベースのエージェントは、外部環境との相互作用能力を向上させるため、特に多段階の推論と知識獲得を必要とする検索ベースの設定において、強化学習(RL)を用いて訓練されることが増えている。しかし、既存のアプローチは通常、最終的な回答時にのみ提供される結果ベースの報酬に依存している。この報酬の希薄性は、長い軌跡が二つの重要な問題を悪化させる多段階設定において特に問題となる:(i)全てのロールアウトが同一の報酬を受け取り、有用な学習信号を提供しない「アドバンテージ崩壊」、(ii)特に長期的なタスクにおいて、段階間の依存関係が不明瞭になる「細粒度のクレジット割り当ての欠如」。本論文では、多段階エージェント訓練に対して密で内在的な監督を提供する、シンプルかつ効果的なRLフレームワークである「情報獲得に基づくポリシー最適化(IGPO)」を提案する。IGPOは、各相互作用段階を真実に関する情報を段階的に獲得するプロセスとしてモデル化し、段階レベルの報酬を正しい回答を生成するポリシーの確率の限界的増加として定義する。外部報酬モデルや高コストなモンテカルロ推定に依存する従来のプロセスレベル報酬アプローチとは異なり、IGPOはモデル自身の信念更新から直接内在的報酬を導出する。これらの内在的段階レベル報酬は、結果レベルの監督と組み合わされ、密な報酬軌跡を形成する。ドメイン内およびドメイン外のベンチマークにおける広範な実験により、IGPOが多段階シナリオにおいて強力なベースラインを一貫して上回り、より高い精度と改善されたサンプル効率を達成することが実証された。
コード向け大規模言語モデル(LLMs)は、自然言語テキストとプログラミング言語コードの混合から学習されたバイトペア符号化(BPE)などのサブワードトークナイザーに依存しており、文法ではなく統計に基づいて動作する。その結果、意味的に同一のコードスニペットでも、空白や識別子の命名といった表面的な要因によって異なるトークン化が行われる可能性がある。この不整合の影響を測定するため、我々はTokDriftというフレームワークを導入し、トークン化のみが異なるコード変種を生成するための意味を保持した書き換えルールを適用する。30億パラメータを超える大規模モデルを含む9つのコードLLMsにおいて、わずかなフォーマット変更でもモデルの挙動に大きな変化が生じることが確認された。層ごとの分析により、この問題は初期の埋め込み段階で発生し、サブワード分割が文法トークンの境界を適切に捉えられないことが原因であることが明らかになった。我々の研究結果は、トークン化の不整合が信頼性のあるコード理解と生成における隠れた障害であることを示し、将来のコードLLMsにおいて文法を意識したトークン化の必要性を強調するものである。
大規模言語モデル(LLMs)はテキスト推論において優れた性能を発揮しているが、視覚的補助に本質的に依存する幾何学などの数学的領域では苦戦している。既存の視覚的連鎖思考(VCoT)アプローチは、硬直的な外部ツールに制限されるか、複雑な問題解決に必要な高精度で戦略的にタイミングを計った図表の生成に失敗することが多い。このギャップを埋めるため、我々はMathCanvasを導入する。これは、統一された大規模マルチモーダルモデル(LMMs)に数学における本質的なVCoT能力を付与するための包括的なフレームワークである。我々のアプローチは2段階で構成される。まず、視覚的操作段階では、10Mのキャプションと図表のペア(MathCanvas-Imagen)と5.2Mのステップバイステップ編集軌跡(MathCanvas-Edit)からなる新規の15.2Mペアのコーパスを用いてモデルを事前学習し、図表の生成と編集を習得させる。次に、戦略的視覚補助推論段階では、MathCanvas-Instructという新たな219K例の視覚的テキスト的推論パスを織り交ぜたデータセットでモデルを微調整し、視覚的補助をいつどのように活用するかを教える。厳密な評価を可能にするため、我々はMathCanvas-Benchを導入する。これは、モデルが視覚的テキスト的解決策を織り交ぜて生成する必要がある3Kの問題からなる挑戦的なベンチマークである。このフレームワークの下で訓練された我々のモデル、BAGEL-Canvasは、MathCanvas-Benchにおいて強力なLMMベースラインに対して86%の相対的改善を達成し、他の公開数学ベンチマークへの優れた一般化能力を示す。我々の研究は、LMMsにおいて複雑で人間のような視覚補助推論を実現するための完全なツールキット(フレームワーク、データセット、ベンチマーク)を提供する。プロジェクトページ: https://mathcanvas.github.io/
我々は、LLM Brain Rot仮説を提案し検証する:ジャンクなウェブテキストへの継続的な曝露は、大規模言語モデル(LLMs)において持続的な認知能力の低下を引き起こす。データ品質を因果的に分離するため、実際のTwitter/Xコーパスを用いて制御実験を行い、M1(エンゲージメント度)とM2(意味的品質)という二つの直交する操作化により、ジャンクデータセットと逆制御データセットを構築し、トークンスケールとトレーニング操作を条件間で一致させた。対照群とは異なり、4つのLLMをジャンクデータセットで継続的に事前学習させると、推論能力、長文脈理解、安全性、および「ダークトライツ」(例:精神病質、ナルシシズム)の増大において、無視できない低下(Hedges' g>0.3)が観察された。ジャンクと制御データセットの段階的な混合も、用量反応的な認知能力の減衰をもたらす:例えば、M1の下では、ARC-Challenge with Chain Of Thoughtsが74.9から57.2に、RULER-CWEが84.4から52.3に低下し、ジャンク比率が0%から100%に上昇する。 エラーのフォレンジック分析により、いくつかの重要な洞察が得られた。第一に、思考スキップが主要な病変であることが明らかになった:モデルは推論連鎖をますます切り捨てたりスキップしたりし、これがエラーの増大の大部分を説明する。第二に、部分的ではあるが不完全な回復が観察された:指示チューニングのスケーリングとクリーンデータの事前学習は、低下した認知能力を改善するが、ベースライン能力を回復することはできず、持続的な表現的ドリフトが示唆された。最後に、M1において、ツイートの人気度(非意味的指標)が、長さよりもBrain Rot効果のより良い指標であることが発見された。全体として、結果は、データ品質がLLMの能力減衰の因果的駆動力であることを示す多角的な証拠を提供し、継続的事前学習のためのキュレーションをトレーニング時の安全性問題として再定義し、展開されたLLMに対する定期的な「認知健康チェック」の必要性を動機付ける。
近年のマルチモーダル報酬モデル(RMs)の進展により、視覚生成モデルのポストトレーニングが大幅に改善された。しかし、現在のRMsには本質的な限界がある:(1)視覚入力は大きなコンテキスト予算を消費し、フレーム数を制限し、細かな詳細の喪失を引き起こす;(2)すべての視覚情報が初期プロンプトに詰め込まれるため、連鎖的思考推論中の幻覚や忘却が悪化する。これらの問題を克服するため、我々はVideoReward Thinker(VR-Thinker)を提案する。これは、RMに視覚的推論操作(例:フレーム選択)と設定可能な視覚メモリウィンドウを備えた「画像を用いた思考」フレームワークである。これにより、RMはコンテキストの制限内で視覚的証拠を積極的に取得・更新し、推論の忠実度と信頼性を向上させる。視覚的推論は、強化学習による微調整パイプラインを通じて活性化される:(i)基本的な推論スキルと操作フォーマットを蒸留するために、精選された視覚的連鎖的思考データを用いたコールドスタート;(ii)各次元および全体の判断がすべて正しいサンプルを選択し、これらの高品質なトレースに対してリジェクションサンプリング微調整を行い、推論をさらに強化;(iii)グループ相対ポリシー最適化(GRPO)を適用し、推論を強化する。我々のアプローチは、特に長い動画において、ビデオ選好ベンチマークでオープンソースモデルの中で最先端の精度を達成する:7BのVR-Thinkerは、VideoGen Rewardで80.5%、GenAI-Benchで82.3%、MJ-Bench-Videoで75.6%を達成した。これらの結果は、「画像を用いた思考」マルチモーダル報酬モデリングの有効性と可能性を検証するものである。
最近の研究によると、大規模言語モデル(LLMs)は、隠れ状態、アテンション重み、トークン確率などの内部表現に事実性の信号を符号化しており、LLMsが「自分が知らないことを知っている」可能性が示唆されています。しかし、LLMsは、ショートカットや誤った関連性に依存することで事実誤認を生み出すこともあります。これらの誤りは、正しい予測を促すのと同じ訓練目的によって引き起こされており、内部計算が事実と虚構の出力を確実に区別できるかどうかという疑問を提起しています。本研究では、LLMsが事実に関するクエリを内部でどのように処理するかを、主題情報への依存性に基づいて2種類の虚構を比較することで機構論的に分析します。その結果、主題知識に関連する虚構が生じた場合、LLMsは正しい応答と同じ内部想起プロセスを採用し、隠れ状態の幾何学的構造が重複して区別不能になることがわかりました。一方、主題知識から切り離された虚構は、明確でクラスター化された表現を生成し、検出可能になります。これらの発見は、LLMsが内部状態に真実性を符号化するのではなく、知識想起のパターンのみを符号化しているという根本的な限界を明らかにし、「LLMsは本当に自分が知らないことを知らない」ことを示しています。
現代の情報検索(IR)システムは、単純なキーワードや意味的マッチングではなく、深い推論を必要とする複雑で多面的なクエリに応答することがますます求められている。LLM(大規模言語モデル)ベースのIRは大きな可能性を示しているが、現在主流の「検索後に再ランク付け」というパラダイムは、埋め込みベースの検索の限界を引き継いでいる。パラメトリック生成アプローチは新しい情報で更新することが難しく、長文脈メソッドではコーパス全体を文脈に置くことが大規模な文書コレクションでは計算的に非現実的である。これらの課題に対処するため、我々はLATTICEを導入する。これは、コーパスに意味的ツリー構造を課すことで、LLMが対数的検索複雑度で大規模コーパスを推論し、ナビゲートすることを可能にする階層的検索フレームワークである。我々のアプローチは2段階からなる:(1) オフラインフェーズでは、ボトムアップの凝集戦略またはトップダウンの分割戦略を用いて、多段階の要約を通じてコーパスを意味的階層に組織化し、(2) オンライントラバーサルフェーズでは、検索LLMがこのツリーをナビゲートする。このようなLLM誘導検索における中心的な課題は、モデルの関連性判断がノイズを含み、文脈依存的であり、階層を認識していないため、異なるブランチやレベル間の比較が困難であることである。これを克服するため、我々は、ローカルなLLM出力から校正された潜在関連性スコアを推定し、それらをグローバルなパス関連性メトリックに集約するトラバーサルアルゴリズムを提案する。我々のトレーニング不要のフレームワークは、推論集約型のBRIGHTベンチマークにおいて、ゼロショット性能で最先端を達成し、Recall@100で最大9%、nDCG@10で5%の改善を次の最良のゼロショットベースラインに対して示した。さらに、ファインチューニングされたSOTA手法DIVER-v2と比較して、LATTICEは静的コーパスを使用するBRIGHTサブセットにおいて同等の結果を達成した。
大規模なロボットデータで事前学習された現在の視覚-言語-行動(VLA)モデルは、強力なマルチタスク能力を示し、視覚的および言語的な操作指示の変動に対して良好な汎化性能を発揮します。しかし、トレーニングデータ外の物体概念、例えば未見の物体記述やデータセット内のテクスチャなどに直面すると、その成功率は大幅に低下します。この問題に対処するため、我々は新しいエージェント型フレームワークVLA^2を提案します。このフレームワークは、OpenVLAを実行バックボーンとして活用し、ウェブ検索や物体検出などの外部モジュールを効果的に利用して、VLAに対象物体に関する視覚的およびテキスト的な知識を提供します。このアプローチにより、分布外物体の処理における汎化失敗を軽減します。LIBEROシミュレーション環境を基盤として、我々は新しい物体と物体記述を導入し、3つの難易度レベルからなる新しい評価ベンチマークを構築し、本手法の有効性を検証しました。我々のフレームワークは、設計したハードレベルの汎化ベンチマークにおいて、現在の最先端モデルを上回る性能を示しました。スタンドアロンのOpenVLAベースラインと比較して、VLA^2はハードレベルベンチマークで成功率が44.2%向上し、カスタマイズされた全環境において平均20.2%の改善を達成しました。また、ドメイン内タスクでの性能低下は見られませんでした。プロジェクトウェブサイト: https://vla-2.github.io
大規模言語モデル(LLM)がより高度かつ広範に使用されるにつれ、その出力の安全性を確保することがますます重要となっている。既存のガードレールモデルは、静的な評価設定では有用であるものの、実世界のアプリケーションにおいては2つの主要な制限に直面している:(1) 一般的に「安全/不安全」という二値ラベルのみを出力するため、多様な安全ポリシー間で一貫した解釈が難しく、ドメイン間で異なる安全許容度に対応できないこと、(2) 安全性チェックを行う前にモデルの完全な出力を必要とするため、ストリーミングLLM推論と根本的に互換性がなく、生成中のタイムリーな介入を妨げ、有害な部分的な出力への曝露を増加させることである。これらの課題に対処するため、我々はQwen3Guardを提案する。これは、2つの専門化されたバリアントを持つ多言語安全性ガードレールモデルシリーズである:Generative Qwen3Guardは、安全性分類を指示追従タスクとして扱い、細粒度の三値判断(安全、議論の余地あり、不安全)を可能にする。Stream Qwen3Guardは、トークンレベルの分類ヘッドを導入し、インクリメンタルなテキスト生成中のリアルタイム安全性監視を実現する。両バリアントは3つのサイズ(0.6B、4B、8Bパラメータ)で利用可能であり、最大119の言語と方言をサポートし、グローバルなLLM展開のための包括的でスケーラブルかつ低遅延の安全性モデレーションを提供する。英語、中国語、多言語ベンチマークで評価された結果、Qwen3Guardはプロンプトとレスポンスの安全性分類において最先端の性能を達成した。すべてのモデルはApache 2.0ライセンスの下で公開され、一般利用が可能である。
大規模言語モデルは、特に非英語圏において訓練データが不足し、プロセスレベルの監視が欠如している状況下で、創造的な文章作成において体系的な欠陥を示す。本論文では、高品質なテキストを体系的にリバースエンジニアリングすることで、多様な出力とその背後にある思考プロセスを捉えた新しい中国語の創造的文章作成データセットであるCOIG-Writerを提案する。既存のデータセットが入力と出力のペアのみを提供するのに対し、COIG-Writerは51のジャンルにわたる1,665の厳選されたトリプレットで構成され、それぞれに以下が含まれる:(1) リバースエンジニアリングされたプロンプト、(2) 意思決定プロセスを記録した詳細な創造的推論、(3) 最終的なテキスト。包括的な実験を通じて、創造的文章作成の二要素モデルを特定した:物語の論理(プロセス監視によって提供される)と言語表現(汎用データによって維持される)。我々の研究結果は以下の三つの重要な知見を明らかにする:(1) プロセス監視は非常に効果的であるが、汎用データによる安定化が必要である。最適な性能を達成するためには、少なくとも1つの創造的サンプルに対して12の汎用サンプルの比率が必要であり、この閾値を下回ると勝率が徐々に低下する(62.75%から35.78%へ)。(2) 創造的能力は文化的に制約され、言語間での転移はない(中国語と英語の性能間に89.26ppのギャップがある)。(3) 語彙の多様性は創造的品質と逆相関する(TTRのパラドックス)、これは高い多様性が論理的欠陥に対する補償行動を示唆していることを意味する。これらの知見は、創造的卓越性が論理的枠組みと言語的基盤の相互作用から生まれることを確立し、基礎モデルにおいて数学的推論が言語能力を強化するが置き換えることはできないのと同様である。
本研究では、mxbai-edge-colbert-v0モデルを、17Mと32Mという2つの異なるパラメータ数で導入する。研究の一環として、検索および後期相互作用モデルの改善を目的とした多数の実験を行い、その結果を概念実証としてより小さなモデルに蒸留することを目指す。我々の最終的な目標は、クラウド上で動作する大規模検索から、あらゆるデバイス上でローカルに実行可能なモデルまで、あらゆる規模での検索をサポートすることである。mxbai-edge-colbert-v0は、今後のすべての実験のための堅固な基盤となることを期待して開発されたモデルであり、一連の小さな概念実証の最初のバージョンを代表するものである。mxbai-edge-colbert-v0の開発過程では、複数のアブレーションスタディを実施し、その結果を報告する。下流タスクにおける性能に関して、mxbai-edge-colbert-v0は特に優れた小型モデルであり、一般的な短文ベンチマーク(BEIR)においてColBERTv2を上回り、長文タスクにおいても前例のない効率性で大きな進歩を遂げている。
深い研究――数百のライブウェブソースから情報を検索し統合することで、引用に基づいた包括的なレポートを生成すること――は、エージェントシステムにとって重要なフロンティアである。この能力を厳密に評価するためには、以下の4つの原則が不可欠である:タスクは(1)ユーザー中心であり、現実的な情報ニーズを反映するべき、(2)動的であり、パラメトリックな知識を超えた最新の情報を必要とするべき、(3)明確であり、ユーザー間で一貫した解釈を保証するべき、(4)多面的で検索集約的であり、多数のウェブソースにわたる検索と深い分析を必要とするべきである。既存のベンチマークはこれらの原則に欠けており、狭いドメインに焦点を当てたり、公平な比較を妨げる曖昧な質問を提示することが多い。これらの原則に基づいて、我々はLiveResearchBenchを導入する。これは、日常生活、企業、学術界にわたる100の専門家が選定したタスクからなるベンチマークであり、それぞれが広範で動的かつリアルタイムなウェブ検索と統合を必要とする。1,500時間以上の人的労力をかけて構築されたLiveResearchBenchは、体系的な評価のための厳密な基盤を提供する。引用に基づいた長文レポートを評価するために、我々はDeepEvalを導入する。これは、内容レベルとレポートレベルの品質を包括的にカバーする評価スイートであり、カバレッジ、プレゼンテーション、引用の正確性と関連性、一貫性と分析の深さを含む。DeepEvalは、安定した評価と人間の判断との高い一致を保証するために設計された4つの補完的な評価プロトコルを統合している。LiveResearchBenchとDeepEvalを使用して、我々は17の最先端の深い研究システムを包括的に評価する。これには、単一エージェントのウェブ検索、単一エージェントの深い研究、およびマルチエージェントシステムが含まれる。我々の分析は、現在の強み、繰り返し発生する失敗モード、信頼性の高い洞察に満ちた深い研究を進めるために必要な主要なシステムコンポーネントを明らかにする。
現在の選好学習手法は、標準的なベンチマークでは高い精度を達成しているが、客観的な品質指標が除去されると性能が大幅に低下する。本論文では、WritingPreferenceBenchというデータセットを紹介する。これは8つの創作ジャンルにわたる1,800組の人間による注釈付き選好ペア(英語1,200組、中国語600組)から成り、回答は客観的正確性、事実の正確性、長さが一致するように調整されている。このベンチマークでは、RLHF(強化学習による人間のフィードバック)の標準アーキテクチャであるシーケンスベースの報酬モデルは平均52.7%の精度しか達成できない一方、ゼロショットの言語モデル判定器は53.9%の性能を示す。対照的に、明示的な推論チェーンを生成する生成型報酬モデルは81.8%の精度を達成する。また、ジャンル間でのモデル内分散が高いことが観察された:個々のモデルは異なる執筆カテゴリーで18.2%から81.8%の精度を示し、標準偏差は平均10.1%であった。この分散はモデルの規模に関係なく持続し、27Bパラメータのモデルでも8Bバリアントに比べて一貫した改善は見られなかった。これらの結果は、現在のRLHF手法が主に客観的な誤りを検出することを学習し、主観的な品質選好(例えば、創造性、スタイリッシュな表現、感情的な共鳴)を捉えることには至っていないことを示唆している。また、選好モデリングの成功には、直接的な分類ではなく、中間的な推論表現が必要である可能性が示唆される。
本論文では、AnyUpという特徴量アップサンプリング手法を提案する。この手法は、特定のエンコーダーに依存することなく、任意の解像度の視覚特徴量に適用可能である。既存の学習ベースのアップサンプラー(DINOやCLIPなど)は、特徴抽出器ごとに再学習が必要であり、推論時に異なる特徴量タイプに一般化できないという課題があった。本研究では、この制約を緩和し、アップサンプリング品質を向上させるため、推論時に特徴量に依存しないアップサンプリングアーキテクチャを提案する。実験の結果、AnyUpはアップサンプリングされた特徴量において新たな最先端性能を達成し、異なる特徴量タイプに一般化可能であることが示された。さらに、特徴量の意味を保持しつつ、効率的で幅広い下流タスクに容易に適用可能であることを実証した。
複雑な機械の設計は、人間の知性の指標であると同時に、工学実践の基盤でもある。近年の大規模言語モデル(LLMs)の進展を踏まえ、我々はこれらのモデルも創造を学ぶことができるかどうかを問う。この問いに答えるために、我々は構成論的機械設計という視点からアプローチする。これは、標準化された部品を組み立てて、シミュレーションされた物理環境における移動や操作といった機能的要求を満たす機械を設計するタスクである。この研究を支援するため、我々は機械構築ゲーム「Besiege」を基盤としたテストベッド「BesiegeField」を導入した。このプラットフォームは、部品ベースの構築、物理シミュレーション、報酬駆動型の評価を可能にする。BesiegeFieldを用いて、我々は最先端のLLMsをエージェント的なワークフローでベンチマークし、空間推論、戦略的組立、指示の遵守といった成功に必要な主要な能力を特定した。現在のオープンソースモデルがこれらの能力を十分に発揮できないことを受け、我々は強化学習(RL)を改善の道として探求する。具体的には、コールドスタートデータセットを整備し、RLファインチューニング実験を実施し、言語、機械設計、物理推論の交差点における未解決の課題を明らかにする。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLMs)の推論能力を向上させてきた。しかし、既存のRLVR手法は、探索よりも活用に偏る系統的なバイアスを示しており、これはpass@1の向上に対してpass@K(K>1)の性能低下として現れている。この問題を理解するため、我々はRLVR手法の訓練動態を、語彙候補に対するトークンレベルの確率分布を追跡することで分析した。その結果、トップ1候補が確率質量をますます集中させ、他の候補を抑制する一貫した確率集中効果が明らかになった。さらに重要なことに、この過剰集中が強いほどpass@Kの性能が悪化する傾向が見られた。この発見に基づき、我々は過剰集中を緩和し探索を促進する手法として、Simple Pass@K Optimization(SimKO)を提案する。SimKOは非対称的な方法で動作する。検証済みの正解応答に対しては、トップK候補の確率を向上させる。一方、検証済みの不正解応答に対しては、トップ1候補により強いペナルティを適用する。この非対称設計は、特にエントロピーが高いトークンに適用された場合に過剰集中を緩和する効果が顕著であることが観察された。様々な数学および論理推論のベンチマークにおいて、SimKOは広範囲のK値に対して一貫して高いpass@Kを達成し、RLVRの探索能力を向上させるシンプルな方法を提供する。
Vision-Language-Action(VLA)モデルは急速に発展しており、ロボット操作タスクにおいて有望な能力を示しています。しかし、VLAモデルのスケールアップにはいくつかの重要な課題があります:(1)新しいVLAモデルをゼロからトレーニングするには、膨大な計算リソースと大規模なデータセットが必要です。現在、ロボットデータが不足している状況を考慮すると、スケールアッププロセスにおいて、事前に十分にトレーニングされたVLAモデルの重みを最大限に活用することが特に重要です。(2)リアルタイム制御では、モデルの容量と計算効率を慎重にバランスさせる必要があります。これらの課題に対処するため、我々はAdaMoEを提案します。これは、Mixture-of-Experts(MoE)アーキテクチャを採用し、密なVLAモデルから事前学習された重みを継承し、フィードフォワード層を疎に活性化されたMoE層に置き換えることでアクションエキスパートをスケールアップします。AdaMoEは、従来のルーターと並行して動作する独立したスケールアダプターを通じて、エキスパート選択とエキスパート重み付けを分離するデカップリング技術を採用しています。これにより、タスクの関連性に基づいてエキスパートを選択しつつ、独立して制御された重みで貢献させることが可能となり、勝者総取りの動力学ではなく、協調的なエキスパート活用を実現します。我々のアプローチは、専門性が独占される必要がないことを示しています。代わりに、協調的なエキスパート活用を通じて、計算効率を維持しながら優れた性能を達成できます。AdaMoEは、主要なベンチマークにおいてベースラインモデルを一貫して上回り、LIBEROでは1.8%、RoboTwinでは9.3%の性能向上を実現しました。最も重要なのは、実世界の実験において21.5%の大幅な改善が確認され、ロボット操作タスクにおける実用的な有効性が検証されたことです。
Vision-Language-Actionモデル(VLA)は、汎用ロボット操作を実現するための大きな可能性を秘めている。しかし、その構築方法については未だに議論の余地がある。現在のアプローチでは、Vision-Languageモデル(VLM)の既存の語彙にアクショントークンを追加したり、特別なアクションヘッドを導入するなど、複雑さを増す傾向がある。興味深いことに、アクションを直接テキストとして表現するという最もシンプルな戦略は、ほとんど検討されていない。本研究では、このアイデアを検証するためにVLA-0を提案する。VLA-0は効果的であるだけでなく、驚くほど強力であることがわかった。適切な設計を行うことで、VLA-0はより複雑なモデルを凌駕する。VLAの評価において広く使用されているベンチマークであるLIBEROにおいて、VLA-0は同じロボットデータで訓練された既存の手法(pi_0.5-KI、OpenVLA-OFT、SmolVLAなど)を全て上回った。さらに、大規模なロボット固有の訓練を行わなくても、pi_0.5-KI、pi_0、GR00T-N1、MolmoActなど、大規模なロボットデータで訓練された手法を上回る結果を示した。これらの知見は現実世界でも適用可能であり、VLA-0は大規模な実データで事前訓練されたVLAモデルであるSmolVLAを上回った。本論文では、このシンプルでありながら強力なVLA設計の高性能を引き出すために必要な具体的な技術をまとめ、予想外の結果を報告する。視覚的な結果、コード、および訓練済みモデルは以下のURLで提供されている:https://vla0.github.io/。
大規模言語モデル(LLMs)は、自動機械学習研究エージェントに対する関心の高まりを引き起こしています。特に、自律的にアイデアを提案し、機械学習実験を実施できるエージェントは、研究の自動化を最大化し、実験結果に基づいてアイデアを反復的に洗練することで科学的進歩を加速する点で非常に有望です。しかし、このようなエージェントを包括的に評価することは依然として困難です。既存のベンチマークは、工学面を過度に重視する一方で学術的厳密性を軽視しており、機械学習研究におけるエージェントの科学的能力を明確に評価するための障壁となっています。また、タスクの多様性が限られており、応用指向のタスクに偏りがちで、基本的な研究問題に対する取り組みが不足しているほか、現実的な研究環境へのスケーラビリティも限られています。これらの課題に対処するため、我々はFML-benchを導入しました。これは、8つの多様で基本的な機械学習研究問題に基づいて自動機械学習研究エージェントを評価するために設計されたベンチマークです。これにより、コーディング負荷が軽減され、特定のユースケースではなく基本的な問題に重点が置かれ、高いタスク多様性が提供され、現実世界の機械学習GitHubリポジトリへの拡張性が確保されています。さらに、我々は5つの補完的なメトリクスからなる統一評価フレームワークを提示し、ベンチマーク上でのエージェントのパフォーマンスを包括的に評価することを目指しています。我々は最先端の自動研究エージェントをFML-benchで評価し、広範な研究探索戦略を採用するエージェントが、狭く深い探索に焦点を当てるエージェントを上回ることを発見しました。これらの結果は、探索の幅を重視することが、漸進的な洗練にのみ焦点を当てるよりも効果的な研究成果につながる可能性を示唆しています。我々のベンチマークはhttps://github.com/qrzou/FML-benchで公開されています。
数ステップの拡散またはフローベースの生成モデルは、通常、速度を予測する教師モデルを、ノイズ除去されたデータへのショートカットを予測する学生モデルに蒸留します。この形式の不一致は、品質と多様性のトレードオフに悩まされる複雑な蒸留手順を引き起こしてきました。この問題に対処するため、我々はポリシーベースのフローモデル(pi-Flow)を提案します。pi-Flowは、学生フローモデルの出力層を修正し、1つのタイムステップでネットワークフリーのポリシーを予測します。このポリシーは、将来のサブステップで動的なフロー速度を生成し、追加のネットワーク評価なしに高速かつ正確なODE積分を可能にします。ポリシーのODE軌跡を教師モデルの軌跡に一致させるために、我々は新しい模倣蒸留アプローチを導入します。このアプローチでは、標準的なℓ₂フローマッチング損失を使用して、ポリシーの軌跡に沿ってポリシーの速度を教師モデルの速度に一致させます。教師モデルの動作を単純に模倣することで、pi-Flowは安定したスケーラブルなトレーニングを可能にし、品質と多様性のトレードオフを回避します。ImageNet 256^2では、1-NFE FIDが2.85を達成し、同じDiTアーキテクチャのMeanFlowを上回ります。FLUX.1-12BおよびQwen-Image-20Bでは、4 NFEsで、最先端の数ステップ手法よりも大幅に優れた多様性を実現しつつ、教師モデルレベルの品質を維持します。
多段階推論は、複雑な問題を逐次的なサブステージに分解することで、小規模言語モデルの推論能力を向上させる効果的な戦略として注目されている。しかし、これにはレイテンシの増加という代償が伴う。既存の適応的加速技術、例えばレイヤースキップは、この設定において効率と精度のバランスを取ることに苦労していることが観察される。これは主に2つの課題によるものである:(1) ステージごとのスキップ感度の変動、(2) 冗長な出力トークンの生成。これらの課題に対処するため、我々は多段階推論のためのレイテンシを意識したレイヤースキップフレームワークであるLiteStageを提案する。LiteStageは、最適なレイヤーバジェットを割り当てるステージごとのオフライン探索と、不要なデコードを抑制するためのオンラインの信頼度ベースの生成早期終了を組み合わせている。OBQA、CSQA、StrategyQAの3つのベンチマークでの実験により、LiteStageは4.0%以下の精度損失で最大1.70倍の高速化を達成し、従来のトレーニング不要なレイヤースキップ手法を上回ることを示した。
大規模な事前学習済みモデルの急速な進展は、視覚コンテンツ生成と3D再構成の両方において、テキストから3D生成への新たな可能性を開拓している。直感的には、現代的な潜在テキスト-ビデオモデルを「ジェネレータ」として、最近の(フィードフォワード型)3D再構成システムの幾何学的能力を「デコーダ」として組み合わせることができれば、強力な3Dシーンジェネレータを実現できるだろう。本論文では、VIST3Aという一般的なフレームワークを提案し、これにより2つの主要な課題に対処する。第一に、両コンポーネントを結合する際に、それらの重みにエンコードされた豊富な知識を保持する必要がある。我々はモデルステッチングを再検討し、テキスト-ビデオジェネレータが生成する潜在表現に最も適合する3Dデコーダの層を特定し、両者を結合する。この操作には、小さなデータセットのみが必要で、ラベルは不要である。第二に、テキスト-ビデオジェネレータは、結合された3Dデコーダと整合させる必要があり、生成された潜在表現が一貫性があり、知覚的に説得力のある3Dシーン幾何学にデコードされることを保証する。そのために、人間の嗜好に合わせるための一般的な手法である直接報酬ファインチューニングを適用する。提案するVIST3Aアプローチを、異なるビデオジェネレータと3D再構成モデルを用いて評価する。すべてのテストされた組み合わせは、ガウススプラットを出力する従来のテキスト-3Dモデルを大幅に上回る。さらに、適切な3Dベースモデルを選択することで、VIST3Aは高品質なテキスト-ポイントマップ生成も可能にする。
最近の画像編集モデルは、自然言語による編集指示に従って印象的な結果を達成しているが、それらは入力とターゲットのペアからなる大規模なデータセットを用いた教師ありファインチューニングに依存している。これは重要なボトルネックであり、そのような自然に発生するペアを大規模にキュレーションすることは困難である。現在の回避策として、既存モデルのゼロショット能力を活用した合成トレーニングペアが使用されている。しかし、これにより事前学習モデルのアーティファクトが最終的な学習済みモデルに伝播・増幅される可能性がある。本研究では、ペアデータを完全に不要とする新しいトレーニングパラダイムを提案する。我々のアプローチでは、トレーニング中に数ステップの拡散モデルを展開し、視覚言語モデル(VLM)からのフィードバックを活用することで直接最適化を行う。各入力と編集指示に対して、VLMは編集が指示に従い、変更されていない内容を保持しているかどうかを評価し、エンドツーエンド最適化のための直接的な勾配を提供する。視覚的な忠実度を確保するために、事前学習モデルによって学習された画像多様体内に生成画像を留める分布マッチング損失(DMD)を組み込む。我々の手法を標準的なベンチマークで評価し、広範なアブレーションスタディを含める。ペアデータを一切使用せずに、我々の手法は数ステップ設定の下で、広範な教師ありペアデータで学習された様々な画像編集拡散モデルと同等の性能を発揮する。報酬モデルとして同じVLMが与えられた場合、Flow-GRPOのようなRLベースの技術も上回る。
ビデオ生成モデルは近年、合成品質において顕著な進歩を遂げています。しかし、複雑な動きの生成は依然として重要な課題であり、既存のモデルは自然で滑らかかつ文脈に合致した動きを生成するのに苦戦しています。生成された動きと現実世界の動きとのこのギャップは、実用性を制限しています。この問題に対処するため、我々はRealDPOを提案します。これは、現実世界のデータを選好学習のための正例として活用する新しいアライメントパラダイムであり、より正確な動きの合成を可能にします。従来の教師あり微調整(SFT)が提供する限定的な修正フィードバックとは異なり、RealDPOはDirect Preference Optimization(DPO)を採用し、動きのリアリズムを向上させるための独自の損失関数を使用します。現実世界のビデオと誤ったモデル出力を対比させることで、RealDPOは反復的な自己修正を可能にし、動きの品質を段階的に向上させます。複雑な動きの合成におけるポストトレーニングを支援するため、我々はRealAction-5Kを提案します。これは、人間の日常活動を捉えた高品質なビデオのキュレーションデータセットであり、豊かで精密な動きの詳細を含んでいます。大規模な実験により、RealDPOが最先端のモデルや既存の選好最適化技術と比較して、ビデオ品質、テキストアライメント、および動きのリアリズムを大幅に向上させることが実証されています。
大規模言語モデルの開発は大規模なトレーニングコーパスに依存していますが、そのほとんどはライセンス状態が不明なデータを含んでおり、真にオープンなモデルの開発を制限しています。この問題は非英語言語においてさらに深刻で、オープンライセンスのテキストが極めて不足しています。本稿では、これまでで最大のオープンライセンスドイツ語テキストコレクションである「German Commons」を紹介します。これは、法律、科学、文化、政治、ニュース、経済、ウェブテキストの7つのドメインにわたる41のソースからのデータを集約しています。検証可能なライセンスを持つ確立されたデータプロバイダーからの体系的な収集により、154.56億トークンの高品質なテキストを言語モデルトレーニング用に提供します。私たちの処理パイプラインは、包括的な品質フィルタリング、重複排除、テキストフォーマット修正を実装し、異種のテキストソース間で一貫した品質を確保します。すべてのドメインサブセットは、少なくともCC-BY-SA 4.0または同等のライセンスを特徴としており、モデルトレーニングと再配布の法的遵守を保証します。したがって、German Commonsは、オープンライセンスのドイツ語事前学習データにおける重要なギャップを解消し、真にオープンなドイツ語言語モデルの開発を可能にします。また、ドイツ語テキストに特化したコーパス構築とデータフィルタリングのコードも公開し、German Commonsを完全に再現可能かつ拡張可能にしています。
リカレント深度を持つ言語モデル(トランスフォーマーを考慮する場合、ユニバーサルまたはループ型とも呼ばれる)は、層の繰り返しを通じて計算量を増加させる能力によって定義されます。最近の事前学習の取り組みにより、これらのアーキテクチャが現代の言語モデリングタスクにスケールし、推論タスクにおいて優位性を示すことが実証されています。本研究では、リカレント深度モデルと拡散言語モデルの関係を検討します。これらの類似性を基に、生成を加速するための新しい拡散強制サンプラーを開発します。このサンプラーは、モデルの各フォワードパスで新しいトークンをデコードしながら、これらのトークンの潜在状態を並列的にリカレンスを通じてさらに洗練させます。理論的には、現代のハードウェア上で同じ時間予算を使用した場合、このサンプラーによる生成はベースラインの自己回帰生成よりも厳密に表現力が高くなります。さらに、拡散文献の原則に基づくこのサンプラーは、チューニングなしで既存の3.5Bリカレント深度トランスフォーマーに直接適用でき、最大5倍の高速化を実現します。その結果、我々の知見は、推論時にリカレント深度モデルの追加計算を並列化する効率的なメカニズムを提供するだけでなく、そのようなモデルが強力な連続的(ただし因果的)拡散言語モデルとして自然に捉えられることを示唆しています。
体系的で合成的な一般化能力を、訓練分布を超えて実現することは、機械学習における中核的な課題であり、現代の言語モデルが持つ新興の推論能力にとって重大なボトルネックとなっている。本研究では、Transformerネットワークにおける分布外(OOD)一般化を、GSM8Kスタイルの計算グラフ上のモジュラー算術タスクをテストベッドとして調査する。OOD一般化を強化するための4つのアーキテクチャメカニズムを導入し、探求する:(i) 入力適応型再帰、(ii) アルゴリズム的教師あり学習、(iii) 離散ボトルネックによるアンカー付き潜在表現、そして(iv) 明示的な誤り訂正メカニズムである。これらのメカニズムを統合することで、Transformerネットワークにおいて、堅牢なアルゴリズム的一般化能力を備えたネイティブでスケーラブルな潜在空間推論を実現するアーキテクチャ手法を提案する。これらの実験結果を補完するため、詳細なメカニズム解釈分析を行い、これらのメカニズムがどのようにして堅牢なOOD一般化能力を生み出すかを明らかにする。
デジタルエージェントは、現実世界のタスクに汎化するために多様で大規模なUI軌跡を必要とするが、そのようなデータを収集することは、人間によるアノテーション、インフラ、およびエンジニアリングの観点から非常にコストがかかる。この問題に対処するため、我々はUI-Simulatorを提案する。これは、構造化されたUI状態と遷移を生成し、大規模なトレーニング軌跡を合成するためのスケーラブルなパラダイムである。このパラダイムは、多様なUI状態を生成するデジタルワールドシミュレータ、一貫した探索を可能にするガイド付きロールアウトプロセス、およびエージェントトレーニングのための高品質で多様な軌跡を生成する軌跡ラッパーを統合している。さらに、我々はUI-Simulator-Growを提案する。これは、高影響タスクを優先し、情報量の多い軌跡バリアントを合成することで、より迅速かつデータ効率的なスケーリングを可能にするターゲットスケーリング戦略である。WebArenaとAndroidWorldでの実験により、UI-Simulatorは、より弱い教師モデルを使用しているにもかかわらず、実UIでトレーニングされたオープンソースエージェントに匹敵またはそれを上回る堅牢性を示すことが確認された。さらに、UI-Simulator-Growは、ベースモデルとしてLlama-3-8B-Instructのみを使用しながら、Llama-3-70B-Instructの性能に匹敵し、ターゲット合成スケーリングパラダイムがデジタルエージェントを継続的かつ効率的に強化する可能性を強調している。
英語のようなコンタクト言語は、方言という形で豊かな地域的バリエーションを示しており、方言話者が生成モデルとやり取りする際によく使用されます。しかし、マルチモーダル生成モデルは、方言テキスト入力を与えられた場合に効果的にコンテンツを生成できるのでしょうか?本研究では、この疑問を探るため、6つの一般的な英語方言にまたがる新たな大規模ベンチマークを構築しました。方言話者と協力して4200以上のユニークなプロンプトを収集・検証し、17の画像および動画生成モデルを評価しました。自動評価と人間による評価の結果、現在の最先端マルチモーダル生成モデルは、プロンプトに単一の方言単語が使用された場合、32.26%から48.17%の性能低下を示すことがわかりました。ファインチューニングやプロンプト書き換えなどの一般的な緩和策では、方言性能をわずかに改善するのみ(<7%)であり、標準アメリカ英語(SAE)での性能低下を招く可能性があります。このため、我々はマルチモーダル生成モデル向けの一般的なエンコーダベースの緩和戦略を設計しました。我々の手法は、モデルに新しい方言特徴を認識させつつ、SAE性能を維持することを教えます。Stable Diffusion 1.5などのモデルでの実験では、我々の手法が5つの方言での性能をSAEと同等に向上させ(+34.4%)、SAE性能への影響をほぼゼロに抑えることができました。
リポジトリレベルでの事前学習は、大規模言語モデルがコードベース全体の文脈を活用するために一般的に使用される。これにより、正確で文脈を考慮したコード補完を生成する能力が向上する。本研究では、1.5BパラメータのモデルであるOpenCoderにおいて、異なるリポジトリ処理戦略がインコンテキスト学習にどのように影響するかを調査する。我々は、追加の1Bトークンのキュレーションされたリポジトリレベルのデータを学習することで、そのコンテキストウィンドウを4,096トークンから16,384トークンに拡張した。競合モデル(しばしば数百億トークンを使用する)よりも小規模なデータセットに依存しているにもかかわらず、我々のモデルはLong Code Arenaベンチマークで同等の性能を達成する。様々なリポジトリ処理技術が同様に強力な結果をもたらすことがわかり、主な利得は新しいロータリーポジショナルエンベディング(RoPE)スケーリングパラメータへの適応から得られる。最後に、元のシーケンス長でのよりシンプルなファイルレベルでの学習アプローチが依然として非常に有効であることを示し、データと計算リソースがより制約された環境でのリポジトリレベルのコード補完研究の可能性を開く。
テストタイムスケーリングは、大規模言語モデルの複雑な推論タスクにおける性能向上に有効な戦略である。最先端のアプローチでは、候補プールから最適な解を選択するために生成的検証器を利用することが多いが、この方法は計算コストが非常に高く、実用性が制限される。本研究では、より予算を意識したパラダイムである識別的検証に焦点を当てる。徹底的な実証分析を行い、識別的検証器は単独では性能が劣るものの、自己一貫性と組み合わせたハイブリッドアプローチにより、強力で効率的なテストタイムスケーリングメカニズムが実現されることを示す。特に、固定された計算予算の下では、このハイブリッドアプローチは最先端の生成的検証を大幅に上回り、AIME2025において最大15.3%の精度向上を達成した。我々の知見は、実用的な現実世界のアプリケーションにおいて、識別的検証器を用いた予算を意識したスケーリングが、自己一貫性に対する「無料」のアップグレードであるだけでなく、高コストな生成的手法よりも効果的で効率的な代替手段であることを確立する。コードはhttps://github.com/wang-research-lab/verificationで公開されている。
近接した人間同士のインタラクティブなポーズは、相互作用のダイナミクスに関する豊かな文脈情報を伝達する。このようなポーズが与えられると、人間は直感的にその文脈を推測し、過去および未来のダイナミクスを予測することができる。これは、人間の行動に関する強い事前知識に基づいている。この観察に着想を得て、我々はPonimatorを提案する。これは、多様なインタラクションアニメーションのための、近接インタラクティブポーズに基づいたシンプルなフレームワークである。我々のトレーニングデータは、モーションキャプチャインタラクションデータセットから得られた、密接な接触を持つ二人のポーズとその周囲の時間的文脈から構成されている。インタラクティブポーズの事前知識を活用し、Ponimatorは二つの条件付き拡散モデルを採用している:(1) 時間的事前知識を用いてインタラクティブポーズから動的なモーションシーケンスを生成するポーズアニメーター、(2) 空間的事前知識を適用して、インタラクティブポーズが利用できない場合に、単一のポーズ、テキスト、またはその両方からインタラクティブポーズを合成するポーズジェネレーター。全体として、Ponimatorは、画像ベースのインタラクションアニメーション、リアクションアニメーション、テキストからインタラクションへの合成など、多様なタスクをサポートし、高品質なモーションキャプチャデータからオープンワールドシナリオへのインタラクション知識の転移を容易にする。多様なデータセットとアプリケーションにわたる実証実験は、ポーズの事前知識の普遍性と、我々のフレームワークの有効性および堅牢性を示している。
スケーリング則は、クロスエントロピー損失などの上流指標を、モデルサイズ、トレーニングデータ、計算量などの設計要因と結びつけることで、大規模言語モデルの理解を革新してきました。しかし、これらの従来の法則は、文脈が重要な役割を果たす下流タスクの性能を捉えることができません。本研究では、トレーニング計算量と提供される文脈の関数として下流性能を共同でモデル化する、シンプルで解釈可能なフレームワークを提案します。このフレームワークを、Llama-2-7BおよびLlama-2-13Bの拡張文脈バリアントの下流性能を、算術推論、常識推論、機械翻訳の3つのタスクにわたる65,500のユニークなインスタンスで観測し、実証的に検証します。結果は、このフレームワークが分布内の下流性能を正確にモデル化し、トレーニング計算量の3桁にわたる範囲で一般化し、文脈量が増加するにつれて性能を信頼性高く外挿することを示しています。これらの知見は、トレーニング計算量と文脈利用の相互作用に関する貴重な洞察を提供し、多様な下流タスクのための効率的な長文脈LLMの設計に指針を与えます。コードはhttps://github.com/wang-research-lab/context-scalingで公開されています。
ウェブベースの「深層研究」エージェントは、オンラインツールとの長期的な相互作用を通じて、複雑な質問応答タスクを解決することを目指している。これらのタスクは依然として困難であり、基盤となる言語モデルが長期的な推論と探索に最適化されていないことがその理由である。これまでの研究では、知識グラフを活用した指示チューニングデータセットの構築ワークフローが提案されてきた。しかし、そのような方法は通常、難易度と品質に対する細かい制御が欠けており、長期的な推論に必要な複雑さを捉えるには不十分な合成データを生成する。さらに、多くの研究では、異なる最適化レシピで訓練されたモデルを比較することで、データと訓練効果を混同しており、データ自体の有効性を分離して評価することが困難である。我々は、タスクの複雑さを段階的に増加させ、フロンティアベースラインのウェブエージェントが失敗するまで質問-回答ペアを生成する二段階のデータ合成パイプラインを導入する。このプロセスにおいて、ベースラインエージェントは複数の役割を果たす:質問を試みる、事実性を検証する、代替回答をチェックする、フィルタリングを実施する。我々の合成方法の有効性を評価するために、強力なウェブエージェントからの蒸餾に基づく制御された訓練セットアップを採用する。複数のウェブベースのベンチマークでの実験結果は、我々のデータセットが既存のデータセットよりも小規模であるにもかかわらず、より効果的なウェブエージェントの訓練を可能にすることを示している。特に、我々のデータはツール使用アクションの多様性が2倍であり、それに基づいて訓練されたモデルが反復的なツール呼び出し行動を回避しながら、より強力な性能を達成することを可能にする。
従来のRAGパラダイムは、受信したクエリに応じて関連するテキストチャンクの理解を行うことが一般的であり、知識の内在化の深さと推論能力の両方を本質的に制限している。この制限に対処するため、本研究ではRAGにおけるテキスト処理を、受動的なチャンキングから能動的な理解へと転換し、このプロセスを文書メモリ抽出として定義し、読書中の人間の認知プロセスをシミュレートすることを目的とする。これに基づいて、複数のドメインからの文書を効率的に処理し、小型言語モデル(SLMs)が能動的に文書メモリを探索・構築する能力を獲得するためのMixtures of scenario-aware document Memories(MoM)フレームワークを提案する。MoMはまず、大規模言語モデル(LLMs)にドメインエキスパートをシミュレートさせ、文書の論理的なアウトラインを生成し、構造化されたチャンキングとコアコンテンツの抽出を導く。さらに、多経路サンプリングと多視点評価メカニズムを採用し、チャンクの明瞭さと抽出の完全性を表す包括的な指標を設計して、最適な文書メモリを選択する。加えて、SLMsのトレーニング中により深い人間らしい読解能力を注入するため、高品質な結果から洗練されたエキスパートの思考経路を推論する逆推論戦略を組み込む。最後に、MoMによって生成された多様な形式のコンテンツを活用し、確率モデリングの観点からの理論的証明に基づいた3層の文書メモリ検索メカニズムを開発する。3つの異なるドメインにわたる広範な実験結果は、MoMフレームワークが既存のRAGシステムにおけるテキストチャンキングの課題を解決し、LLMsに意味的に完全な文書メモリを提供するだけでなく、SLMsが人間中心のインテリジェントなテキスト処理を実現する道を開くことを示している。
持続的な動的シーンモデリングによる追跡と新視点合成は、計算効率を維持しながら正確な変形を捉えることの難しさから、依然として課題となっている。本研究では、動的シーンにおける3Dガウススプラッティングの構造的パターンを活用するカスケード最適化フレームワークであるSCas4Dを提案する。その核となる考え方は、現実世界の変形はしばしば階層的なパターンを示し、ガウシアンのグループが類似の変換を共有するというものである。SCas4Dは、粗いパートレベルから細かいポイントレベルへと変形を段階的に洗練させることで、1タイムフレームあたり100回の反復で収束し、既存手法と同等の結果をトレーニング回数の20分の1で達成する。このアプローチは、自己教師ありの関節オブジェクトセグメンテーション、新視点合成、密なポイント追跡タスクにおいても有効性を示している。
大規模言語モデル(LLMs)は、役割を演じるエージェントとしてますます利用されているが、バージョン固有のキャラクター――例えば、コミックや映画のユニバースにまたがるスーパーヒーロー――を忠実かつ一貫して描写する能力については、まだ十分に検証されていない。マーベルやDCなどのスーパーヒーロー作品は、豊かな実験場を提供する:数十年にわたるストーリーテリングにより、同じキャラクターでも異なる歴史、価値観、道徳観を持つ複数の化身が生み出されている。この問題を研究するため、我々は「Beyond One World」というベンチマークを導入した。これは、30人の象徴的なヒーローと90のカノン固有のバージョンにわたるキャラクター基盤のロールプレイを対象としている。このベンチマークは2つのタスクで構成される:(i) カノンイベント:キャラクターの重要な人生の段階に関する事実の記憶を探るもの、(ii) モラルジレンマ:倫理的に難しいシナリオにモデルを直面させるもの。我々は、内部の熟考(「思考」)と外部の決定(「行動」)を分離するフレームワークの下で、応答のカノン的精度と推論の忠実度を評価する。さらに、理由と行動の整合性を定量化し、モデルの信頼性の代理指標として機能する「Think-Act Matching」という指標を提案する。推論指向および非推論指向のモデルを対象とした実験から、以下の3つの知見が得られた:(1) チェーン・オブ・シンクト(連鎖的思考)プロンプトは、弱いモデルでは物語の一貫性を向上させるが、強いモデルではカノン的精度を低下させる可能性がある、(2) キャラクター内でのクロスバージョン汎化は依然として大きな障害である、(3) モデルはしばしば「思考」または「行動」のいずれかに優れているが、両方に優れていることは稀である。「Beyond One World」は、マルチバースの一貫性と推論の整合性における重要なギャップを明らかにし、ロールプレイLLMsにとって挑戦的な評価を提供する。
RAGシステムにおける言語モデルの能力の一つである、欠陥のある文脈に基づいて選択的に回答を拒否する能力は、安全性の観点から極めて重要であるが、依然として重大な失敗ポイントとなっている。我々の大規模な研究により、最先端のモデルでさえこの設定において苦戦し、複数文書タスクでの拒否精度が50%を下回り、危険な過信または過度の慎重さを示すことが明らかになった。静的ベンチマークはこの能力を確実に評価することができず、モデルはデータセット固有のアーティファクトを利用し、テストインスタンスを記憶してしまう。我々はRefusalBenchを導入し、制御された言語的摂動を通じてプログラム的に診断テストケースを作成する生成手法を提案する。このフレームワークは、情報の不確実性の6つのカテゴリーと3つの強度レベルにわたる176の異なる摂動戦略を採用している。30以上のモデルの評価により、体系的な失敗パターンが明らかになった:拒否は検出と分類の分離可能なスキルで構成されており、スケールや拡張推論も性能を向上させない。選択的拒否は訓練可能でアライメントに敏感な能力であり、改善の明確な道筋を提供する。我々は、この重要な能力の継続的で動的な評価を可能にするため、2つのベンチマーク――RefusalBench-NQ(単一文書)とRefusalBench-GaRAGe(複数文書)――および完全な生成フレームワークを公開する。
検索拡張生成(RAG)は、外部情報を動的に取得することで、大規模言語モデル(LLM)の主要な制約(事実誤り、陳腐化した知識、虚構生成など)を緩和します。最近の研究では、LLMをエージェントとして複雑なクエリに対して反復的に計画、検索、推論を行うエージェント型RAGシステムを通じて、このパラダイムを拡張しています。しかし、これらのシステムは依然として難しいマルチホップ質問に苦戦しており、中間推論能力は十分に探究されていません。これを解決するため、我々はRAGCap-Benchを提案します。これは、エージェント型RAGワークフローの中間タスクを詳細に評価するための能力指向ベンチマークです。最先端システムの出力を分析し、一般的なタスクとその実行に必要な中核能力を特定し、典型的なLLMエラーの分類体系を構築して、ターゲットを絞った評価質問を設計します。実験結果から、「スローシンキング」モデルがRAGCap性能を強化することでエンドツーエンドの結果が向上することが示され、ベンチマークの有効性とこれらの中間能力を強化する重要性が強調されました。
プロセス報酬モデル(PRM)は、中間ステップを監督しエラーを特定することで、大規模言語モデル(LLM)における多段階推論を改善することを目指している。しかし、スケーラブルで高品質なアノテーションの不足により、効果的なPRMの構築は依然として課題となっている。既存のアプローチは、コストのかかる人間によるラベリング、幻覚を起こしやすいLLMベースの自己評価、またはロールアウト結果のみからステップの品質を推測するモンテカルロ(MC)推定に依存しており、クレジットの誤帰属によるノイズの多い、整合性のない監督をしばしば導入している。これらの問題は、ノイズの多い報酬、低い事実的忠実度、およびステップレベルの推論目標とのミスアラインメントという3つの核心的な制限をもたらす。これらの課題に対処するため、我々はGroundedPRMを導入する。これは、ツリーガイド型で忠実度を意識した自動プロセス監督のフレームワークである。報酬ノイズを低減し、細粒度のクレジット割り当てを可能にするために、モンテカルロ木探索(MCTS)を介して構造化された推論パスを構築する。幻覚を起こした監督を排除するために、外部ツールを使用して各中間ステップを検証し、実行に基づいた正しさの信号を提供する。ステップレベルの検証とグローバルな結果評価の両方を組み合わせるために、ツールベースの検証とMCTSから得られたフィードバックを融合するハイブリッド報酬集約メカニズムを設計する。最後に、報酬信号を解釈可能性と命令調整されたLLMとの互換性を促進するための根拠を強化した生成構造にフォーマットする。GroundedPRMは、自動ラベル付けされた40Kサンプルのみでトレーニングされ、これは自動ラベル付けされた監督でトレーニングされた最高性能のPRMが使用したデータのわずか10%に相当する。それにもかかわらず、ProcessBenchにおける平均性能で最大26%の相対的改善を達成する。報酬誘導型の貪欲探索に使用された場合、GroundedPRMは人間によるラベル付けされた監督でトレーニングされたPRMをも上回り、高品質なプロセスレベル推論に向けたスケーラブルで検証可能な道を提供する。
推測的デコードは、ドラフトモデルを使用して先読みすることでLLM推論を加速しますが、その利得は自己回帰的なドラフト生成のコストによって制限されます。ドラフトサイズを増やすと受容率は向上しますが、追加のレイテンシオーバーヘッドが発生し、速度と精度のトレードオフが悪化します。従来の手法(Medusa、Hydra、EAGLE)はドラフトコストを部分的に削減しますが、受容率を低下させるか、スケーリングを制限するオーバーヘッドを導入します。本論文では、レイテンシと受容率のトレードオフを打破する推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案します。Mirror-SDは、ターゲットモデルのサフィックスと並行して早期終了信号からブランチ完全なロールアウトを開始し、異種アクセラレータ(GPUとNPU)間で計算を明示的にマッピングして、クロスデバイスの並列性を活用します。ドラフトはターゲットが検証するための前方の継続を推測し、ターゲットは同時にドラフトの修正パスを推測することで、推測を2つの補完的な実行パイプラインに変換します。さらに、受容セマンティクスを弱めることなくドラフトのレイテンシを削減するために、ドラフトがステップごとに複数のトークンを出力する推測的ストリーミングを追加します。この並列異種実行とマルチトークン推測的ストリーミングの二重戦略により、推測的デコードは高い受容率と低いオーバーヘッドという理想的な領域に近づきます。14Bから66Bパラメータのサーバースケールモデルを使用したSpecBenchにおいて、Mirror-SDは一貫したエンドツーエンドの利得を提供し、多様なタスクで2.8倍から5.8倍の壁時間高速化を達成し、最強のベースラインであるEAGLE3に対して平均30%の相対的改善を実現しました。