翻訳付きの日次キュレーションされたAI研究論文
ウェブナビゲーションは、多くの反復的な現実世界のタスクを自動化できる独特な領域であり、典型的なマルチモーダル大規模言語モデル(MLLM)タスクを超えた長期的な逐次意思決定を必要とするため、挑戦的です。しかし、これまで、トレーニング時とテスト時の両方で利用可能な、ウェブナビゲーション専用の報酬モデルは存在しませんでした。速度とコスト効率の重要性にもかかわらず、これまでの研究ではMLLMを報酬モデルとして使用しており、実世界での展開に大きな制約をもたらしていました。これを解決するため、本研究では、ウェブナビゲーションの軌跡をステップレベルで評価できる初のプロセス報酬モデル(PRM)である「Web-Shepherd」を提案します。これを実現するために、まず、多様なドメインと難易度にわたる40Kのステップレベルの選好ペアと注釈付きチェックリストを含む大規模データセット「WebPRM Collection」を構築しました。次に、PRMを評価するための初のメタ評価ベンチマーク「WebRewardBench」も導入しました。実験では、Web-ShepherdがWebRewardBenchにおいてGPT-4oを使用した場合と比較して約30ポイント高い精度を達成することを確認しました。さらに、GPT-4o-miniをポリシーとして、Web-Shepherdを検証器として使用してWebArena-liteでテストした場合、GPT-4o-miniを検証器として使用した場合と比較して10.9ポイント高いパフォーマンスを、10分の1のコストで達成しました。私たちのモデル、データセット、コードはLINKで公開されています。
我々は、テキスト推論、マルチモーダル理解、テキストから画像生成といった多様な領域で優れた性能を発揮することを目的とした、新たなマルチモーダル拡散基盤モデル「MMaDA」を紹介する。このアプローチは、以下の3つの主要な革新によって特徴づけられる。(i) MMaDAは、共有された確率的定式化とモダリティに依存しない設計を備えた統一拡散アーキテクチャを採用し、モダリティ固有のコンポーネントを不要とする。このアーキテクチャにより、異なるデータタイプ間のシームレスな統合と処理が保証される。(ii) 我々は、モダリティ間で統一された連鎖思考(CoT)形式を整備する混合長連鎖思考(CoT)ファインチューニング戦略を実装する。テキストと視覚領域間の推論プロセスを整合させることで、この戦略は最終的な強化学習(RL)段階のコールドスタートトレーニングを促進し、モデルが初めから複雑なタスクを処理する能力を向上させる。(iii) 我々は、拡散基盤モデルに特化した統一ポリシー勾配ベースのRLアルゴリズム「UniGRPO」を提案する。多様化された報酬モデリングを活用することで、UniGRPOは推論と生成タスクの両方にわたるポストトレーニングを統一し、一貫した性能向上を保証する。実験結果は、MMaDA-8Bが統一マルチモーダル基盤モデルとして強力な汎化能力を示すことを実証している。MMaDA-8Bは、テキスト推論においてLLaMA-3-7BやQwen2-7Bといった強力なモデルを凌駕し、マルチモーダル理解においてShow-oやSEED-Xを上回り、テキストから画像生成においてSDXLやJanusを凌ぐ。これらの成果は、MMaDAが統一拡散アーキテクチャ内での事前学習とポストトレーニングのギャップを埋める有効性を強調し、将来の研究開発のための包括的なフレームワークを提供する。我々は、コードとトレーニング済みモデルを以下でオープンソース化している: https://github.com/Gen-Verse/MMaDA
大規模言語モデル(LLM)は、膨大な計算リソースとメモリを必要とし、デプロイメントにおける課題を生み出します。量子化対応トレーニング(QAT)は、モデルの精度を低下させながらも性能を維持することで、これらの課題に対処します。しかし、特に4ビット精度(W4A4)におけるQATのスケーリング挙動は十分に理解されていません。既存のQATスケーリング則は、トレーニングトークン数や量子化粒度といった重要な要素を無視することが多く、その適用性が制限されています。本論文では、モデルサイズ、トレーニングデータ量、量子化グループサイズの関数として量子化誤差をモデル化する統一的なスケーリング則を提案します。268回のQAT実験を通じて、量子化誤差はモデルサイズが増大するにつれて減少するが、トレーニングトークンが増えるほど、また量子化粒度が粗くなるほど増加することを示します。W4A4量子化誤差の原因を特定するため、これを重みと活性化の成分に分解します。両成分はW4A4量子化誤差の全体的な傾向に従いますが、異なる感度を持ちます。具体的には、重み量子化誤差はトレーニングトークンが増えるほど急速に増加します。さらに分析を行った結果、外れ値によって引き起こされるFC2層の活性化量子化誤差が、W4A4 QAT量子化誤差の主要なボトルネックであることが明らかになりました。このボトルネックに対処するために混合精度量子化を適用することで、重みと活性化の量子化誤差が同程度に収束することを実証します。また、トレーニングデータが増えると、重み量子化誤差は最終的に活性化量子化誤差を上回り、そのようなシナリオでは重み量子化誤差を低減することも重要であることが示唆されます。これらの知見は、QATの研究開発を改善するための重要な洞察を提供します。
大規模言語モデル(LLM)ベースの埋め込みモデルは、大規模な事前学習と事後学習の恩恵を受け、文書検索などの汎用テキスト埋め込みタスクにおいてBERTやT5ベースのモデルを凌駕し始めています。しかし、LLM埋め込みの根本的な制約は、自己回帰型事前学習中に使用される単方向のアテンションにあり、これはテキスト埋め込みタスクの双方向性と整合しません。この問題に対処するため、我々は拡散言語モデルをテキスト埋め込みに採用することを提案します。これは、その本質的な双方向アーキテクチャと、特に推論タスクにおいてLLMを匹敵または凌駕する最近の成功に動機づけられています。我々は、拡散言語埋め込みモデルに関する最初の体系的な研究を提示し、長文書検索においてLLMベースの埋め込みモデルを20%、推論集約型検索において8%、指示追従型検索において2%上回り、従来のテキスト埋め込みベンチマークにおいても競争力のある性能を達成しました。我々の分析は、長く複雑なテキストにおけるグローバルなコンテキストのエンコードにおいて、双方向アテンションが重要であることを検証しています。
従来の視覚的グラウンディング手法は、主に単一画像のシナリオと単純なテキスト参照に焦点を当ててきました。しかし、これらの手法を、暗黙的で複雑な指示を含む現実世界のシナリオ、特に複数の画像を組み合わせた場合に拡張することは、多様なマルチモーダルコンテキストにわたる高度な推論能力の欠如により、大きな課題となっています。本研究では、より実用的なユニバーサルグラウンディングタスクに取り組み、推論をガイドしたマルチモーダル大規模言語モデル(MLLM)であるUniVG-R1を提案します。このモデルは、強化学習(RL)とコールドスタートデータを組み合わせることで推論能力を強化します。具体的には、まず、詳細な推論チェーンを注釈付けた高品質なChain-of-Thought(CoT)グラウンディングデータセットを構築し、教師ありファインチューニングを通じてモデルが正しい推論パスを選択するよう導きます。その後、ルールベースの強化学習を行い、モデルが正しい推論チェーンを特定することを奨励し、その推論能力を向上させます。さらに、RLトレーニングが進むにつれて容易なサンプルが多くなることによる難易度バイアスを特定し、パフォーマンスをさらに強化するための難易度を考慮した重み調整戦略を提案します。実験結果は、UniVG-R1の有効性を示しており、MIG-Benchにおいて従来手法を9.1%上回る最先端の性能を達成しました。さらに、我々のモデルは強力な汎化能力を示し、4つの画像およびビデオ推論グラウンディングベンチマークにおいて、ゼロショット性能で平均23.4%の改善を達成しました。プロジェクトページはhttps://amap-ml.github.io/UniVG-R1-page/でアクセス可能です。
高品質な軌跡データのスケールアップは、人間のようなコンピュータ利用エージェントの開発において長らく重要なボトルネックとなってきました。本論文では、大規模な人間によるデモンストレーションへの依存を大幅に削減する効率的なエージェントトレーニングフレームワーク「PC Agent-E」を紹介します。わずか312の人間による注釈付きコンピュータ利用軌跡から始め、Claude 3.7 Sonnetを用いて多様な行動決定を合成することで、データ品質をさらに向上させました。これらの強化された軌跡データでトレーニングされたPC Agent-Eモデルは、141%という顕著な相対的改善を達成し、私たちがリリースした改良版ベンチマーク「WindowsAgentArena-V2」において、拡張思考を備えた強力なClaude 3.7 Sonnetを上回りました。さらに、PC Agent-EはOSWorldにおける異なるオペレーティングシステムへの強い汎化能力を示しています。本研究の結果は、少量の高品質な軌跡データから強力なコンピュータ利用能力を引き出せる可能性を示唆しています。
151百万パラメータを持つ時系列予測基盤モデル「Toto」を紹介します。Totoは最新のデコーダのみのアーキテクチャを採用し、多変量観測時系列データに特有の課題に対応するためのアーキテクチャ上の革新を組み込んでいます。Totoの事前学習コーパスは、観測データ、公開データセット、合成データを混合したもので、主要な時系列基盤モデルの4~10倍の規模を誇ります。さらに、2,807の実世界時系列にわたる350百万の観測値を含む大規模ベンチマーク「BOOM」を導入しました。TotoとBOOMの両方において、観測データはDatadog独自のテレメトリーと内部観測メトリクスのみから収集されています。広範な評価により、TotoはBOOMおよび既存の汎用時系列予測ベンチマークの両方で最先端の性能を達成することが実証されました。Totoのモデル重み、推論コード、評価スクリプト、およびBOOMのデータと評価コードは、Apache 2.0ライセンスの下でオープンソースとして公開されており、https://huggingface.co/Datadog/Toto-Open-Base-1.0 と https://github.com/DataDog/toto から入手可能です。
大規模推論モデル(LRM)は、特に長い推論トレースを生成することで、強化学習(RL)を通じて複雑な問題を解決する際に顕著な能力を示しています。しかし、これらの拡張された出力にはしばしば大幅な冗長性が見られ、LRMの効率を制限しています。本論文では、推論効率を促進するためのRLベースのアプローチを調査します。具体的には、まず、長さベースの報酬形成を通じて様々な効率的な推論手法を定式化する統一フレームワークを提示します。この視点に基づいて、目標長によって制御されるステップ関数を報酬として採用する新規のLength-bAsed StEp Reward shaping法(LASER)を提案します。LASERは従来の手法を超え、性能と効率の間で優れたパレート最適なバランスを達成します。次に、LASERをさらに拡張するために、2つの重要な直感に基づいて進めます:(1)モデルの推論行動はトレーニング中に進化するため、適応的で動的な報酬指定が必要である;(2)思考の連鎖(CoT)を一律に短くまたは長くするのではなく、長さベースの報酬形成は難易度を考慮すべきである、つまり、簡単なクエリに対しては長いCoTをより強くペナルティを課すべきである。このアプローチは、速い思考と遅い思考の組み合わせを促進し、全体的により良いトレードオフをもたらすことが期待されます。結果として得られた手法はLASER-D(動的かつ難易度を考慮した)と名付けられています。DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、およびDeepSeek-R1-Distill-Qwen-32Bでの実験により、我々のアプローチが推論性能と応答長の効率を大幅に向上させることが示されました。例えば、LASER-Dとその変種は、AIME2024で+6.1の改善を達成し、トークン使用量を63%削減しました。さらに分析すると、我々のRLベースの圧縮が、冗長な「自己反映」を減らし、より簡潔な推論パターンを生成することが明らかになりました。リソースはhttps://github.com/hkust-nlp/Laserにあります。
世界モデルは、過去の観測と行動のシーケンスに基づいて遷移を予測するものであり、逐次的意思決定におけるデータ効率の向上において大きな可能性を示しています。しかし、既存の世界モデルは、多くの場合、広範なドメイン固有の訓練を必要とし、依然として低忠実度で粗い予測を生成するため、複雑な環境での適用が制限されています。一方、大規模なインターネット規模のデータセットで訓練されたビデオ拡散モデルは、多様な現実世界のダイナミクスを捉えた高品質なビデオを生成する印象的な能力を示しています。本研究では、事前訓練されたビデオ拡散モデルを活用し、インタラクティブな世界モデルに転移するための一般的なアプローチであるVid2Worldを提案します。このギャップを埋めるために、Vid2Worldは、事前訓練されたビデオ拡散モデルの因果化を行い、そのアーキテクチャと訓練目的を設計して自己回帰生成を可能にします。さらに、因果的行動ガイダンスメカニズムを導入し、結果として得られるインタラクティブな世界モデルにおける行動の制御性を向上させます。ロボット操作やゲームシミュレーションの領域での広範な実験により、我々の手法が、高度な能力を持つビデオ拡散モデルをインタラクティブな世界モデルに再利用するためのスケーラブルで効果的なアプローチを提供することが示されました。
詳細な3Dシーンの取得には、通常、高価な機器、マルチビューデータ、または労力を要するモデリングが必要です。そのため、単一のトップダウン画像から複雑な3Dシーンを生成する軽量な代替手段は、実世界のアプリケーションにおいて重要な役割を果たします。最近の3D生成モデルはオブジェクトレベルで顕著な成果を上げていますが、フルシーン生成への拡張では、一貫性のないジオメトリ、レイアウトの幻覚、低品質のメッシュがしばしば発生します。本研究では、単一のトップダウンビューから現実的で一貫性のある3Dシーンを合成するために設計された、トレーニング不要のフレームワークである3DTownを紹介します。私たちの手法は、画像から3Dへの整合性と解像度を向上させるための領域ベースの生成、およびグローバルなシーンの一貫性と高品質なジオメトリ生成を確保するための空間認識型3Dインペインティングという2つの原則に基づいています。具体的には、入力画像を重複する領域に分解し、それぞれを事前学習済みの3Dオブジェクト生成器を使用して生成し、その後、構造的な連続性を維持しながら欠落したジオメトリを埋めるマスクされた修正フローインペインティングプロセスを適用します。このモジュール設計により、解像度のボトルネックを克服し、空間構造を保持することが可能であり、3Dの教師データやファインチューニングを必要としません。多様なシーンにわたる広範な実験により、3DTownは、ジオメトリの品質、空間的一貫性、テクスチャの忠実度において、Trellis、Hunyuan3D-2、TripoSGなどの最先端のベースラインを上回ることが示されました。私たちの結果は、単一の画像から高品質な3Dタウン生成が、原則に基づいたトレーニング不要のアプローチで実現可能であることを示しています。
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を発揮しますが、特に単純なタスクにおいて冗長な推論が原因で過剰な計算コストを招くことがしばしばあります。本研究では、LRMの上限を「ロングシンキング」モードと「ノーシンキング」モードの両方で体系的に定量化し、モデルが回答生成中に暗黙的に推論を補完する「内部自己回復メカニズム」の現象を明らかにしました。この知見に基づいて、不要な推論を抑制し、暗黙的な回復を可能にする適応型自己回復推論(ASRR)フレームワークを提案します。精度を意識した長さ報酬調整を導入することで、ASRRは問題の難易度に応じて推論努力を適応的に割り当て、性能の低下を最小限に抑えつつ高い効率性を実現します。複数のベンチマークとモデルにわたる実験では、GRPOと比較して、ASRRは推論予算を最大32.5%(1.5B)および25.7%(7B)削減し、最小限の精度損失(1.2%および0.6% pass@1)で済み、安全性ベンチマークでの無害率を大幅に向上させました(最大+21.7%)。これらの結果は、ASRRがLRMにおいて効率的で適応的かつ安全な推論を可能にする潜在能力を強調しています。
ビデオゲームをプレイするには、知覚、記憶、計画といった能力が必要であり、これらはまさに現代の大規模言語モデル(LLM)エージェントが習得すべき能力である。我々は、現代のLLMを評価するために人気のあるビデオゲームを使用する際の主要な課題を研究し、LLMを直接ゲームに投入しても効果的な評価ができないことを明らかにした。その理由は、脆弱な視覚知覚、プロンプトの感度、そして潜在的なデータ汚染の3つである。我々は、ゲームを信頼性のある評価に変えるためにlmgame-Benchを導入した。lmgame-Benchは、プラットフォーマー、パズル、ナラティブゲームのスイートを提供し、統一されたGymスタイルのAPIを通じて配信され、軽量な知覚と記憶の足場と組み合わせられている。また、プロンプトのばらつきを安定させ、汚染を除去するように設計されている。13の主要なモデルを対象とした評価では、lmgame-Benchが挑戦的でありながら、モデルをよく分離することが示された。相関分析によると、各ゲームは、他の場所で単独でテストされることが多い能力の独自の組み合わせを探る。さらに興味深いことに、lmgame-Benchの単一のゲームで強化学習を行うことで、未見のゲームや外部の計画タスクにも転移することがわかった。我々の評価コードはhttps://github.com/lmgame-org/GamingAgent/lmgame-benchで公開されている。
人間は自然に複数の推論モダリティを活用して学習し、論理的問題を解決する。すなわち、自然言語、コード、記号論理など、異なる表現形式を用いる。一方、既存のLLM(大規模言語モデル)ベースのアプローチの多くは、訓練中に単一の推論モダリティ、通常は自然言語のみを利用する。推論時にモダリティの選択や拡張を試みる手法もあるが、訓練プロセスはモダリティを意識しないまま進められ、モダリティ間の相乗効果が制限されている。このギャップを埋めるため、我々はMixture-of-Thought(MoT)を提案する。これは、自然言語、コード、および新たに導入された記号モダリティである真理値表という3つの補完的なモダリティを横断して推論を行うLLMのフレームワークである。真理値表は論理ケースを体系的に列挙し、自然言語推論における主要な失敗モードを部分的に緩和する。MoTは2段階の設計を採用する:(1) 自己進化型MoT訓練。これは、モダリティ間でフィルタリングされた自己生成された根拠から共同で学習する。(2) MoT推論。これは、3つのモダリティの相乗効果を最大限に活用してより良い予測を生成する。FOLIOやProofWriterなどの論理推論ベンチマークでの実験により、MoTフレームワークが単一モダリティの連鎖的思考アプローチを用いた強力なLLMベースラインを一貫して大幅に上回り、最大+11.7ppの平均精度向上を達成することが示された。さらに分析により、MoTフレームワークが訓練と推論の両段階で有効であること、特に難しい論理推論問題において効果的であること、そして異なるモダリティが補完的な強みを発揮し、真理値表推論が自然言語推論における主要なボトルネックを克服するのに役立つことが明らかになった。
OpenAI o1やDeepSeek-R1のような大規模推論モデルは、推論領域で顕著な性能を達成しています。そのトレーニングの重要な要素は、強化学習(RL)内で検証可能な報酬を組み込むことです。しかし、既存の報酬ベンチマークは参照ベースの報酬システムを評価しておらず、RLで使用される検証器の精度に関する研究者の理解は限られています。本論文では、参照ベースの報酬システムの性能を評価するために、VerifyBenchとVerifyBench-Hardという2つのベンチマークを導入します。これらのベンチマークは、綿密なデータ収集とキュレーションを経て構築され、高品質を保証するために慎重な人間による注釈が施されています。現在のモデルは、特に小規模モデルにおいて、VerifyBenchとVerifyBench-Hardの両方でまだ改善の余地が大きいことが示されています。さらに、評価結果の徹底的かつ包括的な分析を行い、参照ベースの報酬システムの理解と開発に向けた洞察を提供します。提案するベンチマークは、検証器の精度とRLでトレーニングされたモデルの推論能力の開発を導く効果的なツールとして機能します。
人間の認知プロセスは、通常、厳密に離散的な言語トークンを使用するのではなく、抽象的で流動的な概念を通じて思考を行う。しかし、現在の推論モデルは、人間の言語の境界内で推論するように制約されており、意味空間における固定点を表す離散的なトークン埋め込みを処理する。この離散的な制約は、そのような推論モデルの表現力と上限を制限し、標準的なChain-of-Thought(CoT)手法が1ステップごとに1つのトークンをサンプリングすることに依存しているため、推論パスの不完全な探索を引き起こすことが多い。本研究では、Soft Thinkingを導入する。これは、連続的な概念空間において、ソフトで抽象的な概念トークンを生成することで、人間のような「ソフト」な推論を模倣するトレーニング不要の手法である。これらの概念トークンは、トークン埋め込みの確率重み付き混合によって作成され、連続的な概念空間を形成し、従来の離散的な境界を超えた滑らかな遷移とより豊かな表現を可能にする。本質的に、生成された各概念トークンは、関連する離散トークンからの複数の意味を包含し、暗黙的にさまざまな推論パスを探索して効果的に正解に収束する。多様な数学およびコーディングベンチマークでの実証評価により、Soft Thinkingの有効性と効率性が一貫して示され、標準的なCoTと比較して、pass@1精度を最大2.48ポイント向上させながら、トークン使用量を最大22.4%削減することが確認された。質的分析により、Soft Thinkingの出力が高い解釈可能性と可読性を維持していることがさらに明らかになり、離散言語ベースの推論に内在するボトルネックを打破するSoft Thinkingの可能性が強調されている。コードはhttps://github.com/eric-ai-lab/Soft-Thinkingで公開されている。
Diffusion Language Models(DLMs)は、自己回帰型言語モデルにとって有望な競合相手と見なされてきました。しかし、Diffusion言語モデルは長い間、推論速度の遅さに制約されてきました。その核心的な課題は、非自己回帰型アーキテクチャと双方向アテンションが、デコードを加速するキー・バリューキャッシュを妨げていることです。我々はこのボトルネックを解決するため、DLMのノイズ除去プロセスに対して、遅延型KVキャッシュ(delayed KV-Cache)と呼ばれるKVキャッシュに似たメカニズムを提案します。このアプローチは、異なるトークンが拡散プロセス全体で異なる表現ダイナミクスを持つという観察に基づいています。それに応じて、キーとバリューの状態に対して、遅延的かつ条件付きのキャッシュ戦略を提案します。我々は、キーとバリューを段階的にキャッシュするための2つの補完的なバリアントを設計しました:(1) dKV-Cache-Decodeは、ほぼロスレスな加速を提供し、長いシーケンスでは性能さえ向上させ、既存のDLMが推論中に文脈情報を十分に活用していない可能性を示唆しています。(2) dKV-Cache-Greedyは、寿命を短縮した積極的なキャッシュを行い、二次時間計算量でより高い高速化を実現しますが、一部の性能低下を伴います。最終的に、dKV-Cacheは推論において2~10倍の高速化を達成し、AR(自己回帰型モデル)とDLMのギャップを大幅に縮めました。我々はdKV-Cacheを複数のベンチマークで評価し、一般的な言語理解、数学、コード生成のベンチマーク全体で加速を実現しました。実験結果は、キャッシュがDLMでも使用可能であり、現在のDLMからトレーニング不要で適用できることを示しています。
現在のテキストから画像を生成する(T2I)モデルは有望な結果を達成していますが、テキストプロンプトに含まれる知識が不確かなシナリオでは失敗します。例えば、2月にリリースされたT2Iモデルは、4月に公開される映画の適切なポスターを生成するのに苦労するでしょう。なぜなら、キャラクターデザインやスタイルがモデルにとって不確かだからです。この問題を解決するために、我々はインターネットを活用したテキストから画像生成(IA-T2I)フレームワークを提案し、参照画像を提供することでT2Iモデルがそのような不確かな知識を明確に理解できるようにします。具体的には、与えられたテキストプロンプトに基づいて参照画像が必要かどうかを判断するアクティブ検索モジュールを設計し、画像検索エンジンから返される最も適切な画像を見つける階層型画像選択モジュールを導入してT2Iモデルを強化し、生成された画像を継続的に評価・改良してテキストプロンプトとの忠実な整合性を確保する自己反映メカニズムを提示します。提案フレームワークの性能を評価するために、テキストプロンプトに3種類の不確かな知識(1)知られているが稀なもの、(2)未知のもの、(3)曖昧なものを含むImg-Ref-T2Iデータセットを収集しました。さらに、GPT-4oが好み評価を行うための複雑なプロンプトを慎重に作成し、その評価精度が人間の好み評価と同程度であることを示しました。実験結果は、我々のフレームワークの有効性を示し、人間評価においてGPT-4oを約30%上回る性能を実証しました。
知識グラフに基づく検索拡張生成は、大規模言語モデル(LLM)における知識不足や陳腐化に起因する虚構(ハルシネーション)を軽減することを目指しています。しかし、既存の手法では、知識グラフ(KG)に埋め込まれた事前知識、特にその構造情報や明示的・暗示的な制約を十分に活用できていないことが多いです。前者はLLMの推論の信頼性を高めることができ、後者は応答生成の信頼性を向上させることができます。これらの動機から、我々はKGに含まれる事前知識を十分に活用する信頼性の高い推論フレームワーク「Deliberation over Priors(DP)」を提案します。具体的には、DPは構造的な事前知識を教師あり微調整とカーネマン・トヴェルスキー最適化を組み合わせてLLMに統合する漸進的な知識蒸留戦略を採用し、関係パス生成の信頼性を向上させます。さらに、我々のフレームワークは、抽出された制約の事前知識に基づいてLLMに洗練された推論検証を実行させる推論内省戦略を採用し、応答生成の信頼性を確保します。3つのベンチマークデータセットでの大規模な実験により、DPが新しい最先端の性能を達成し、特にComplexWebQuestionsデータセットでHit@1が13%向上し、非常に信頼性の高い応答を生成することが示されました。また、その柔軟性と実用性を検証するための様々な分析も行いました。コードはhttps://github.com/reml-group/Deliberation-on-Priorsで公開されています。
オープンソースの大規模言語モデル(LLM)を独自データでファインチューニングすることは、下流開発者がタスク固有のLLMを取得するための標準的な手法となっています。しかし驚くべきことに、この手法に伴う新たで懸念すべきリスクを明らかにしました。オープンソースLLMの作成者が、後になって単純なバックドアトレーニングを通じて、下流のファインチューニングデータを抽出できるというリスクです。これには、ファインチューニングされた下流モデルへのブラックボックスアクセスさえあれば十分です。私たちの包括的な実験では、3Bから32Bのパラメータを持つ4つの人気オープンソースモデルと2つの下流データセットを使用し、抽出性能が驚くほど高いことが示されました。実用的な設定では、合計5,000サンプルのうち最大76.3%の下流ファインチューニングデータ(クエリ)が完全に抽出可能であり、より理想的な設定では成功率が94.9%にまで上昇します。また、検出ベースの防御戦略を探りましたが、改善された攻撃によって回避可能であることがわかりました。全体として、私たちはファインチューニングにおけるこの新たに特定されたデータ侵害リスクの緊急性を強調し、この懸念すべきリスクに対処するための進展を促すさらなる追跡研究が進むことを期待しています。実験で使用したコードとデータはhttps://github.com/thu-coai/Backdoor-Data-Extractionで公開しています。
世界モデルは、行動に対する状態遷移を予測し、多様なモダリティにおいてますます開発が進められています。しかし、最尤推定(MLE)のような標準的な訓練目的は、世界モデルのタスク固有の目標、すなわち精度や知覚品質といった遷移予測メトリクスとしばしば不一致を生じます。本論文では、RLVR-Worldを紹介します。これは、検証可能な報酬を用いた強化学習(RLVR)を活用し、そのようなメトリクスに対して世界モデルを直接最適化する統一フレームワークです。世界モデリングをトークン化されたシーケンスの自己回帰予測として定式化する一方で、RLVR-Worldは、デコードされた予測のメトリクスを検証可能な報酬として評価します。テキストゲーム、ウェブナビゲーション、ロボット操作を含む複数のドメインにおいて、言語ベースおよびビデオベースの世界モデルにおいて大幅な性能向上を示します。我々の研究は、最近の推論言語モデルの進展を超えて、RLVRが生成モデルの有用性をより広範に高めるための有望な訓練後パラダイムを提供することを示唆しています。
大規模推論モデル(LRM)は、数学やプログラミングなどの推論集約型タスクにおいて顕著な成功を収めています。しかし、その強化された推論能力が必ずしも安全性の向上につながるわけではなく、場合によっては安全性を低下させることさえあります。これにより、重要な研究課題が浮上します:LRMの安全性をどのように向上させることができるのか?本論文では、教師ありファインチューニング(SFT)を通じてLRMの安全性を向上させる方法に関する包括的な実証研究を提示します。私たちの調査は、予期せぬ観察から始まります:DeepSeek-R1から安全な応答を直接蒸留しても、安全性が大幅に向上しないという事実です。この現象を分析し、それに寄与する3つの主要な失敗パターンを特定しました。そして、データ蒸留プロセス中にこれらの問題を明示的に対処することで、安全性が大幅に向上することを実証しました。次に、安全性を達成するために長く複雑な推論プロセスが必要かどうかを探ります。興味深いことに、短いまたはテンプレートベースの推論プロセスを使用するだけで、同等の安全性を達成できることがわかりました。そして、これらの方法は、より複雑な推論チェーンよりもモデルが学習しやすいことが判明しました。これらの発見は、安全性を確保する上での推論の役割について深く考察するきっかけとなりました。最後に、安全性のファインチューニング中に数学的推論データを混ぜることが、安全性と過剰拒否のバランスを取るのに役立つことを発見しました。全体として、私たちの実証研究がLRMの安全性向上に関するより包括的な視点を提供できることを願っています。実験で使用したコードとデータはhttps://github.com/thu-coai/LRM-Safety-Studyで公開されています。
視覚生成のための有望な拡散モデルであるDiffusion Transformer (DiT)は、印象的な性能を示す一方で、大きな計算コストを伴います。興味深いことに、事前学習済みのDiTモデルを分析すると、グローバルなセルフアテンションがしばしば冗長であり、主にローカルなパターンを捉えていることが明らかになり、より効率的な代替手法の可能性が浮かび上がります。本論文では、効率的で表現力豊かな拡散モデルを構築するための代替的な構成要素として、畳み込みを再検討します。しかし、セルフアテンションを単純に畳み込みに置き換えると、通常は性能が低下します。私たちの調査によると、この性能差は、Transformerと比較してConvNetのチャネル冗長性が高いことに起因しています。これを解決するため、より多様なチャネルの活性化を促進するコンパクトなチャネルアテンションメカニズムを導入し、特徴の多様性を向上させます。これにより、標準的なConvNetモジュールのみで構築された拡散モデルファミリーであるDiffusion ConvNet (DiCo)が誕生し、強力な生成性能と大幅な効率向上を実現します。クラス条件付きImageNetベンチマークにおいて、DiCoは画像品質と生成速度の両方で従来の拡散モデルを上回ります。特に、DiCo-XLは256x256解像度でFID 2.05、512x512解像度でFID 2.53を達成し、DiT-XL/2に対してそれぞれ2.7倍と3.1倍の高速化を実現しました。さらに、最大規模のモデルであるDiCo-Hは、1Bパラメータにスケールアップし、ImageNet 256x256においてFID 1.90を達成しました。これは、トレーニング中に追加の監督なしで達成されたものです。コード: https://github.com/shallowdream204/DiCo.
大規模推論モデル(LRM)の最近の進展は、数学的および論理的推論において印象的な能力を示しています。しかし、現在のLRMは無知を認めたり「わからない」と応答したりすることはほとんどありません。その代わりに、過剰な自信を示しながら誤った回答を生成することが多く、事実の信頼性に関する懸念を引き起こしています。本研究では、過剰な思考に特徴づけられる2つの病的推論パターン、すなわち「ラストミニット・ゲッシング」と「セカンド・ソート・スパイラリング」を特定し、これらが過信と誤答の原因となっていることを明らかにしました。これらの問題に対処するため、簡潔で境界認識のある事実推論を促進する新しいフレームワーク「BARREL」を提案します。実験の結果、BARRELによるトレーニングはDeepSeek-R1-Distill-Llama-8Bの信頼性を39.33%から61.48%に向上させ、同時にR1によって生成された推論データでファインチューニングされたモデルと同等の精度を達成することが示されました。これらの結果は、我々のパイロット研究がより信頼性の高い事実に基づくSystem 2 LRMを構築する上で示唆に富むものであることを示しています。
会話型検索システムでは、曖昧性、省略、共参照を含む文脈依存のクエリを効果的に処理する必要があります。Conversational Query Reformulation(CQR)は、これらのクエリを既存の検索エンジンに適した自己完結型の形式に変換することでこの課題に対処します。しかし、既存のCQRアプローチには2つの重大な制約があります:人間のアノテーションや大規模言語モデルからの高コストな外部監視への過度な依存、および書き換えモデルと下流の検索エンジンとの不十分な整合性です。本論文では、ConvSearch-R1を提案します。これは、検索信号を直接最適化する強化学習を活用することで、外部の書き換え監視への依存を完全に排除する初の自律駆動型フレームワークです。我々の新しい2段階アプローチは、検索誘導型自己蒸留を通じてコールドスタート問題に対処するSelf-Driven Policy Warm-Upと、従来の検索指標におけるスパース性問題に対処するために特別に設計されたランクインセンティブ報酬形成メカニズムを備えたRetrieval-Guided Reinforcement Learningを組み合わせています。TopiOCQAおよびQReCCデータセットでの大規模な実験により、ConvSearch-R1が従来の最先端手法を大幅に上回り、難しいTopiOCQAデータセットで10%以上の改善を達成し、外部監視なしでより小規模な3Bパラメータモデルを使用することが実証されました。
標準的な自己回帰生成では、LLMは次のトークンの分布を予測し、離散的なトークンをサンプリングし、その後その分布を破棄して、サンプリングされたトークンのみを新しい入力として渡します。この分布の豊富な情報を保持するために、我々は訓練不要の自己回帰生成手法であるMixture of Inputs(MoI)を提案します。標準的なパラダイムに従ってトークンを生成した後、生成された離散トークンと以前に破棄されたトークン分布を組み合わせた新しい入力を構築します。具体的には、トークン分布を事前分布として、サンプリングされたトークンを観測値として扱い、従来のワンホットベクトルを連続的な事後期待値に置き換えて新しいモデル入力とするベイズ推定手法を採用します。MoIにより、モデルは生成プロセス全体を通じてより豊かな内部表現を維持することができ、テキストの品質と推論能力が向上します。数学的推論、コード生成、博士レベルのQAタスクにおいて、MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルで一貫して性能を向上させ、追加の訓練や計算オーバーヘッドをほとんど必要としません。
大規模言語モデル(LLM)におけるバイアスは、その信頼性と公平性を著しく損なう。本研究では、モデルの概念空間内の2つの参照概念(例えば、感情の極性「ポジティブ」と「ネガティブ」)が、第三のターゲット概念(例えば、レビューの側面)と非対称的に相関している場合に、モデルが意図しないバイアスを示すという一般的なバイアス形態に焦点を当てる。例えば、「食事」の理解は特定の感情に偏るべきではない。既存のバイアス評価手法は、異なる社会グループに対してラベル付きデータを構築し、それらに対するモデルの応答を測定することでLLMの行動の違いを評価するが、このプロセスには多大な人的労力を要し、限られた社会概念しか捉えることができない。これらの制限を克服するため、我々はモデルのベクトル空間の構造に基づく、テストセット不要のバイアス分析フレームワーク「BiasLens」を提案する。BiasLensは、Concept Activation Vectors(CAVs)とSparse Autoencoders(SAEs)を組み合わせて解釈可能な概念表現を抽出し、ターゲット概念と各参照概念間の表現的類似性の変動を測定することでバイアスを定量化する。ラベル付きデータがなくても、BiasLensは従来のバイアス評価指標と高い一致を示す(Spearman相関係数 r > 0.85)。さらに、BiasLensは既存の手法では検出が難しいバイアス形態を明らかにする。例えば、シミュレートされた臨床シナリオでは、患者の保険状況がLLMに偏った診断評価を生成させる原因となる。全体として、BiasLensはスケーラブルで解釈可能かつ効率的なバイアス発見のパラダイムを提供し、LLMの公平性と透明性の向上への道を開く。
機械学習に基づく原子間ポテンシャルや力場は、正確な原子構造に大きく依存していますが、実験的に決定された結晶構造の利用可能性が限られているため、そのようなデータは不足しています。原子分解能電子顕微鏡は構造データの潜在的な供給源となりますが、これらの画像をシミュレーション対応の形式に変換する作業は依然として手間がかかり、エラーが発生しやすいため、モデルのトレーニングと検証のボトルネックとなっています。本論文では、走査型透過電子顕微鏡(STEM)画像を自動的に原子結晶構造に変換し、その物理的特性を予測するエンドツーエンドのエージェント支援パイプラインであるAutoMatを紹介します。AutoMatは、パターン適応型ノイズ除去、物理に基づくテンプレート検索、対称性を考慮した原子再構成、MatterSimによる高速緩和と特性予測、およびすべての段階にわたる調整されたオーケストレーションを組み合わせています。本タスク専用の最初のベンチマークであるSTEM2Mat-Benchを提案し、格子RMSD、生成エネルギーMAE、構造マッチング成功率を用いて性能を評価します。外部ツール呼び出しをオーケストレーションすることで、AutoMatはテキストのみの大規模言語モデル(LLM)がこの領域で視覚言語モデルを上回り、パイプライン全体にわたる閉ループ推論を実現します。450以上の構造サンプルにわたる大規模な実験において、AutoMatは既存のマルチモーダル大規模言語モデルやツールを大幅に上回る性能を示しました。これらの結果は、AutoMatとSTEM2Mat-Benchの有効性を検証し、材料科学における顕微鏡と原子シミュレーションの橋渡しに向けた重要な一歩を示しています。コードとデータセットは、https://github.com/yyt-2378/AutoMat および https://huggingface.co/datasets/yaotianvector/STEM2Mat で公開されています。
エントロピー最小化(EM)は、モデルが最も自信を持っている出力にさらに確率質量を集中させるように訓練します。本論文では、この単純な目的関数だけで、ラベル付きデータを一切使用せずに、大規模言語モデル(LLM)の数学、物理学、コーディングといった難易度の高いタスクにおける性能を大幅に向上させることができることを示します。我々は3つのアプローチを検討しました:(1) EM-FTは、モデルから生成されたラベルなし出力に対して、指示ファインチューニングと同様にトークンレベルのエントロピーを最小化します;(2) EM-RLは、負のエントロピーを唯一の報酬として最大化する強化学習です;(3) EM-INFは、訓練データやパラメータ更新を一切行わずに、推論時のロジット調整によってエントロピーを低減します。Qwen-7Bにおいて、EM-RLはラベル付きデータを一切使用せずに、6万のラベル付き例で訓練されたGRPOやRLOOといった強力なRLベースラインと同等またはそれ以上の性能を達成しました。さらに、EM-INFにより、Qwen-32BはSciCodeベンチマークにおいて、GPT-4o、Claude 3 Opus、Gemini 1.5 Proといったプロプライエタリモデルに匹敵または凌駕する性能を発揮し、自己一貫性や逐次改良よりも3倍効率的であることが示されました。我々の研究結果は、多くの事前学習済みLLMが、これまで過小評価されていた推論能力を有しており、ラベル付きデータやパラメータ更新を一切行わずに、エントロピー最小化だけで効果的に引き出すことができることを明らかにしています。
拡散モデルは様々な領域で強力な生成ツールとして登場していますが、事前学習済みモデルを特定の望ましい特性を持つように調整することは依然として困難です。強化学習(RL)は有望な解決策を提供しますが、現在の手法では安定した効率的なファインチューニングと非微分可能な報酬のサポートを同時に達成することが難しい状況です。さらに、これらの手法はスパースな報酬に依存しているため、中間ステップでの監督が不十分で、しばしば最適ではない生成品質をもたらします。これらの制限を解決するためには、拡散プロセス全体を通じて密で微分可能な信号が必要です。そこで我々は、VAlue-based Reinforced Diffusion(VARD)を提案します。この新しいアプローチでは、まず中間状態からの報酬期待値を予測する価値関数を学習し、その後この価値関数をKL正則化と共に使用して生成プロセス全体にわたって密な監督を提供します。我々の手法は、事前学習済みモデルに近接性を維持しつつ、バックプロパゲーションによる効果的で安定した学習を可能にします。実験結果は、我々のアプローチがより良い軌道ガイダンスを促進し、学習効率を向上させ、複雑で非微分可能な報酬関数に最適化された拡散モデルへのRLの適用性を拡張することを示しています。
大規模音声言語モデル(LAMs)の台頭は、可能性とリスクの両方をもたらします。なぜなら、それらの音声出力には有害または非倫理的な内容が含まれる可能性があるからです。しかし、現在の研究では、特にジャイルブレイク攻撃に対するLAMの安全性を体系的かつ定量的に評価するものが不足しています。これは、音声の時間的および意味的な性質により、挑戦的な課題となっています。このギャップを埋めるため、私たちはAJailBenchを導入しました。これは、LAMのジャイルブレイク脆弱性を評価するために特別に設計された最初のベンチマークです。まず、AJailBench-Baseを構築しました。これは、10のポリシー違反カテゴリーにまたがる1,495の敵対的音声プロンプトのデータセットで、現実的なテキスト音声合成を使用してテキストジャイルブレイク攻撃から変換されたものです。このデータセットを使用して、いくつかの最先端のLAMを評価し、どのモデルも攻撃に対して一貫した堅牢性を示さないことを明らかにしました。さらに、ジャイルブレイクテストを強化し、より現実的な攻撃条件をシミュレートするために、動的敵対的バリアントを生成する方法を提案します。私たちのAudio Perturbation Toolkit(APT)は、時間、周波数、振幅の各領域にわたってターゲットを絞った歪みを適用します。元のジャイルブレイクの意図を保持するために、意味的一貫性制約を課し、ベイズ最適化を使用して、微妙で非常に効果的な摂動を効率的に探索します。これにより、AJailBench-APTという最適化された敵対的音声サンプルの拡張データセットが得られます。私たちの調査結果は、小さくても意味的に保持された摂動が、主要なLAMの安全性パフォーマンスを大幅に低下させることができることを示しており、より堅牢で意味的に認識された防御メカニズムの必要性を強調しています。
本論文は、強化学習によるファインチューニング(RFT)の文脈における事前プロンプトエンジニアリング(pPE)を調査する。RFTでは、言語モデル(LM)が報酬信号を通じてパフォーマンスを最大化する行動を示すよう促される。既存のRFT研究は主にアルゴリズム、報酬形成、データキュレーションに焦点を当ててきたが、トレーニング中にクエリの前に付加される事前プロンプトの設計(例:段階的な推論を引き出すための指示)は十分に検討されていない。本研究では、異なるpPEアプローチがRFT後にLMに異なる行動を内在化させることができるかどうかを調査する。推論時のプロンプトエンジニアリング(iPE)に着想を得て、代表的な5つのiPE戦略(推論、計画、コードベースの推論、知識想起、null-exampleの活用)を対応するpPEアプローチに変換する。Qwen2.5-7Bを用いて各pPEアプローチを実験し、ドメイン内およびドメイン外のベンチマーク(例:AIME2024、HumanEval+、GPQA-Diamond)で性能を評価する。結果は、すべてのpPEトレーニング済みモデルがiPEプロンプト付きのモデルを上回り、null-example pPEアプローチが平均的な性能向上とAIME2024およびGPQA-Diamondでの最大の改善を示し、一般的に使用される推論アプローチを凌駕することを示す。さらに、行動分類フレームワークを適用することで、異なるpPE戦略が結果として得られるモデルに異なる行動スタイルを植え付けることを実証する。これらの発見は、pPEをRFTの強力でありながら未開拓の軸として位置づける。
大規模マルチモーダルモデル(LMMs)は現在、多くの視覚言語ベンチマークで優れた性能を発揮していますが、公平性、倫理、共感性、包括性といった人間中心の基準においては依然として課題を抱えており、これらは人間の価値観に沿うための重要な要素です。本論文では、HumaniBenchを紹介します。これは32Kの実世界の画像質問ペアからなる包括的なベンチマークで、スケーラブルなGPT4o支援パイプラインを通じて注釈が付けられ、ドメインエキスパートによって徹底的に検証されています。HumaniBenchは、公平性、倫理、理解、推論、言語の包括性、共感性、堅牢性という7つの人間中心AI(HCAI)原則を評価し、オープンエンドおよびクローズドエンドの視覚質問応答(VQA)、多言語QA、視覚的グラウンディング、共感的キャプショニング、堅牢性テストといった7つの多様なタスクをカバーしています。15の最先端LMMs(オープンソースおよびクローズドソース)をベンチマークした結果、プロプライエタリモデルが一般的にリードしているものの、堅牢性と視覚的グラウンディングは依然として弱点であることが明らかになりました。また、一部のオープンソースモデルは、精度と人間の価値観に沿った原則の遵守とのバランスを取ることに苦労しています。HumaniBenchは、HCAI原則を中心に設計された初めてのベンチマークです。これにより、アライメントのギャップを診断し、LMMsが正確かつ社会的に責任ある行動を取るための指針を提供する厳密なテストベッドが実現されます。データセット、注釈プロンプト、評価コードは以下で公開されています:https://vectorinstitute.github.io/HumaniBench
報酬モデルは、LLMを人間の好みに合わせる上で中心的な役割を果たしますが、大規模な人間によるラベル付き選好データと強力な事前学習済みLLMバックボーンを必要とするため、訓練に多大なコストがかかります。一方で、高品質な合成指示追従データセットの利用可能性が高まっていることから、RLベースのアライメントにおいて、よりシンプルな参照ベースのメトリクスが報酬モデルの代替として有効かどうかという疑問が生じます。本論文では、まず基本的な文字列マッチングメトリクスであるBLEUが、一般的な指示追従データセットにおいて、強力な報酬モデルと同等に人間の好みと一致することを示します。この洞察に基づき、BLEUBERIという手法を開発しました。BLEUBERIは、まず挑戦的な指示を特定し、その後BLEUを直接報酬関数として使用するGroup Relative Policy Optimization(GRPO)を適用します。BLEUBERIで訓練されたモデルは、4つの挑戦的な指示追従ベンチマークと3つの異なるベース言語モデルにおいて、報酬モデルに基づくRLで訓練されたモデルと同等の性能を示すことを実証します。さらに、人間による評価でも、BLEUBERIモデルの出力品質が報酬モデルに基づくモデルと同等であることが支持されています。また、BLEUBERIモデルは、競合する手法よりも事実に基づいた出力を生成します。全体として、高品質な参照出力(既存の指示追従データセットや合成データ生成により容易に入手可能)が利用可能であれば、文字列マッチングベースのメトリクスは、アライメント中の報酬モデルに対する安価かつ効果的な代替手段であることを示します。コードとデータはhttps://github.com/lilakk/BLEUBERIで公開しています。
推測的デコーディングは、大規模言語モデル(LLMs)の推論を加速しつつ、その優れたテキスト生成性能を維持するための一般的な手法として登場している。従来の手法では、プレフィックストークンに関係なく固定された推測的デコーディング設定を採用するか、またはドラフトモデルをオフラインまたはオンラインでトレーニングしてコンテキストに適合させていた。本論文では、テキストが生成される際に推測的デコーディングのハイパーパラメータ設定を適応的に選択するための、トレーニング不要のオンライン学習フレームワークを提案する。まず、このハイパーパラメータ選択問題を多腕バンディット問題として定式化し、一般的な推測的デコーディングフレームワークであるBanditSpecを提供する。さらに、2つのバンディットベースのハイパーパラメータ選択アルゴリズム、UCBSpecとEXP3Specを設計し、新たな量である停止時間リグレットの観点から分析する。このリグレットを確率的および敵対的報酬設定の下で上限付ける。情報理論的な不可能性の結果を導出することで、UCBSpecのリグレット性能が普遍的な定数まで最適であることが示される。最後に、LLaMA3とQwen2を用いた広範な実証実験により、提案アルゴリズムが既存の手法と比較して有効であり、多様な入力プロンプトを伴うシミュレートされた実生活のLLMサービスシナリオにおいて、スループットがオラクル最適ハイパーパラメータに近いことが実証された。
大規模言語モデル(LLM)を基盤としたマルチエージェントシステム(MAS)は、科学的発見において顕著な可能性を示しています。しかし、既存のアプローチでは、しばしば事前に定義されたワークフローを用いて科学的発見を自動化しており、合理性の制約が欠如しています。これにより、無目的な仮説構築や仮説と証拠の一貫した関連付けの失敗が生じ、体系的な不確実性の低減が妨げられています。これらの制限を克服するためには、根本的に体系的な不確実性の低減が必要です。本論文では、PiFlowという情報理論的フレームワークを紹介します。これは、自動化された科学的発見を、科学的法則などの原則に導かれた構造化された不確実性低減問題として扱います。ナノ材料構造、生体分子、および特定の特性を持つ超伝導体候補の発見という3つの異なる科学領域での評価において、本手法は発見効率を大幅に向上させ、特性値と探索ステップの曲線下面積(AUC)が73.55%増加し、バニラエージェントシステムと比較して解の品質が94.06%向上しました。全体として、PiFlowはプラグアンドプレイ方式として機能し、高効率な自動化科学的発見における新たなパラダイムシフトを確立し、より堅牢で加速されたAI駆動研究への道を開きます。コードはhttps://github.com/amair-lab/PiFlow{GitHub}で公開されています。
強化学習(RL)は最近、大規模言語モデル(LLM)の推論能力を向上させるための有力なアプローチとして注目を集めています。ここでは、LLM生成器が検証器(報酬モデル)によって導かれるポリシーとして機能します。しかし、現在のLLMに対するRL事後学習手法では、通常、固定された(ルールベースまたは凍結された事前学習済み)検証器、あるいは教師ありファインチューニング(SFT)を通じて識別的に訓練された検証器が使用されます。このような設計は報酬ハッキングの影響を受けやすく、訓練分布を超えた汎化性能が低いという問題があります。これらの制限を克服するため、我々はTangoという新しいフレームワークを提案します。Tangoは、LLM生成器と検証器を交互に訓練するためにRLを利用します。Tangoの中核的な革新点は、プロセスレベルのLLM検証器を生成的に訓練し、生成器と共進化させることです。重要なのは、検証器が明示的なプロセスレベルのアノテーションを必要とせず、結果レベルの検証正解報酬のみに基づいて訓練される点です。この生成的なRL訓練済み検証器は、決定論的またはSFT訓練済み検証器と比較して、堅牢性と優れた汎化性能を示し、生成器との効果的な相互強化を促進します。大規模な実験により、Tangoの両コンポーネントが7B/8Bスケールのモデルの中で最先端の結果を達成することが示されました。生成器は、5つの競争レベルの数学ベンチマークと4つの挑戦的なドメイン外推論タスクで最高の性能を発揮し、検証器はProcessBenchデータセットでリードしています。特に、両コンポーネントは最も難しい数学的推論問題において顕著な改善を示しました。コードは以下にあります: https://github.com/kaiwenzha/rl-tango。
大規模言語モデル(LLM)の長編ストーリーテリング能力を堅牢に評価することは依然として重要な課題であり、既存のベンチマークでは必要な規模、多様性、または客観的な指標が不足していることが多い。この問題に対処するため、我々は長編小説生成の評価に特化した新しいベンチマークであるWebNovelBenchを提案する。WebNovelBenchは、4,000以上の中国語ウェブ小説からなる大規模データセットを活用し、評価を「あらすじから物語を生成するタスク」として設定する。我々は、8つの物語品質次元を網羅する多面的な評価フレームワークを提案し、LLM-as-Judgeアプローチを用いて自動的に評価を行う。スコアは主成分分析を用いて集約され、人間が執筆した作品に対する百分位順位にマッピングされる。実験の結果、WebNovelBenchは人間が書いた傑作、人気のあるウェブ小説、およびLLMが生成したコンテンツを効果的に区別できることが示された。我々は24の最先端LLMを包括的に分析し、それらのストーリーテリング能力をランク付けし、今後の開発に向けた洞察を提供する。このベンチマークは、LLMによる物語生成を評価し、進歩させるためのスケーラブルで再現可能なデータ駆動型の方法論を提供する。
大規模マルチモーダルモデルはマルチモーダルタスクにおいて優れた性能を発揮しますが、視覚トークンに対する過剰な計算により、大きな計算上の課題に直面しています。トークンレベルの冗長性に焦点を当てたトークン削減手法とは異なり、我々は情報の損失を防ぐために、視覚トークンにおける計算レベルの冗長性を特定し、研究しました。重要な洞察として、事前学習済みの視覚エンコーダから得られる視覚トークンは、デコーダのみの大規模マルチモーダルモデルにおいて、必ずしも全ての重い操作(例えば、自己注意機構やフィードフォワードネットワーク)を必要とせず、適切な設計により軽量に処理できる可能性があります。我々は、視覚関連の計算冗長性を発見し、段階的に削減するための一連の実験を設計しました。これらの発見に基づいて、我々はProxyVという新しいアプローチを提案します。ProxyVは、オリジナルの視覚トークンに対する計算負荷を軽減するために、プロキシ視覚トークンを利用します。ProxyVは、性能を損なうことなく効率を向上させ、より穏やかな効率改善のシナリオにおいても顕著な性能向上をもたらすことができます。さらに、ProxyVの柔軟性は、トークン削減手法との組み合わせにより、さらなる効率向上を実現することで示されています。コードは以下のURLで公開されます: https://github.com/penghao-wu/ProxyV。
視聴覚音声認識(AVSR)は、視覚的な手がかりを統合することで、ノイズの多い環境における頑健性を向上させます。近年の進展では、大規模言語モデル(LLM)をAVSRに統合する試みが行われていますが、その高い計算コストがリソースに制約のある環境での展開を妨げています。この課題に対処するため、我々はLlama-SMoPを提案します。これは、推論コストを増加させることなくモデルの容量を拡張するために、Sparse Mixture of Projectors(SMoP)モジュールを採用した効率的なマルチモーダルLLMです。疎にゲートされた専門家混合(MoE)プロジェクターを組み込むことで、Llama-SMoPはより小さなLLMを使用しながらも高い性能を維持します。我々は3つのSMoP構成を検討し、モダリティ固有のルーターと専門家を使用するLlama-SMoP DEDR(Disjoint-Experts, Disjoint-Routers)が、ASR、VSR、およびAVSRタスクにおいて優れた性能を発揮することを示します。アブレーション研究により、専門家の活性化、スケーラビリティ、およびノイズに対する頑健性の有効性が確認されました。
人間の聴取者は、不慣れな話者や言語の多様性に容易に適応しますが、この適応の恩恵は最先端の音声言語モデルにも及ぶのでしょうか?本研究では、Phi-4 Multimodalにおいて、タスクプロンプトと音声-テキストペアを交互に配置することで、コンテキスト内学習(ICL)を可能にするスケーラブルなフレームワークを導入しました。その結果、推論時にわずか12の発話例(約50秒)を提示するだけで、多様な英語コーパス全体で単語誤り率が相対的に19.7%(1.2ポイント)減少することがわかりました。これらの改善は、低リソースの言語変種において、コンテキストと対象話者が一致する場合、およびより多くの例が提供される場合に最も顕著です。ただし、手順をスケールアップすると、コンテキスト長に対する限界収益は逓減します。全体として、我々の新しいICL適応スキームは、(1)人間の聴取者と同様のパフォーマンスプロファイルを示し、(2)多様な話者や言語背景にわたって自動音声認識(ASR)の堅牢性を一貫して向上させることがわかりました。適応は広範囲で成功していますが、特定の言語変種では依然として大きなギャップが残っており、現在のモデルが人間の柔軟性に及ばない領域が明らかになりました。我々はプロンプトとコードをGitHubで公開しています。
大規模言語モデル(LLMs)には、忠実性と事実性に関する本質的な限界があり、一般的に「幻覚」と呼ばれる現象が生じる。これまでに、英語中心のデータセットを基にした事実性評価のためのベンチマークがいくつか開発されてきたが、これらはウェブリンクやテキストパッセージなどの補足的な情報に依存し、利用可能な構造化された事実リソースを無視している。この問題に対処するため、知識グラフ(KGs)が幻覚の軽減に有用な支援ツールとして認識されている。KGsは、エンティティとその関係に関する事実を構造化された形で表現し、最小限の言語的オーバーヘッドで提供する。本研究では、既存の幻覚評価ベンチマークにおけるKGパスと多言語性の欠如を埋め、生成テキスト評価のためのKGベースの多言語・マルチホップベンチマーク「MultiHal」を提案する。データ収集パイプラインの一環として、オープンドメインのKGsから14万のKGパスを抽出し、ノイズの多いKGパスを除去して、2万5900の高品質なサブセットをキュレーションした。ベースライン評価の結果、KG-RAGは複数の言語とモデルにおいて、従来のQAと比較してセマンティック類似性スコアが約0.12から0.36ポイント絶対的に向上し、KG統合の可能性を示した。MultiHalが、グラフベースの幻覚軽減および事実確認タスクに向けた今後の研究を促進することを期待する。
コードスイッチングは、同じ発話や思考、会話の中で異なる言語を切り替える一般的な現象です。私たちは、人間がコードスイッチングを行うのは、特定のトピックや領域について、ある言語で話す方がより快適だと感じるためであると考えます。知識集約型の言語モデルの台頭に伴い、私たちは次の自然な疑問を自問します:モデルは、ある言語Xにおいて特定のトピックに関する知識をより多く保持している可能性があるのか?さらに重要なのは、推論を行う言語を変えることで、推論を改善できるのか?私たちはこの現象を表すために「言語固有知識(Language Specific Knowledge, LSK)」という用語を提唱します。 民族文化は異なる言語とともに発展する傾向があるため、私たちは文化固有のデータセット(文化的および社会的行動規範に関する知識を含む)を活用します。私たちは、言語モデルが英語以外の言語、時には低リソース言語において、連鎖的思考(chain-of-thought)推論を使用することでより良いパフォーマンスを発揮することを発見しました。これまでの研究で、意味的類似性が表現的類似性と等しくないことが示されていることと合わせて、文化的に固有のテキストは対応する言語においてより豊富に存在し、特定の「専門」言語でのみ特定の知識が発生することを仮説として立てます。 初期の結果に動機づけられ、私たちはLSKExtractorと呼ばれるシンプルな方法論を設計し、言語モデルに存在する言語固有の知識をベンチマークし、推論中にそれを活用します。私たちは、さまざまなモデルとデータセットにおいて結果を示し、平均で10%の精度向上を達成しました。私たちの研究は、文化的および言語的文脈に適応した、包括的な言語モデルのオープンソース開発に貢献します。