翻訳付きの日次キュレーションされたAI研究論文
本論文では、クロスアーキテクチャGPUコードトランスパイレーションのための初の大規模データセットおよびモデルスイートであるCASSを紹介します。CASSは、ソースレベル(CUDA ↔ HIP)とアセンブリレベル(Nvidia SASS ↔ AMD RDNA3)の両方の翻訳を対象としています。このデータセットは、ホストとデバイスにわたる7万組の検証済みコードペアを含み、低レベルGPUコードの移植性における重要なギャップを埋めるものです。このリソースを活用して、ドメイン固有の言語モデルファミリーであるCASSを訓練し、95%のソース翻訳精度と37.5%のアセンブリ翻訳精度を達成しました。これは、GPT-4o、Claude、Hipifyなどの商用ベースラインを大幅に上回る性能です。生成されたコードは、85%以上のテストケースでネイティブ性能を維持し、ランタイムとメモリの挙動を保持しています。厳密な評価を支援するため、16のGPUドメインにわたるキュレーションされたベンチマークであるCASS-Benchを導入し、グラウンドトゥルースの実行を提供します。すべてのデータ、モデル、評価ツールはオープンソースとして公開され、GPUコンパイラツール、バイナリ互換性、LLMガイドによるハードウェア翻訳の進展を促進します。データセットとベンチマークはhttps://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}に、コードはhttps://github.com/GustavoStahl/CASS{blue{GitHub}}に公開されています。
我々は、アラビア語と英語の双方向翻訳に特化したコンパクトでありながら強力な言語モデル「Mutarjim」を紹介する。大規模なLLM(大規模言語モデル)は、機械翻訳を含む自然言語処理タスクにおいて目覚ましい進歩を遂げてきたが、より小規模なモデルにも注目が集まっている。この洞察を活かし、我々はアラビア語と英語の両方に特化した言語モデル「Kuwain-1.5B」を基にMutarjimを開発した。Mutarjimはその控えめなサイズにもかかわらず、最適化された二段階のトレーニングアプローチと厳選された高品質なトレーニングコーパスを通じて、いくつかの確立されたベンチマークでより大規模なモデルを凌駕する性能を発揮する。実験結果は、Mutarjimが最大20倍大きいモデルと同等の性能を発揮しながら、計算コストとトレーニング要件を大幅に削減することを示している。 また、我々は既存のアラビア語-英語ベンチマークデータセットの課題(ドメインの狭さ、短い文の長さ、英語ソースの偏りなど)を克服するために設計された新しいベンチマーク「Tarjama-25」を導入する。Tarjama-25は、専門家によるレビューを受けた5,000の文ペアで構成され、幅広いドメインをカバーし、より包括的でバランスの取れた評価フレームワークを提供する。特に、MutarjimはTarjama-25の英語からアラビア語のタスクにおいて最先端の性能を達成し、GPT-4o miniのような大幅に大規模でプロプライエタリなモデルさえも上回る。我々は、今後の研究を支援し、アラビア語-英語翻訳システムの評価を進めるために、Tarjama-25を公開する。
大規模言語モデル(LLMs)およびマルチモーダルLLMs(MLLMs)の急速な進歩は、これまで主にパラメータ数を数百万から数千億に増やすことによるモデル中心のスケーリングに依存し、性能向上を実現してきた。しかし、モデルサイズのハードウェア的限界に近づくにつれ、主要な計算上のボトルネックは、長いトークンシーケンスに対する自己注意機構の二次コストに根本的に移行し、これは超長文テキスト、高解像度画像、および長時間のビデオによって駆動されている。本ポジションペーパーでは、効率的なAI研究の焦点がモデル中心の圧縮からデータ中心の圧縮へと移行していることを主張する。我々は、トークン圧縮を新たなフロンティアとして位置づけ、モデルの訓練や推論中にトークン数を削減することでAIの効率性を向上させることを提案する。包括的な分析を通じて、まず、さまざまな領域における長文脈AIの最近の進展を検証し、既存のモデル効率化戦略に対する統一的な数学的枠組みを確立し、トークン圧縮が長文脈オーバーヘッドに対処する上で重要なパラダイムシフトであることを示す。続いて、トークン圧縮の研究状況を体系的にレビューし、その基本的な利点を分析し、多様なシナリオにおける説得力のある優位性を明らかにする。さらに、トークン圧縮研究における現在の課題を詳細に分析し、将来の有望な方向性を提示する。最終的に、本研究は、AI効率性に対する新たな視点を提供し、既存の研究を統合し、文脈長の増加がAIコミュニティの進歩に与える課題に対処するための革新的な発展を促進することを目指す。
事前学習はテキストから画像(T2I)モデルに広範な世界知識を提供しますが、これだけでは高い美的品質と整合性を達成するには不十分な場合が多くあります。そのため、教師ありファインチューニング(SFT)がさらなる洗練に不可欠です。しかし、その効果はファインチューニングデータセットの品質に大きく依存します。既存の公開SFTデータセットはしばしば狭い領域(例:アニメや特定の芸術スタイル)に焦点を当てており、高品質で汎用的なSFTデータセットの作成は依然として大きな課題です。現在のキュレーション手法はしばしばコストがかかり、真に影響力のあるサンプルを特定するのが困難です。この課題は、主要なモデルが大規模で独自の、十分に文書化されていない内部データに依存しているため、公開されている汎用データセットの不足によってさらに複雑化しています。本論文では、事前学習された生成モデルを高影響力のトレーニングサンプルの推定器として活用することで、汎用SFTデータセットを作成する新しい方法論を紹介します。この方法論を適用して、コンパクト(3,350サンプル)でありながら非常に効果的なSFTデータセットであるAlchemistを構築し、公開します。実験により、Alchemistが5つの公開T2Iモデルの生成品質を大幅に向上させながら、多様性とスタイルを維持することが実証されています。さらに、ファインチューニングされたモデルの重みを一般公開します。
大規模言語モデルは一般的なタスクにおいて優れた性能を発揮するが、金融、法律、医療といった論理性と正確性が求められる分野での信頼性を評価することは依然として課題である。この問題に対処するため、我々は現実世界の金融アプリケーションにおけるLLMの評価に特化した初のベンチマーク「BizFinBench」を導入する。BizFinBenchは6,781件の詳細な注釈付き中国語クエリで構成され、数値計算、推論、情報抽出、予測認識、知識ベースの質問応答という5つの次元にまたがり、9つの細分化されたカテゴリに分類される。このベンチマークには客観的および主観的な評価指標が含まれる。また、LLMが評価者として客観的指標を評価する際のバイアスを低減する新しいLLM評価手法「IteraJudge」を導入する。我々は25のモデル(プロプライエタリおよびオープンソースシステムを含む)をベンチマークした。大規模な実験の結果、全てのタスクで優位なモデルは存在しないことが明らかになった。評価からは以下のような能力パターンが浮かび上がる:(1) 数値計算では、Claude-3.5-Sonnet(63.18)とDeepSeek-R1(64.04)がリードし、Qwen2.5-VL-3B(15.92)のような小型モデルは大きく遅れをとる;(2) 推論では、プロプライエタリモデルが優位(ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15)で、オープンソースモデルは最大19.49ポイントの差をつけられる;(3) 情報抽出では、性能のばらつきが最も大きく、DeepSeek-R1が71.46を記録する一方、Qwen3-1.7Bは11.23にとどまる;(4) 予測認識では、性能のばらつきが最小で、トップモデルのスコアは39.16から50.00の間に収まる。現在のLLMは日常的な金融クエリには対応できるが、複数の概念をまたぐ推論を必要とする複雑なシナリオには苦戦することがわかった。BizFinBenchは、将来の研究に向けた厳密でビジネスに即したベンチマークを提供する。コードとデータセットはhttps://github.com/HiThink-Research/BizFinBenchで公開されている。
現在の大規模言語モデル(LLM)は、問題の難易度に関わらず、単純または複雑な固定の推論戦略をすべての質問に適用する傾向があります。このタスクや推論プロセスの複雑さの変化を無視するアプローチは、性能と効率の間の不均衡を引き起こします。既存の手法では、難易度の異なる問題に対処するために、トレーニング不要の高速-低速思考システムの切り替えを実装しようとしていますが、粗い粒度のソリューションレベルでの戦略調整に限定されています。この問題を解決するため、我々は新しい推論パラダイムを提案します:プロセスレベル適応型思考モード切り替え(PATS)です。PATSは、LLMが各ステップの難易度に基づいて推論戦略を動的に調整し、精度と計算効率のバランスを最適化することを可能にします。我々のアプローチは、プロセス報酬モデル(PRM)とビームサーチを統合し、段階的なモード切り替えと不良ステップペナルティメカニズムを組み込んでいます。多様な数学的ベンチマークでの実験により、本手法が高い精度を維持しながら適度なトークン使用量を実現することが示されました。本研究は、プロセスレベルでの難易度認識型推論戦略適応の重要性を強調し、LLMの効率的な推論に関する貴重な知見を提供します。
大規模言語モデル(LLM)を搭載したエンボディエージェントは、家庭内の物体再配置タスクにおいて高い性能を発揮しています。しかし、これらのタスクは主に単一ターンのインタラクションと簡略化された指示に焦点を当てており、ユーザーに意味のある支援を提供する際の課題を真に反映していません。パーソナライズされた支援を提供するためには、エンボディエージェントは、ユーザーが物理世界に割り当てる独自の意味(例:お気に入りのカップ、朝食のルーティン)を理解し、過去のインタラクション履歴を活用して動的な現実世界の指示を解釈する必要があります。しかし、パーソナライズされた支援における記憶の活用に関するエンボディエージェントの有効性は、まだ十分に検討されていません。このギャップを埋めるため、我々はMEMENTOを提案します。これは、パーソナライズされた支援を提供するための記憶活用能力を包括的に評価するためのエンボディエージェント評価フレームワークです。我々のフレームワークは、記憶活用がタスク性能に与える影響を定量化するための2段階の記憶評価プロセス設計で構成されています。このプロセスにより、物体再配置タスクにおけるパーソナライズされた知識の理解を、目標解釈における役割に焦点を当てて評価することが可能です:(1)個人的な意味に基づいて対象物体を特定する能力(物体の意味論)、および(2)ルーティンなどの一貫したユーザーパターンから物体と位置の配置を推論する能力(ユーザーパターン)。様々なLLMを用いた実験の結果、記憶活用には重大な制限があることが明らかになりました。特に、GPT-4oのような最先端モデルでも、複数の記憶を参照する必要がある場合、特にユーザーパターンに関連するタスクにおいて、30.5%の性能低下が見られました。これらの発見と詳細な分析およびケーススタディは、より効果的なパーソナライズドエンボディエージェントの開発に向けた将来の研究に貴重な洞察を提供します。プロジェクトウェブサイト: https://connoriginal.github.io/MEMENTO
大規模な推論モデルは複雑なタスクにおいて高い性能を発揮するものの、タスクの難易度に基づいて推論トークンの使用量を調整する能力を欠いています。これにより、「過剰思考」問題――過剰で不要な推論――がしばしば発生します。この問題は、人間が介入してトークン予算を制御することで緩和できる可能性があるものの、完全自律型AIの実現という目標とは根本的に矛盾しています。本研究では、Adaptive Reasoning Model (ARM)を提案します。ARMは、タスクに応じて適切な推論形式を適応的に選択できる推論モデルです。これらの形式には、Direct Answer、Short CoT、Codeという3つの効率的な形式と、より詳細な形式であるLong CoTが含まれます。ARMを訓練するために、Group Relative Policy Optimization (GRPO)を改良したAda-GRPOを導入します。Ada-GRPOは、従来のGRPOにおける形式崩壊問題に対処し、ARMが高いトークン効率を達成できるようにします。これにより、平均30%、最大70%のトークン削減を実現しつつ、Long CoTのみに依存するモデルと同等の性能を維持します。さらに、トークン生成量の削減による推論効率の向上に加え、訓練速度も2倍に高速化します。デフォルトのAdaptive Modeに加え、ARMは2つの追加の推論モードをサポートします:1) Instruction-Guided Mode:ユーザーが特殊トークンを通じて推論形式を明示的に指定できるモードで、一連のタスクに対して適切な形式が既知の場合に理想的です。2) Consensus-Guided Mode:3つの効率的な形式の出力を集約し、意見が一致しない場合にLong CoTに頼るモードで、より高いトークン使用量を優先して性能を重視します。
OpenAIのo1やDeepSeekのR1などの大規模言語モデル(LLMs)は、検証可能な報酬を用いた強化学習(RLVR)を通じて、数学やコーディングなどの高度な推論タスクで優れた性能を発揮しますが、ドメイン知識なしで人間が解けるパズルには依然として苦戦しています。本論文では、LLMのパズル推論能力を向上させるために初めて設計された包括的なスイート「Enigmata」を紹介します。Enigmataは7つのカテゴリーにわたる36のタスクを含み、各タスクには1)難易度を制御可能な無制限の例を生成するジェネレータと、2)自動評価のためのルールベースの検証器が備わっています。このジェネレータ-検証器の設計により、スケーラブルなマルチタスク強化学習トレーニング、詳細な分析、シームレスなRLVR統合が可能となります。さらに、厳密なベンチマーク「Enigmata-Eval」を提案し、最適化されたマルチタスクRLVR戦略を開発しました。我々がトレーニングしたモデル「Qwen2.5-32B-Enigmata」は、Enigmata-Eval、ARC-AGI(32.8%)、ARC-AGI 2(0.6%)などのパズル推論ベンチマークで、o3-mini-highやo1を一貫して上回りました。また、ドメイン外のパズルベンチマークや数学的推論にも良好な汎化性能を示し、マルチタスキングのトレードオフもほとんどありませんでした。Seed1.5-Thinking(200億の総パラメータのうち200億が活性化)のような大規模モデルでEnigmataのパズルデータをトレーニングすると、AIME(2024-2025)、BeyondAIME、GPQA(Diamond)などの高度な数学やSTEM推論タスクにおいて、SoTA性能がさらに向上し、Enigmataの優れた汎化効果が確認されました。本論文は、LLMの論理的推論を進めるための統一された制御可能なフレームワークを提供します。本論文のリソースはhttps://seed-enigmata.github.ioで公開されています。
大規模言語モデル(LLM)の推論能力をメタ学習の観点から理解するための新しいフレームワークを提案します。推論の軌跡をLLMのパラメータに対する疑似勾配降下法の更新として概念化することで、LLMの推論と様々なメタ学習パラダイムとの類似性を明らかにします。推論タスクの学習プロセスをメタ学習のセットアップとして形式化し、各質問を個別のタスクとして扱い、推論の軌跡をモデルパラメータの適応のための内側ループ最適化として位置づけます。多様な質問セットで学習を終えたLLMは、未見の質問に対しても汎化可能な基本的な推論能力を獲得します。広範な実証評価を通じて、LLMの推論とメタ学習との強い関連性を裏付け、メタ学習の観点から重要な課題をいくつか探求します。本研究は、LLMの推論に対する理解を深めるだけでなく、確立されたメタ学習技術を用いてこれらのモデルを改善するための実践的な知見を提供します。
大規模言語モデル(LLM)は、自然言語処理タスクにおいて顕著な成功を収めており、特定のアプリケーションに適応させる上で強化学習が重要な役割を果たしている。しかし、数学的問題解決におけるLLMの訓練のための正解データを取得することは、しばしば困難でコストがかかり、時には不可能である。本研究では、従来の正解データを必要とせず、形式と長さを代理信号として利用してLLMを数学的問題解決に訓練する方法を探求する。我々の研究は、形式の正確さに基づく報酬関数のみでも、初期段階では標準的なGRPOアルゴリズムと同等の性能向上をもたらすことを示している。後期段階における形式のみの報酬の限界を認識し、長さに基づく報酬を組み込む。結果として得られた形式-長さ代理信号を活用するGRPOアプローチは、特定のシナリオにおいて正解データに依存する標準的なGRPOアルゴリズムの性能を上回り、7BベースモデルでAIME2024において40.0%の精度を達成した。体系的な探求と実験を通じて、本研究は数学的問題解決のためのLLMの訓練と、広範な正解データ収集への依存を軽減する実用的な解決策を提供するだけでなく、ラベルフリーアプローチが成功する本質を明らかにしている:ベースモデルは、数学的および論理的推論スキルを既に習得している優秀な学生のようなものであるが、試験用紙では成績が悪く、単に良い解答習慣を身につけることで試験で優れた結果を達成する必要がある。言い換えれば、既に持っている能力を引き出すことが重要である。
大規模言語モデル(LLM)は、女性に対する偏見や数字の7を好む傾向など、強いバイアスを示すことが多い。本研究では、マルチターン会話において、同じ質問に対する以前の回答を観察できる場合に、LLMがより偏りの少ない回答を出力できるかどうかを調査する。どのようなタイプの質問がより偏った回答を引き起こすかを理解するため、9つのトピックにまたがり、3つのタイプ(1)主観的、(2)ランダム、(3)客観的、に属する質問セットを提案し、LLMをテストした。興味深いことに、LLMは、ランダムで偏りのない回答を求める質問に対して、マルチターン会話において自己のバイアスを「除去」することができた。さらに、主観的、ランダム、易しい、難しい質問に対するバイアスを検出するのに有効な新しい指標であるBスコアを提案する。MMLU、HLE、CSQAにおいて、Bスコアを活用することで、言語化された信頼度スコアや単一ターン回答の頻度だけを使用する場合と比較して、LLMの回答の検証精度(つまり、LLMの正しい回答を受け入れ、誤った回答を拒否する)が大幅に向上した。コードとデータは以下で公開されている:https://b-score.github.io。
大規模言語モデル(LLM)を複雑な推論のために強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)を用いて訓練することは有効ですが、コストがかかり、ドメイン固有の監視に依存するという制約があります。本研究では、外部の報酬やラベル付きデータを必要とせず、内在的な信号から学習することを可能にする強化学習フレームワーク「Reinforcement Learning from Internal Feedback(RLIF)」を探求します。我々は、モデル自身の信頼度(自己確信度)を唯一の報酬信号として利用するRLIF手法「Intuitor」を提案します。Intuitorは、Group Relative Policy Optimization(GRPO)における外部報酬を自己確信度スコアに置き換えることで、完全に教師なしの学習を実現します。実験結果は、Intuitorが数学的ベンチマークにおいてGRPOと同等の性能を発揮しつつ、コード生成のようなドメイン外タスクに対して優れた汎化性能を達成することを示しています。これらは、正解データやテストケースを必要としません。我々の知見は、内在的なモデル信号がドメインを超えた効果的な学習を駆動し、検証可能な報酬が利用できない自律AIシステムにおいてRLVRのスケーラブルな代替手段を提供することを示しています。コードはhttps://github.com/sunblaze-ucb/Intuitorで公開されています。
人間が生成する報酬信号は、生成モデルを人間の好みに合わせるために重要であり、トレーニングと推論時の評価の両方を導きます。プロキシ評価者として使用される大規模言語モデル(LLM)、すなわちLLM-as-a-Judgeは、手動アノテーションに関連するコストを大幅に削減しますが、通常、広範なモダリティ固有のトレーニングデータを必要とし、多様なマルチモーダルタスクにわたる汎化が不十分です。本論文では、最小限のテキスト推論データを活用して、複数のモダリティと評価形式にわたって頑健に汎化する、推論ガイド型マルチモーダル評価モデルであるFlex-Judgeを提案します。私たちの核心的な直感は、構造化されたテキスト推論説明が本質的に汎化可能な意思決定パターンをエンコードしており、画像や動画などのマルチモーダル判断への効果的な転移を可能にするというものです。実験結果は、Flex-Judgeが、大幅に少ないテキストデータでトレーニングされているにもかかわらず、最先端の商用APIや広範にトレーニングされたマルチモーダル評価者と比較して、競争力のあるまたは優れたパフォーマンスを達成することを示しています。特に、Flex-Judgeは、分子などのモダリティにおいて広範な影響を示し、包括的な評価ベンチマークが不足している領域での実用的価値を強調しています。私たちのフレームワークは、推論ベースのテキスト監視が、従来のアノテーション集約型アプローチに対する強力でコスト効率の高い代替手段であることを示し、スケーラブルなマルチモーダルモデル-as-a-Judgeを大幅に進歩させます。
大規模言語モデル(LLM)は科学的仮説生成の自動化において有望な成果を示しているが、既存のアプローチでは主に粗粒度の仮説が生成され、重要な方法論的・実験的詳細が欠如している。本論文では、細粒度の科学的仮説発見という新たなタスクを導入し、正式に定義する。このタスクは、粗い初期研究方向から詳細で実験的に実行可能な仮説を生成することを含む。我々はこれを組み合わせ最適化問題として定式化し、LLMがこの問題を解決する能力の上限を最大限に活用した場合に探求する。具体的には、以下の4つの基礎的な問いを探る:(1) LLMの内部ヒューリスティックを最大限に活用し、LLM自身が生成し得る全ての仮説の中から、自身の内部スコアリングに基づいて最も有望と判断する細粒度仮説を定式化する方法、これにより仮説空間上の潜在的な報酬地形を定義する;(2) そのようなLLMが判断した優れた仮説は、真の仮説との整合性がより強いか;(3) 類似した能力を持つ多様なLLMのアンサンブルを使用して報酬地形を形成することが、最も強力なLLMの繰り返しインスタンスで定義するよりも優れた結果をもたらすか;(4) 同一のLLMのアンサンブルは、単一のLLMよりも信頼性の高い報酬地形を提供するか。これらの問いに答えるため、我々は階層的探索手法を提案する。この手法は、仮説に詳細を段階的に提案し統合することで、一般的な概念から特定の実験設定へと進む。この階層的プロセスにより、報酬地形が平滑化され、より効果的な最適化が可能となることを示す。最近の化学文献から専門家が注釈を付けた細粒度仮説の新たなベンチマークでの実証評価により、我々の手法が強力なベースラインを一貫して上回ることを示す。
LLM(大規模言語モデル)は目覚ましい進歩を遂げてきましたが、その能力の向上に伴い、安全性のアライメントを回避するための高度に柔軟なジャイルブレイク攻撃にさらされるリスクも増大しています。既存の多くの防御策は既知の攻撃タイプに焦点を当てていますが、実際の運用中に発生する可能性のある未知の攻撃に対してLLMを準備することがより重要です。この問題に対処するため、私たちはLLMが新たに進化するジャイルブレイク戦略に継続的に適応できる「生涯安全アライメント」フレームワークを提案します。このフレームワークでは、2つのコンポーネント間の競争的な仕組みを導入しています。1つは、新たなジャイルブレイク戦略を積極的に発見するように訓練された「メタアタッカー」、もう1つはそれらに抵抗するように訓練された「ディフェンダー」です。メタアタッカーを効果的にウォームアップするため、まずGPT-4o APIを活用して、ジャイルブレイク関連の研究論文の大規模なコレクションから重要な洞察を抽出します。反復的なトレーニングを通じて、最初のイテレーションのメタアタッカーは、単一ターンの攻撃のみでRRに対して73%の攻撃成功率(ASR)、LATに対して57%の転移ASRを達成しました。一方、ディフェンダーはその堅牢性を徐々に向上させ、最終的にメタアタッカーの成功率をわずか7%にまで低下させ、オープンエンド環境でのLLMのより安全で信頼性の高い運用を可能にします。コードはhttps://github.com/sail-sg/LifelongSafetyAlignmentで公開されています。
マルチモーダル大規模言語モデル(MLLMs)は最近、意味的シーン理解やテキスト-画像アラインメントを含む視覚タスクにおいて大きな進展を遂げており、数学や論理を含む複雑なタスクにおいては推論バリアントが性能を向上させています。しかし、細粒度の視覚理解を必要とする推論タスクにおける能力は十分に評価されていません。このギャップを埋めるため、我々はReasonMapを導入しました。これは、MLLMsの細粒度視覚理解能力と空間推論能力を評価するためのベンチマークです。ReasonMapは、13か国30都市の高解像度交通マップを含み、2つの質問タイプと3つのテンプレートにまたがる1,008の質問-回答ペアを網羅しています。さらに、回答の正確性と品質を適切に評価する2段階の評価パイプラインを設計しました。ベースモデルと推論バリアントを含む15の主要なMLLMsに対する包括的な評価から、直感に反するパターンが明らかになりました。オープンソースモデルでは、ベースモデルが推論モデルを上回る一方、クローズドソースモデルでは逆の傾向が観察されました。また、視覚入力をマスクすると一般的に性能が低下することから、MLLMsは一部の質問に答えるために事前知識を活用できるものの、細粒度の視覚推論タスクでは強力な性能を発揮するために真の視覚知覚が必要であることが示唆されました。我々のベンチマーク研究は、視覚推論に関する新たな洞察を提供し、オープンソースモデルとクローズドソースモデルの間のギャップを調査するための貢献を果たします。
デコーダのみの言語モデルが注目を集める中でも、リソースに制約のあるアプリケーションにおいてエンコーダは依然として重要です。本論文では、ModernBERTのアーキテクチャ上の革新を取り入れた、ゼロから訓練された完全に透明なドイツ語エンコーダモデルファミリーであるModernGBERT(134M、1B)を紹介します。エンコーダをゼロから訓練することの実用的なトレードオフを評価するため、ドイツ語のデコーダのみのモデルからLLM2Vecを介して導出されたエンコーダファミリーであるLL\"aMmlein2Vec(120M、1B、7B)も提示します。すべてのモデルを自然言語理解、テキスト埋め込み、長文脈推論タスクでベンチマークし、専用エンコーダと変換されたデコーダの間の制御された比較を可能にします。我々の結果は、ModernGBERT 1Bが、性能とパラメータ効率の観点で、従来の最先端ドイツ語エンコーダやLLM2Vecを介して適応されたエンコーダを上回ることを示しています。すべてのモデル、訓練データ、チェックポイント、コードは公開されており、透明で高性能なエンコーダモデルを通じてドイツ語NLPエコシステムを推進します。
視覚生成と理解は、人間の知性において深く結びついた二つの側面であるが、機械学習においては伝統的に別々のタスクとして扱われてきた。本論文では、画像領域と複数のラベル領域を共同でモデル化することにより、視覚生成と理解を統合する拡散フレームワーク「Jodi」を提案する。具体的には、Jodiは線形拡散トランスフォーマーと役割切り替えメカニズムを基盤として構築されており、以下の3つの特定のタスクを実行可能である:(1) 画像と複数のラベルを同時に生成する共同生成、(2) 任意のラベルの組み合わせに基づいて画像を生成する制御可能な生成、(3) 与えられた画像から複数のラベルを一度に予測する画像知覚。さらに、公開ソースから収集された20万枚の高品質画像、7つの視覚領域に対する自動ラベル、およびLLM生成のキャプションを含むJoint-1.6Mデータセットを提示する。広範な実験により、Jodiが生成と理解の両タスクにおいて優れた性能を発揮し、より広範な視覚領域への強力な拡張性を示すことが実証された。コードはhttps://github.com/VIPL-GENUN/Jodiで公開されている。
大規模言語モデル(LLMs)がソフトウェア開発ワークフローに不可欠な存在となるにつれ、構造化された出力を生成する能力が極めて重要となっている。本論文では、LLMsが非レンダリング可能な形式(JSON、YAML、CSV)およびレンダリング可能な形式(HTML、React、SVG)の構造化フォーマットを生成する能力を評価するための包括的なベンチマーク「StructEval」を提案する。従来のベンチマークとは異なり、StructEvalは、1)自然言語プロンプトから構造化出力を生成する生成タスク、および2)構造化フォーマット間の変換を行う変換タスクという2つのパラダイムを通じて、多様なフォーマットにおける構造的忠実性を体系的に評価する。本ベンチマークは18のフォーマットと44種類のタスクを網羅し、フォーマット遵守度と構造的正確性を測定するための新たな指標を導入している。結果として、最先端のモデルであるo1-miniでさえ平均スコア75.58に留まり、オープンソースの代替モデルは約10ポイント遅れを取ることが明らかとなった。生成タスクは変換タスクよりも難易度が高く、視覚的なコンテンツを正確に生成することはテキストのみの構造を生成するよりも困難であることが判明した。
2025年、人工汎用知能(AGI)の追求における重要な分岐点に立つ中、強化学習によるファインチューニング(RFT)は、大規模言語モデル(LLM)の推論能力を向上させる上で大きな可能性を示し、OpenAI-o1やDeepSeek-R1といった最先端のAIモデルの開発につながっています。さらに、マルチモーダル大規模言語モデル(MLLM)の推論能力を強化するためのRFTの効率的な応用は、コミュニティから広く注目を集めています。本ポジションペーパーでは、強化学習によるファインチューニングがマルチモーダル大規模言語モデルの推論能力を強化することを主張します。まず、この分野に興味を持つ研究者が熟知すべき基本的な背景知識について詳細に紹介します。さらに、RFTがMLLMの推論能力を強化するための改善点を、多様なモダリティ、多様なタスクとドメイン、より優れたトレーニングアルゴリズム、豊富なベンチマーク、そして活発なエンジニアリングフレームワークという5つのキーポイントにまとめます。最後に、コミュニティが検討すべき今後の研究に向けた5つの有望な方向性を提案します。本ポジションペーパーが、AGIへの進展におけるこの重要な段階で、コミュニティに貴重な洞察を提供することを願っています。MLLM向けのRFTに関する研究の概要は、https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs でご覧いただけます。
長時間にわたるビデオ-オーディオ推論と細粒度のピクセル理解は、オムニモーダルモデルに対して相反する要件を課します:密な時間的カバレッジは多くの低解像度フレームを要求する一方で、正確なグラウンディングは高解像度の入力を必要とします。このトレードオフに対処するために、我々は二つのシステムアーキテクチャを採用します:グローバル推論システムが情報量の多いキーフレームを選択し、低空間コストでタスクを再構築し、詳細理解システムが選択された高解像度のスニペットに対してピクセルレベルのグラウンディングを実行します。「最適な」キーフレーム選択と再構築は曖昧で監視が難しいため、我々はこれらを強化学習(RL)問題として定式化し、Group Relative Policy Optimizationに基づくエンドツーエンドのRLフレームワークであるOmni-R1を提案します。Omni-R1は、詳細理解システムとのオンライン協力を通じて得られる階層的な報酬を用いてグローバル推論システムを訓練し、小さなタスク分割に対して1エポックのRLのみを必要とします。 2つの挑戦的なベンチマーク、すなわちReferring Audio-Visual Segmentation(RefAVS)とReasoning Video Object Segmentation(REVOS)での実験により、Omni-R1が強力な教師ありベースラインを上回るだけでなく、専門的な最先端モデルをも凌駕し、ドメイン外の汎化を大幅に改善し、マルチモーダルハルシネーションを軽減することが示されました。我々の結果は、大規模なオムニモーダル推論へのRLの初めての成功した応用を示し、普遍的な基盤モデルへのスケーラブルな道筋を強調しています。
本論文では、大規模言語モデル(LLM)に基づくリストワイズ推論リランキングエージェントであるREARANKを提案する。REARANKは、リランキング前に明示的に推論を行うことで、性能と解釈可能性を大幅に向上させる。強化学習とデータ拡張を活用し、REARANKは主要な情報検索ベンチマークにおいてベースラインモデルを大きく上回る改善を達成し、特に179の注釈付きサンプルのみを必要とする。Qwen2.5-7Bを基盤としたREARANK-7Bは、ドメイン内およびドメイン外のベンチマークにおいてGPT-4に匹敵する性能を示し、推論が重要なBRIGHTベンチマークではGPT-4を上回る結果を出した。これらの結果は、我々のアプローチの有効性を裏付けるとともに、強化学習がLLMのリランキングにおける推論能力をどのように強化できるかを示している。
離散拡散は最近、離散データモデリングにおける有望なパラダイムとして登場しました。しかし、既存の手法は通常、トレーニング中に固定レートの遷移行列に依存しており、これは変分法の基本的な強みである潜在表現の表現力を制限するだけでなく、全体的な設計空間も制約しています。これらの制限に対処するため、我々は離散表現学習に特化した新しいフレームワークであるDiscrete Markov Bridgeを提案します。我々のアプローチは、Matrix LearningとScore Learningという2つの主要なコンポーネントに基づいて構築されています。我々は厳密な理論分析を行い、Matrix Learningの形式的な性能保証を確立し、フレームワーク全体の収束を証明しました。さらに、我々の手法の空間複雑性を分析し、先行研究で指摘された実用的な制約に対処します。広範な実証評価により、提案されたDiscrete Markov Bridgeの有効性が検証され、Text8データセットで1.38のEvidence Lower Bound (ELBO)を達成し、確立されたベースラインを上回りました。さらに、提案モデルはCIFAR-10データセットにおいても競争力のある性能を示し、画像固有の生成アプローチと同等の結果を達成しました。
リアルタイムでインタラクティブな流体シミュレーションのためのニューラル物理システムを提案します。従来の物理ベースの手法は精度が高いものの、計算負荷が大きく、レイテンシの問題を抱えています。最近の機械学習手法は計算コストを削減しつつ忠実度を維持していますが、ほとんどの手法はリアルタイム使用のレイテンシ制約を満たせず、インタラクティブアプリケーションのサポートも欠如しています。このギャップを埋めるため、数値シミュレーション、ニューラル物理、生成制御を統合した新しいハイブリッド手法を導入します。私たちのニューラル物理システムは、古典的な数値ソルバーへのフォールバックセーフガードを採用することで、低レイテンシシミュレーションと高い物理的忠実度を同時に追求します。さらに、逆モデリング戦略を用いて訓練された拡散ベースのコントローラーを開発し、流体操作のための外部動的力場を生成します。私たちのシステムは、多様な2D/3Dシナリオ、材料タイプ、障害物との相互作用において堅牢な性能を示し、高フレームレート(11~29%のレイテンシ)でのリアルタイムシミュレーションを実現するとともに、ユーザーフレンドリーなフリーハンドスケッチに基づく流体制御を可能にします。本システムは、リアルタイムインタラクティブアプリケーションのための実用的で制御可能かつ物理的に妥当な流体シミュレーションに向けた重要な一歩を示しています。採択後にはモデルとデータの両方を公開することを約束します。
大規模言語モデル(LLM)は、数学やコーディングにおいて顕著な推論能力を示しており、しばしば強力なモデルによって生成された連鎖的思考(CoT)を用いた事後学習によって強化されています。しかし、そのような学習データをキュレーションする既存の戦略は、主にヒューリスティックに依存しており、一般化能力が制限され、データに内在する微妙なニュアンスを捉えることができていません。これらの制約を解決するため、我々は影響関数を活用して、LLMの数学およびコーディングにおける推論能力を個々の学習例、シーケンス、トークンに系統的に帰属させ、効果的なデータ特性に関する深い洞察を可能にします。我々の影響ベースの推論帰属(Infra)は、数学とコーディングタスクにわたる非自明なクロスドメイン効果を明らかにします:高難易度の数学例は数学とコードの両方の推論を向上させ、低難易度のコードタスクはコード推論に最も効果的に寄与します。これらの発見に基づき、タスクの難易度を反転させるというシンプルでありながら効果的なデータセットの再重み付け戦略を導入し、AIME24の精度を10%から20%に倍増させ、Qwen2.5-7B-InstructのLiveCodeBench精度を33.8%から35.3%に向上させました。さらに、我々の細粒度の帰属分析は、シーケンスレベルの探索的行動が数学とコードの両方の推論性能を向上させること、およびトークンレベルの影響パターンが数学とコードの推論で異なることを明らかにしました:前者は自然言語の論理接続詞を好み、後者は構造的な構文を重視します。
本レビューでは、AI支援型ソフトウェア開発における2つの新興パラダイム、すなわち「バイブコーディング」と「エージェント型コーディング」について包括的な分析を提示する。両者とも大規模言語モデル(LLM)を活用するが、自律性、アーキテクチャ設計、開発者の役割において根本的に異なる。バイブコーディングは、プロンプトベースの対話型ワークフローを通じた直感的な人間参加型インタラクションを重視し、アイデア創出、実験、創造的探求を支援する。一方、エージェント型コーディングは、計画、実行、テスト、反復タスクを最小限の人的介入で行う目標駆動型エージェントによる自律的なソフトウェア開発を可能にする。本稿では、概念的基盤、実行モデル、フィードバックループ、安全機構、デバッグ戦略、実世界のツールエコシステムにわたる詳細な分類体系を提案する。比較ワークフロー分析と20の詳細なユースケースを通じて、バイブシステムが初期段階のプロトタイピングや教育分野で優位性を発揮する一方、エージェントシステムがエンタープライズグレードの自動化、コードベースのリファクタリング、CI/CD統合において卓越していることを示す。さらに、自然言語インターフェースと自律実行パイプラインを組み合わせたハイブリッドアーキテクチャの新興トレンドを検証する。最後に、信頼性、説明可能性、協調性を備えたシステムのためのインフラストラクチャを概説し、エージェント型AIの将来のロードマップを提示する。我々の調査結果は、成功するAIソフトウェアエンジニアリングが一つのパラダイムを選択するのではなく、人間中心の開発ライフサイクル内でそれらの強みを調和させることに依存することを示唆している。
現代の大規模推論モデルは、高度な推論戦略を採用することで印象的な問題解決能力を示しています。しかし、効率性と有効性のバランスを取ることに苦戦し、単純な問題に対して不必要に長い推論チェーンを生成することが頻繁にあります。本研究では、難易度を認識した適応的推論予算配分と、推論深度に対する明示的なユーザー制御の両方をサポートする新しいフレームワークであるAdaCtrlを提案します。AdaCtrlは、自己評価した問題の難易度に基づいて推論長を動的に調整すると同時に、ユーザーが手動で予算を制御して効率性または有効性を優先できるようにします。これは、2段階のトレーニングパイプラインによって実現されます。まず、自己認識した難易度に基づいて推論予算を調整する能力を習得するための初期コールドスタートのファインチューニング段階があり、次に、オンライントレーニング中に進化する能力に基づいてモデルの適応的推論戦略を洗練し、難易度評価を調整する難易度認識強化学習(RL)段階が続きます。直感的なユーザーインタラクションを可能にするために、予算制御のための自然なインターフェースとして機能する明示的な長さトリガータグを設計しました。実証結果は、AdaCtrlが推定された難易度に基づいて推論長を適応させることを示しています。ファインチューニングとRLを組み込んだ標準的なトレーニングベースラインと比較して、AdaCtrlはパフォーマンスの向上をもたらし、同時に、複雑な推論を必要とするより挑戦的なAIME2024およびAIME2025データセットでは応答長をそれぞれ10.06%および12.14%削減し、より簡潔な応答で十分なMATH500およびGSM8Kデータセットではそれぞれ62.05%および91.04%削減しました。さらに、AdaCtrlは推論予算に対する正確なユーザー制御を可能にし、特定のニーズに合わせた応答を提供します。
大規模推論モデル(LRM)は、最終的な答えを導き出すための過度に長い連鎖思考(CoT)が批判されており、最初のトークンおよび全体のレイテンシが高いという問題を抱えています。通常、LRMのCoTは複数の思考ユニットを混在させており、各ユニットは元のクエリに対する候補となる答えを生成しようとします。したがって、効率を向上させるための自然なアイデアは、ユニットの数を減らすことです。しかし、従来のCoTにおける思考ユニットを明示的に管理できないという事実が、これを困難にしています。本論文では、従来のCoTを明示的で構造化されたターンごとの相互作用のシーケンスにデコードするためのマルチターン分解(MinD)を導入し、このギャップを埋めます。MinDでは、モデルはクエリに対してマルチターンの応答を提供し、各ターンは思考ユニットを包含し、対応する答えを生成します。後続のターンでは、以前の思考部分や答え部分を反映、検証、修正、または代替アプローチを探ることができます。これにより、答えがより迅速に提供されるだけでなく、反復的な推論プロセスに対する明示的な制御が可能になります(つまり、ユーザーは任意のターンで停止または継続することができます)。MinDを実現するために、教師ありファインチューニング(SFT)と強化学習(RL)のパラダイムに従います。まず、別のLLMにプロンプトを送ることでLRMの出力をマルチターン形式に言い換え、そのようなデータでLRMをチューニングします。チューニングされたモデルが元のモデルよりもさらに多くのトークンを消費する傾向があることを観察し(おそらくマルチターン形式が追加の答えトークンを導入するため)、GRPOのようなRLアルゴリズムを活用して、より少ないターンで正しい出力を優先することを提唱します。R1-Distillモデルを使用してMATHデータセットでトレーニングされたMinDは、出力トークンの使用量と最初のトークンまでの時間(TTFT)を最大約70%削減しつつ、MATH-500、AIME24、AMC23、GPQA-Diamondなどの推論ベンチマークで競争力のある性能を維持することができます。
ビジュアル自己回帰(VAR)モデリングは、その革新的な次スケール予測アプローチにより、効率性、スケーラビリティ、ゼロショット汎化能力の大幅な向上をもたらし、注目を集めています。しかしながら、VARに内在する粗から細への方法論は、推論中にKVキャッシュの指数関数的な増大を引き起こし、多大なメモリ消費と計算の冗長性を生み出します。これらのボトルネックに対処するため、我々はVARアーキテクチャに特化した新しいKVキャッシュ圧縮フレームワーク、ScaleKVを提案します。ScaleKVは、トランスフォーマー層間でのキャッシュ需要の差異と、異なるスケールでの注意パターンの違いという2つの重要な観察を活用します。これらの洞察に基づき、ScaleKVはトランスフォーマー層を2つの機能グループに分類します:ドラフターとリファイナーです。ドラフターは複数のスケールにわたって分散した注意を示し、より大きなキャッシュ容量を必要とします。一方、リファイナーは現在のトークンマップに注意を集中させて局所的な詳細を処理するため、大幅に削減されたキャッシュ容量で済みます。ScaleKVは、スケール固有のドラフターとリファイナーを特定することで、マルチスケール推論パイプラインを最適化し、各スケールに適した差別化されたキャッシュ管理を可能にします。最先端のテキストから画像へのVARモデルファミリーであるInfinityでの評価により、本アプローチがピクセルレベルの忠実度を保ちつつ、必要なKVキャッシュメモリを10%に削減できることが実証されました。
音声言語は、単語だけでなく、イントネーション、感情、強調を通じて意味を伝えます。文中の特定の単語に置かれる強調、すなわち文ストレスは、話者の意図を伝える上で極めて重要であり、言語学において広く研究されてきました。本研究では、文ストレス検出を備えた書き起こしシステムを強化するための、アラインメント不要のアプローチであるWHISTRESSを紹介します。このタスクを支援するため、完全に自動化されたデータセット作成プロセスによって生成された、文ストレス検出のためのスケーラブルな合成トレーニングデータであるTINYSTRESS-15Kを提案します。WHISTRESSをTINYSTRESS-15Kでトレーニングし、いくつかの競合するベースラインと比較評価します。その結果、WHISTRESSは既存の手法を上回りながら、トレーニングや推論時に追加の入力事前情報を必要としないことが示されました。特に、合成データでトレーニングされているにもかかわらず、WHISTRESSは多様なベンチマークにおいて強力なゼロショット汎化能力を示しています。プロジェクトページ: https://pages.cs.huji.ac.il/adiyoss-lab/whistress。
長い思考連鎖(CoT)は、大規模言語モデル(LLM)の推論能力を大幅に向上させます。しかし、その広範な推論トレースは非効率性と初回トークンまでの時間(TTFT)の増加を引き起こします。本論文では、強化学習(RL)を用いて、多段階質問に対する思考と回答を交互に行うように推論LLMを導く新しいトレーニングパラダイムを提案します。モデルが本質的に交互推論を行う能力を持っており、それをRLによってさらに強化できることを観察しました。正しい中間ステップを奨励するためのシンプルで効果的なルールベースの報酬を導入し、交互推論中に生成される中間信号を活用して、ポリシーモデルを正しい推論パスに導きます。5つの多様なデータセットと3つのRLアルゴリズム(PPO、GRPO、REINFORCE++)を用いた広範な実験により、外部ツールを必要とせずに、従来の思考-回答推論を一貫して改善することが実証されました。具体的には、本手法はTTFTを平均で80%以上削減し、Pass@1精度で最大19.3%向上させました。さらに、質問応答と論理推論のデータセットのみでトレーニングされた本手法は、MATH、GPQA、MMLUなどの複雑な推論データセットに対して強い汎化能力を示します。加えて、条件付き報酬モデリングに関するいくつかの貴重な洞察を明らかにするための詳細な分析を行いました。
データ中心の蒸留、すなわちデータ拡張、選択、混合を含む手法は、強力な推論能力を保持したまま、より小型で効率的な学生用大規模言語モデル(LLM)を作成するための有望な道筋を提供します。しかし、各蒸留手法の効果を体系的に評価する包括的なベンチマークはまだ不足しています。本論文では、DC-CoTを紹介します。これは、連鎖的思考(CoT)蒸留におけるデータ操作を、手法、モデル、データの観点から調査する初のデータ中心ベンチマークです。様々な教師モデル(例:o4-mini、Gemini-Pro、Claude-3.5)と学生アーキテクチャ(例:3B、7Bパラメータ)を活用し、これらのデータ操作が学生モデルの性能に及ぼす影響を、複数の推論データセットにわたって厳密に評価します。特に、分布内(IID)および分布外(OOD)汎化、そしてクロスドメイン転移に焦点を当てています。我々の研究成果は、データ中心の技術を通じてCoT蒸留を最適化するための実践的な洞察を提供し、よりアクセスしやすく能力の高い推論モデルの開発を促進することを目指しています。データセットはhttps://huggingface.co/datasets/rana-shahroz/DC-COTで公開されており、コードはhttps://anonymous.4open.science/r/DC-COT-FF4C/で共有されています。
Vision-Language Models(VLM)は多くの直接的なマルチモーダルタスクにおいて優れた性能を発揮しますが、ゲームのようなインタラクティブで視覚的に豊かな環境での効果的な意思決定にその能力を活かすことは困難です。この「知っているが実行できない」ギャップは、主要なVLMが単純なゲームでも低いパフォーマンスを示すことから、自律エージェントとしての潜在能力を大きく制限しています。この問題に対処するため、我々はVLM-Gymを導入します。VLM-Gymは、多様な視覚ゲームを統一されたインターフェースと調整可能で構成可能な難易度で提供する、スケーラブルなマルチゲーム並列トレーニングに特化した強化学習(RL)環境です。VLM-Gymを活用し、純粋なRL駆動の自己進化を用いてG0モデルをトレーニングし、新たな知覚と推論パターンの出現を実証しました。さらに、ゲームの多様性に起因する課題を緩和するため、G1モデルを開発しました。G1は、RLファインチューニングの前に知覚を強化したコールドスタートを組み込んでいます。その結果、G1モデルは全てのゲームにおいて教師モデルを一貫して上回り、Claude-3.7-Sonnet-Thinkingのような主要なプロプライエタリモデルを凌駕しました。体系的な分析により、RLトレーニングプロセスを通じて知覚能力と推論能力が相互にブートストラップする興味深い発見が明らかになりました。VLM-GymとRLトレーニングを含むソースコードは、https://github.com/chenllliang/G1 で公開されており、VLMを有能なインタラクティブエージェントとして進化させるための将来の研究を促進します。
大規模な自然風景画像に対してコントラスティブ学習で訓練された視覚エンコーダを活用することで、大規模マルチモーダルモデル(LMM)は様々な視覚知覚タスクで顕著な性能を達成してきました。しかし、要約された記述に基づくコントラスティブ学習の本質的な限界は、特に幾何学的問題解決という重要なシナリオにおいて、モデルの緻密な推論能力を根本的に制約しています。幾何学的理解を強化するため、我々は視覚エンコーダに対して新しいハードネガティブコントラスティブ学習フレームワークを提案します。これは、図形生成コードを摂動させて生成されたハードネガティブを用いた画像ベースのコントラスティブ学習と、修正された幾何学的記述から導出されたルールベースのネガティブ、およびキャプションの類似度に基づいて選択された検索ベースのネガティブを用いたテキストベースのコントラスティブ学習を組み合わせたものです。我々はこの強力なネガティブ学習手法、すなわちMMCLIP(Multimodal Math CLIP)を用いてCLIPを訓練し、その後、幾何学的問題解決のためのLMMを訓練します。実験結果は、我々の訓練済みモデルMMGeoLMが、3つの幾何学的推論ベンチマークにおいて他のオープンソースモデルを大幅に上回ることを示しています。7Bのサイズであっても、GPT-4oのような強力なクローズドソースモデルに匹敵する性能を発揮します。さらに、異なるネガティブサンプル構築方法とネガティブサンプルの数がLMMの幾何学的推論性能に与える影響を研究し、有益な結論を得ました。コードとデータセットはhttps://github.com/THU-KEG/MMGeoLMで公開されています。
最近のビデオ生成モデルの進展により、現実的な環境をシミュレート可能なワールドモデルへの関心が高まっています。ナビゲーションは十分に研究されてきましたが、現実世界の力を模倣する物理的に意味のある相互作用は、まだほとんど研究されていません。本研究では、物理的な力をビデオ生成の制御信号として利用する方法を調査し、植物を突くような局所的な点力や、布に風が吹くようなグローバルな風力場を通じて、ユーザーが画像と相互作用できる「フォースプロンプト」を提案します。これらのフォースプロンプトにより、元の事前学習済みモデルの視覚的および運動的な事前知識を活用することで、推論時に3Dアセットや物理シミュレータを使用せずに、物理的な制御信号に対して現実的に応答するビデオを生成できることを示します。フォースプロンプトの主な課題は、現実世界では力信号の取得が困難であること、また合成データでは物理シミュレータの視覚品質とドメイン多様性に制限があるため、高品質な力-ビデオのペア訓練データを取得することが難しい点です。私たちの重要な発見は、Blenderで合成されたビデオから物理的な力の条件付けに適応させた場合、限られたオブジェクトのデモンストレーションであっても、ビデオ生成モデルが驚くほどよく一般化できることです。私たちの手法は、多様な形状、設定、および材料にわたる力をシミュレートするビデオを生成できます。また、この一般化の源を理解するために、視覚的多様性と訓練中の特定のテキストキーワードの使用という2つの重要な要素を明らかにするアブレーション実験を行いました。私たちのアプローチは、4つのA100 GPUで1日程度で約15kの訓練例で訓練され、力の遵守と物理的リアリズムにおいて既存の手法を上回り、ワールドモデルを現実世界の物理的相互作用に近づけます。すべてのデータセット、コード、重み、およびインタラクティブなビデオデモをプロジェクトページで公開しています。
近年のAIエージェントの進歩は、科学的発見を推進し支援する可能性が高まっていることを示しています。本研究では、オープンエンドの機械学習研究においてAIエージェントを評価するための包括的なベンチマークであるMLR-Benchを紹介します。MLR-Benchは以下の3つの主要なコンポーネントで構成されています:(1) NeurIPS、ICLR、ICMLのワークショップから収集した多様なMLトピックをカバーする201の研究タスク、(2) LLMベースのレビュアーと慎重に設計された評価基準を組み合わせた自動評価フレームワークであるMLR-Judge、(3) アイデア生成、提案策定、実験、論文執筆という4つの段階を通じて研究タスクを完了可能なモジュール型エージェントの足場であるMLR-Agentです。本フレームワークは、これらの異なる研究段階にわたる段階的評価と、最終的な研究論文のエンドツーエンド評価の両方をサポートします。次に、MLR-Benchを使用して6つの最先端LLMと高度なコーディングエージェントを評価し、LLMは首尾一貫したアイデアの生成と構造化された論文の作成に効果的である一方、現在のコーディングエージェントは頻繁に(例えば80%のケースで)捏造または無効な実験結果を生成することを発見しました。これは科学的信頼性に対する大きな障壁となっています。MLR-Judgeは人間による評価を通じて検証し、専門家レビュアーとの高い一致を示し、研究評価のスケーラブルなツールとしての可能性を支持します。我々はMLR-Benchをオープンソース化し、コミュニティが信頼性と透明性のある科学的発見に向けてAI研究エージェントをベンチマークし、診断し、改善することを支援します。
本論文では、テキスト、画像、音声、動画を含むマルチモーダルな方法でコンピュータと対話可能な汎用エージェント「InfantAgent-Next」を紹介する。既存のアプローチが単一の大規模モデルを中心に複雑なワークフローを構築するか、ワークフローのモジュール性のみを提供するのに対し、本エージェントはツールベースと純粋な視覚エージェントを高度にモジュール化されたアーキテクチャ内に統合し、異なるモデルが段階的に分離されたタスクを協調して解決することを可能にする。本エージェントの汎用性は、純粋な視覚ベースの実世界ベンチマーク(OSWorld)だけでなく、より一般的またはツール集約的なベンチマーク(GAIAやSWE-Benchなど)も評価できる点で実証されている。具体的には、OSWorldにおいて7.27%の精度を達成し、Claude-Computer-Useを上回った。コードと評価スクリプトはhttps://github.com/bin123apple/InfantAgentで公開されている。
大規模言語モデル(LLM)の計算需要の増大に伴い、効率的な推論と活性化戦略がますます重要になっています。最近のアプローチ、例えばMixture-of-Experts(MoE)は選択的活性化を活用しますが、専門的な訓練を必要とします。一方で、訓練不要のスパース活性化手法は、プラグアンドプレイ設計により幅広い適用性と優れたリソース効率を提供します。しかし、既存の多くの手法は活性化を決定するために隠れ状態の大きさのみに依存しており、高い近似誤差と最適でない推論精度をもたらしています。これらの課題を解決するため、我々はWINA(Weight Informed Neuron Activation)を提案します。これは、隠れ状態の大きさと重み行列の列ごとのℓ₂ノルムを同時に考慮する、新しくシンプルで訓練不要のスパース活性化フレームワークです。このアプローチにより、既存の技術よりも厳密な理論的保証を持つ最適な近似誤差限界を達成するスパース化戦略が得られることを示します。実験的にも、WINAは同じスパースレベルにおいて、最先端の手法(例:TEAL)を最大2.94%上回る平均性能を、多様なLLMアーキテクチャとデータセットで実現しています。これらの結果は、WINAをLLM推論における訓練不要スパース活性化の新たな性能フロンティアとして位置づけ、訓練不要スパース活性化手法を進化させ、効率的な推論のための堅牢なベースラインを確立します。ソースコードはhttps://github.com/microsoft/winaで公開されています。
近年の自動音声認識(ASR)の進歩は、大規模な音声コーパスによって大きく推進されてきました。しかし、限られたリソースで多様な言語に対応範囲を拡大することは依然として大きな課題です。本論文では、Speech Back-Translationを紹介します。これは、既存のテキスト音声合成(TTS)モデルを利用して大規模なテキストコーパスを合成音声に変換し、多言語ASRモデルを改善するスケーラブルなパイプラインです。わずか数十時間の実音声とその転写データで、TTSモデルを効果的に訓練し、元のボリュームの数百倍の合成音声を高品質で生成できることを実証します。合成音声の品質を評価するために、明瞭度に基づく評価フレームワークを開発し、合成データがASR訓練に有益である明確な閾値を確立します。Speech Back-Translationを使用して、10言語で50万時間以上の合成音声を生成し、Whisper-large-v3の事前訓練を継続することで、平均30%以上の転写エラー削減を達成しました。これらの結果は、多言語ASRシステムを強化するためのSpeech Back-Translationのスケーラビリティと有効性を強調しています。
マルチモーダル大規模言語モデル(MLLMs)は多様なタスクにおいて顕著な能力を発揮しているが、空間推論においては人間に大きく後れを取っている。本研究では、視点の変化に伴う画像間での物体変換を識別することを要求する、難易度の高いタスクであるTransformation-Driven Visual Reasoning(TVR)を通じて、このギャップを調査する。従来の教師ありファインチューニング(SFT)では、クロスビュー設定において一貫した推論パスを生成することができない一方、スパース報酬の強化学習(RL)は探索の非効率性と収束の遅さに悩まされている。これらの課題を解決するため、我々はTVRに特化した細粒度の報酬メカニズムを統合した単一段階のRLパラダイムであるSTAR-R1を提案する。具体的には、STAR-R1は部分的な正解を報酬とし、過剰な列挙と受動的な無行動をペナルティ化することで、効率的な探索と精密な推論を可能にする。包括的な評価により、STAR-R1は全ての11のメトリクスにおいて最先端の性能を達成し、クロスビューシナリオにおいてSFTを23%上回ることが示された。さらに、STAR-R1の人間らしい振る舞いを分析し、空間推論を改善するために全ての物体を比較する独自の能力を明らかにした。本研究は、MLLMsと推論モデルの研究を進める上で重要な知見を提供する。コード、モデル重み、データはhttps://github.com/zongzhao23/STAR-R1で公開予定である。
マスク拡散モデル(MDM)であるLLaDAなどは、言語モデリングにおいて有望なパラダイムを示していますが、強化学習を用いてこれらのモデルを人間の好みに合わせる取り組みは比較的少ない状況です。この課題は主に、選好最適化に必要なEvidence Lower Bound(ELBO)に基づく尤度推定の高分散に起因しています。この問題に対処するため、我々は分散低減選好最適化(Variance-Reduced Preference Optimization, VRPO)を提案します。このフレームワークは、ELBO推定量の分散を形式的に分析し、選好最適化勾配のバイアスと分散の両方に対する境界を導出します。この理論的基盤に基づいて、最適なモンテカルロ予算配分や対称サンプリングなどの不偏分散低減戦略を導入し、MDMのアライメント性能を大幅に向上させます。我々はVRPOをLLaDAに適用し、その結果得られたモデルであるLLaDA 1.5が、数学(GSM8K +4.7)、コード(HumanEval +3.0、MBPP +1.8)、およびアライメントベンチマーク(IFEval +4.0、Arena-Hard +4.3)において、SFTのみの前身モデルを一貫して大幅に上回ることを実証しました。さらに、LLaDA 1.5は、強力な言語MDMやARMと比較しても非常に競争力のある数学的性能を示しています。プロジェクトページ:https://ml-gsai.github.io/LLaDA-1.5-Demo/。
大規模言語モデルはパターンマッチングに優れているが、体系的な合成的汎化においてはしばしば限界を示す。本論文では、カバレッジ原理を提案する。これは、合成的タスクにおいて主にパターンマッチングに依存するモデルが、同じ文脈で使用された場合に同一の結果をもたらす断片の置換を超えて確実に汎化できないことを示すデータ中心のフレームワークである。このフレームワークがTransformerの汎化能力に対して強い予測力を持つことを実証する。まず、2ホップ汎化に必要なトレーニングデータがトークンセットサイズに対して少なくとも二次関数的に増加し、20倍のパラメータスケーリングでもトレーニングデータ効率が改善しないことを導出し、実証的に確認する。次に、1つの変数が複数の計算経路を通じて出力に影響を与える経路曖昧性を持つ合成的タスクにおいて、Transformerが文脈依存の状態表現を学習し、性能と相互運用性の両方を損なうことを示す。第三に、Chain-of-Thought監視がマルチホップタスクのトレーニングデータ効率を向上させるが、依然として経路曖昧性に苦戦することを示す。最後に、ニューラルネットワークが汎化する3つの方法を区別するメカニズムベースの分類法を概説する。構造ベース(カバレッジに制約される)、特性ベース(代数的不変性を活用する)、共有オペレータ(関数の再利用を通じて)である。この概念的レンズは我々の結果を文脈化し、体系的な合成的汎化を達成するために新しいアーキテクチャのアイデアが必要な領域を強調する。全体として、カバレッジ原理は合成的推論を理解するための統一的な視点を提供し、真に体系的な合成的汎化を達成するための根本的なアーキテクチャまたはトレーニングの革新の必要性を強調する。
最先端のメンバーシップ推論攻撃(MIA)は、通常、多数の参照モデルの学習を必要とするため、大規模な事前学習済み言語モデル(LLM)に対してこれらの攻撃をスケールアップすることが困難です。その結果、これまでの研究では、参照モデルの学習を回避する弱い攻撃(例:ファインチューニング攻撃)に依存するか、あるいは小規模なモデルとデータセットに適用される強い攻撃に依存してきました。しかし、弱い攻撃は脆弱であり、ほぼ任意の成功率を達成することが示されており、簡素化された設定での強い攻撃からの洞察は、今日のLLMには適用されません。これらの課題は、重要な疑問を引き起こしています:これまでの研究で観察された制限は、攻撃設計の選択によるものなのか、それともMIAがLLMに対して根本的に効果的でないためなのか?この疑問に対処するため、我々は最も強力なMIAの一つであるLiRAを、10Mから1BパラメータまでのGPT-2アーキテクチャにスケールアップし、C4データセットの20B以上のトークンで参照モデルを学習しました。我々の結果は、LLMに対するMIAの理解を以下の3つの重要な点で進展させます:(1) 強いMIAは事前学習済みLLMで成功することが可能である、(2) しかし、その有効性は実用的な設定では限定的である(例:AUC<0.7)、(3) MIAの成功と関連するプライバシーメトリクスの関係は、これまでの研究が示唆しているほど単純ではない。
基盤モデルは、自律的なプログラマーとしてますます優れた能力を発揮しており、危険な攻撃的なサイバー作戦を自動化する可能性も高まっている。現在の最先端モデルの監査では、そのようなエージェントのサイバーセキュリティリスクを探っているが、現実世界の敵対者が持つ自由度の多様性を十分に考慮していない場合が多い。特に、強力な検証器と金銭的インセンティブがあれば、攻撃的なサイバーセキュリティのエージェントは、潜在的な敵対者による反復的な改善が可能である。我々は、サイバーセキュリティの文脈において、固定された計算予算内で、ステートフルおよびステートレス環境において敵対者が持つ可能性のある自由度の多様性を強調する拡張された脅威モデルを評価に取り入れるべきだと主張する。我々の研究では、比較的小さな計算予算(8 H100 GPU時間)であっても、敵対者は外部の支援なしに、InterCode CTFにおけるエージェントのサイバーセキュリティ能力をベースラインに対して40%以上向上させることができることを示した。これらの結果は、エージェントのサイバーセキュリティリスクを動的に評価し、より代表的なリスク像を描く必要性を浮き彫りにしている。
従来の人間フィードバックからの強化学習(RLHF)は、報酬モデルに依存することが多く、Bradley-Terryモデルのような選好構造を仮定することが一般的です。しかし、このモデルは現実の人間の選好の複雑さ(例えば、非推移性)を正確に捉えることができない場合があります。人間フィードバックからのナッシュ学習(NLHF)は、これらの選好によって定義されるゲームのナッシュ均衡を見つける問題として定式化することで、より直接的な代替手段を提供します。本研究では、Mirror Prox最適化スキームを活用してナッシュ均衡への高速かつ安定した収束を実現するオンラインNLHFアルゴリズムであるNash Mirror Prox(Nash-MP)を紹介します。理論分析により、Nash-MPがベータ正則化されたナッシュ均衡に向けて最終反復線形収束を示すことを確立します。具体的には、最適ポリシーへのKLダイバージェンスが(1+2beta)^{-N/2}のオーダーで減少することを証明します。ここで、Nは選好クエリの数です。さらに、エクスプロイタビリティギャップと対数確率のスパン半ノルムに対して、最終反復線形収束を示し、これらの収束率が行動空間のサイズに依存しないことを示します。さらに、近接ステップを確率的ポリシー勾配を使用して推定するNash-MPの近似バージョンを提案し、分析することで、アルゴリズムを応用に近づけます。最後に、大規模言語モデルのファインチューニングのための実用的な実装戦略を詳細に説明し、その競争力のある性能と既存手法との互換性を示す実験結果を提示します。
強化学習は大規模言語モデルの推論能力を向上させる可能性を示しているが、ロールアウト段階でのサンプル効率の低さがスケーリングの課題となっている。既存の手法では、問題の難易度に基づいてスケジューリングを行うことで効率化を図ろうとしている。しかし、これらのアプローチでは、問題難易度の推定が不安定かつ偏りが生じやすく、RLトレーニングにおけるモデルの能力と問題難易度の整合性を捉えることができず、最適な結果が得られない。これらの課題を解決するため、本論文ではCompetence-Difficulty Alignment Sampling (CDAS)を提案する。CDASは、問題の過去のパフォーマンスの差異を集約することで、問題難易度を正確かつ安定的に推定する。さらに、モデルの能力を定量化し、固定点システムを用いてモデルの現在の能力と整合する難易度の問題を適応的に選択する。様々な難易度の数学的ベンチマークでの実験結果から、CDASは精度と効率の両面で大幅な改善を達成していることが示された。CDASはベースラインに対して最高の平均精度を達成し、DAPOの競合戦略であるDynamic Samplingと比較して2.33倍の速度優位性を示した。
複雑な自然言語タスクにおける推論モデルの成功が増す中、情報検索(IR)コミュニティの研究者たちは、大規模言語モデル(LLM)に基づくパッセージ再ランキングシステムに同様の推論能力を統合する方法を探求し始めています。これらの手法では、通常、LLMを使用して最終的な関連性予測に至る前に、明示的で段階的な推論プロセスを生成します。しかし、推論は実際に再ランキングの精度を向上させるのでしょうか?本論文では、この疑問に深く掘り下げ、推論ベースのポイントワイズ再ランキングシステム(ReasonRR)と標準的な非推論型ポイントワイズ再ランキングシステム(StandardRR)を同一のトレーニング条件下で比較し、StandardRRが一般的にReasonRRを上回ることを観察します。この観察を基に、ReasonRRにおける推論の重要性を調査するため、その推論プロセスを無効化したReasonRR-NoReasonを検討し、ReasonRR-NoReasonがReasonRRよりも驚くほど効果的であることを発見します。この結果の原因を調査したところ、推論ベースの再ランキングシステムは、LLMの推論プロセスによって制限され、極端な関連性スコアに押しやられるため、パッセージの部分的な関連性を考慮できず、これがポイントワイズ再ランキングシステムの精度にとって重要な要素であることが明らかになりました。
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を解釈可能な特徴に分解するための機構的解釈性(MI)研究において重要なツールです。しかし、異なる訓練実行間で学習されたSAE特徴の一貫性が観察されないことにより、正準的な特徴セットを特定するという目標が阻まれ、MI研究の信頼性と効率性が損なわれています。本ポジションペーパーでは、機構的解釈性においてSAEの特徴一貫性(独立した実行間で同等の特徴セットに確実に収束すること)を優先すべきであると主張します。我々は、一貫性を実践的に測定するための指標としてペアワイズ辞書平均相関係数(PW-MCC)を提案し、適切なアーキテクチャ選択により高いレベル(LLM活性化におけるTopK SAEで0.80)が達成可能であることを示します。我々の貢献は、一貫性を優先することの利点を詳細に説明すること、モデル生物を用いた理論的根拠と合成データによる検証を提供しPW-MCCが真の特徴回復の信頼できる代理指標であることを確認すること、そしてこれらの知見を実世界のLLMデータに拡張し、高い特徴一貫性が学習された特徴説明の意味的類似性と強く相関することを示すことです。我々は、MI研究における堅牢な累積的進展を促進するため、コミュニティ全体が体系的に特徴一貫性を測定する方向にシフトすることを呼びかけます。
大規模言語モデル(LLM)は、生物医学的な質問応答の分野で優れた能力を発揮しているが、実際の臨床相談への応用においては依然として中核的な課題に直面している。既存のシステムは、患者が症状を一度のやり取りで完全に説明しなければならない一方向の情報伝達モードに依存しており、訴えが曖昧な場合には非特異的な診断推奨がなされることが多い。従来の教師あり学習に基づく多ターン対話手法は、静的なデータ駆動型パラダイムに制約され、汎用性に欠け、臨床的に重要な情報を知的に抽出することが困難である。これらの制約を解決するため、我々はDoctorAgent-RLを提案する。これは、強化学習(RL)に基づくマルチエージェント協調フレームワークであり、医療相談を不確実性下での動的な意思決定プロセスとしてモデル化する。医師エージェントは、患者エージェントとの多ターン対話を通じてRLフレームワーク内で質問戦略を継続的に最適化し、相談評価者からの包括的な報酬に基づいて情報収集の経路を動的に調整する。このRL微調整メカニズムにより、LLMは既存の対話データのパターンを表面的に模倣するのではなく、臨床推論ロジックに沿ったインタラクション戦略を自律的に開発することが可能となる。特に、我々は患者インタラクションをシミュレート可能な初の英語多ターン医療相談データセットであるMTMedDialogを構築した。実験の結果、DoctorAgent-RLは多ターン推論能力と最終的な診断性能の両面で既存のモデルを上回り、臨床相談の支援における実用的な価値を示している。https://github.com/JarvisUSTC/DoctorAgent-RL
大規模言語モデル(LLM)の最近の進展により、潜在推論が自己回帰的推論の有望な代替手段として導入された。潜在推論は、前段階の隠れ状態を用いた内部計算を行うことで、離散的な連鎖思考(CoT)経路をサンプリングするよりも情報量の多い特徴を活用する。しかし、潜在推論アプローチはしばしばLLMと互換性がない。なぜなら、その連続的なパラダイムは自己回帰的生成の離散的な性質と衝突するためである。さらに、これらの手法は訓練にCoTトレースを依存するため、LLMの内在的な推論パターンを十分に活用できない。本研究では、強化学習(RL)を介してLLMの内在的機能を活用することで潜在推論を探求する。そのために、ハイブリッド推論ポリシー最適化(HRPO)を導入する。これはRLベースのハイブリッド潜在推論アプローチであり、(1)学習可能なゲーティング機構を用いて過去の隠れ状態をサンプリングされたトークンに統合し、(2)訓練を主にトークン埋め込みで初期化しながら、徐々により多くの隠れ特徴を取り入れる。この設計はLLMの生成能力を維持しつつ、離散的および連続的表現の両方を用いたハイブリッド推論を促進する。さらに、HRPOはトークンサンプリングを通じて潜在推論に確率性を導入し、CoT軌跡を必要とせずにRLベースの最適化を可能にする。多様なベンチマークでの広範な評価により、HRPOが知識集約型および推論集約型タスクの両方において従来の手法を凌駕することが示された。さらに、HRPOで訓練されたLLMは解釈可能性を保ち、異言語間パターンや短い完了長といった興味深い振る舞いを示し、RLベースのアプローチの可能性を強調し、潜在推論の将来の研究への洞察を提供する。
複雑で未知の環境における汎用的なアクティブマッピングは、移動ロボットにとって依然として重要な課題である。既存の手法は、不十分な訓練データと保守的な探索戦略に制約され、多様なレイアウトと複雑な接続性を持つシーン間での汎用性が限られている。スケーラブルな訓練と信頼性のある評価を可能にするため、我々はGLEAM-Benchを導入した。これは、合成および実スキャンデータセットから得られた1,152の多様な3Dシーンを対象とした、汎用的なアクティブマッピングのための初の大規模ベンチマークである。この基盤を基に、我々はGLEAMを提案する。これは、アクティブマッピングのための統一された汎用的探索ポリシーであり、その優れた汎用性は主にセマンティック表現、長期的なナビゲーション可能な目標、およびランダム化された戦略に由来する。GLEAMは、128の未見の複雑シーンにおいて、効率的な軌跡と改善されたマッピング精度を達成し、66.50%のカバレッジ(+9.49%)を記録し、最先端の手法を大幅に上回る性能を示した。プロジェクトページ: https://xiao-chen.tech/gleam/。
大規模言語モデル(LLM)は通常、安全ガイドラインに準拠するよう調整され、有害な指示を拒否するように設計されています。最近の攻撃手法である「abliteration」は、拒否行動に最も責任を持つ単一の潜在方向を分離・抑制することで、モデルが非倫理的なコンテンツを生成できるようにします。本研究では、モデルが拒否を生成する方法を変更する防御手法を提案します。我々は、有害なプロンプトとその拒否理由を完全に説明する応答を含む拡張拒否データセットを構築しました。その後、Llama-2-7B-ChatおよびQwen2.5-Instruct(1.5Bおよび3Bパラメータ)をこの拡張拒否データセットでファインチューニングし、結果のシステムを一連の有害プロンプトで評価しました。実験では、拡張拒否モデルは高い拒否率を維持し、最大でも10%しか低下しませんでしたが、ベースラインモデルの拒否率はabliteration後に70-80%低下しました。安全性と有用性の広範な評価により、拡張拒否ファインチューニングがabliteration攻撃を無力化しつつ、一般的な性能を維持することが示されました。
強化学習(RL)は、バイナリ検証信号を通じた自己改善を可能にすることで、最近の大規模言語モデル(LLM)の数学能力の向上において中心的な役割を果たしてきた。一方で、教師あり学習(SL)は、参照回答への過度の依存や誤りを反映できないことから、検証駆動型のトレーニングにはほとんど考慮されていない。本研究では、自己改善がRLに限定されているという通説に挑戦し、外部の教師なしでLLMが失敗を反映し自律的に改善することを可能にする教師ありアプローチである「Negative-aware Fine-Tuning(NFT)」を提案する。オンライントレーニングにおいて、NFTは自己生成された否定的な回答を捨てるのではなく、それらをモデル化するための暗黙的な否定的ポリシーを構築する。この暗黙的なポリシーは、ポジティブデータに対して最適化する対象と同じLLMでパラメータ化されており、すべてのLLMの生成に対して直接的なポリシー最適化を可能にする。7Bおよび32Bモデルを用いた数学的推論タスクでの実験を行った結果、否定的フィードバックを追加的に活用することで、NFTはRejection sampling Fine-TuningのようなSLベースラインを大幅に上回り、GRPOやDAPOのような主要なRLアルゴリズムに匹敵し、場合によってはそれを凌駕することが一貫して示された。さらに、NFTとGRPOは、まったく異なる理論的基盤に由来しているにもかかわらず、厳密なオン・ポリシートレーニングにおいて実際には等価であることを示す。我々の実験と理論的知見は、バイナリフィードバック学習システムにおけるSLとRLの手法の間のギャップを埋めるものである。
大規模言語モデル(LLM)は、特に数学的問題解決のようなマルチホップかつ推論集約的なタスクにおいて、幻覚を起こしやすい傾向があります。結果報酬モデルは最終的な答えのみを検証するのに対し、プロセス報酬モデル(PRM)は各中間ステップを評価し、一貫した解決策に向けた生成を導きます。本研究では、PathFinder-PRMという新しい階層的でエラーを意識した識別型PRMを提案します。これはまず各ステップで数学的エラーと一貫性エラーを分類し、これらの細かい信号を組み合わせてステップの正しさを推定します。PathFinder-PRMを訓練するために、人間が注釈を付けたPRM800KコーパスとRLHFlow Mistralのトレースを三次元のステップレベルラベルで拡充した40万サンプルのデータセットを構築しました。PRMBenchにおいて、PathFinder-PRMは67.7の新しい最高のPRMScoreを達成し、従来の最高値(65.5)を上回りながら、3分の1のデータ量でこれを実現しました。報酬誘導型貪欲探索に適用した場合、我々のモデルはprm@8で48.3を達成し、最強のベースラインよりも1.5ポイント向上しました。これらの結果は、エラー検出と報酬推定を分離することが、細かいエラー検出を向上させるだけでなく、データ効率を高めつつ、エンドツーエンドの報酬誘導型数学的推論を大幅に改善することを示しています。
過去10年にわたり、学術界ではニューラルネットワークのバックドアについて研究が進められてきたが、その主な焦点は分類タスクにおけるモデル予測の操作に限定されていた。これらの予測改変攻撃は明らかに悪意のあるものではあるが、現実世界での即時的影響は不明確なままであった。本論文では、アーキテクチャバックドアの最近の進展を基盤とした、新規かつより強力なバックドアクラスを紹介する。これらのバックドアが、ハードウェア利用率向上のための一般的な技術であるバッチ推論を悪用するように特別に設計できることを示し、大規模なユーザーデータの操作と窃取を可能にする。バッチ処理を標的とすることで、これらのアーキテクチャバックドアは同時ユーザーリクエスト間の情報漏洩を容易にし、攻撃者が同一バッチ内の他のユーザーに対するモデル応答を完全に制御できるようにする。言い換えれば、モデルアーキテクチャを変更できる攻撃者は、同一バッチ内の他のユーザーのモデル入力と出力を設定し、窃取することが可能となる。我々は、このような攻撃が実現可能であるだけでなく、驚くほど効果的であり、広く普及しているモデルアーキテクチャに容易に注入できることを示し、ユーザーのプライバシーとシステムの完全性に対する真に悪意のある脅威であることを明らかにする。重要なことに、この新たな脆弱性クラスに対抗するため、我々は形式的な保証を提供する決定論的緩和戦略を提案する。これは、従来の大規模言語モデルに依存してバックドアを発見する手法とは異なる。我々の緩和戦略は、モデルグラフを分析し、同一バッチ内の異なるユーザー入力間の非干渉性を証明する新規の情報フロー制御メカニズムを採用している。この緩和戦略を用いて、Hugging Faceを通じてホストされているモデルの大規模分析を実施し、動的量子化の使用によりバッチエントリ間の(意図しない)情報漏洩を引き起こす200以上のモデルを発見した。
ポストトレーニングは、大規模言語モデル(LLMs)の推論能力を向上させる上でその重要性が示されてきた。主なポストトレーニング手法は、教師ありファインチューニング(SFT)と強化学習ファインチューニング(RFT)に分類される。SFTは効率的であり、小規模な言語モデルに適しているが、過学習を引き起こし、大規模モデルの推論能力を制限する可能性がある。一方、RFTは一般に優れた汎化性能をもたらすが、ベースモデルの強さに大きく依存する。SFTとRFTの限界を克服するため、我々はSFTとRFTを単一の統合プロセスに統合した新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。UFTは、モデルが有益な教師信号を取り入れながら効果的に解決策を探索することを可能にし、既存手法の根底にある記憶と思考のギャップを埋める。特に、UFTはモデルサイズに関わらず、一般的にSFTとRFTを上回る性能を示す。さらに、我々は理論的に、UFTがRFTの本質的な指数的サンプル複雑性のボトルネックを打破し、統合トレーニングが長期的な推論タスクにおいて収束を指数的に加速できることを初めて示す。
大規模言語モデル(LLMs)は、探索アルゴリズムを通じて複雑な推論に優れているが、現在の戦略では、意味的に等価なステップの冗長な探索により、大量のトークン消費が生じることが多い。既存の意味的類似性手法は、数学的推論のようなドメイン固有の文脈において、その等価性を正確に識別するのに苦労している。この問題に対処するため、我々はEquivPrunerを提案する。これは、LLMの推論探索中に意味的に等価なアクションを識別し、剪定するシンプルかつ効果的なアプローチである。また、数学的ステートメントの等価性を評価するための最初のデータセットであるMathEquivを導入し、軽量な等価性検出器の訓練を可能にした。様々なモデルとタスクにわたる広範な実験により、EquivPrunerがトークン消費を大幅に削減し、探索効率を向上させ、しばしば推論精度を高めることが実証された。例えば、GSM8KにおいてQwen2.5-Math-7B-Instructに適用した場合、EquivPrunerはトークン消費を48.1%削減し、精度も向上させた。我々のコードはhttps://github.com/Lolo1222/EquivPrunerで公開されている。
MAR、FlowAR、xAR、Harmonなど、自己回帰モデルの数が増えるにつれ、画像生成の品質を向上させるために拡散サンプリングを採用するケースが増えています。しかし、この戦略は推論効率の低下を招きます。なぜなら、拡散プロセスで1つのトークンをサンプリングするのに通常50から100ステップを要するからです。本論文では、この問題を効果的に解決する方法を探ります。私たちの主要な動機は、自己回帰プロセス中により多くのトークンが生成されるにつれ、後続のトークンはより制約された分布に従い、サンプリングが容易になるという点です。直感的に説明すると、モデルが犬の一部を生成した場合、残りのトークンは犬を完成させる必要があり、それゆえに制約が強くなります。経験的証拠は私たちの動機を支持しています:生成の後期段階では、次のトークンは多層パーセプトロンによってよく予測でき、分散が低く、ノイズからトークンへのノイズ除去パスが直線に近くなります。この発見に基づいて、拡散ステップアニーリング(DiSA)を導入します。これは、より多くのトークンが生成されるにつれて徐々に拡散ステップ数を減らすトレーニング不要の方法です。例えば、最初は50ステップを使用し、後期段階では徐々に5ステップに減少させます。DiSAは、自己回帰モデルにおける拡散に特化した私たちの発見から導き出されたため、拡散単体向けに設計された既存の高速化手法と補完的です。DiSAは既存のモデルに数行のコードで実装でき、シンプルながらも、MARとHarmonでは5~10倍、FlowARとxARでは1.4~2.5倍の推論速度向上を達成し、生成品質を維持します。
不確実性の定量化は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。既存のアプローチの中でも、モデルが自然言語を通じて自身の信頼度を表現する「言語化された不確実性」は、大規模言語モデル(LLMs)において軽量で解釈可能な解決策として注目されている。しかし、視覚言語モデル(VLMs)におけるその有効性は十分に研究されていない。本研究では、VLMsにおける言語化された信頼度を、3つのモデルカテゴリ、4つのタスク領域、3つの評価シナリオにわたって包括的に評価する。その結果、現在のVLMsは多様なタスクや設定において顕著な誤較正を示すことが明らかになった。特に、視覚推論モデル(すなわち、画像を用いた思考)は一貫してより良い較正を示し、モダリティ固有の推論が信頼性のある不確実性推定に重要であることを示唆している。較正の課題をさらに解決するために、我々は「視覚的信頼度認識プロンプティング」を導入し、マルチモーダル設定における信頼度の整合性を向上させる2段階のプロンプティング戦略を提案する。全体として、本研究はVLMsにおけるモダリティを超えた内在的な誤較正を浮き彫りにしている。より広く、我々の知見は、信頼性のあるマルチモーダルシステムを進化させる上で、モダリティの整合性とモデルの忠実性の根本的な重要性を強調している。
最近の大規模言語モデル、例えばGemini-1.5、DeepSeek-V3、Llama-4などは、Mixture-of-Experts(MoE)アーキテクチャを採用する傾向が強まっており、トークンごとにモデルの一部のみを活性化することで効率と性能のトレードオフを実現している。しかし、学術研究者は依然として、スケーリング、ルーティング、およびエキスパートの挙動を調査するための完全にオープンなエンドツーエンドのMoEプラットフォームを欠いている。我々はFLAME-MoEをリリースした。これは、38Mから1.7Bのアクティブパラメータを持つ7つのデコーダのみのモデルで構成される完全にオープンソースの研究スイートであり、そのアーキテクチャ(64のエキスパートとトップ8ゲーティング、2つの共有エキスパート)は現代の生産用LLMを忠実に反映している。すべてのトレーニングデータパイプライン、スクリプト、ログ、およびチェックポイントは公開されており、再現可能な実験を可能にする。6つの評価タスクにおいて、FLAME-MoEは同一のFLOPsでトレーニングされた密なベースラインに対して平均精度を最大3.4ポイント向上させた。完全なトレーニングトレースの透明性を活用し、我々は以下の初期分析を提示する:(i) エキスパートは異なるトークンサブセットに特化する傾向が強まる、(ii) 共活性化行列は疎なままであり、多様なエキスパートの使用を反映する、(iii) ルーティングの挙動はトレーニングの早い段階で安定する。すべてのコード、トレーニングログ、およびモデルチェックポイントはhttps://github.com/cmu-flame/FLAME-MoEで利用可能である。
最近のマルチモーダル画像生成モデル、例えばGPT-4o、Gemini 2.0 Flash、Gemini 2.5 Proは、複雑な指示に従い、画像を編集し、概念の一貫性を維持する点で優れています。しかし、これらのモデルは依然として、マルチモーダル条件付けを欠くテキストから画像(T2I)ベンチマークや、構成的意味論や一般的な知識を見落とすカスタマイズされた画像生成ベンチマークといった、断片的なツールキットによって評価されています。我々は、MMIG-Benchという包括的なマルチモーダル画像生成ベンチマークを提案します。これは、4,850の詳細に注釈付けされたテキストプロンプトと、人間、動物、物体、芸術的スタイルにわたる380の主題にまたがる1,750のマルチビュー参照画像を組み合わせることで、これらのタスクを統合します。MMIG-Benchは、3段階の評価フレームワークを備えています:(1)視覚的アーティファクトや物体の同一性保持を評価する低レベルメトリクス、(2)VQAベースの中レベルメトリクスである新規のAspect Matching Score(AMS):これは細かいプロンプトと画像の整合性を提供し、人間の判断と強い相関を示します、(3)美的感覚や人間の選好を評価する高レベルメトリクス。MMIG-Benchを使用して、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークし、32kの人間による評価を用いてメトリクスを検証し、アーキテクチャとデータ設計に関する深い洞察を得ました。我々は、厳密で統一された評価を促進し、マルチモーダル画像生成の将来の革新を加速するために、データセットと評価コードを公開します。
現在の大規模言語モデル(LLM)は、含意の解釈(Sravanthi et al., 2024)や心の理論推論(Shapira et al., 2024)など、社会的知能タスクにおいて新たな能力を示しており、これらはいずれも相当な語用論的理解を必要とする。しかし、LLMがこの能力をどのように訓練プロセスを通じて獲得するかについては、まだ十分に理解されていない。本研究では、代替案という語用論的概念に基づいたデータセットALTPRAGを導入し、異なる訓練段階にあるLLMが微妙な話者の意図を正確に推論できるかどうかを評価する。各インスタンスは、文脈的に適切だが語用論的に異なる2つの続き文をペアにしており、語用論的解釈と対照的推論の両方を詳細に評価できる。我々は、事前学習、教師あり微調整(SFT)、選好最適化という主要な訓練段階において22のLLMを体系的に評価し、語用論的能力の発達を検証した。その結果、ベースモデルでさえ語用論的手がかりに対する顕著な感度を示し、モデルとデータの規模が増すにつれて一貫して向上することが明らかになった。さらに、SFTとRLHFは、特に認知語用論的推論においてさらなる向上をもたらすことが分かった。これらの知見は、語用論的能力がLLM訓練における創発的かつ合成的な特性であることを強調し、モデルを人間のコミュニケーション規範に適合させるための新たな洞察を提供する。
大規模マルチモーダル基盤モデル、特に言語と視覚の領域において、ロボティクス、自動運転、情報検索、グラウンディングなど様々なタスクを大幅に進歩させてきました。しかし、これらのモデルの多くは物体を分割不可能なものとして認識し、それを構成する部品を見落としています。これらの部品とそれに関連するアフォーダンスを理解することは、物体の機能性に関する貴重な洞察を提供し、幅広いタスクを実行する上で基本的なものです。本研究では、手動でラベル付けされた部品セグメンテーションのアノテーションとタスク指向の指示を含む新しい実世界ベンチマーク「InstructPart」を導入し、日常的な文脈における部品レベルのタスクの理解と実行において、現在のモデルの性能を評価します。実験を通じて、タスク指向の部品セグメンテーションが、最先端の視覚言語モデル(VLM)にとっても依然として難しい問題であることを示します。ベンチマークに加えて、私たちのデータセットを用いたファインチューニングにより性能が2倍向上するシンプルなベースラインを紹介します。私たちのデータセットとベンチマークを通じて、タスク指向の部品セグメンテーションに関する研究を促進し、ロボティクス、仮想現実、情報検索、その他関連分野におけるVLMの適用性を高めることを目指しています。プロジェクトウェブサイト: https://zifuwan.github.io/InstructPart/。
最近のChain-of-Thoughtプロンプティングなどの進歩により、大規模言語モデル(LLMs)のゼロショット医療推論能力が大幅に向上しました。しかし、プロンプティングベースの手法はしばしば表面的で不安定であり、一方でファインチューニングされた医療LLMsは分布シフト下での汎化性能の低さや未見の臨床シナリオへの適応性の限界に悩まされています。これらの課題を解決するため、我々はTAGSを提案します。これは、モデルのファインチューニングやパラメータ更新を一切行わずに、汎用的な能力を持つジェネラリストとドメイン特化のスペシャリストを組み合わせて補完的な視点を提供するテストタイムフレームワークです。このジェネラリスト-スペシャリスト推論プロセスを支援するため、2つの補助モジュールを導入しました。1つは、セマンティックレベルと推論レベルの類似性に基づいて例を選択する階層的検索メカニズムで、もう1つは推論の一貫性を評価して最終的な回答集約を導く信頼性スコアラーです。TAGSは9つのMedQAベンチマークで強力な性能を発揮し、GPT-4oの精度を13.8%、DeepSeek-R1を16.8%向上させ、バニラの7Bモデルを14.1%から23.9%に改善しました。これらの結果は、パラメータ更新なしで、いくつかのファインチューニングされた医療LLMsを上回っています。コードはhttps://github.com/JianghaoWu/TAGSで公開予定です。
大規模音声言語モデル(LALMs)の進展により、大規模言語モデル(LLMs)に聴覚能力を付加したこれらのモデルは、様々な聴覚タスクにおいて普遍的な熟達度を示すことが期待されています。LALMsの性能を評価するための多くのベンチマークが登場しているものの、それらは断片的であり、体系的な分類が欠如しています。このギャップを埋めるため、我々は包括的な調査を行い、LALM評価のための体系的な分類法を提案します。これを目的に基づいて4つの次元に分類します:(1) 一般的な聴覚認識と処理、(2) 知識と推論、(3) 対話指向の能力、(4) 公平性、安全性、信頼性です。各カテゴリー内での詳細な概要を提供し、この分野の課題を強調し、将来の有望な方向性についての洞察を提供します。我々の知る限り、これはLALMsの評価に特化した初めての調査であり、コミュニティに対して明確なガイドラインを提供します。調査した論文のコレクションを公開し、この分野の継続的な進展を支援するために積極的に維持していきます。
汎用ロボット工学における最近の進展にもかかわらず、ロボットのポリシーは現実世界における基本的な人間の能力に大きく遅れをとっている。人間は物理世界と絶えず相互作用しているが、この豊富なデータ資源はロボット学習においてほとんど活用されていない。本研究では、Project Ariaスマートグラスで捕捉された人間のデモンストレーションからロバストな操作ポリシーを学習し、ロボットデータを一切使用しない最小限のシステム「EgoZero」を提案する。EgoZeroは以下の機能を実現する:(1) 野外でのエゴセントリックな人間のデモンストレーションから、ロボットが実行可能な完全なアクションを抽出、(2) 人間の視覚観察を形態に依存しない状態表現に圧縮、(3) 形態的、空間的、意味的に一般化可能な閉ループポリシー学習。EgoZeroのポリシーをグリッパー付きFranka Pandaロボットに適用し、7つの操作タスクにおいて70%の成功率でゼロショット転移を実証した。各タスクのデータ収集時間はわずか20分である。我々の結果は、野外での人間データが現実世界のロボット学習のためのスケーラブルな基盤となり得ることを示唆しており、ロボットのための豊富で多様かつ自然な訓練データの未来への道を開くものである。コードと動画はhttps://egozero-robot.github.ioで公開されている。
メタデータ抽出は、データセットのカタログ化と保存に不可欠であり、特に現在の科学研究の指数関数的な成長を考えると、効果的な研究の発見と再現性を可能にします。Masader(Alyafeai et al., 2021)はアラビア語NLPデータセットの学術論文から幅広いメタデータ属性を抽出するための基盤を築きましたが、それは手動のアノテーションに大きく依存しています。本論文では、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するために、大規模言語モデル(LLMs)を活用するMOLEというフレームワークを紹介します。私たちのスキーマ駆動型の方法論は、複数の入力形式にわたる文書全体を処理し、一貫した出力のための堅牢な検証メカニズムを組み込んでいます。さらに、このタスクに関する研究の進捗を評価するための新しいベンチマークを導入します。コンテキスト長、少数ショット学習、ウェブブラウジング統合の体系的な分析を通じて、現代のLLMsがこのタスクの自動化において有望な結果を示すことを実証し、一貫した信頼性の高いパフォーマンスを確保するためのさらなる将来の作業の必要性を強調します。私たちは、研究コミュニティのためにコード(https://github.com/IVUL-KAUST/MOLE)とデータセット(https://huggingface.co/datasets/IVUL-KAUST/MOLE)を公開します。
本論文は、大規模言語モデル(LLMs)内における解釈可能なカテゴリカル特徴の出現を研究し、それらの振る舞いを訓練チェックポイント(時間)、トランスフォーマー層(空間)、およびモデルサイズの変化(スケール)にわたって分析する。メカニズム的解釈可能性のためのスパースオートエンコーダを使用し、ニューラル活性化内で特定の意味概念がいつ、どこで出現するかを特定する。結果は、複数のドメインにわたる特徴出現の明確な時間的およびスケール固有の閾値を示している。特に、空間分析は、初期層の特徴が後期層で再出現するという予想外の意味的再活性化を明らかにし、トランスフォーマーモデルにおける表現ダイナミクスに関する標準的な仮定に挑戦するものである。
ステアリング手法は、大規模言語モデル(LLM)のパラメータを変更することなくその振る舞いを導くための効果的かつターゲットを絞ったツールとして登場してきた。しかし、マルチモーダル大規模言語モデル(MLLM)は、その新しさとアーキテクチャの多様性ゆえに、現時点では同じような手法を享受していない。このギャップに着想を得て、我々はMLLMがテキストのみのLLMバックボーンから導出されたベクトルを用いて、スパースオートエンコーダ(SAE)、平均シフト、線形プローブを介してステアリング可能かどうかを調査した。その結果、テキストから導出されたステアリングは、多様なMLLMアーキテクチャと視覚タスクにおいて一貫してマルチモーダル精度を向上させることがわかった。特に、平均シフトはCV-Benchにおける空間関係の精度を最大+7.3%、計数精度を最大+3.3%向上させ、プロンプティングを上回り、分布外データセットに対する強い汎化性能を示した。これらの結果は、テキストステアリングベクトルが、最小限の追加データ収集と計算オーバーヘッドでMLLMのグラウンディングを強化するための強力で効率的なメカニズムであることを強調している。
オフライン目標条件付き強化学習(GCRL)は、追加の環境相互作用なしに、豊富なラベルなし(報酬なし)データセットから目標到達ポリシーを訓練する実用的な学習パラダイムを提供します。しかし、オフラインGCRLは、HIQLのような階層的ポリシー構造を採用した最近の進歩にもかかわらず、長期的なタスクにおいて依然として苦戦しています。この課題の根本原因を特定することで、以下の洞察が得られました。第一に、パフォーマンスのボトルネックは主に高レベルポリシーが適切なサブゴールを生成できないことに起因しています。第二に、長期的なレジームで高レベルポリシーを学習する際、アドバンテージ信号の符号が頻繁に誤ったものになります。したがって、高レベルポリシーの学習に明確なアドバンテージ信号を生成するために価値関数を改善することが重要であると主張します。本論文では、シンプルでありながら効果的な解決策を提案します。それは、時間的抽象化を時間的差分学習プロセスに組み込んだ「Option-aware Temporally Abstracted value learning(OTA)」と呼ばれる手法です。価値更新をオプション認識型に変更することで、提案された学習スキームは有効な地平線の長さを短縮し、長期的なレジームにおいてもより良いアドバンテージ推定を可能にします。実験的に、OTA価値関数を使用して抽出された高レベルポリシーが、最近提案されたオフラインGCRLベンチマークであるOGBenchの複雑なタスク(迷路ナビゲーションや視覚的ロボット操作環境を含む)において強力なパフォーマンスを達成することを示します。