翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)の最近の進展により、金融分野の自然言語処理(NLP)とその応用が加速している。しかし、既存のベンチマークは単一言語および単一モダリティの設定に限定されており、しばしば単純なタスクに過度に依存し、現実世界の金融コミュニケーションの複雑さを十分に反映していない。本研究では、グローバルな金融領域に特化した初の多言語・多モダリティベンチマークであるMultiFinBenを提案する。このベンチマークは、テキスト、視覚、音声といったモダリティと、単一言語、二言語、多言語といった言語設定において、LLMsをドメイン固有のタスクで評価する。さらに、混合言語入力に対する複雑な推論を要求する初の多言語金融ベンチマークであるPolyFiQA-EasyとPolyFiQA-Expert、および視覚的テキスト金融文書から情報を抽出し推論することをモデルに求める初のOCR組み込み金融QAタスクであるEnglishOCRとSpanishOCRという2つの新規タスクを導入する。また、既存のデータセットを単純に集約するのではなく、動的で難易度を考慮した選択メカニズムを提案し、コンパクトでバランスの取れたベンチマークを構築した。22の最先端モデルに対する広範な評価の結果、最も強力なモデルでさえ、一般的な多モダリティおよび多言語能力を持ちながらも、金融領域における複雑なクロスリンガルおよび多モダリティタスクに直面すると劇的に苦戦することが明らかになった。MultiFinBenは公開され、金融研究および応用における透明性、再現性、包括的な進展を促進することを目指している。
テスト時間計算のスケーリングは、大規模言語モデル(LLMs)の推論能力を向上させる上で顕著な成功を収めています。本研究では、テスト時間スケーリング手法を言語エージェントに適用し、その有効性がどの程度向上するかを初めて体系的に探求します。具体的には、以下の異なるテスト時間スケーリング戦略を探索します:(1) 並列サンプリングアルゴリズム、(2) 逐次修正戦略、(3) 検証器とマージ手法、(4) ロールアウトの多様化戦略。我々は、言語エージェントにテスト時間スケーリングを適用する際の異なる設計戦略の影響を慎重に分析し、以下の知見を得ました:1. テスト時間計算のスケーリングはエージェントの性能を向上させることができる。2. エージェントがいつ反省すべきかを知ることが重要である。3. 異なる検証および結果マージ手法の中では、リストワイズ法が最も優れている。4. 多様化されたロールアウトを増やすことは、エージェントのタスク性能にプラスの効果をもたらす。
近年、音声テキスト大規模言語モデル(LLMs)の進展により、音楽理解と生成の新たな可能性が開かれている。しかし、既存のベンチマークは範囲が限定的であり、しばしば簡略化されたタスクや多肢選択評価に依存しており、現実世界の音楽分析の複雑さを反映していない。我々は、従来の音楽情報検索(MIR)アノテーションを広範に再解釈し、指示追従形式として再構築し、CMI-Benchを導入する。CMI-Benchは、多様なMIRタスクにおいて音声テキストLLMsを評価するための包括的な音楽指示追従ベンチマークである。これには、ジャンル分類、感情回帰、感情タグ付け、楽器分類、ピッチ推定、キー検出、歌詞書き起こし、メロディ抽出、ボーカルテクニック認識、楽器演奏テクニック検出、音楽タグ付け、音楽キャプション作成、および(ダウン)ビートトラッキングが含まれ、MIR研究の中核的な課題を反映している。従来のベンチマークとは異なり、CMI-Benchは、従来の最先端MIRモデルと一貫した標準化された評価指標を採用し、教師ありアプローチとの直接的な比較を可能にしている。我々は、LTU、Qwen-audio、SALMONN、MusiLingoなど、すべてのオープンソース音声テキストLLMsをサポートする評価ツールキットを提供する。実験結果からは、LLMsと教師ありモデルとの間に顕著な性能差が明らかとなり、さらに文化的、年代的な偏りや性別バイアスも浮き彫りになり、現在のモデルがMIRタスクに取り組む上での潜在能力と限界が示された。CMI-Benchは、音楽指示追従の評価のための統一された基盤を確立し、音楽を意識したLLMsの進展を促進するものである。
大規模言語拡散モデル(Diffusion LLMs)は、NLP研究において重要な焦点として浮上し、そのスケーラビリティと下流タスクの性能を理解するための多大な努力が注がれています。しかし、その長文脈能力は未開拓のままであり、体系的な分析や文脈拡張の手法が欠如しています。本研究では、Diffusion LLMsと従来の自己回帰型LLMsの長文脈性能を比較する初の体系的な調査を提示します。まず、自己回帰型LLMsとは異なり、Diffusion LLMsが直接的な文脈外挿において驚くほど\textit{安定したパープレキシティ}を維持するという独特の特性を明らかにします。さらに、事前学習された長さを超える文脈において自己回帰モデルが完全に失敗する「針を干し草の山から探す」タスクにおいて、Diffusion LLMsが\textit{局所的な知覚}現象を示し、最近の文脈セグメントからの成功した検索を可能にすることを発見します。これらの現象を、Rotary Position Embedding(RoPE)スケーリング理論の観点から説明します。これらの観察に基づいて、LLaDAとNTKベースのRoPE外挿を統合したトレーニング不要の手法であるLongLLaDAを提案します。結果は、確立された外挿スケーリング則がDiffusion LLMsの文脈ウィンドウを拡張するために有効であることを検証します。さらに、Diffusion LLMsが自己回帰型LLMsを上回る長文脈タスクと、それらが及ばないタスクを特定します。したがって、本研究はDiffusion LLMsの初の文脈外挿手法を確立するとともに、長文脈Diffusion LLMsの将来の研究を進めるために不可欠な理論的洞察と実証的ベンチマークを提供します。
複雑な推論において目覚ましい進展を遂げているにもかかわらず、現在の大規模言語モデル(LLMs)は通常、孤立して動作しており、各問題を独立した試みとして扱い、経験的知識を蓄積または統合することはない。これに対して、オリンピックやプログラミングコンテストのチームなどの専門的な問題解決者は、豊かな経験の織物を活用する。コーチからの指導を吸収し、過去の問題から直感を養い、ツールの使用やライブラリの機能に関する知識を活用し、仲間の専門知識や経験に基づいて戦略を適応させ、試行錯誤を通じて推論を継続的に洗練し、競技中でも他の関連する問題から学ぶ。本論文では、Xolverを紹介する。これは、ブラックボックスのLLMに、包括的な経験の永続的かつ進化するメモリを装備する、トレーニング不要のマルチエージェント推論フレームワークである。Xolverは、外部および自己検索、ツールの使用、協調的相互作用、エージェント主導の評価、反復的な洗練など、多様な経験モダリティを統合する。推論時に、関連する戦略、コードフラグメント、抽象的な推論パターンから学ぶことで、Xolverはゼロからソリューションを生成することを避け、孤立した推論から経験を意識した言語エージェントへの移行を示す。オープンウェイトおよびプロプライエタリモデルの両方に基づいて構築されたXolverは、専門的な推論エージェントを一貫して上回る。軽量なバックボーン(例:QWQ-32B)であっても、Qwen3-235B、Gemini 2.5 Pro、o3、o4-mini-highなどの高度なモデルをしばしば凌駕する。o3-mini-highでは、GSM8K(98.1%)、AIME'24(94.4%)、AIME'25(93.7%)、Math-500(99.8%)、LiveCodeBench-V5(91.6%)において新たな最高結果を達成し、専門家レベルの推論が可能な汎用エージェントに向けた重要なステップとして、包括的な経験学習を強調する。コードとデータはhttps://kagnlp.github.io/xolver.github.io/で利用可能である。
検証可能な報酬を伴う強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させるための有望なパラダイムとして登場した。しかし、その有効性には重大なパラドックスが存在する:RLVRで調整されたモデルは、解決策を見つけるためのPass@Kメトリックにおいて、ベースモデルをしばしば下回り、RLVRが推論の多様性を犠牲にして既存の推論経路を再重み付けしているだけではないかという仮説が立てられている。本研究では、この矛盾を解決するために、問題の根源を特定する:Pass@Kメトリック自体が推論の不完全な尺度であり、不正確または不完全な思考連鎖(Chains of Thought, CoTs)から生じた正しい最終回答を評価してしまうためである。これを解決するため、より正確な評価指標であるCoT-Pass@Kを導入し、推論経路と最終回答の両方が正しいことを要求する。さらに、RLVRが従来の強化学習とは異なり、論理的整合性を促進するために独自に構造化されていることを形式化する新しい理論的基盤を提供する。実証結果はこれを支持する:CoT-Pass@Kを使用すると、RLVRがすべてのK値において正しい推論の一般化を促進できることが観察される。さらに、トレーニングダイナミクスを分析することで、この強化された推論能力がトレーニングプロセスの早い段階で現れ、スムーズに一般化することがわかる。本研究は、RLVRの役割について明確な視点を提供し、その評価のためのより信頼性の高い方法を提案し、機械推論を真に進化させる可能性を確認するものである。
GPT-4oのような大規模マルチモーダルモデル(LMM)の登場により、テキスト、視覚、音声のモダリティを統合し、より柔軟なマルチモーダルインタラクションをサポートするための探求が進んでいます。既存のLMMは、通常、モダリティの表現をシーケンス次元に沿って連結し、それを大規模言語モデル(LLM)のバックボーンに入力します。シーケンス次元の連結はモダリティ統合において直感的ですが、モダリティのアラインメントを学習するために大規模なデータに依存することが多いです。本論文では、モダリティ間の関係をより意図的にモデル化し、それによってより効率的で柔軟なモダリティアラインメントを実現することを目指します。そのために、効率的なモダリティアラインメントを備えた大規模言語-視覚-音声モデルであるStream-Omniを提案します。Stream-Omniは、様々なモダリティの組み合わせ下でのインタラクションを同時にサポートすることができます。Stream-OmniはLLMをバックボーンとして使用し、視覚と音声をテキストに基づいてアラインメントします。テキストと意味的に補完的な視覚については、シーケンス次元の連結を使用して視覚-テキストアラインメントを実現します。テキストと意味的に一貫性のある音声については、CTCベースのレイヤー次元マッピングを導入して音声-テキストアラインメントを実現します。これにより、Stream-Omniはより少ないデータ(特に音声)でモダリティアラインメントを達成し、テキストの能力を他のモダリティに転移させることができます。様々なベンチマークでの実験により、Stream-Omniが視覚理解、音声インタラクション、視覚に基づく音声インタラクションタスクにおいて優れた性能を発揮することが示されています。レイヤー次元マッピングのおかげで、Stream-Omniは音声インタラクション中に中間テキスト出力(ASR転写やモデルの応答など)を同時に提供し、ユーザーに包括的なマルチモーダル体験を提供します。
視覚情報抽出(Visual Information Extraction, VIE)は、非構造化された文書画像をJSONなどの構造化形式に変換する技術であり、レポート分析やオンライン診療などの医療アプリケーションにおいて重要である。従来の手法はOCRと言語モデルに依存しているが、エンドツーエンドのマルチモーダルモデルは直接JSONを生成する。しかし、ドメイン固有のスキーマや高いアノテーションコストが医療VIEにおける有効性を制限している。我々は、これらの課題に対処するため、検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)フレームワークに基づくアプローチを採用し、わずか100のアノテーションサンプルでこれを実現した。我々のアプローチは、データセットの多様性を確保し、幻覚を減らしフィールドカバレッジを向上させるためのバランスの取れた精度-再現率報酬メカニズム、および推論能力を強化するための革新的なサンプリング戦略を提供する。Qwen2.5-VL-7Bを我々のRLVR手法でファインチューニングすることで、医療VIEタスクにおいて最先端の性能を達成し、F1、精度、再現率を大幅に向上させた。我々のモデルは医療データセットに類似したタスクでは優れた性能を示すが、類似しないタスクでは性能が低下し、ドメイン固有の最適化の必要性が浮き彫りとなった。ケーススタディは、VIEにおけるトレーニングおよび推論中の推論の価値をさらに実証している。
探索と活用のバランスを取ることは、強化学習(RL)における中心的な目標である。言語モデル(LM)の推論能力を向上させるための最近の進展にもかかわらず、ほとんどの手法は活用に偏っており、性能の頭打ちに直面することが増えている。本研究では、RLにおける探索の信号であるエントロピーを再検討し、LMにおける探索的推論との関係を考察する。実証分析を通じて、高エントロピー領域と3種類の探索的推論行動との間に強い正の相関関係があることを明らかにした:(1) 論理的なステップを決定または接続する重要なトークン、(2) 自己検証や修正などの反省的行動、(3) ベースLMによって十分に探索されていない稀な行動。これに基づき、標準的なRLに最小限の修正を加える方法を提案する。具体的には、利得関数にエントロピーに基づく項を追加するだけで、コードは1行のみである。従来の最大エントロピー法が不確実性を促進することで探索を促すのとは異なり、我々の手法はより長く深い推論連鎖を促進することで探索を促す。特に、本手法はPass@Kメトリック(LMの推論能力の上限推定値)において、極めて大きなK値で評価された場合でも大幅な向上を達成し、LMの推論能力の限界を押し広げることに成功した。
現代のAIにとって大きな課題は、主に観察を通じて世界を理解し、行動することを学ぶことである。本論文では、インターネット規模のビデオデータと少量のインタラクションデータ(ロボット軌跡)を組み合わせ、物理世界における理解、予測、計画が可能なモデルを開発するための自己教師ありアプローチを探求する。まず、100万時間以上のインターネットビデオを含むビデオおよび画像データセットを用いて、アクションフリーの結合埋め込み予測アーキテクチャであるV-JEPA 2を事前学習する。V-JEPA 2は、動きの理解において高い性能(Something-Something v2での77.3トップ1精度)を達成し、人間の行動予測においても最先端の性能(Epic-Kitchens-100での39.7リコールアット5)を示し、従来のタスク特化型モデルを凌駕した。さらに、V-JEPA 2を大規模言語モデルと連携させた後、80億パラメータ規模での複数のビデオ質問応答タスクにおいて最先端の性能(例:PerceptionTestでの84.0、TempCompassでの76.9)を実証した。最後に、自己教師あり学習をロボット計画タスクに適用する方法を示すため、Droidデータセットからの62時間未満のラベルなしロボットビデオを用いて、潜在アクション条件付き世界モデルであるV-JEPA 2-ACを事後学習する。V-JEPA 2-ACをゼロショットで2つの異なるラボのFrankaアームに展開し、画像目標を用いた計画により物体のピッキングとプレースメントを可能にした。特に、これらの環境からロボットのデータを収集せず、タスク特化型のトレーニングや報酬も行わずにこれを達成した。本論文は、ウェブ規模のデータと少量のロボットインタラクションデータからの自己教師あり学習が、物理世界における計画が可能な世界モデルを生み出すことができることを示している。
拡散モデルやフローベースモデルは、最先端の生成モデリング手法として登場したが、多くのサンプリングステップを必要とする。一貫性モデルはこれらのモデルを効率的なワンステップ生成器に蒸留できるが、フローベースや拡散ベースの手法とは異なり、ステップ数を増やすと性能が必然的に低下することを、我々は理論的および実験的に示す。フローマップは、任意の2つのノイズレベルを1ステップで接続することでこれらのアプローチを一般化し、すべてのステップ数で効果を発揮する。本論文では、フローマップの訓練のための2つの新しい連続時間目的関数を導入し、既存の一貫性およびフローマッチング目的関数を一般化する新たな訓練技術を提案する。さらに、蒸留中に低品質モデルをガイダンスとして使用するオートガイダンスが性能を向上させ、敵対的ファインチューニングによりさらなる向上が可能であり、サンプルの多様性をほとんど損なわずに達成できることを示す。我々は、Align Your Flowと呼ばれるフローマップモデルを、困難な画像生成ベンチマークで広範に検証し、ImageNet 64x64および512x512において、小さく効率的なニューラルネットワークを使用して、最先端の少ステップ生成性能を達成した。最後に、テキスト条件付き合成において、既存の非敵対的訓練された少ステップサンプラーをすべて上回るテキストから画像へのフローマップモデルを示す。
近年のLong Chain-of-Thought(CoT)推論モデルの進展により、複雑なタスクにおける性能が向上しているが、特に単純な質問に対して冗長な推論ステップを生成する「過剰思考」の問題が生じている。本論文では、Long CoTモデルとShort CoTモデルの推論パターンを再検討し、Short CoTパターンが簡潔な推論を効率的に提供する一方で、Long CoTパターンはShort CoTパターンが苦手とする困難なシナリオで優れていることを観察した。両方の推論パターンを活用するために、我々はQuestion-Free Fine-Tuning(QFFT)を提案する。これは、訓練中に入力質問を除去し、Long CoT応答のみから学習するファインチューニング手法である。このアプローチにより、モデルはShort CoTパターンを優先し、必要に応じてLong CoTパターンを適応的に使用することが可能となる。様々な数学的データセットでの実験により、QFFTは平均応答長を50%以上削減しつつ、Supervised Fine-Tuning(SFT)と同等の性能を達成することが示された。さらに、QFFTはノイズの多い状況、ドメイン外の状況、および低リソースのシナリオにおいて、SFTよりも優れた性能を示すことが確認された。
本論文では、テストケース生成における大規模言語モデル(LLM)の体系的評価のための新しいベンチマークであるTestCase-Evalを紹介する。TestCase-Evalは、Codeforcesプラットフォームから収集した500のアルゴリズム問題と10万件の人手による解答を含む。このベンチマークは、以下の2つの重要なタスクに焦点を当てている:(1)Fault Coverage(故障カバレッジ)は、LLMが生成したテストセットが多様な入力シナリオを探り、幅広い潜在的な故障モードをカバーする能力を測定する。(2)Fault Exposure(故障曝露)は、LLMが特定の誤ったコード実装を明らかにするための特化したテスト入力を生成できるかどうかを評価する。我々は、19の最先端のオープンソースおよびプロプライエタリなLLMをTestCase-Evalで包括的に評価し、アルゴリズム問題に対する効果的なテストケース生成におけるそれらの強みと限界についての洞察を提供する。
トークン化は入力テキストに固定された粒度を課し、言語モデルがデータを処理する方法や予測する未来の範囲を固定化します。Byte Pair Encoding(BPE)や類似の手法は、テキストを一度分割し、静的な語彙を構築し、モデルをその選択に縛り付けます。私たちはこの硬直性を緩和するため、自己回帰型U-Netを導入し、モデルが自身のトークンを埋め込みながら学習するようにしました。このネットワークは生のバイトを読み取り、それらを単語にプールし、次に単語のペア、そして最大4単語までプールすることで、シーケンスのマルチスケールな視点を獲得します。より深い段階では、モデルはさらに先の未来を予測する必要があります——次のバイトではなく、次の数単語を予測するため、深い段階では広範な意味的パターンに焦点を当て、初期の段階では細かい詳細を処理します。事前学習の計算を慎重に調整・制御すると、浅い階層は強力なBPEベースラインに匹敵し、深い階層は有望な傾向を示します。トークン化がモデル内部に存在するため、同じシステムが文字レベルのタスクを処理し、低リソース言語間で知識を伝達することが可能になります。
ハードウェアエコシステムは急速に進化しており、既存のコードの移植性と長期的な維持を向上させるために、低レベルのプログラムを異なる命令セットアーキテクチャ(ISA)間で迅速かつ柔軟かつ正確に変換することに対する関心が高まっています。このトランスパイル問題の中でも特に難しいのは、複雑命令セット(CISC)と縮小命令セット(RISC)ハードウェアアーキテクチャ間の変換です。これは、命令の複雑さ、メモリモデル、実行パラダイムにおける根本的な違いによるものです。本研究では、GG(Guaranteed Guess)を紹介します。これは、事前学習済みの大規模言語モデル(LLM)の翻訳能力と確立されたソフトウェアテスト構造の厳密さを組み合わせたISA中心のトランスパイルパイプラインです。我々の手法は、あるISAから別のISAへの候補翻訳をLLMを使用して生成し、その翻訳をソフトウェアテストフレームワークに組み込むことで、翻訳に対する定量化可能な信頼を構築します。GGアプローチを2つの多様なデータセットで評価し、ユニットテスト全体で高いコードカバレッジ(>98%)を強制し、HumanEvalプログラムでは99%、BringupBenchプログラムでは49%の機能/意味的正確性を達成しました。さらに、Apple Silicon上の最先端のRosetta 2フレームワークと比較し、トランスパイルされたコードにおいて1.73倍のランタイムパフォーマンス、1.47倍のエネルギー効率、2.41倍のメモリ使用効率の向上を示し、GGが現実世界のCISCからRISCへの変換タスクにおいて有効であることを実証しました。我々は、コード、データ、モデル、ベンチマークをオープンソース化し、ISAレベルのコード翻訳研究の共通基盤を確立します。
Vision-Language-Action(VLA)モデル、特に拡散ベースのアーキテクチャは、具現化された知能において変革的な可能性を示すが、広範な内在的および推論時の冗長性に起因する高い計算量とメモリ要求によって深刻な制約を受けている。既存の高速化手法はしばしば個別の非効率性を対象とするが、そのような断片的な解決策は通常、VLAパイプライン全体にわたる多様な計算およびメモリのボトルネックを包括的に解決するには至らず、実用的な展開可能性を制限している。本論文では、EfficientVLAを提案する。これは、多面的な冗長性を統合的に活用することで、これらの障壁を体系的に排除する構造化されたトレーニング不要の推論高速化フレームワークである。EfficientVLAは、以下の3つの戦略を相乗的に統合する:(1) 言語モジュールの機能的に重要でない層を、層間の冗長性分析に基づいて剪定する。(2) タスクを意識した戦略により、視覚処理経路を最適化し、タスクの重要性と情報のカバレッジをバランスさせたコンパクトで多様な視覚トークンを選択する。(3) 反復的な拡散ベースのアクションヘッド内の時間的な計算冗長性を、戦略的に中間特徴をキャッシュし再利用することで軽減する。本手法を標準的なVLAモデルであるCogACTに適用した結果、推論速度が1.93倍向上し、FLOPsが28.9%に削減され、SIMPLERベンチマークでの成功率の低下はわずか0.6%であった。
大規模推論モデル(LRMs)は顕著な成功を収めているが、不要で冗長な推論連鎖を生成する傾向がある。この問題の核心として「無効な思考」を特定する。モデルは正しい答えを導出した後も、繰り返し自身の作業を再確認する傾向がある。この特定の非効率性に対処するため、効率性と有効性の一般的な原則を超えて、二つの新しい細分化された原則を提案する。すなわち、冗長性を排除する「簡潔性」と、重要な推論ステップを保持する「十分性」である。これらの原則に基づき、グループ相対ポリシー最適化(GRPO)に基づくポストトレーニング手法であるLC-R1を導入する。LC-R1は、全体的な簡潔性を促進する長さ報酬と、思考プロセスの無効な部分を除去するために特別に設計された圧縮報酬を組み合わせた新たな手法を採用する。複数の推論ベンチマークでの広範な実験により、LC-R1はシーケンス長を約50%削減し、精度の低下はわずか約2%に留まり、高い圧縮を優先するパレートフロンティア上で有利なトレードオフ点を達成することが示された。分析により、LC-R1の堅牢性が検証され、より強力で計算効率の良いLRMsを開発するための貴重な洞察が提供される。コードはhttps://github.com/zxiangx/LC-R1で公開されている。
我々は、AIエージェントの能力と実世界での生産性のギャップを埋めるために設計された、動的で専門職に即した評価スイート「xbench」を紹介する。既存のベンチマークはしばしば孤立した技術スキルに焦点を当てるが、それらは専門的な環境でエージェントが提供する経済的価値を正確に反映しない場合がある。この問題に対処するため、xbenchは産業の専門家によって定義された評価タスクを用いて、商業的に重要な領域をターゲットとする。我々のフレームワークは、生産性価値と強く相関するメトリクスを作成し、技術と市場の適合性(TMF)の予測を可能にし、製品能力の経時的な追跡を容易にする。初期実装として、我々は「採用」と「マーケティング」の2つのベンチマークを提示する。採用においては、実際のヘッドハンティング業務シナリオから50のタスクを収集し、企業マッピング、情報検索、人材ソーシングにおけるエージェントの能力を評価する。マーケティングにおいては、836人の候補インフルエンサーを精選したプールを用いて、50の広告主の要件に基づき、エージェントがインフルエンサーを広告主のニーズに適合させる能力を評価する。我々は、主要な現代エージェントに対する初期評価結果を提示し、これらの専門領域におけるベースラインを確立する。我々の継続的に更新される評価セットと評価結果は、https://xbench.org で利用可能である。
大規模言語モデル(LLMs)が外部ツールを利用する能力により、多様なタスクに対応できるようになった。しかし、タスクがより複雑で長期的になるにつれ、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。そのため、エラーを効果的に識別、診断、回復する方法が、ツール学習を進める上での重要な研究課題として浮上している。本研究では、まず、いくつかの競争力のあるツール評価ベンチマークにおいて、関数呼び出しプロセス中に遭遇するエラーの種類を詳細に分析する。これに基づき、ツール学習に特化した包括的な批評評価ベンチマークであるCRITICTOOLを導入する。新しい進化的戦略に基づくデータセット構築により、CRITICTOOLは複雑さの異なる多様なツール利用エラーを包含し、現実世界のシナリオをよりよく反映している。CRITICTOOL上で広範な実験を行い、構築したベンチマーク戦略の汎用性と有効性を検証する。また、様々なLLMsにおけるツール反射能力の詳細な分析を提供し、LLMsのツール学習分野に新たな視点を提供する。コードはhttps://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}で公開されている。
低品質、合成、および分布外の画像を活用して拡散モデルの品質を向上させる方法を示す。通常、拡散モデルはウェブやその他のソースから高度にフィルタリングされたデータプールから得られるキュレーションデータセットで訓練される。我々は、しばしば破棄される低品質画像に大きな価値があることを示す。Ambient Diffusion Omniを提案し、訓練中に利用可能な全ての画像から信号を抽出できる拡散モデルを訓練するためのシンプルで原理に基づいたフレームワークを提供する。このフレームワークは、自然画像の2つの特性――スペクトルパワー則減衰と局所性――を活用する。まず、ガウシアンブラー、JPEG圧縮、モーションブラーによって人工的に劣化させた画像を用いて拡散モデルを成功裏に訓練することで、このフレームワークを検証する。次に、このフレームワークを用いてImageNet FIDにおいて最先端の結果を達成し、テキストから画像への生成モデリングにおいて画像品質と多様性の両方で大幅な改善を示す。核心となる洞察は、ノイズが望まれる高品質分布と実際に観測される混合分布との間の初期の歪みを緩和するということである。拡散時間にわたる偏ったデータからの学習と限られた不偏データからの学習のトレードオフを分析することで、我々のアプローチに対する厳密な理論的正当化を提供する。
大規模言語モデルの解釈におけるスパースオートエンコーダ(SAE)を用いた理論的基盤に基づく特徴量回復の課題を研究する。既存のSAE学習アルゴリズムは、厳密な数学的保証を欠き、ハイパーパラメータの感度や不安定性といった実用的な制約に悩まされている。これらの問題に対処するため、まず、多義的特徴を基盤となる単義的概念のスパースな混合としてモデル化する新しい特徴量同定性の概念を含む、特徴量回復問題のための新たな統計的フレームワークを提案する。このフレームワークに基づき、「バイアス適応」と呼ばれる技術を用いた新しいSAE学習アルゴリズムを導入する。この技術は、適切な活性化スパース性を確保するためにニューラルネットワークのバイアスパラメータを適応的に調整するものである。提案した統計モデルから入力データがサンプリングされた場合、このアルゴリズムがすべての単義的特徴を正しく回復することを理論的に証明する。さらに、改良された実証的バリアントであるグループバイアス適応(GBA)を開発し、最大15億パラメータの大規模言語モデルに適用した際のベンチマーク手法に対する優れた性能を実証する。本研究は、理論的回復保証を備えた初めてのSAEアルゴリズムを提供することで、SAE学習の謎を解明する基礎的な一歩を踏み出し、機構的解釈可能性の向上を通じてより透明で信頼性の高いAIシステムの開発を推進するものである。
多様な大規模言語モデル(LLM)の急速な出現により、ユーザークエリを最も適したモデルに割り当てるLLMルーターの開発が進んでいます。しかし、既存のLLMルーターは通常、単一ラウンドの1対1マッピング(つまり、各クエリを単一のモデルに個別に割り当てる)を行うため、複数のLLMの補完的な強みを必要とする複雑なタスクに対処する能力が制限されています。本論文では、強化学習(RL)ベースのフレームワークであるRouter-R1を紹介します。Router-R1は、複数LLMのルーティングと集約を逐次決定プロセスとして定式化します。Router-R1は、ルーター自体を有能なLLMとしてインスタンス化し、その推論能力を活用して「考える」アクション(内部審議)と「ルート」アクション(動的モデル呼び出し)を交互に行い、各応答を進化するコンテキストに統合します。学習を導くために、フォーマット報酬、最終結果報酬、および性能とコストのトレードオフ最適化のための新しいコスト報酬を含む軽量なルールベースの報酬を採用し、RLを介した性能とコストのトレードオフ最適化への道を開きます。Router-R1はまた、価格、レイテンシ、および例示的な性能などの単純なモデル記述子にのみ条件付けを行うため、未見のモデル選択に対する強力な汎化を可能にします。7つの一般およびマルチホップQAベンチマークでの実験により、Router-R1がいくつかの強力なベースラインを上回り、優れた性能を維持しながら、堅牢な汎化とコスト管理を実現することが示されました。コードはhttps://github.com/ulab-uiuc/Router-R1で公開されています。
時空間的ローカリゼーションは、生物学的研究から自律ナビゲーション、インタラクティブインターフェースに至る多様な領域における精密な相互作用にとって極めて重要である。現在のビデオベースのアプローチは、追跡においては優れているものの、大規模言語モデルが持つ高度な推論能力を欠いており、文脈理解と汎化能力が制限されている。本論文では、テキスト記述に基づく細粒度の時空間的ポインティングに特化した大規模マルチモーダルモデル、VideoMolmoを提案する。VideoMolmoは、Molmoアーキテクチャを基盤とし、前フレームに基づいて各フレームを条件付けるための注意機構を活用した時間モジュールを組み込むことで、時間的一貫性を確保する。さらに、我々の新たな時間マスク融合パイプラインは、SAM2を利用して双方向のポイント伝播を行い、ビデオシーケンス全体の一貫性を大幅に向上させる。この2段階の分解、すなわち、まずLLMを用いて精密なポインティング座標を生成し、次にシーケンシャルマスク融合モジュールに依存して一貫したセグメンテーションを生成するアプローチは、言語モデルのタスクを簡素化するだけでなく、解釈可能性も向上させる。適切なデータセットの不足を補うため、10万のオブジェクトポイントが注釈付けされた72kのビデオキャプションペアからなる包括的なデータセットを構築した。VideoMolmoの汎化能力を評価するために、セルトラッキング、エゴセントリックビジョン、自律運転、ビデオ-GUIインタラクション、ロボティクスの5つの現実世界のシナリオにまたがる挑戦的な分布外ベンチマーク、VPoS-Benchを導入した。また、Referring Video Object Segmentation (Refer-VOS) および Reasoning VOSタスクにおいてもモデルを評価した。既存のモデルと比較して、VideoMolmoは時空間的ポインティングの精度と推論能力を大幅に向上させた。我々のコードとモデルは、https://github.com/mbzuai-oryx/VideoMolmo で公開されている。
私たちは、汎用コンピュータ利用エージェント向けの高品質なタスクと軌跡データセットを自動的に合成するための、スケーラブルでコスト効率の良いパイプラインであるAgentSynthを紹介します。情報の非対称性を活用し、AgentSynthは生成時には単純だが、長期的なタスクに組み合わせると大幅に難易度が上がるサブタスクを構築し、6,000以上の多様で現実的なタスクを作成します。このパイプラインは、ペルソナに導かれたLLMベースのタスク提案者から始まり、タスクを完了して軌跡を記録する実行エージェントが続きます。このプロセスを繰り返してサブタスクのシーケンスを形成し、その後、別のエージェントが制御可能な難易度の複合タスクに要約します。AgentSynthの重要な強みは、サブタスクの数を変えることでタスクの複雑さを正確に調整できる点です。実証評価では、最先端のLLMエージェントが難易度レベル1で18%の成功率からレベル6ではわずか4%に急激に低下し、ベンチマークの難易度と識別能力が強調されています。さらに、このパイプラインは軌跡あたりの平均コストが\$0.60と低く、人間による注釈よりも桁違いに安価です。私たちのコードとデータはhttps://github.com/sunblaze-ucb/AgentSynthで公開されています。
本論文では、強化学習(RL)を活用して効率的かつ堅牢な推論能力を実現する、Mixture-of-Experts(MoE)ベースの大規模言語モデル「Ring-lite」を提案する。公開されているLing-liteモデル(168億パラメータ、うち27.5億パラメータが活性化)を基盤として構築された本モデルは、最先端(SOTA)の小規模推論モデルと同等の性能を、AIME、LiveCodeBench、GPQA-Diamondなどの難易度の高いベンチマークで達成しつつ、比較可能なモデルに必要なパラメータ数の3分の1のみを活性化する。これを実現するため、蒸留とRLを統合した共同トレーニングパイプラインを導入し、MoE RLトレーニングにおける未記載の課題を明らかにした。第一に、RLトレーニング中の最適化不安定性を特定し、アルゴリズムとシステムの協調設計手法を通じてトレーニングの安定性を向上させ、計算スループットを改善する新規アプローチ「Constrained Contextual Computation Policy Optimization(C3PO)」を提案する。第二に、RLトレーニングにおいて検証指標ではなくエントロピー損失に基づいて蒸留チェックポイントを選択することが、その後のRLトレーニングにおいて優れた性能と効率のトレードオフをもたらすことを実証的に示す。最後に、複数ドメインのデータ統合を調和させるための2段階トレーニングパラダイムを開発し、混合データセットを用いたトレーニングで生じるドメイン間の衝突に対処する。本モデル、データセット、およびコードを公開する予定である。
人間の移動シミュレーションは、さまざまな実世界のアプリケーションにおいて重要な役割を果たす。最近、従来のデータ駆動型アプローチの限界に対処するため、研究者たちは大規模言語モデル(LLM)の常識的知識と推論能力を活用して人間の移動シミュレーションを加速する方法を探求してきた。しかし、これらの方法は、都市空間の不十分なモデリングや、個人の移動パターンと集団的な移動分布の両方との統合の不備など、いくつかの重大な欠点を抱えている。これらの課題に対処するため、我々はCityGPTを活用したエージェント型フレームワーク「CAMS」(CityGPT-Powered Agentic framework for Mobility Simulation)を提案する。CAMSは、言語ベースの都市基盤モデルを活用して都市空間における人間の移動をシミュレートするエージェント型フレームワークであり、3つのコアモジュールを備えている。MobExtractorは、テンプレート移動パターンを抽出し、ユーザープロファイルに基づいて新しいパターンを合成する。GeoGeneratorは、集団的知識を考慮してアンカーポイントを生成し、強化版CityGPTを使用して候補となる都市地理空間知識を生成する。TrajEnhancerは、移動パターンに基づいて空間知識を取得し、DPO(Direct Preference Optimization)を介して実際の軌道選好に沿った軌道を生成する。実世界のデータセットを用いた実験により、CAMSは外部提供の地理空間情報に依存せずに優れた性能を発揮することが示された。さらに、個人の移動パターンと集団的な移動制約を包括的にモデル化することで、CAMSはより現実的で妥当な軌道を生成する。全般的に、CAMSは、エージェント型フレームワークと都市知識を有するLLMを統合した人間の移動シミュレーションの新たなパラダイムを確立する。
我々は、大規模言語モデル(LLMs)に対する強力な攻撃手法であるサフィックスベースのジェイルブレイクを研究する。この攻撃は、安全性アライメントを回避するために敵対的サフィックスを最適化するものである。広く使用されている基礎的なGCG攻撃(Zou et al., 2023)に焦点を当て、サフィックスの有効性が異なることを観察した。特に、一部のサフィックスは他のものよりも顕著に普遍的であり、多くの未見の有害な指示に一般化する。まず、GCGの有効性は、敵対的サフィックスから生成前の最終的なチャットテンプレートトークンへの情報フローに基づく浅いが重要なメカニズムによって駆動されていることを示す。生成中におけるこのメカニズムの支配性を定量化し、GCGが文脈化プロセスを不規則かつ積極的に乗っ取ることを明らかにする。特に、乗っ取りの強さが普遍性現象と関連しており、より普遍的なサフィックスほど強力な乗っ取りを行うことを示す。その後、これらの知見が実用的な意味を持つことを示す。GCGの普遍性は、追加の計算コストなしに効率的に向上させることが可能であり(場合によっては最大5倍)、また、最小限のユーティリティ損失で攻撃成功率を少なくとも半減させることも可能である。我々はコードとデータをhttp://github.com/matanbt/interp-jailbreakで公開する。
現代の機械学習における最も深遠な課題の一つは、稀で代表性の低い特徴のロングテールにおいて良好な性能を発揮することである。汎用性の高い大規模モデルは多くのタスクに対して訓練されるが、高頻度のユースケースで最も効果を発揮する。訓練後、特定のユースケースにおいて訓練コーパスで代表性が低い場合にモデルを適応させることは困難である。特定のテストケースでの出力品質を最大化するためにプロンプトエンジニアリングや少数ショットの例に依存することは、モデルが小さな変化に非常に敏感であったり、予期せぬ反応を示したり、性能を維持するために固定されたシステムプロンプトに依存したりするため、苛立たしいことがある。本研究では、「訓練プロトコルを最適化し、推論時に代表性の低いユースケースでの制御性と性能を同時に向上させることができるか?」という問いを立てる。訓練と推論技術の間の隔たりを再検討し、ロングテールの性能を向上させるとともに、ユーザーがモデルに反応するよう訓練された一連の制御手段を提供する。データ特性とタスクのプロヴェナンスの詳細な分類体系を作成し、生成属性を明示的に制御し、推論時に暗黙的に生成を条件付ける。ベースモデルを微調整してこれらのマーカーを自動的に推論させ、推論時にそれらをオプションにする。この原理に基づいた柔軟なアプローチにより、特に訓練分布のロングテールに属する例において、性能が顕著に向上する。マーカーを使用した場合、オープンエンド生成品質の平均勝率が5.7%向上する一方、代表性の低いドメインでは9.1%以上の向上が見られる。また、CodeRepairのような代表性の低いタスクでは最大14.1%の相対的な向上が見られ、長さ指示追従評価では35.3%の絶対的な改善が観察される。
アライメントはもはや贅沢ではなく、必要不可欠な要素である。大規模言語モデル(LLM)が教育、医療、ガバナンス、法律といったハイステークスな領域に進出するにつれ、その振る舞いは人間の価値観や安全性の制約に確実に沿ったものでなければならない。しかし、現在の評価は拒否率、G-Evalスコア、毒性分類器といった行動プロキシに大きく依存しており、これらには重大な盲点が存在する。アライメントされたモデルは、しばしばジャイルブレイク、生成の確率性、アライメントの偽装に対して脆弱である。 この問題に対処するため、我々はアライメント品質指数(Alignment Quality Index, AQI)を導入する。この新しい幾何学的かつプロンプト不変のメトリックは、潜在空間における安全な活性化と不安全な活性化の分離を分析することで、LLMのアライメントを経験的に評価する。Davies-Bouldinスコア(DBS)、Dunn指数(DI)、Xie-Beni指数(XBI)、Calinski-Harabasz指数(CHI)といった様々な定式化を組み合わせることで、AQIはクラスタリングの品質を捉え、出力が一見準拠している場合でも隠れたミスアライメントやジャイルブレイクのリスクを検出する。AQIはまた、アライメントの偽装に対する早期警告信号としても機能し、振る舞いに依存しない安全性監査のための堅牢なデコード不変ツールを提供する。 さらに、これらの困難な条件下での堅牢な評価を促進するため、LITMUSデータセットを提案する。DPO、GRPO、RLHFの条件下で訓練された異なるモデルに対するLITMUSの実証テストは、AQIが外部の評価者との相関を持ち、拒否メトリックでは見逃されていた脆弱性を明らかにする能力を示している。我々は、この分野の将来の研究を促進するため、実装を公開する。
文脈内強化学習(In-context Reinforcement Learning, ICRL)は、プロンプト条件付けを通じてRLエージェントを下流タスクに適応させる有望なパラダイムとして登場しました。しかし、RL領域における文脈内学習を十分に活用する上で、2つの重要な課題が残されています:状態-行動-報酬データの本質的なマルチモーダル性と、意思決定タスクの多様で異質な性質です。これらの課題に取り組むため、我々はT2MIR(Token- and Task-wise MoE for In-context RL)を提案します。これは、トランスフォーマーベースの意思決定モデルに専門家混合(Mixture-of-Experts, MoE)のアーキテクチャ的進化を導入する革新的なフレームワークです。T2MIRはフィードフォワード層を2つの並列層に置き換えます:入力トークンの複数のモダリティにわたる異なるセマンティクスを捉えるトークンワイズMoEと、多様なタスクを専門家にルーティングして広範なタスク分布を管理し、勾配の衝突を緩和するタスクワイズMoEです。タスクワイズルーティングを強化するため、タスクとそのルータ表現間の相互情報量を最大化するコントラスティブラーニング手法を導入し、タスク関連情報をより正確に捉えることを可能にします。2つのMoEコンポーネントの出力は連結され、次の層に供給されます。包括的な実験により、T2MIRが文脈内学習能力を大幅に促進し、さまざまなタイプのベースラインを上回ることが示されました。我々はMoEの可能性と約束をICRLにもたらし、言語および視覚コミュニティでの成果に一歩近づけるためのシンプルでスケーラブルなアーキテクチャ的強化を提供します。コードはhttps://github.com/NJU-RL/T2MIRで公開されています。
蚊媒介感染症は世界的な健康リスクを引き起こし、発生を防ぐためには早期検出と繁殖地の積極的な管理が求められる。本論文では、蚊の繁殖地分析のための自動検出、セグメンテーション、推論を支援するために視覚的およびテキストデータを統合したマルチモーダルデータセット「VisText-Mosquito」を提案する。このデータセットには、物体検出用の1,828枚の注釈付き画像、水面セグメンテーション用の142枚の画像、および各画像に関連付けられた自然言語推論テキストが含まれている。YOLOv9sモデルは物体検出において最高精度0.92926およびmAP@50で0.92891を達成し、YOLOv11n-Segはセグメンテーション精度0.91587およびmAP@50で0.79795を記録した。推論生成においては、ファインチューニングされたBLIPモデルが最終損失0.0028、BLEUスコア54.7、BERTScore0.91、ROUGE-L0.87を達成した。このデータセットとモデルフレームワークは「予防は治療に勝る」というテーマを強調し、AIベースの検出が蚊媒介感染症リスクに積極的に対処できることを示している。データセットおよび実装コードはGitHubで公開されている:https://github.com/adnanul-islam-jisun/VisText-Mosquito
本研究は、相対深度をメトリック深度に変換する汎用可能なフレームワークを提案する。現在の単眼深度推定手法は、主にメトリック深度推定(MMDE)と相対深度推定(MRDE)に分類される。MMDEはメトリックスケールで深度を推定するが、特定の領域に限定されることが多い。一方、MRDEは異なる領域間で良好に汎化するが、スケールが不確定であるため、下流のアプリケーションに支障をきたす。この問題を解決するため、我々はスケールの不確実性を解消し、相対深度をメトリック深度に変換するフレームワークを構築することを目指す。従来の手法では、言語を入力として使用し、リスケーリングを行うための2つの因子を推定していた。我々のアプローチであるTR2Mは、テキスト記述と画像の両方を入力として利用し、ピクセルレベルで相対深度をメトリック深度に変換するための2つのリスケールマップを推定する。2つのモダリティからの特徴は、クロスモダリティアテンションモジュールを用いて融合され、スケール情報をより効果的に捕捉する。さらに、信頼性の高い疑似メトリック深度を構築し、フィルタリングするための戦略を設計し、より包括的な監督を実現する。また、スケール指向のコントラスティブラーニングを開発し、深度分布をガイダンスとして利用して、スケール分布に整合する内在的知識をモデルに学習させる。TR2Mは、様々な領域のデータセットで学習するために少数の学習可能なパラメータのみを利用し、既知のデータセットでの優れた性能だけでなく、5つの未知のデータセットでの優れたゼロショット能力も示す。言語支援によるピクセル単位での相対深度からメトリック深度への変換の大きな可能性を示す。(コードはhttps://github.com/BeileiCui/TR2Mで公開されている)
オープンソースの基盤モデルは急速に採用と開発が進み、多様な領域で強力な汎用能力を実現しています。しかし、大規模な基盤モデルをドメイン固有または個人化されたタスクにファインチューニングすることは、推論時のメモリ使用量を大幅に超えるため、多くのユーザーにとって現実的ではありません。本論文では、EMLoC(Emulator-based Memory-efficient fine-tuning framework with LoRA Correction)を提案します。EMLoCは、推論に必要なメモリ予算内でモデルのファインチューニングを可能にするフレームワークです。EMLoCは、小さな下流キャリブレーションセットに対して活性化を考慮した特異値分解(SVD)を用いて、タスク固有の軽量エミュレータを構築します。その後、LoRAを用いてこの軽量エミュレータ上でファインチューニングを行います。元のモデルと圧縮されたエミュレータの間の不一致に対処するため、ファインチューニングされたLoRAモジュールを補正する新しい補償アルゴリズムを提案し、これにより推論用の元のモデルに統合することが可能になります。EMLoCは柔軟な圧縮率と標準的なトレーニングパイプラインをサポートし、幅広いアプリケーションに適応可能です。大規模な実験により、EMLoCが複数のデータセットとモダリティにおいて他のベースラインを上回ることを実証しました。さらに、量子化を行わずに、EMLoCは38Bモデルのファインチューニングを単一の24GBコンシューマーGPUで実現し、個人ユーザーにとって効率的で実用的なモデル適応を可能にします。
グラフ検索拡張生成(GraphRAG)は、知識関係を明示的にモデル化することで、外部知識の統合能力を効果的に強化し、専門領域における大規模言語モデル(LLM)の事実の正確性と生成品質を向上させます。しかし、既存の手法には2つの固有の制限があります:1)非効率な情報集約:単一のエージェントと固定された反復パターンに依存しており、グラフデータ内の多階層のテキスト、構造、および次数情報を適応的に捕捉することが困難です。2)硬直した推論メカニズム:事前に設定された推論スキームを採用しており、推論の深さを動的に調整することも、正確な意味的修正を達成することもできません。これらの制限を克服するために、我々はマルチエージェント協調に基づくGraphRAG手法であるGraph Counselorを提案します。この手法では、適応的グラフ情報抽出モジュール(AGIEM)を使用し、計画、思考、実行エージェントが協力して複雑なグラフ構造を正確にモデル化し、情報抽出戦略を動的に調整することで、多階層依存関係のモデリングと適応的推論深度の課題に対処します。さらに、多視点による自己反省(SR)モジュールは、自己反省と後方推論メカニズムを通じて、推論結果の正確性と意味的一貫性を向上させます。実験により、Graph Counselorが複数のグラフ推論タスクにおいて既存の手法を上回り、より高い推論精度と汎化能力を示すことが実証されました。我々のコードはhttps://github.com/gjq100/Graph-Counselor.gitで公開されています。
現実世界において大規模で複雑なポリシーを展開するには、状況に応じてそれらを適応させる能力が必要である。目標条件付けのような最も一般的な適応手法では、テスト時の目的の分布を考慮してロボットポリシーを訓練する必要がある。この制限を克服するため、我々はDynaGuideを提案する。これは、拡散デノイジングプロセス中に外部のダイナミクスモデルからのガイダンスを用いて拡散ポリシーを適応させる手法である。DynaGuideはダイナミクスモデルを基本ポリシーから分離することで、複数の目的に向けた適応、基本ポリシーの挙動の強化、低品質の目的に対するロバスト性の維持といった複数の利点を持つ。また、分離されたガイダンス信号により、DynaGuideは既存の事前訓練済み拡散ポリシーと連携することが可能である。我々は、一連のシミュレーションおよび実世界実験において、DynaGuideの性能と特徴を他の適応手法と比較し、CALVINタスクセットにおいて平均70%の適応成功率を示し、低品質の目的で適応させた場合、目標条件付けを5.4倍上回る結果を得た。さらに、既存の実ロボットポリシーを特定の物体に対する選好を示すよう適応させ、新たな挙動を創出することにも成功した。動画や詳細はプロジェクトウェブサイト(https://dynaguide.github.io)で確認できる。