翻訳付きの日次キュレーションされたAI研究論文
マルチLLMシステムは、多様な大規模言語モデル(LLM)の補完的な強みを活用し、単一のモデルでは達成できない性能と効率の向上を実現します。既存の設計では、LLMはテキストを通じて通信し、内部表現を出力トークンシーケンスに変換することを強制されます。このプロセスは、豊かな意味情報を失うだけでなく、トークンごとの生成遅延を引き起こします。これらの制限に動機づけられ、我々は問います:LLMはテキストを超えて通信できるか?オラクル実験は、KVキャッシュの意味を豊かにすることで、キャッシュサイズを増やすことなく応答品質を向上できることを示し、KVキャッシュがモデル間通信の有効な媒体であることを支持します。そこで、我々はCache-to-Cache(C2C)を提案します。これは、LLM間の直接的な意味通信のための新しいパラダイムです。C2Cは、ニューラルネットワークを使用して、ソースモデルのKVキャッシュをターゲットモデルのKVキャッシュに投影し融合させ、直接的な意味転送を可能にします。学習可能なゲーティングメカニズムは、キャッシュ通信から利益を得るターゲット層を選択します。テキスト通信と比較して、C2Cは両モデルからの深く専門化された意味を利用し、明示的な中間テキスト生成を回避します。実験結果は、C2Cが個々のモデルよりも8.5-10.5%高い平均精度を達成することを示しています。さらに、テキスト通信パラダイムを約3.0-5.0%上回り、平均2.0倍のレイテンシ高速化を実現します。我々のコードはhttps://github.com/thu-nics/C2Cで公開されています。
視覚的トークン化は、自己回帰パラダイム内で視覚的理解と生成を統合する上で核心的な課題として残っている。既存の手法では、大規模言語モデルのトークンと整合させるために、離散的な潜在空間におけるトークナイザーを採用することが一般的であり、量子化誤差が意味表現力を制限し、視覚言語理解の能力を低下させる可能性がある。これを解決するため、我々は連続的な潜在空間を持つ新しい視覚トークナイザーファミリーであるMingTokを提案し、統一された自己回帰生成と理解を実現する。理解タスクは識別可能な高次元特徴を好む一方で、生成タスクはコンパクトな低次元コードを好む。したがって、これらの相反する要求を調和させるために、MingTokは低次元エンコーディング、意味的拡張、視覚的再構築を含む三段階のシーケンシャルアーキテクチャを採用している。その上に構築されたMing-UniVisionは、タスク固有の視覚表現を不要とし、多様な視覚言語タスクを単一の自己回帰予測パラダイムの下で統合する。理解と生成の両方を共有された連続空間における次トークン予測として定式化することで、反復的な理解、生成、編集などのマルチラウンド、コンテキスト内タスクをシームレスにサポートする。実験的に、統一された連続視覚表現を使用することで、理解タスクと生成タスクがトークナイザーに求める相反する要求を調和させ、両ドメインにおいて最先端の性能を達成することが確認された。我々の発見が、連続領域における統一された視覚トークン化を促進することを期待する。推論コードとモデル重みはコミュニティの利益のために公開されている。
本論文では、シームレスなマルチモーダル生成と理解のためのオープンソース基盤モデルであるLumina-DiMOOを紹介する。Lumina-DiMOOは、従来の統一モデルとは異なり、完全に離散的な拡散モデリングを活用して、様々なモダリティにわたる入力と出力を処理する。この革新的なアプローチにより、Lumina-DiMOOは、従来の自己回帰(AR)モデルやハイブリッドAR-拡散パラダイムと比較して高いサンプリング効率を達成し、テキストから画像への生成、画像から画像への生成(例:画像編集、被写体駆動生成、画像修復など)、および画像理解を含む幅広いマルチモーダルタスクを巧みにサポートする。Lumina-DiMOOは、複数のベンチマークにおいて最先端の性能を達成し、既存のオープンソース統一マルチモーダルモデルを凌駕している。マルチモーダルおよび離散拡散モデル研究のさらなる進展を促進するため、我々はコードとチェックポイントをコミュニティに公開する。プロジェクトページ:https://synbol.github.io/Lumina-DiMOO。
現在の大規模言語モデル(LLM)および音声言語モデル(SLM)は、ユーザーの発話が終了した後にのみ思考を開始し、行動を取る。これにより、ユーザーの発話中にモデルが相互作用することが妨げられ、思考を待つ間に高い応答遅延が生じる。その結果、完全な入力を受信してから思考を行うことは、リアルタイムで低遅延の交換が重要となる音声対音声の相互作用には適していない。この問題に対処するため、我々は人間が自然に「聞きながら考える」ことに着目した。本論文では、SLMがユーザーの入力音声を聞きながら、発話されない連鎖的思考(chain-of-thought)推論を生成することを可能にする一般的な推論フレームワーク「SHANKS」を提案する。SHANKSは、入力音声を固定時間のチャンクでストリーミングし、チャンクを受信すると、ユーザーが話し続けている間に、それまでのすべての音声と推論に基づいて発話されない推論を生成する。SHANKSはこの発話されない推論を用いて、ユーザーを中断するかどうかを判断し、タスクを完了するためのツール呼び出しを行う。我々は、SHANKSがリアルタイムのユーザー-SLM相互作用を強化することを2つのシナリオで実証した:(1)ユーザーが数学の問題に対する段階的な解法を提示している際に、SHANKSは聞き、推論し、ユーザーがミスをした際に中断することができ、思考せずに中断するベースラインよりも37.1%高い中断精度を達成した;(2)ツール拡張対話において、SHANKSはユーザーの発話が終了する前に56.9%のツール呼び出しを完了することができた。全体として、SHANKSは、会話の終了後だけでなく、会話全体を通じて思考を続けるモデルに向けた一歩を踏み出している。SHANKSのアニメーション図解はhttps://d223302.github.io/SHANKS/で確認できる。
ビデオDiTsはビデオ生成において進化を遂げているものの、複数のインスタンスや主客間の相互作用をモデル化する際には依然として課題を抱えています。これにより、これらのモデルが内部的に相互作用をどのように表現しているかという重要な疑問が生じます。この疑問に答えるため、我々は相互作用を意識したキャプションと複数インスタンスのマスクトラックを備えたビデオデータセット「MATRIX-11K」を構築しました。このデータセットを用いて、ビデオDiTsの2つの視点を体系化する分析を行いました。1つ目は、ビデオからテキストへのアテンションを通じた意味的基盤化(semantic grounding)であり、名詞や動詞のトークンがインスタンスとその関係を捉えているかを評価します。2つ目は、ビデオからビデオへのアテンションを通じた意味的伝播(semantic propagation)であり、インスタンスの結合がフレーム間で持続するかを評価します。これらの効果は、相互作用が支配的な層の一部に集中していることがわかりました。この知見に基づき、我々はMATRIXを導入しました。これは、ビデオDiTsの特定の層におけるアテンションをMATRIX-11Kデータセットの複数インスタンスマスクトラックと整合させるシンプルかつ効果的な正則化手法であり、基盤化と伝播の両方を向上させます。さらに、相互作用を意識したビデオ生成のための評価プロトコル「InterGenEval」を提案しました。実験では、MATRIXが相互作用の忠実度と意味的整合性を向上させ、ドリフトや幻覚を減少させることが確認されました。広範なアブレーション研究により、設計選択の妥当性が検証されました。コードと重みは公開予定です。
視覚と言語の基盤モデルにおける最近の進展は、マルチモーダルな理解、推論、生成を大幅に進化させ、視覚-言語-行動(VLA)モデルを通じてその能力を具現化する設定への拡張に大きな関心を呼び起こしています。しかし、ほとんどのVLAモデルは依然として教師あり微調整(SFT)で訓練されており、分布シフト下での汎化に苦戦し、エラーの蓄積が問題となっています。強化学習(RL)は、相互作用を通じて直接タスク性能を最適化する有望な代替手段を提供しますが、既存の試みは断片的で、モデルアーキテクチャとアルゴリズム設計にわたる公平かつ体系的な比較のための統一プラットフォームが欠けています。このギャップを埋めるため、我々はRLinf-VLAを紹介します。これは、VLAモデルのスケーラブルなRL訓練のための統一かつ効率的なフレームワークです。このシステムは、RL+VLA訓練におけるレンダリング、訓練、推論の統合という課題に対処する高度に柔軟なリソース割り当て設計を採用しています。特に、GPU並列化シミュレータに対して、RLinf-VLAは新規のハイブリッド細粒度パイプライン割り当てモードを実装し、訓練速度を1.61倍から1.88倍向上させます。統一インターフェースを通じて、RLinf-VLAは多様なVLAアーキテクチャ(例:OpenVLA、OpenVLA-OFT)、複数のRLアルゴリズム(例:PPO、GRPO)、および様々なシミュレータ(例:ManiSkill、LIBERO)をシームレスにサポートします。シミュレーションでは、統一モデルが130のLIBEROタスクで98.11%、25のManiSkillタスクで97.66%の達成率を示します。経験的な性能を超えて、我々の研究はVLA訓練にRLを適用するためのベストプラクティスを抽出し、この統合における新興パターンに光を当てます。さらに、実世界のFrankaロボットでの予備的な展開を提示し、RLで訓練されたポリシーがSFTで訓練されたものよりも強い汎化能力を示すことを示します。我々はRLinf-VLAを、具現化知能の研究を加速し標準化する基盤として位置づけています。
大規模言語モデル(LLMs)は、ユーザーが自然言語のやり取りを通じてコードを生成し、反復的に改良し、自身の「ビーブチェック」を通過するまで調整する「ビーブコーディング」を促進している。ビーブチェックは、現実世界の人間の選好に結びついており、機能性を超えたものである。つまり、ソリューションは適切に感じられ、読みやすく、意図を保ち、正確であるべきである。しかし、現在のコード評価はpass@kに基づいており、機能的正しさのみを捉え、ユーザーが日常的に適用する非機能的な指示を見落としている。本論文では、指示の遵守が、機能的正しさに加えてコーディングにおける人間の選好を表すビーブチェックの欠けている要素であると仮説を立てる。モデルのコード指示遵守能力を測定可能な信号で定量化するために、30の検証可能なコード指示とそれに対応する決定論的検証器からなる分類体系であるVeriCodeを提示する。この分類体系を用いて確立された評価スイートを拡張し、コード指示遵守と機能的正しさの両方を評価するテストベッドであるVibe Checkerを構築する。31の主要なLLMsを評価した結果、最も強力なモデルでさえ複数の指示に従うことに苦戦し、明確な機能的な退行を示すことがわかった。最も重要なことに、機能的正しさと指示遵守の複合スコアは、人間の選好と最も高い相関を示し、後者が現実世界のプログラミングタスクにおいて主要な差別化要因として浮かび上がった。本研究は、ビーブチェックの核心的な要素を特定し、ユーザーのコーディングにおける選好により適したモデルのベンチマークと開発のための具体的な道筋を提供する。
大規模言語モデル(LLMs)は、知識集約的かつ複雑な推論タスクにおいて、多段階のツール統合計画にますます依存するようになっている。既存の実装は通常、単一のエージェントに依存しているが、これらはコンテキスト長の制限やノイズの多いツール応答に悩まされている。この問題に対する自然な解決策は、プランナーとワーカーのエージェントを用いたマルチエージェントフレームワークを採用し、コンテキストを管理することである。しかし、既存の手法では、ツール統合マルチエージェントフレームワークの効果的な強化学習による事後学習をサポートしていない。このギャップを埋めるため、我々はMulti-Agent Tool-Integrated Policy Optimization(MATPO)を提案する。MATPOは、役割固有のプロンプトを用いて、単一のLLMインスタンス内でプランナーとワーカーの異なる役割を強化学習によって訓練することを可能にする。MATPOは、プランナーとワーカーのロールアウトにわたる原則的なクレジット割り当てメカニズムに基づいて導出される。この設計により、メモリ集約的となる複数のLLMをデプロイする必要がなくなりつつ、専門化の利点を保持することができる。GAIA-text、WebWalkerQA、およびFRAMESでの実験により、MATPOが単一エージェントのベースラインを平均18.38%の相対的な性能向上で一貫して上回り、ノイズの多いツール出力に対してより高いロバスト性を示すことが確認された。我々の知見は、単一のLLM内で複数のエージェント役割を統合することの有効性を強調し、安定かつ効率的なマルチエージェントRL訓練のための実践的な洞察を提供する。
長系列モデリングにおいては、RNNのようなモデルにおける圧縮された固定サイズメモリの効率性と、アテンションベースのTransformerにおけるロスレスな拡張メモリの忠実性との間で、根本的なトレードオフが存在する。認知科学におけるマルチストアモデルに着想を得て、我々は人工ニューラルネットワークのメモリフレームワークを提案する。本手法では、TransformerのKVキャッシュをロスレスな短期記憶としてスライディングウィンドウで維持しつつ、Artificial Hippocampus Network(AHN)と呼ばれる学習可能なモジュールがウィンドウ外の情報を固定サイズのコンパクトな長期記憶に再帰的に圧縮する。このフレームワークを検証するため、Mamba2、DeltaNet、Gated DeltaNetといった現代的なRNNライクなアーキテクチャを用いてAHNを実装した。長文脈ベンチマークLV-EvalおよびInfiniteBenchにおける広範な実験により、AHNを組み込んだモデルがスライディングウィンドウベースラインを一貫して上回り、フルアテンションモデルに匹敵するかそれ以上の性能を達成しつつ、計算量とメモリ要件を大幅に削減することが示された。例えば、Qwen2.5-3B-InstructにAHNを組み込むことで、推論FLOPsを40.5%、メモリキャッシュを74.0%削減し、LV-Eval(128k系列長)における平均スコアを4.41から5.88に向上させた。コードはhttps://github.com/ByteDance-Seed/AHNで公開されている。
最近のフロンティアモデルは、長い連鎖的思考(Chain-of-Thought)推論を用いてコンテキスト内の解空間を探索し、より強力なパフォーマンスを達成しています。多くの研究が、より小さくても有能なモデルを構築するための蒸留に焦点を当てていますが、そのほとんどは英語に限定されており、言語固有の推論についてはほとんど知られていません。このギャップを埋めるため、我々はまず**Language-Mixed CoT**を導入しました。これは、英語とターゲット言語を切り替える推論スキーマで、英語をアンカーとして推論を強化しつつ、翻訳によるアーティファクトを最小化します。韓国語のケーススタディとして、我々は**Yi-Sang**をキュレーションしました。これは、ウェブ上のQ&A、試験、STEM、コードから収集した579万のネイティブ韓国語プロンプト、Qwen3-32Bから生成された370万の長い推論トレース、そして26万の高収益サブセットを含みます。我々は6つのファミリー(Qwen2.5、Llama-3.1、Gemma-3など)にわたる9つのモデル(4B-35B)をトレーニングしました。最良のモデルである**KO-REAson-35B**は、最高の全体平均スコア(64.0 ± 25)を達成し、9つのベンチマークのうち5つで1位、残りで2位となりました。小型および中型モデルも大幅に改善され、評価された9つのベンチマーク全体で平均+18.6ポイントの向上が見られました。アブレーションスタディは、**Language-Mixed CoT**が単一言語のCoTよりも効果的であり、また、言語間およびマルチモーダルなパフォーマンス向上をもたらすことを示しています。我々は、言語固有の推論研究を進めるために、データキュレーションパイプライン、評価システム、データセット、およびモデルを公開します。データとモデルのコレクションは以下にあります:https://huggingface.co/KOREAson。
世界の言語のほぼ3分の1を占めるにもかかわらず、アフリカの言語は現代の自然言語処理(NLP)技術において深刻なサービス不足に直面しており、88%が計算言語学において深刻に過小評価されているか、完全に無視されていると分類されています。本論文では、この技術的ギャップを体系的データ収集、モデル開発、キャパシティビルディングを通じて解決する包括的な研究イニシアチブであるAfrican Languages Lab(All Lab)を紹介します。私たちの貢献は以下の通りです:(1)品質管理されたデータ収集パイプラインにより、40言語にわたる最大の検証済みアフリカ多モーダル音声・テキストデータセットを構築し、190億トークンの単一言語テキストと12,628時間のアラインメントされた音声データを収集しました;(2)私たちのデータセットとファインチューニングを組み合わせることで、ベースラインモデルを大幅に改善し、31の評価対象言語において平均+23.69 ChrF++、+0.33 COMET、+15.34 BLEUポイントの向上を実証しました;(3)15名の初期キャリア研究者を成功裏に指導し、持続可能な地域キャパシティを確立した構造化された研究プログラムを実施しました。Google翻訳との比較評価では、いくつかの言語で競争力のある性能を示す一方で、継続的な開発が必要な領域を特定しました。
計算効率の追求により、トランスフォーマーモデルの学習において低精度フォーマットの採用が進んでいる。しかし、この進展はしばしば顕著な学習不安定性によって妨げられる。本論文は、低精度設定でのフラッシュアテンションを用いた学習が破滅的な損失爆発を引き起こすという、長年にわたって未解決の失敗事例に対する初の機構的説明を提供する。詳細な分析を通じて、この失敗はランダムな現象ではなく、アテンションメカニズム内での類似した低ランク表現の出現と、低精度演算に内在するバイアス付き丸め誤差の複合効果という二つの相互に関連する現象によって引き起こされることが明らかとなった。これらの要因が誤差蓄積の悪循環を生み出し、重み更新を破壊し、最終的に学習ダイナミクスを崩壊させる過程を実証する。我々の知見を検証するため、フラッシュアテンションに最小限の修正を加え、丸め誤差のバイアスを軽減する手法を提案する。この単純な変更により学習プロセスが安定化し、我々の分析が確認されるとともに、この永続的な問題に対する実用的な解決策が提供される。
大規模推論モデル(LRM)は、複雑な多段階推論において強力な能力を発揮し、最適化モデリングの自動化に新たな可能性を開いています。しかし、従来の指示調整モデル向けに設計された既存のドメイン適応手法は、現代のLRMの高度な推論パターンを十分に活用できないことが多いです。特に、従来の非反射的データセットに対する直接的なファインチューニングでは、限定的な改善しか得られないことを示します。LRMの内在的な推論能力を最大限に活用するため、我々はCALM(軽量修正を伴う修正的適応)を提案します。これは、最適化モデリングタスクにおいて、LRMをその本来の推論モード内で段階的に洗練させるフレームワークです。CALMでは、専門家の介入者が推論の欠陥を特定し、簡潔な修正ヒントを提供し、LRMがそれを取り入れて改善された推論軌跡を生成します。これらの介入は生成されたトークンの2.6%未満を修正するものの、教師ありファインチューニングを通じたソフト適応のための高品質なデータを生成します。適応されたモデルは、さらに強化学習を通じて改善されます。CALMを基盤として、我々はSTORM(スマート思考最適化推論モデル)を開発しました。これは4BパラメータのLRMであり、5つの人気のある最適化モデリングベンチマークで平均68.9%の新たな最先端の精度を達成し、671BのLRMの性能に匹敵します。これらの結果は、動的でヒントベースのデータ合成が、現代のLRMの本来の推論パターンを保持し、増幅することを示しており、困難な最適化モデリングタスクにおける専門家レベルの性能に向けたより効果的でスケーラブルな道筋を提供します。
強化学習(RL)は最近、長い連鎖的思考(LongCoT)を生成する推論LLMを訓練するための強力な手法となっています。しかし、標準的なRLの「思考環境」では、状態がプロンプトとそれまでのすべての推論トークンで構成されるため、状態が無制限となり、思考が長くなるにつれて注意ベースのポリシーが二次的な計算コストを支払うことを強制します。我々はこの環境そのものを見直します。我々は、ポリシーが一定サイズの状態に条件付けながら推論を進める「マルコフ的思考」というパラダイムを提案します。これにより、思考の長さとコンテキストサイズが切り離され、線形計算と一定のメモリ使用量が実現されます。我々はこのアイデアを、推論を固定サイズのチャンクに構造化するRL環境「Delethink」として具体化します。各チャンク内では、モデルは通常通り思考しますが、境界では環境がコンテキストをリセットし、短いキャリーオーバーでプロンプトを再初期化します。RLを通じて、ポリシーは各チャンクの終わり近くに、リセット後もシームレスに推論を続けるのに十分なテキスト状態を書き込むことを学習します。この環境で訓練されたR1-Distill 1.5Bモデルは、8Kトークンのチャンクで推論を行いながら、最大24Kトークンまで思考し、24Kの予算で訓練されたLongCoT-RLに匹敵またはそれを上回ります。テスト時のスケーリングでは、LongCoTが頭打ちになる一方で、Delethinkは改善を続けます。線形計算の効果は大きく、平均96Kの思考長では、LongCoT-RLが27 H100-月のコストに対して、Delethinkは7 H100-月と推定されます。RL初期化時の分析では、既存の推論モデル(1.5B-120B)が多様なベンチマークでゼロショットでマルコフ的トレースをサンプリングすることが多く、RLが大規模で効果的であるためのポジティブサンプルを提供します。我々の結果は、思考環境を再設計することが非常に強力な手段であることを示しています:それは二次的なオーバーヘッドなしに非常に長い推論を可能にし、効率的でスケーラブルな推論LLMへの道を開きます。
長文脈モデル(LCM)は、長いシーケンスを処理する際に大きな可能性を示し、多くの実世界の応用を促進してきた。LCMの成功は、文脈内の暗黙的な重要情報を特定し、それに基づいて予測を行う能力に起因している。しかし、最近の研究によると、LCMはしばしば文脈ノイズ、すなわち無関係なトークンに影響を受けやすく、これがモデルの注意を誤った方向に導くことが明らかになっている。本論文では、文脈ノイズを詳細に分析し、文脈内のノイズ情報を検出・定量化するための有効な指標として、統合勾配(IG)スコアを提案する。我々の研究結果は、検出された文脈ノイズを単純に軽減するだけで、モデルの重要トークンへの注意が大幅に向上し、その後の予測に有益であることを示している。この知見に基づき、重要トークンへの注意を向上させ、それらのモデル予測への影響を強化する、シンプルでありながら効果的なトレーニング戦略である文脈ノイズ除去トレーニング(CDT)を提案する。文脈ウィンドウのスケーリングと長文脈アライメントの両設定下での4つのタスクにわたる広範な実験により、CDTの優位性が実証された。特に、CDTでトレーニングされたオープンソースの8Bモデルは、GPT-4o(51.00)に匹敵する性能(50.92)を達成することができる。
Transformerはシーケンスモデリングにおいて優れた性能を発揮するが、二次的な計算複雑性を抱えている。一方、線形アテンションは効率性を向上させるが、長い文脈におけるリコール精度が犠牲になることが多い。本研究では、線形アテンションと完全アテンションを統合した新しいハイブリッドアーキテクチャであるNative Hybrid Attention (NHA)を提案する。NHAは、線形RNNによって更新されるキー・バリュースロットに長期的な文脈を保持し、スライディングウィンドウからの短期的なトークンで補強する。その後、すべてのキーとバリューに対して単一のソフトマックスアテンション操作を適用し、追加の融合パラメータを必要とせずに、トークンごとおよびヘッドごとの文脈依存の重み付けを可能にする。層間の動作は、スライディングウィンドウサイズという単一のハイパーパラメータによって制御され、純粋な線形アテンションと完全アテンションの間を滑らかに調整しながら、すべての層を構造的に統一する。実験結果は、NHAがリコール集約型および常識推論タスクにおいて、Transformerや他のハイブリッドベースラインを凌駕することを示している。さらに、事前学習済みの大規模言語モデル(LLM)をNHAと構造的にハイブリッド化することで、競争力のある精度を維持しつつ、大幅な効率向上を実現できる。コードはhttps://github.com/JusenD/NHAで公開されている。
大規模なテキストから画像への拡散モデルは強力である一方で、計算コストが非常に高くなるという課題があります。既存のワンショットネットワークプルーニング手法は、拡散モデルの反復的なノイズ除去の性質上、直接適用することが困難です。このギャップを埋めるため、本論文ではOBS-Diffという新しいワンショットプルーニングフレームワークを提案します。これは、大規模なテキストから画像への拡散モデルを正確かつトレーニング不要で圧縮することを可能にします。具体的には、(i) OBS-Diffは古典的なOptimal Brain Surgeon (OBS)を再活用し、現代の拡散モデルの複雑なアーキテクチャに適応させ、非構造化、N:M半構造化、および構造化(MHAヘッドとFFNニューロン)スパース性を含む多様なプルーニング粒度をサポートします。(ii) プルーニング基準を拡散プロセスの反復的なダイナミクスに合わせるため、エラー蓄積の観点から問題を検討し、対数減少重み付けスキームを組み込んだ新しいタイムステップ対応Hessian構築を提案します。これにより、潜在的なエラー蓄積を軽減するため、初期のタイムステップにより大きな重要性を割り当てます。(iii) さらに、計算効率の良いグループごとの逐次プルーニング戦略を提案し、高価なキャリブレーションプロセスを分散させます。広範な実験により、OBS-Diffが拡散モデルのワンショットプルーニングにおいて最先端の性能を達成し、視覚品質の最小限の劣化で推論を加速することが示されています。
大規模言語モデル(LLMs)と現実世界の急速な進化は、広く使用されている評価ベンチマークの静的な性質を凌駕し、LLMの事実性評価における信頼性に対する懸念を引き起こしています。多くの研究が依然として人気のあるが古いベンチマークに依存している一方で、それらのベンチマークが現実世界の事実や現代のLLMsとの時間的な不一致、およびLLMの事実性評価への影響については十分に検討されていません。そこで、本研究では、この問題を体系的に調査するために、5つの人気のある事実性ベンチマークと異なる年にリリースされた8つのLLMsを検証します。最新の事実検索パイプラインと3つのメトリクスを活用し、ベンチマークの陳腐化とそれがLLMの事実性評価に与える影響を定量化します。実験結果と分析から、広く使用されている事実性ベンチマークのサンプルの相当部分が時代遅れであり、LLMの事実性評価が信頼できないものであることが明らかになりました。本研究が、LLMの事実性評価におけるベンチマークの信頼性を評価するためのテストベッドを提供し、ベンチマークの陳腐化問題に関するさらなる研究を促すことを期待しています。コードはhttps://github.com/JiangXunyi/BenchAgeで公開されています。
強化学習における報酬信号の抽出に関する既存の手法は、通常、ラベル付きデータと専用のトレーニング分割に依存しており、これは人間が環境から直接学習する方法とは対照的である。本研究では、ラベル付きデータを必要とせず、推論時にモデルを動的に適応させることで、視覚言語理解を強化するTTRVを提案する。具体的には、Group Relative Policy Optimization (GRPO) フレームワークを強化し、ベースモデルの出力頻度に基づいて報酬を設計するとともに、各テストサンプルに対して複数回の推論を行う。さらに、出力の経験分布のエントロピーを低くすることをモデルに報酬として与えることで、モデルの出力の多様性を制御することを提案する。我々のアプローチは、物体認識と視覚質問応答 (VQA) の両方で一貫した改善をもたらし、それぞれ最大52.4%と29.8%、16のデータセット全体で平均24.6%と10.0%の向上を達成した。特に、画像認識において、InternVL 8Bに適用したTTRVは、8つのベンチマークでGPT-4oを平均2.3%上回り、VQAにおいても高い競争力を維持し、テストタイム強化学習が最も強力なプロプライエタリモデルに匹敵またはそれを超えることを示している。最後に、VLMに対するテストタイム強化学習の多くの興味深い特性を発見した。例えば、極端にデータが制限されたシナリオにおいても、ランダムに選択された1つのラベルなしテスト例で適応を行った場合、TTRVは認識タスクで最大5.5%の非自明な改善をもたらすことが確認された。
具現化された知能における根本的な課題は、効率的な世界モデリングと意思決定のための表現力豊かでコンパクトな状態表現を開発することです。しかし、既存の手法はしばしばこのバランスを達成できず、過剰に冗長であるか、タスクに重要な情報が欠如した表現を生み出してしまいます。本論文では、軽量なエンコーダと事前学習済みのDiffusion Transformer(DiT)デコーダを活用し、その強力な生成事前知識を利用して、高度に圧縮された2トークンの状態表現を学習する教師なしアプローチを提案します。我々の表現は効率的で解釈可能であり、既存のVLAベースのモデルにシームレスに統合され、LIBEROでは14.3%、実世界のタスク成功率では30%の性能向上を達成し、推論オーバーヘッドを最小限に抑えています。さらに重要なことに、潜在補間を通じて得られるこれらのトークン間の差分が、非常に効果的な潜在行動として自然に機能し、実行可能なロボット行動にデコードできることがわかりました。この創発的な能力は、我々の表現が明示的な監督なしに構造化されたダイナミクスを捉えていることを示しています。我々はこの手法をStaMoと名付けました。これは、静的な画像からエンコードされたコンパクトな状態表現から一般化可能なロボットのモーションを学習する能力に由来し、複雑なアーキテクチャやビデオデータに依存する従来の潜在行動学習への依存に挑戦するものです。結果として得られる潜在行動は、ポリシーの共学習も強化し、解釈可能性を向上させながら、従来手法を10.4%上回ります。さらに、我々のアプローチは、実世界のロボットデータ、シミュレーション、人間のエゴセントリックビデオなど、多様なデータソースにわたって効果的にスケールします。
近年、マルチモーダル大規模言語モデル(MLLMs)における推論の高速化を目指す取り組みは、主に視覚トークンの圧縮に焦点を当ててきた。これらの手法の有効性は、通常、確立されたベンチマークにおける精度の低下を測定し、圧縮前後のモデル性能を比較することで評価される。しかし、これらのベンチマークは元々、MLLMsの知覚および推論能力を評価するために設計されており、圧縮技術を評価するためのものではない。その結果、視覚トークン圧縮に直接適用すると、タスクのミスマッチが生じる。驚くべきことに、我々の調査によれば、単純な画像ダウンサンプリングが、多くの高度な圧縮手法を複数の広く使用されているベンチマークにおいて一貫して上回ることを明らかにした。広範な実験を通じて、以下の観察結果を得た:(i)現在のベンチマークは、視覚トークン圧縮タスクに対してノイズが多い。(ii)ダウンサンプリングは、視覚トークン圧縮タスクにおけるサンプルの難易度を評価するためのデータフィルターとして機能し得る。これらの知見に基づき、我々はVTC-Benchを導入した。これは、既存のベンチマークをデノイズするためのデータフィルタリングメカニズムを組み込んだ評価フレームワークであり、視覚トークン圧縮手法をより公平かつ正確に評価することを可能にする。すべてのデータとコードはhttps://github.com/Chenfei-Liao/VTC-Benchで公開されている。
マルチモーダル大規模言語モデル(MLLMs)は近年急速に進化を遂げています。しかし、既存の視覚タスクに対するアプローチは、検出のために座標をテキストとして生成するなど、間接的な表現に依存することが多く、性能が制限され、セグメンテーションのような高密度予測タスクを妨げています。これらの課題を克服するため、本論文では「Patch-as-Decodable Token(PaDT)」を提案します。PaDTは、MLLMsがテキストと多様な視覚出力を直接生成することを可能にする統一パラダイムです。PaDTの中核となるのは、クエリ画像の視覚パッチ埋め込みから導出され、LLMの出力テキストトークンとシームレスに交互に配置される「Visual Reference Tokens(VRTs)」です。軽量なデコーダがLLMの出力を検出、セグメンテーション、グラウンディング予測に変換します。従来の手法とは異なり、PaDTは各フォワードパスでVRTsを独立して処理し、埋め込みテーブルを動的に拡張することで、類似オブジェクト間の位置特定と識別を改善します。さらに、PaDTのためのトレーニング戦略をカスタマイズし、教師ありファインチューニングのためにランダムにVRTsを選択し、堅牢なトークンごとのクロスエントロピー損失を導入します。4つの視覚知覚および理解タスクにわたる実証研究は、PaDTが大幅に大きなMLLMモデルと比較しても、一貫して最先端の性能を達成することを示唆しています。コードはhttps://github.com/Gorilla-Lab-SCUT/PaDTで公開されています。
最先端の大規模言語モデルの開発は、一般的に事前学習と事後学習の2段階プロセスとして理解されています。本論文では、強力な性能向上の可能性を秘めた中間段階として、強化学習を活用した中間学習(Reinforcement Mid-Training)の必要性を指摘します。本論文ではこの問題を正式に定義し、以下の3つの主要な課題を特定します:(1)過剰な推論ステップによる非効率な学習、(2)トークンエントロピー分布の不均衡の無視、(3)トークン情報の活用不足。これらの課題に対処するため、我々はRMT(Reinforcement Mid-Training)フレームワークを提案します。これは効率的で適応的かつ統合的な中間学習を実現するための様々な革新的なコンポーネントを備えています。具体的には、まず不要な推論ステップを制約しモデルの過剰思考を緩和する動的トークンバジェット機構を導入します。次に、易しいトークンから難しいトークンへと段階的に学習を進めるカリキュラムベースの適応的サンプリング手法を設計します。最後に、強化学習と次トークン予測を組み合わせたデュアルトレーニング戦略を提示し、重要なトークンに焦点を当てた学習と全てのトークン情報の完全な活用を保証します。大規模な実験により、RMTが最先端の手法を上回り、言語モデリングにおいて推論長を21%に抑えながら最大+64.91%の性能向上を達成することを実証しました。また、中間学習後のチェックポイントがその後の事後学習に有益であり、数学領域で最大+18.76%の改善をもたらすことも示しました。
手首視点の観測は、VLAモデルにとって極めて重要であり、操作性能を直接向上させる微細な手と物体の相互作用を捉える。しかし、大規模データセットにはそのような記録がほとんど含まれておらず、豊富なアンカービューと希少な手首ビューの間に大きなギャップが生じている。既存の世界モデルは、手首ビューの最初のフレームを必要とするため、アンカービューのみから手首ビューの動画を生成することができず、このギャップを埋めることができない。このギャップの中で、VGGTなどの最近の視覚幾何モデルは、極端な視点の変化に対処することを可能にする幾何学的およびクロスビューの事前知識を備えて登場している。これらの知見に触発され、我々はアンカービューのみから手首ビューの動画を生成する初の4D世界モデルであるWristWorldを提案する。WristWorldは2段階で動作する:(i) 再構築段階では、VGGTを拡張し、幾何学的に一貫した手首ビューのポーズと4D点群を推定するために我々の空間投影一貫性(SPC)損失を組み込む;(ii) 生成段階では、再構築された視点から時間的に一貫した手首ビューの動画を合成するために我々の動画生成モデルを採用する。Droid、Calvin、およびFranka Pandaでの実験により、優れた空間的一貫性を備えた最先端の動画生成が実証され、VLAの性能も向上し、Calvinでの平均タスク完了長が3.81%向上し、アンカーと手首ビューのギャップの42.4%が埋められた。
言語モデル(LMs)は機械学習エンジニアリング(MLE)の自動化において大きな進展を遂げているが、高品質なMLEトレーニングデータの取得は依然として大きな制約を受けている。現在のMLEベンチマークは、静的で手動でキュレーションされたタスクに依存しているため、拡張性が低く、適用範囲が限られており、その作成には膨大な時間と手作業が必要である。本研究では、MLE-Smithを提案する。これは、完全に自動化されたマルチエージェントパイプラインであり、未加工のデータセットを競技形式のMLE課題に変換するための効率的な生成-検証-実行パラダイムを採用し、検証可能な品質、実世界での有用性、および豊富な多様性を備えたMLEタスクのスケーリングを実現する。MLE-Smithにおける提案されたマルチエージェントパイプラインは、構造化されたタスク設計と標準化されたリファクタリングを推進し、厳密な構造ルールと高レベルの意味的整合性を強制するハイブリッド検証メカニズムを組み合わせている。さらに、インタラクティブな実行を通じて、経験的な解決可能性と実世界の忠実性を検証する。MLE-Smithを224の実世界のデータセットに適用し、複数のカテゴリ、目的、およびモダリティにわたる606のタスクを生成し、MLE-Smithが幅広い実世界のデータセットに対して効果的に機能することを実証した。生成されたタスクに対する評価では、8つの主流および最先端のLLMのMLE-Smithタスクにおけるパフォーマンスが、慎重に人間が設計したタスクにおけるパフォーマンスと強く相関していることが示され、MLE-Smithがタスクの品質を維持しながらMLEタスクをスケールアップする効果を強調している。
拡散モデルやフローモデルへのオンライン強化学習(RL)の統合は、生成モデルを人間の好みに合わせるための有望なアプローチとして最近注目を集めています。ノイズ除去プロセスにおいて、確率微分方程式(SDE)を用いた確率的サンプリングが採用され、RL探索のための多様なノイズ除去方向を生成します。既存の手法は潜在的な高価値サンプルの探索に効果的ですが、報酬信号が疎で狭いため、最適な好みの整合性が得られないという課題があります。これらの課題に対処するため、我々は新しいGranular-GRPO(G^2RPO)フレームワークを提案します。このフレームワークは、フローモデルの強化学習において、サンプリング方向の正確かつ包括的な報酬評価を実現します。具体的には、Singular Stochastic Sampling戦略を導入し、ステップごとの確率的探索をサポートするとともに、報酬と注入されたノイズの間の高い相関を強制することで、各SDE摂動に対する忠実な報酬を促進します。同時に、固定粒度のノイズ除去に内在するバイアスを排除するため、複数の拡散スケールで計算された利点を集約するMulti-Granularity Advantage Integrationモジュールを導入し、サンプリング方向のより包括的で堅牢な評価を生成します。ドメイン内およびドメイン外評価を含む様々な報酬モデルで実施した実験により、我々のG^2RPOが既存のフローベースのGRPOベースラインを大幅に上回ることが示され、その有効性と堅牢性が強調されています。
均一情報密度(Uniform Information Density, UID)仮説は、効果的なコミュニケーションが情報の安定した流れを維持することを示唆している。本研究では、大規模言語モデル(LLM)の推論トレースの文脈においてこの原則を再検討し、ステップレベルの均一性が推論の質を反映するかどうかを問う。この目的のために、エントロピーに基づくステップごとの情報密度指標を提案し、局所的および全体的な均一性スコアという2つの補完的な均一性尺度を導入する。6つの異なる推論ベンチマークでの実験を通じて、ステップレベルの均一性が強力な理論的視点を提供するだけでなく、実用的な性能向上をもたらすことが明らかとなった。例えば、ステップレベルでより均一な情報密度を持つ推論トレースを選択することで、AIME2025におけるベースラインに対して10-32%の相対的な精度向上が得られた。さらに、分析の結果、正しい推論トレースは情報密度の急激なスパイクを避ける傾向がある一方で、誤ったトレースは不規則な情報のバーストを示すことが明らかとなった。これらの結果は、UIDに着想を得た情報密度指標が、推論の質を予測するための代替的な内部信号を凌駕することを示している。結果は、情報密度の均一性が、より信頼性が高く正確な推論システムを構築するための堅牢な診断および選択基準として有効であることを強調している。
過去10年間、U-Netは医療画像セグメンテーションにおいて支配的なアーキテクチャであり、数千ものU字型バリアントの開発を牽引してきました。しかし、その広範な採用にもかかわらず、統計的検証の不十分さや、多様なデータセットにおける効率性と汎化性能の考慮が限られているため、それらの性能と有用性を体系的に評価する包括的なベンチマークはまだ存在していません。このギャップを埋めるため、我々はU-Benchを提案します。これは、28のデータセットと10の画像モダリティにわたって100のU-Netバリアントを評価する、初の大規模かつ統計的に厳密なベンチマークです。我々の貢献は以下の3点です:(1) 包括的評価:U-Benchは、統計的ロバスト性、ゼロショット汎化、計算効率という3つの主要な次元に沿ってモデルを評価します。性能と効率のトレードオフを同時に捉える新しい指標であるU-Scoreを導入し、モデルの進歩をデプロイメント指向の視点で評価します。(2) 体系的分析とモデル選択ガイダンス:大規模評価から得られた主要な知見をまとめ、データセット特性とアーキテクチャパラダイムがモデル性能に与える影響を体系的に分析します。これらの洞察に基づき、特定のデータセットとタスクに最適なモデルを研究者が選択するためのモデルアドバイザーエージェントを提案します。(3) 公開性:すべてのコード、モデル、プロトコル、重みを提供し、コミュニティが我々の結果を再現し、将来の手法でベンチマークを拡張できるようにします。要約すると、U-Benchは、過去の評価におけるギャップを明らかにするだけでなく、今後10年間のU-Netベースのセグメンテーションモデルにおいて、公平で再現性があり、実践的に意味のあるベンチマークの基盤を確立します。プロジェクトは以下でアクセス可能です:https://fenghetan9.github.io/ubench。コードは以下で利用可能です:https://github.com/FengheTan9/U-Bench。
汎用イベント境界検出(Generic Event Boundary Detection, GEBD)は、長尺動画を人間の知覚に基づいて解釈することを目的としている。しかし、現行のGEBD手法は、人間がデータをオンラインかつリアルタイムで処理するのとは異なり、完全な動画フレームを処理して予測を行う必要がある。このギャップを埋めるため、本論文では新たなタスクとして、ストリーミング動画において即座に汎用イベントの境界を検出することを目指す「オンライン汎用イベント境界検出(Online Generic Event Boundary Detection, On-GEBD)」を提案する。このタスクは、将来のフレームにアクセスすることなく、リアルタイムで微妙かつ分類体系に依存しないイベント変化を識別するという独自の課題に直面する。これらの課題に対処するため、我々はイベントセグメンテーション理論(Event Segmentation Theory, EST)に着想を得た新しいOn-GEBDフレームワーク「Estimator」を提案する。ESTは、人間が予測情報と実際の情報の不一致を利用して進行中の活動をイベントに分割する方法を説明するものである。本フレームワークは、2つの主要なコンポーネントで構成される。1つ目は「一貫性のあるイベント予測器(Consistent Event Anticipator, CEA)」であり、過去のフレームのみに基づいて現在のイベントダイナミクスを反映した将来フレームの予測を生成する。2つ目は「オンライン境界識別器(Online Boundary Discriminator, OBD)」であり、予測誤差を測定し、過去の誤差に対する統計的検定を用いて閾値を適応的に調整することで、多様で微妙なイベント遷移を捉える。実験結果から、Estimatorは最近のオンライン動画理解モデルから適応したすべてのベースラインを上回り、Kinetics-GEBDおよびTAPOSデータセットにおいて、従来のオフラインGEBD手法に匹敵する性能を達成することが示された。
本論文では、言語モデリングの基本原理に基づいた画像自己回帰モデルであるHeptapodを紹介する。Heptapodは因果的アテンションを採用し、CFGへの依存を排除し、意味的トークナイザーのトレンドを避けている。我々の主要な革新は、次元2D分布予測である:再構成に焦点を当てた視覚的トークナイザーを備えた因果的Transformerが、各タイムステップで画像の2D空間グリッド全体にわたる分布を予測することを学習する。この学習目標は、自己回帰フレームワークの逐次モデリングとマスク付き自己符号化の全体的な自己教師あり学習を統合し、生成的なトレーニングを通じて包括的な画像意味論を捉えることを可能にする。ImageNet生成ベンチマークにおいて、HeptapodはFID 2.70を達成し、従来の因果的自己回帰アプローチを大幅に上回る性能を示した。我々の研究が、視覚信号およびそれ以上の領域における言語モデリングの原理的な再考を促すことを期待する。
大規模言語モデル(LLM)またはマルチモーダルLLM(MLLM)を基盤とするコンピュータ利用エージェント(CUA)フレームワークは、ソフトウェア環境内で直接的に文脈を認識し、推論し、行動するアシスタントとして急速に成熟しています。その中でも最も重要な応用分野の一つが、オペレーティングシステム(OS)制御です。OS領域におけるCUAが日常業務に深く組み込まれるにつれ、その現実世界におけるセキュリティへの影響、特にCUAが現実的なセキュリティ関連の攻撃に悪用される可能性を検証することが急務となっています。既存の研究には、攻撃者の戦術・技術・手順(TTP)に関する知識モデルの欠如、エンドツーエンドのキルチェーンに対する不完全なカバレッジ、マルチホスト環境や暗号化されたユーザー認証情報を考慮しない非現実的な環境、LLMを裁判官として依存する信頼性の低い判断という4つの主要な課題があります。これらのギャップを埋めるため、我々はMITRE ATT&CK Enterprise Matrixに基づいた現実世界のTTPに沿った最初のベンチマークであるAdvCUAを提案します。AdvCUAは、40の直接的な悪意のあるタスク、74のTTPベースの悪意のあるタスク、26のエンドツーエンドのキルチェーンを含む140のタスクで構成され、マルチホスト環境のサンドボックス内でハードコードされた評価を通じて、現実的な企業OSセキュリティ脅威の下でCUAを体系的に評価します。我々は、ReAct、AutoGPT、Gemini CLI、Cursor CLI、Cursor IDEを含む既存の5つの主要なCUAを、8つの基盤LLMに基づいて評価しました。その結果、現在の最先端のCUAは、OSセキュリティ中心の脅威を十分にカバーしていないことが明らかになりました。CUAのこれらの能力は、カスタムマルウェアや深いドメイン知識への依存を軽減し、経験の浅い攻撃者でも複雑な企業侵入を実行できるようにするため、CUAの責任とセキュリティに関する社会的懸念を引き起こしています。
オプティマイザの選択は、大規模言語モデル(LLM)の学習効率と計算コストに大きな影響を与える。最近、Muonオプティマイザは、パラメータ更新を直交化し、条件数を改善することで最適化幾何を向上させることで有望な結果を示している。MuonがAdamの後継候補として登場したにもかかわらず、両者の強みを共同で活用する可能性は体系的に検討されていない。本研究では、このギャップを埋めるために、NorMuon(Neuron-wise Normalized Muon)を提案する。このオプティマイザは、直交化とニューロンレベルの適応学習率を相乗的に組み合わせたものである。分析の結果、Muonは条件数を効果的に低減する一方で、その結果として得られる更新はニューロンノルムが非常に不均一であり、特定のニューロンが最適化プロセスを支配する傾向があることが明らかになった。NorMuonは、各ニューロンの二次モーメンタム統計を維持し、直交化後に行ごとの正規化を適用することで、この不均衡を解消し、Muonの条件数改善の利点を保ちつつ、パラメータのバランスの取れた利用を確保する。大規模な実用展開を可能にするために、FSDP2フレームワークの下で、直交化計算をデバイス間で戦略的に分散する効率的な分散実装を開発した。複数のモデルスケールにわたる実験により、NorMuonはAdamとMuonの両方を一貫して上回り、1.1Bの事前学習設定においてAdamよりも21.74%、Muonよりも11.31%の学習効率向上を達成し、Muonと同等のメモリフットプリントを維持することが示された。我々の研究結果は、直交化と適応学習率が競合するのではなく補完的であることを示唆しており、大規模深層学習におけるオプティマイザ設計の新たな道を開くものである。
テキストから動画を生成する(Text-to-video, T2V)技術は、自然言語のプロンプトから一貫性のある視覚コンテンツを生成することにより、教育、マーケティング、エンターテインメント、視覚や読解力に課題を抱える個人向けの支援技術など、複数の分野を変革する可能性を秘めている。この分野は、その始まりから敵対的生成モデル(GAN)を経て拡散モデル(Diffusion-based models)へと進化し、より高精細で時間的に一貫性のある出力を実現してきた。しかし、アラインメント、長期的な一貫性、計算効率といった課題は依然として残されている。この進化する状況に対応するため、本論文ではテキストから動画を生成するモデルに関する包括的な調査を提供し、初期のGANやVAEからハイブリッドなDiffusion-Transformer(DiT)アーキテクチャまでの発展を追跡する。これらのモデルがどのように機能し、先行モデルのどのような限界を克服し、品質、一貫性、制御性の課題を乗り越えるために新しいアーキテクチャのパラダイムシフトがなぜ必要であったかを詳細に説明する。さらに、調査対象となったテキストから動画を生成するモデルの学習と評価に使用されたデータセットを体系的に整理し、再現性を支援し、これらのモデルの学習のアクセシビリティを評価するために、ハードウェア仕様、GPU数、バッチサイズ、学習率、オプティマイザ、エポック数、その他の主要なハイパーパラメータを含む学習設定を詳述する。さらに、これらのモデルの評価に一般的に使用される評価指標を概説し、標準ベンチマークにおける性能を示すとともに、これらの指標の限界と、より包括的で知覚に沿った評価戦略への新たなシフトについても議論する。最後に、我々の分析に基づいて、現在の未解決の課題を概説し、将来の研究者がT2Vの研究と応用を進める上で探求し、発展させるための視点を提示する。
我々はAlphaApolloを紹介する。これは、基盤モデル(FM)の推論における2つのボトルネック、すなわちモデル固有の能力の限界と信頼性の低いテスト時の反復を解決することを目指す自己進化型エージェント推論システムである。AlphaApolloは、複数のモデルと専門的なツールを統合し、慎重かつ検証可能な推論を実現する。具体的には、(i)計算ツール(数値および記号ライブラリを備えたPython)と(ii)検索ツール(タスク関連の外部情報)を組み合わせて、正確な計算と根拠に基づいた意思決定を実行する。本システムはさらに、候補、実行可能なチェック、反復的な改善のためのフィードバックを記録する共有状態マップを通じて、複数回の反復と複数モデルによるソリューションの進化をサポートする。AIME 2024/2025における複数モデルでの評価では、AlphaApolloは一貫した向上を示した:Qwen2.5-14B-InstructではAverage@32で+5.15%、Pass@32で+23.34%、Llama-3.3-70B-InstructではAverage@32で+8.91%、Pass@32で+26.67%の改善を達成した。ツール使用の分析では、80%以上のツール呼び出しが成功裏に実行され、非ツールベースラインを一貫して上回り、FMの能力の上限を引き上げた。さらなる実証結果と実装の詳細はhttps://github.com/tmlr-group/AlphaApolloにて更新される予定である。
一般的な大規模言語モデル(LLM)の評価は、モデルの応答を望ましいスタイルに導くためのデモンストレーション例に依存しています。使用する例の数については研究され標準化されていますが、例をどのようにフォーマットするかという選択はあまり調査されていません。評価プロトコルや実際の使用において、ユーザーはコンテキスト内の例をどのように区切るかという選択に直面します:カンマを使うか?改行か?セミコロンか?ハッシュタグか?など。驚くべきことに、この一見些細な選択がモデルの応答品質を劇的に変化させることがわかります。主要なモデルファミリー(Llama、Qwen、Gemma)において、MMLUのパフォーマンスは区切り文字の選択によって±23%も変動する可能性があります。実際、例を区切る単一の文字を変更するだけで、任意のモデルを首位に立たせるようにモデルのランキングを操作することができます。LLMの脆弱性は、トピックやモデルファミリーにわたって広く見られ、スケールが大きくなっても改善されないことがわかります。アテンションヘッドのスコアを調査することで、良好なパフォーマンスを示す区切り文字が入力のキートークンに注意を向けさせることを発見しました。最後に、LLMの区切り文字の選択に対する頑健性を向上させる方法を探ります。プロンプトで選択した区切り文字を指定することで頑健性が向上し、最良のパフォーマンスを示す区切り文字を選択するための実用的な推奨事項を提供します。
コードスイッチング(CSW)、すなわち単一の発話内での言語や文字体系の切り替えは、大規模言語モデル(LLM)の急速な進歩にもかかわらず、多言語NLPにおける基本的な課題として残っている。ほとんどのLLMは、混合言語入力、限られたCSWデータセット、評価バイアスに苦戦しており、多言語社会での展開が妨げられている。本調査は、CSWを意識したLLM研究の初めての包括的な分析を提供し、5つの研究領域、12のNLPタスク、30以上のデータセット、80以上の言語にわたるユニークな研究をレビューする。我々は、アーキテクチャ、トレーニング戦略、評価方法論に基づいて最近の進展を分類し、LLMがCSWモデリングをどのように再構築し、どのような課題が残っているかを概説する。本論文は、真に多言語的な知能を達成するために、包括的なデータセット、公平な評価、言語学的に根拠のあるモデルの必要性を強調するロードマップで締めくくられる。すべてのリソースのキュレーションされたコレクションは、https://github.com/lingo-iitgn/awesome-code-mixing/ で維持されている。
検索拡張生成(RAG)の利用が増加する中で、強力な検索モデルの重要性がこれまで以上に高まっています。医療分野では、テキストと画像の両方の情報を組み合わせたマルチモーダル検索モデルが、質問応答、クロスモーダル検索、マルチモーダル要約などの多くの下流タスクにおいて大きな利点を提供します。これは、医療データがしばしば両方の形式を含むためです。しかし、現在のところ、これらのモデルが医療環境でどの程度うまく機能するかを評価するための標準的なベンチマークは存在しません。このギャップを埋めるために、我々はマルチモーダル医療検索ベンチマークであるM3Retrieveを紹介します。M3Retrieveは、5つのドメイン、16の医療分野、4つの異なるタスクにまたがり、120万を超えるテキスト文書と16万4千のマルチモーダルクエリを含み、すべて承認されたライセンスの下で収集されています。我々は、このベンチマーク上で主要なマルチモーダル検索モデルを評価し、異なる医療専門分野に特有の課題を探り、それらが検索性能に与える影響を理解します。M3Retrieveを公開することで、体系的な評価を可能にし、モデルの革新を促進し、医療アプリケーションのためのより能力が高く信頼性のあるマルチモーダル検索システムの構築に向けた研究を加速することを目指しています。データセットとベースラインコードは、以下のGitHubページで利用可能です:https://github.com/AkashGhosh/M3Retrieve。
大規模言語モデル(LLMs)は、長文形式の質問に対してしばしば虚構を生成し、もっともらしいが事実に反する回答を出力する。一般的な緩和策として、LLMの出力に帰属情報を付与することが挙げられる。しかし、既存のベンチマークは主に、支持するテキスト証拠を参照として取得する単純な帰属に焦点を当てている。我々は、金融アプリケーションなどの実世界のシナリオでは、帰属が参照取得を超えるものであると主張する。本論文では、複雑な金融質問に対して信頼性が高くニュアンスのある帰属情報を伴う長文回答を生成するLLMの能力を評価するためのベンチマーク「FinLFQA」を提案する。FinLFQAは、人間によるアノテーションを通じて、帰属の3つの重要な側面を評価する:(1)財務報告書から抽出された支持証拠、(2)中間的な数値的推論ステップ、(3)推論プロセスを支えるドメイン固有の金融知識。さらに、回答品質と帰属品質の両方をカバーする自動評価フレームワークを提供する。複数の帰属生成パラダイムにわたる8つのLLMに対する広範な実験を通じて、細粒度のメトリクスがモデルの能力を区別する上で重要であること、エンドツーエンド生成が事後アプローチと同等の性能を達成すること、および外部フィードバックに導かれた場合にのみ反復的な改善が有効であることを明らかにした。
旅行計画(TP)エージェントは、最近、外部ツールやリソースと連携して旅行スケジュールを生成し、ユーザー体験を向上させるための新たな構成要素として注目されています。しかし、既存の研究は手作りのプロンプトや固定されたエージェントワークフローに依存しており、より柔軟で自律的なTPエージェントの実現を妨げています。本論文では、DeepTravelを提案します。これは、自律的な旅行計画エージェントを構築するためのエンドツーエンドの強化学習フレームワークであり、多段階の推論において中間アクションを探索、検証、洗練するために、自律的に計画を立て、ツールを実行し、ツールの応答を反映することができます。これを実現するために、まず、交通機関、宿泊施設、POIデータをキャッシュすることで、現実世界のAPIの制約(例:一貫性のない出力)に縛られずにTPエージェントを訓練するための堅牢なサンドボックス環境を構築します。さらに、階層的な報酬モデリングシステムを開発し、軌跡レベル検証器が時空間的な実現可能性をチェックし、不満足な旅行スケジュールをフィルタリングし、その後、ターンレベル検証器がツールの応答とスケジュールの詳細の一貫性をさらに検証することで、効率的かつ正確な報酬サービスを実現します。最後に、TPエージェントが定期的に失敗経験バッファからリプレイすることを可能にするリプライ拡張強化学習法を提案し、顕著なエージェント能力を発揮させます。訓練されたTPエージェントをDiDi Enterprise Solutionsアプリに展開し、包括的なオンラインおよびオフライン評価を実施した結果、DeepTravelが小型のLLM(例:Qwen3 32B)を既存の最先端LLM(例:OpenAI o1、o3、DeepSeek R1)を大幅に上回る性能を示すことを実証しました。
視覚的な忠実度が高いにもかかわらず、現代のビデオ生成モデルは、物体が浮遊したり、瞬間移動したり、因果関係を無視した形で変形するなど、直感的な物理法則に反するシーケンスを頻繁に生成します。人間はそのような不自然さを容易に検出できますが、ビデオにおける物理的なリアリズムを定量的に評価する堅牢な方法はまだ存在しません。本研究では、ビデオ言語モデル(VLM)が物理的な妥当性を判断する信頼できる審判として訓練できるかどうかを探ります。既存のVLMは物理法則の違反を特定するのに苦労しており、時間的および因果的推論における根本的な限界が明らかになりました。この問題に対処するため、バランスの取れたトレーニングデータセットと軌跡を意識したアテンションモジュールを組み合わせた微調整手法であるTRAVLを導入し、VLMの動きのエンコーディングと識別能力を向上させます。物理的推論をより厳密に評価するために、言語的バイアスを排除し、視覚的・時間的理解を単離した300本のビデオ(実写150本、生成150本)からなるベンチマークであるImplausiBenchを提案します。性能は、ゴールドスタンダードである人間の判断と、より厳格なLLM-as-judgeメトリクスの両方で報告されます。TRAVLとImplausiBenchは、マルチモーダルモデルにおける物理的妥当性を探求し、改善するための統一されたフレームワークを提供し、視覚的・時間的理解における挑戦的で未開拓の側面に光を当てます。
本研究は、基盤モデルの推論および計画能力と、複雑で動的な環境におけるそのスケーラビリティを調査する。我々は、これらの能力を多様なパズルを通じて評価するためのベンチマークであるPuzzlePlexを提案する。PuzzlePlexは、難易度の異なる決定論的および確率的ゲーム、ならびにシングルプレイヤーと2プレイヤーのシナリオを含む15種類のパズルで構成されている。PuzzlePlexフレームワークは、各ゲームに対する包括的な環境を提供し、基盤モデルの進化に伴い、より挑戦的なインスタンスを生成するための拡張性をサポートする。さらに、比較のためにカスタマイズされたゲームプレイ戦略を実装する。このベンチマークを基に、パフォーマンスを測定するための細かいメトリクスを開発し、指示ベースとコードベースの2つの設定における最先端の基盤モデルについて詳細な分析を行う。さらに、それらのスケーリング限界を体系的に調査する。我々の調査結果は、推論モデルが指示ベースの設定において他のモデルを上回る一方、コードベースの実行はより大きな課題を提示するが、スケーラブルで効率的な代替手段を提供することを示している。PuzzlePlexは、基盤モデルの推論、計画、および汎化能力の改善に向けたターゲットを絞った評価を可能にし、将来の進歩を導くものである。
視覚的自動回帰(AR)モデルの出現は、画像生成に革命をもたらす一方で、合成画像検出に新たな課題を提示している。従来のGANや拡散ベースの手法とは異なり、ARモデルは離散的なトークン予測を通じて画像を生成し、画像合成品質の顕著な向上とベクトル量子化表現における独自の特性を示す。本論文では、実画像と偽画像に存在するコードブックの特徴的なパターンと頻度分布の偏りを利用した、自動回帰生成画像検出のための離散分布不一致認識量子化誤差(D^3QE)を提案する。動的コードブック頻度統計をその注意機構に統合し、意味的特徴と量子化誤差の潜在表現を融合する離散分布不一致認識トランスフォーマーを導入する。本手法を評価するため、7つの主要な視覚的ARモデルを網羅した包括的なデータセットARForensicsを構築した。実験結果は、D^3QEが異なるARモデルにわたって優れた検出精度と強力な汎化性能を示し、実世界の摂動に対する頑健性を有することを実証している。コードはhttps://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}で公開されている。
時系列データの欠損値補完(Time Series Imputation, TSI)は、現実世界のシナリオにおいて複雑でしばしば高頻度に発生する欠損のため、依然として根本的な課題となっています。既存のモデルは通常、点ごとの再構成誤差を最適化し、数値的な値(ローカル情報)の回復に焦点を当てています。しかし、高欠損率の下では、これらのモデルは学習フェーズでは良好な性能を示すものの、推論フェーズでは不十分な補完結果と歪んだ潜在表現分布(グローバル情報)を生成することが観察されています。これは、現在の目的関数がグローバルなガイダンスを欠いており、モデルがローカルなノイズに過剰適合し、データのグローバル情報を捉えられないという重大な最適化ジレンマを明らかにしています。 この問題に対処するため、我々は新しい学習パラダイムであるGlocal Information Bottleneck(Glocal-IB)を提案します。Glocal-IBはモデルに依存せず、標準的なIBフレームワークを拡張し、扱いやすい相互情報量近似から導出されたGlobal Alignment損失を導入します。この損失は、マスクされた入力の潜在表現を、元の観測された対応物の潜在表現と整合させることで、モデルがグローバルな構造とローカルな詳細を保持しつつ、欠損値によるノイズを抑制することを可能にし、高欠損率下での汎化性能を向上させます。9つのデータセットを用いた広範な実験により、Glocal-IBが欠損下での一貫した性能向上と整合した潜在表現をもたらすことが確認されました。我々のコード実装はhttps://github.com/Muyiiiii/NeurIPS-25-Glocal-IBで公開されています。