翻訳付きの日次キュレーションされたAI研究論文
公共交通機関の経路計画は従来、構造化された地図インフラと複雑なルーティングエンジンに依存しており、この依存関係を回避するためのモデルを訓練できる既存のデータセットは存在しない。我々はTransitLMを提案する。これは中国の4都市から得られた1,300万以上の交通経路計画記録を含む大規模データセットであり、12万845駅、1万3,666路線をカバーしている。継続的事前学習用コーパスとして、また補完的な評価指標を用いた3つの評価タスクのためのベンチマークデータとして公開される。実験により、TransitLMで訓練されたLLMが構造的に有効な経路を高精度で生成し、任意のGPS座標を明示的なマッピングなしに適切な駅に対応付けることを示す。これらの結果は、交通経路計画がデータのみから学習可能であることを示し、発着地点情報から直接、エンドツーエンドで地図不要の経路生成を可能にする。データセットとベンチマークは https://huggingface.co/datasets/GD-ML/TransitLM で、評価コードは https://github.com/HotTricker/TransitLM で入手可能である。
マルチモーダル大規模言語モデル(MLLM)は、性格認識が重要となる対人応用領域への導入が進んでいる。しかし既存のベンチマークは、ビッグファイブ数値スコアの予測精度のみでこの能力を評価しており、モデルが行動理解を通じて真に性格を認識しているのか、それとも表面的なパターン照合による先入観で判断しているに過ぎないのかは未解明である。本研究では以下の3つの貢献によりこの課題に取り組む。(i) 新タスクの提案:根拠に基づく性格推論(GPR)を形式化する。これはMLLMに対し、各ビッグファイブ評価項目について、評価・推論・根拠付けの連鎖を通じて観測可能な証拠に基づく判断を求めるものである。(ii) 新データセットの構築:MM-OCEAN(動画1,104本、5,320問の多肢選択問題)を公開する。本データセットは、人間による検証を経たマルチエージェントパイプラインにより生成され、タイムスタンプ付き行動観察、根拠に基づく特性分析、7カテゴリにわたる手掛かり根拠付け問題を含む。(iii) ベンチマークと分析:三層評価(評価・推論・根拠付け)に加え、4つのサンプル単位障害率指標(偏見率PR、作話率CR、統合不全率IR、包括的根拠付け率HR)を設計し、27のMLLM(クローズド13、オープン14)を評価する。分析により顕著な「偏見ギャップ」が明らかとなった。すなわち、正しい評価全体の51%が取得された手掛かりに基づいておらず、包括的根拠付け率は0~33.5%に留まる。これらの知見は、正しいスコアを得ることと正当な理由に基づく推論を行うことの乖離を浮き彫りにし、MLLMにおける根拠に基づく社会的認知の実現に向けた道筋を示すものである。
検証可能な報酬による強化学習(RLVR)は、大規模言語モデルの推論能力を向上させる中心的な手法として登場した。その有効性にもかかわらず、応答レベルの報酬がどのようにトークンレベルの確率変化に変換されるかについては、依然として理解が不十分である。本稿では、RLVR更新の判別器的解釈を導入し、方策勾配の更新方向が暗黙的にトークン勾配ベクトルに対する線形判別器として機能し、それによって学習中にどのトークン確率が増加または減少するかを決定することを示す。標準的な系列レベルのRLVRでは、この判別器は、アドバンテージ重み付け平均によるトークン勾配ベクトルから形成された正側と負側のセントロイドから構築される。しかし、このようなセントロイドの構築は、フォーマットトークンなどの共有された高頻度パターンに支配され、高報酬応答と低報酬応答をよりよく区別する疎でありながら識別力のある方向を希薄化する可能性がある。この制限に対処するため、本稿ではDelTA(識別的トークンクレジット割り当て)を提案する。これは、トークン係数を推定し、側固有のトークン勾配方向を増幅し、共有されたり弱い識別方向を減衰させる手法である。これらの係数は自己正規化されたRLVRサロゲートを再重み付けし、効果的な側ごとのセントロイドをより対比的とすることで、RLVRの更新方向を再形成する。7つの数学ベンチマークにおいて、DelTAはQwen3-8B-BaseおよびQwen3-14B-Baseで、最も強力な同規模ベースラインをそれぞれ平均3.26ポイントおよび2.62ポイント上回った。コード生成、異なるバックボーン、ドメイン外評価における追加結果も、DelTAの汎化能力を示している。
パーソナルアシスタントエージェント(例:OpenClaw)の台頭は、日常生活や仕事においてユーザーを支援する大規模言語モデルの可能性の高まりを示しています。これらの設定における中核的な課題はプロアクティブアシスタンスであり、ユーザーはしばしば不完全なリクエストから始め、重要なニーズ、制約、または好みを明示しないままにします。しかし、既存のベンチマークは、エージェントが明示的に述べられる前にそのような隠れた意図を特定し行動できるかどうかを評価することはほとんどありません。特に、ユーザーのニーズが徐々に明らかになる持続的なマルチターン相互作用においては顕著です。このギャップに対処するため、我々はπ-Benchを導入します。これは、5つのドメイン固有のユーザーペルソナにわたる100のマルチターンタスクから構成されるプロアクティブアシスタンスのためのベンチマークです。隠れたユーザー意図、タスク間依存関係、およびセッション間継続性を組み込むことにより、π-Benchは、長期にわたる相互作用においてユーザーのニーズを予測し対処するエージェントの能力を評価します。これにより、実世界の使用をよりよく反映した長期的な軌跡において、プロアクティブ性とタスク完了を共同で測定します。実験結果は、(1) プロアクティブアシスタンスは依然として困難であること、(2) タスク完了とプロアクティブ性の間に明確な違いがあること、(3) 後続タスクにおけるプロアクティブな意図解決に対する事前の相互作用の価値を示しています。
長文コンテキスト推論における大規模言語モデルは、フルアテンションによる二次関数的コストによって性能が制限されています。既存の効率的な代替手法は、多くの場合、ネイティブなスパース学習かヒューリスティックなトークン削除のいずれかに依存しており、効率性、学習コスト、精度の間に望ましくないトレードオフが生じています。本研究では、フルアテンションのLLMが本質的にスパースであり、最小限の適応だけで高度なスパースモデルに変換可能であることを示します。本アプローチは以下の3つの観察に基づいています。(1) 真に長文コンテキスト処理を必要とするアテンションヘッドはごく一部である。(2) 長距離検索は主に低次元部分空間によって支配されており、16次元のインデクサーで関連トークンを効率的に取得できる。(3) 有用なトークン予算はクエリに強く依存するため、固定のtop-kスパース化よりも動的なtop-p選択が適している。これらの知見に基づき、我々はRTPurboを提案します。これは検索ヘッドに対してのみ完全なKVキャッシュを保持し、スパースアテンションのための軽量トークンインデクサーを導入します。モデルの本質的なスパース性を活用することで、RTPurboはわずか数百ステップの学習でスパース化を実現します。長文コンテキストベンチマークと推論タスクの実験では、RTPurboはほぼ損失のない精度を維持しつつ、1Mコンテキストで最大9.36倍のプリフィル高速化、約2.01倍のデコード高速化といった実質的な効率向上をもたらすことが示されました。これらの結果は、高価なネイティブスパース事前学習を必要とせず、標準的なフルアテンション学習から強力なスパース推論が得られることを示唆しています。
近年のエージェントの発展により、LLMの長文脈推論能力への需要が再び高まっている。しかし、この能力をLLMに訓練するには、コストのかかる長文書のキュレーションやヒューリスティックな文脈合成が必要となる。我々は、エージェントが問題解決時に、ツールの呼び出しと環境観測を多くのターンにわたって行うことで、大量の軌跡を生成することを観察した。そのため、元の質問に答えるために必要な証拠はこれらのターン全体に散らばっており、遠く離れた文脈セグメントの統合が必要となる。にもかかわらず、標準的なエージェントの教師ありファインチューニング(SFT)ではツール応答がマスクされ、ターンレベルのツール選択のみが訓練されるため、これらの散在する信号が使われないという監視の死角が生じる。 我々は、エージェント文脈コンパイル(ACC)を提案する。これは、検索、ソフトウェア工学、データベースクエリのエージェントからの軌跡を長文脈QAペアに変換する。このQAペアは、元の質問と、複数ターンにわたって収集されたツール応答や環境観測を組み合わせ、ツールを使用せずに直接回答するようにモデルを訓練する。これにより、質問と証拠の間の依存関係が明示的になり、追加のアノテーションなしで遠く離れたセグメントにわたる長文脈推論の直接的な監視が可能となる。ACCはシンプルだが効果的なアプローチであり、既存のあらゆる長文脈拡張手法や訓練手法と組み合わせることができ、スケーラブルな教師ありファインチューニングデータを提供する。 我々はACCを、MRCRとGraphWalksという、ターン横断的な照応解決や拡張文脈にわたるグラフ探索を必要とする挑戦的なベンチマークを用いて、長距離依存関係モデリングタスクで検証した。Qwen3-30B-A3BをACCで訓練した結果、MRCRで68.3(+18.1)、GraphWalksで77.5(+7.6)を達成し、これはQwen3-235B-A22Bに匹敵する結果であり、同時にGPQA、MMLU-Pro、AIME、IFEvalにおける一般的な性能も維持した。さらにメカニズム解析により、ACCで訓練されたモデルはタスク適応的な注意再構成と専門家特化を示すことが明らかになった。
シミュレーション対応の物理3Dアセットは、下流タスクにおける幅広い応用可能性から有望な方向性として注目されている。しかし、既存の3D生成手法のほとんどは物理特性を無視しているか、剛体、変形可能物体、関節物体といった単一のアセットカテゴリに限定されている。これらの制約に対処するため、我々は多様なアセットタイプにわたるシミュレーション対応の物理3D生成のための統一フレームワークであるPhysX-Omniを提案する。具体的には、Vision-Language Model向けに新規かつ効率的な形状表現を開発し、圧縮なしで高解像度の3D構造を直接エンコードすることで、生成性能を大幅に向上させる。さらに、多様な屋内・屋外カテゴリを網羅する、初の汎用シミュレーション対応3DデータセットPhysXVerseを構築する。加えて、実環境における生成能力と理解能力の両方を包括的かつ柔軟に評価するために、形状、絶対スケール、素材、アフォーダンス、キネマティクス、機能記述の6つの主要属性を含むPhysX-Benchを提案する。従来の指標とPhysX-Benchを用いた広範な実験により、PhysX-Omniが生成と理解の両方で優れた性能を示すことが実証された。さらに、追加研究により、シミュレーション対応シーン生成やロボットポリシー学習への応用におけるPhysX-Omniの可能性が確認された。我々は、PhysX-Omniが、特に具現化AIや物理ベースシミュレーションにおいて、幅広い下流アプリケーションを大きく前進させると確信している。
共同音声映像推論は全モーダル理解に不可欠であるが、現在のマルチモーダル大規模言語モデル(MLLM)は、両モダリティからの詳細な証拠を必要とする推論において依然として困難を抱えている。主な制約は、明示的なテキストベースの思考連鎖(CoT)が連続的な音声映像信号を離散トークンに圧縮し、時間的グラウンディングを弱めるとともに、中間推論を言語的先行知識へと偏らせる点にある。我々は、統一された潜在空間が、高密度な感覚情報を保持しつつ自己回帰生成と両立可能であるため、この種の推論により適した媒体であると主張する。この知見に基づき、テキスト推論と音声映像潜在状態をインターリーブするクロスモーダル推論フレームワークLatentOmniを提案する。LatentOmniは、特徴レベルの教師信号を導入して潜在推論状態をタスク関連の感覚特徴と整合させ、Omni-Sync位置埋め込み(OSPE)を用いて音声と映像の潜在状態間の時間的一貫性を維持する。さらに、潜在空間推論を教師するための音声映像インターリーブ推論軌跡データセットLatentOmni-Instruct-35Kを構築した。複数の音声映像推論ベンチマークによる包括的な評価の結果、LatentOmniは評価対象のオープンソースモデルの中で最高の性能を達成し、明示的テキストCoTベースラインを一貫して上回っており、潜在空間における共同推論がより強力な全モーダル理解への有望な道筋であることを示している。
スプレッドシートシステム(例:Microsoft Excel、Google Sheets)は、現代のデータ中心的なワークフローにおいて中心的な役割を担っている。AIエージェントがコンピュータ制御やプレゼンテーション生成といった複雑なタスクを自動化する能力を高めるにつれ、AI駆動型のスプレッドシートエージェントの構築は有望な研究の方向性として浮上している。既存のスプレッドシートエージェントのほとんどは、汎用LLMに対する特殊なプロンプトに依存している。この設計は単純なスプレッドシート操作には可能性を秘めるものの、実際のアプリケーションで典型的な複雑で多段階のワークフローを管理するには困難を伴う。 本稿では、現実的なMicrosoft Excel環境内で特殊なスプレッドシートエージェントを訓練するために設計された、強化学習(RL)ファインチューニングフレームワークであるSpreadsheet-RLを紹介する。Spreadsheet-RLは、オンラインフォーラムからペアとなった開始時と目標時のスプレッドシートを大規模に収集するための自動パイプラインと、金融やサプライチェーン管理などの領域におけるドメイン固有の評価タスク(これらを新しいDomain-Spreadsheetベンチマークデータセットとしてまとめた)を特徴とする。さらに、多ターンRL向けに設計されたSpreadsheet Gym環境も含む。Spreadsheet Gymは、Pythonサンドボックスを通じて広範なExcel機能を公開するとともに、スプレッドシートタスク向けに包括的なツールセットと注意深く設計されたツールルーティングルールを組み込んだ洗練されたハーネスを提供する。包括的な実験を通じて、Spreadsheet-RLが一般的なスプレッドシートタスクとドメイン固有のスプレッドシートタスクの両方において、AIエージェントのパフォーマンスを大幅に向上させることを示す。具体的には、SpreadsheetBenchにおけるQwen3-4B-Thinking-2507のPass@1を12.0%から23.4%に改善し、私たちが厳選したDomain-SpreadsheetデータセットにおいてはPass@1を8.4%から17.2%に向上させた。これらの結果は、スプレッドシート自動化におけるSpreadsheet-RLの汎化能力と実世界への応用の可能性が高いこと、そして広くは、日常業務におけるデータインターフェースとのLLMベースの相互作用を前進させる上での有望性を強調するものである。
自己回帰型ビデオ拡散モデルにより、リアルタイムでのアクション条件付き世界生成が可能となった。しかし、以前に観測した視点に再訪した際に一貫した内容が得られる持続的な世界を維持することは、依然として未解決の問題である。完全なKVキャッシュアテンションはこの一貫性を保つものの、メモリ使用量とアテンションコストがロールアウト長に比例して線形増加するため、リアルタイム制約を破綻させる。スライディングウィンドウ推論はスループットを回復するが、長期的な一貫性を犠牲にする。本稿では、学習不要のフレームワークであるWorldKVを提案する。WorldKVはWorld RetrievalとWorld Compressionの2つの要素から成る。World Retrievalは、退避されたKVキャッシュチャンクをGPU/CPUメモリに格納し、カメラ対応やアクション対応に基づいてシーンに関連するチャンクを選択的に取得し、再エンコードすることなくネイティブアテンションウィンドウに挿入する。World Compressionは、アンカーフレームとのキー間類似度を用いて各チャンク内の冗長トークンを刈り込み、チャンクあたりのストレージを半減させることで、固定予算下で2倍の履歴を収容可能にする。Matrix-Game-2.0およびLingBot-World-Fastにおいて、WorldKVは完全KVメモリと同等以上の忠実度を達成しながら、スループットは約2倍であり、ファインチューニングなしでメモリ学習ベースラインと互角に競う。プロジェクトページ: https://cvlab-kaist.github.io/WorldKV/
人工知能(AI)は科学発見にますます組み込まれているが、AIが科学的進歩を予測できるかどうかは依然として不明である。この問いを研究するため、我々は制御された知識制約下で科学的進歩を予測するための時間的に基づいた評価フレームワークを導入する。我々はCUSP(Cutoff-conditioned Unseen Scientific Progress:カットオフ条件付き未見科学進歩)を提示する。これは多分野にわたるイベントレベルのベンチマークであり、実現可能性評価、メカニズム推論、生成的解決策設計、時間的予測を通じてAIシステムにおける科学的予測を評価する。4,760の科学イベントを通じて、現在の最先端モデルに系統的かつ領域依存的な限界があることを観察する。モデルは競合する候補からもっともらしい研究方向を特定できるものの、科学的進歩が実現するかどうかを確実に予測できず、それがいつ起こるかを系統的に誤って見積もる。性能は領域間で非常に不均一であり、AIの進歩のタイミングは生物学、化学、物理学の進歩よりも予測可能である。性能はイベントがトレーニングカットオフの前後に発生するかどうかにほとんど影響されず、これらの限界がトレーニングデータにおける知識露出だけでは説明できないことを示唆している。制御された情報アクセスの下では、カットオフ前の追加知識は性能を向上させるが、完全情報設定とのギャップを埋めることはできず、そのギャップは被引用数の多い進歩においてより顕著になる。モデルはまた、系統的な過信と強い応答バイアスを示し、不確実性推定が信頼できないことを示している。総合すると、現在のAIシステムは科学的進歩の予測ツールとして不十分である。事前知識へのアクセスは信頼できる予測にはつながらず、性能は将来予測よりもイベント後の情報からより恩恵を受ける。
拡散トランスフォーマー(DiTs)は、テキストから画像への生成において支配的なアーキテクチャとして登場したが、訓練範囲を超える解像度で生成する際に性能が低下する。既存の学習不要アプローチでは、推論時のアテンション動作を変更することでこれを緩和しており、多くの場合、アテンションスケーリングと組み合わせたRoPE(Rotary Position Embeddings)の外挿が用いられる。しかし、これらの戦略は、異なる周波数特性を持つRoPE成分に対して一様かつ内容に依存しないスケーリングを適用するため、大域的な構造の維持と細部の再現の間にトレードオフを生じさせる。本稿では、各ノイズ除去ステップにおける潜在変数の空間周波数構造に応じて、RoPE成分にわたるアテンションを動的にスケーリングする学習不要手法SEGAを提案する。この適応的スケーリングにより、構造的一貫性と細部の忠実度がともに向上する。実験では、SEGAが複数の目標解像度にわたって高解像度合成を一貫して改善し、最先端の学習不要ベースラインを上回ることを示す。
自動運転システム(ADS)の堅牢な訓練と検証には、大規模で多様なデータセットが必要である。自律走行車(AV)フリートが収集するプロプライエタリデータは高忠実度であるものの、規模、センサ構成の多様性、地理的カバレッジ、およびロングテールな行動パターンの網羅において限界がある。これに対し、ドライブレコーダーなどの実環境データは、膨大な規模と多様性を備え、重要なロングテールシナリオや未知の環境を捉えることができる。しかし、この非構造化された実環境のビデオデータは、構造化されたマルチモーダルなセンサ入力を前提とするADSの検証や訓練には適合しない。このデータギャップを埋めるため、我々はSensor2Sensorを提案する。これは、実環境の単眼ドライブレコーダー映像を、複数視点のカメラ画像とLiDAR点群からなる高忠実度なマルチモーダルセンサスイート(AVログ)に変換する新規な生成モデリングパラダイムである。中心的な課題は、ペアとなる訓練データが存在しないことである。我々はこれを、実際のAVログを4Dガウススプラッティング(4DGS)による再構成と新規視点レンダリングを介してドライブレコーダー風の映像に変換することで解決する。次にSensor2Sensorは拡散アーキテクチャを用いて生成変換を実行する。生成されたセンサデータの忠実性と現実性について包括的な定量的評価を行う。さらに、課題の多い実環境のインターネット映像やドライブレコーダー映像を現実的なマルチモーダルデータ形式に変換することでSensor2Sensorの実用性を実証し、AV開発のための膨大な外部データソースを解放する。
ビデオ拡散モデルの生成範囲を長い系列に拡張することは、長年にわたる重要な課題である。既存の学習不要アプローチは、特定のアーキテクチャに強く結合され長い範囲で品質劣化を生じる双方向モデルの拡張と、露出バイアスによりドリフト誤差が蓄積し反復的な動作パターンを生成しがちな自己回帰モデルの二種類に分類される。これらの問題に対処するため、我々はアーキテクチャ非依存で追加学習を必要としない、新規だがシンプルな長尺動画生成のための推論時アプローチを提案する。本手法は、重なり合うスライディングウィンドウを介して長尺動画を生成する。隣接するウィンドウからの予測されたクリーンサンプルをツイーディマッチングによりブレンドし、重複領域において多様体制約と時間的一貫性の両方を強制する。その後、確率的初期位相サンプリングにより、高ノイズフェーズでの各ツイーディマッチング補正後に新しいノイズを注入して各ウィンドウの軌跡を同期させ、その後、決定論的ODEサンプリングに移行して細粒度の視覚的忠実度を保持する。本手法を様々な動画生成モデルに適用したところ、基本ウィンドウ長の数倍の長さの動画を生成し、時間的一貫性と視覚的品質において学習不要および自己回帰のベースラインを上回り、さらにファインチューニングなしで音声動画同時生成やテキストから3DGSへの拡張も可能である。
マルチモーダル大規模言語モデル(MLLMs)は空間知能において急速な進歩を遂げているが、既存の空間推論ベンチマークの多くは、ほぼ完全な視覚入力を前提としており、実世界の展開でよく発生する劣化(モーションブラー、低照度、悪天候、レンズ歪み、圧縮アーティファクトなど)を無視している。このことは、根本的な疑問を提起する:視覚観測が不完全な場合、現在のMLLMsの空間知能はどの程度堅牢なのか? この疑問に答えるために、我々は劣化対応空間理解のための初の大規模データセットであるSpaceDGを導入する。これは、物理的に基づいた劣化合成エンジンを用いて構築されており、劣化形成プロセスを3Dガウシアンスプラッティング(3DGS)レンダリングに組み込むことで、9種類の劣化を現実的にシミュレートする。結果として得られたデータセットは、約1,000の屋内シーンから約100万のQAペアを含む。 さらに、11の推論カテゴリと9の視覚劣化タイプにわたる1,102の質問からなる人間検証済みベンチマークSpaceDG-Benchを導入し、1万以上のVQAインスタンスを生成する。25のオープンソースおよびクローズドソースのMLLMを評価した結果、視覚劣化が一貫してかつ大幅に空間推論を損ない、重要な堅牢性のギャップが明らかになった。 最後に、SpaceDGでのファインチューニングにより劣化に対する堅牢性が著しく向上し、クリーンな画像での性能低下なしに劣化条件下で人間の性能を超えることさえ可能になることを示す。これは、堅牢な空間知能のための劣化対応トレーニングの有望性を強調する。
大規模言語モデル(LLM)とモジュール型スキルの普及により、自律エージェントはますます強力な能力を備えるようになった。既存のフレームワークは通常、モノリシックなLLMと固定されたロジックに依存してこれらのスキルと連携している。このことが重大なボトルネックを生み出している。すなわち、異なるLLMは多様なドメインにおいてそれぞれ異なる利点を提供するにもかかわらず、現在のフレームワークはモデルとスキルの補完的な強みを活用できておらず、下流タスクにおける性能を制限しているのである。本論文では、Maestro(Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration)を提案する。これは強化学習(RL)に基づくオーケストレーションフレームワークであり、異種マルチモーダルタスクを階層的なモデル・スキルレジストリ上での逐次意思決定プロセスとして再構成する。すべての知識を単一のモデルに集約するのではなく、Maestroは軽量なポリシーを学習し、凍結されたエキスパートモデル群と二層のスキルライブラリからなるアンサンブルを動的に構成する。各ステップにおいて、外部エキスパートを呼び出すか、どのモデル・スキルペアを選択するか、いつ終了するかを決定する。ポリシーは結果ベースのRLによって最適化され、ステップレベルの教師信号を必要としない。我々は、数学的推論、チャート理解、高解像度知覚、ドメイン固有分析にわたる10の代表的なマルチモーダルベンチマークでMaestroを評価する。わずか4Bのオーケストレーターで、Maestroは平均精度70.1%を達成し、GPT-5(69.3%)およびGemini-2.5-Pro(68.7%)を上回った。重要なことに、学習された協調ポリシーは再学習なしで未見のモデルやスキルに一般化する。レジストリにドメイン外のエキスパートを追加すると、4つの挑戦的なベンチマークで平均59.5%を達成し、すべてのクローズドソースベースラインを上回る。Maestroはさらに、低レイテンシで高い計算効率を維持する。ソースコードはhttps://github.com/jinyangwu/Maestroで入手可能である。
自己回帰型ビデオ拡散モデル(ARVD)は、ストリーミング動画生成のための有望なアーキテクチャとして登場し、リアルタイムインタラクティブな動画生成や世界モデリングへの道を開いている。その潜在能力にもかかわらず、ARVDの推論コストの大きさは実用的な展開における主要な障壁であり、効率向上の自然な方向性としてモデル量子化が考えられる。しかし、ARVDに対する量子化はほとんど未開拓のままである。我々の実証分析によれば、標準的な拡散トランスフォーマー向けに開発された既存の量子化手法をARVDに直接適用すると、双方向拡散モデルで観察されるものとは異なる量子化挙動が明らかになり、準最適な性能しか得られない。本論文では、ARVDの量子化における2つの重要な課題を特定する:(C1)フレーム間での著しく不均衡な量子化感度。自己回帰生成中の誤差蓄積は、指数関数的な減衰パターンに従って、フレーム間で極端に偏った量子化感度を誘発する可能性がある。(C2)重みにおける顕著かつ不均一な外れ値パターン。重み分布は顕著な外れ値チャネルを示し、そのパターンはレイヤータイプやブロック深さによって大きく異なる。これらの問題に対処するため、我々は正確なARVD量子化のための新しいフレームワークであるQ-ARVDを提案する。(S1)著しく不均衡なフレーム単位の感度に対処するため、Q-ARVDは最終品質を考慮したフレーム重み付け機構を量子化目的関数に組み込む。(S2)不均一な外れ値による性能低下を防ぐため、Q-ARVDは外れ値対応適応的二重スケール量子化を導入する。これは任意のレイヤーにおける外れ値チャネルの有無と数を自動検出し、それらを分離して通常チャネルを保護する。広範な実験により、Q-ARVDの優位性が実証されている。
プロセス報酬モデル(PRM)は、細粒度のステップレベルでの監督を提供することで、大規模言語モデルの推論を導く強力な機構である。しかし、この有効性には大きなコストが伴う。PRMには、すべての推論ステップに対して専門家によるアノテーションが必要であり、そのためコストが高く、スケーリングが困難となる。本稿では、ステップ単位のアノテーションのレベルでも、最終回答の正解検証を通じても、人間の監督を一切必要としない、教師なしPRM(uPRM)の訓練手法を提案する。本手法の核となるアイデアは、LLMの次トークン確率から導出されるスコアリング関数を定義し、これによって推論軌跡のバッチ全体にわたって最初の誤りステップの候補位置を共同で評価することである。我々は、uPRMの有効性を多様なシナリオで実証する。(i) uPRMは、ProcessBenchデータセットにおける最初の誤りステップの特定において、LLM-as-a-Judgeと比較して最大15%の絶対精度向上を達成する。(ii) テスト時スケーリングの検証器として、uPRMは教師ありPRMと同等の性能を示し、多数決投票ベースラインを最大6.9%上回る。(iii) 強化学習における報酬信号として使用した場合、uPRMは、正解ラベルを用いて訓練された教師ありPRMと比較して、訓練全体を通じてよりロバストな方策最適化を可能にする。全体として、我々の結果は、複雑な推論タスクにおけるスケーラブルな報酬モデリングへの道を開くものである。
線形アテンションは、ソフトマックスアテンションの無制限キャッシュを固定サイズのリカレント状態に置き換え、系列混合を線形時間に、デコードを定数メモリに削減する。困難な点は、何を忘れるかだけでなく、圧縮されたメモリを既存の関連付けを乱さずに編集する方法である。デルタ則モデルは新しい値を書き込む前に現在の読み出し値を減算し、Kimi Delta Attention(KDA)はチャネル別減衰によって忘却を強化する。しかし、アクティブな編集では依然として単一のスカラーゲートを使用して、キー側で古いコンテンツをどの程度消去するかと、バリュー側で新しいコンテンツをどの程度書き込むかという二つの異なる処理を制御している。我々はGated DeltaNet-2を導入する。これは適応的忘却とチャネル別減衰を継承しつつ、両者に共通する制限である消去と書き込みのスカラー結合に対処することで、Gated DeltaNetとKDAの両方を一般化する。Gated Delta Rule-2は、チャネル別消去ゲートb_tとチャネル別書き込みゲートw_tを用いてこれらの役割を分離し、両方のゲートが同一のスカラーに縮退するとKDAに、減衰も縮退するとGated DeltaNetになる。我々は、高速重み更新の観点、チャネル別減衰を非対称消去係数に組み込んだチャンク単位のWYアルゴリズム、および効率的な並列学習を維持するゲートを考慮した逆伝播を導出する。100BのFineWeb-Eduトークンで学習された1.3Bパラメータにおいて、Gated DeltaNet-2は、言語モデリング、常識推論、検索にわたって、Mamba-2、Gated DeltaNet、KDA、Mamba-3の各バリアントの中で総合的に最強の結果を達成する。その利点は長コンテキストのRULER針干し草ベンチマークで最も顕著であり、評価されたマルチキー検索設定を改善し、リカレント設定とハイブリッド設定の両方で強力な性能を維持する。コードはhttps://github.com/NVlabs/GatedDeltaNet-2で入手可能である。
开放式图像生成已不再是一个简单的提示词到图像的问题。高质量的生成通常需要代理将模型的内在生成能力与外部资源相结合。随着需求日益多样化和高要求,我们旨在开发一种通用的图像生成代理,该代理能够通过轨迹自我进化,并在各种生成挑战中更有效地使用工具。为此,我们提出GenEvolve,一种基于工具编排的视觉经验蒸馏的自我进化框架。在GenEvolve中,每次生成尝试都被建模为一条工具编排轨迹,代理在其中收集证据、选择参考、调用生成技能,并将它们组合成一个提示词-参考程序。与主要依赖图像级标量奖励的现有代理生成方法不同,GenEvolve对同一请求的多条轨迹进行比较,并将最优与最差轨迹的差异抽象为结构化视觉经验,仅提供给特权教师分支。受在线策略自蒸馏的启发,视觉经验蒸馏提供了密集的令牌级监督,帮助学生内化更好的搜索、知识激活、参考选择和提示词构建。我们进一步构建了GenEvolve-Data和GenEvolve-Bench。在公开基准和GenEvolve-Bench上的实验表明,相较于强基线有显著提升,并在当前图像生成框架中达到了最先进的性能。我们的网站如下:https://ephemeral182.github.io/GenEvolve/
LLMは実運用で広く採用されており、推論システムをその限界まで押し上げている。分離型LLMサービス(例:PD分離やKV状態の分離)はスケーラビリティとコスト効率を向上させるが、KVをネットワークとストレージの境界を越える明示的なペイロードに変え、KVをエンドツーエンドの支配的なボトルネックにする。既存のKV圧縮は通常、静的な実行時設定であるが、実運用のサービスコンテキストはワークロード混合、帯域幅、SLO/品質予算において時間とともに変動する。その結果、固定された選択は最適以下であったり、レイテンシを増加させたりする可能性がある。本稿では、分離型LLMサービスのための初のサービス認識型かつ適応的なKV通信圧縮フレームワークである『KVServe』を提案する。KVServeは、(1) KV圧縮を、新しいコンポーネントと手法間の再構成を備えたモジュラー戦略空間に統合し、(2) この空間を効率的に探索し、3Dパレート候補セットを抽出するベイジアンプロファイリングエンジンを導入し、オフライン探索オーバーヘッドを50倍削減し、(3) 解析的レイテンシモデルと軽量バンディットを組み合わせ、制約下でプロファイルを選択し、オフラインとオンラインのミスマッチを修正するサービス認識型オンラインコントローラを展開する。vLLMに統合され、データセット、モデル、GPU、ネットワークにわたって評価された結果、KVServeはPD分離型サービスで最大9.13倍のJCT高速化、KV分離型サービスで最大32.8倍のTTFT削減を達成する。
言語モデルの開発における進歩は、しばしば比較による判断に左右される。どのアーキテクチャを採用するか、どの事前学習コーパスを使用するか、どの訓練レシピを適用するか、といった判断である。これらの判断を適切に行うには、信頼性の高い性能予測が必要である。しかし、一般的に使われる2つの指標には根本的な限界がある。クロスエントロピー損失は下流タスクの能力との整合性が低く、直接的な下流評価はコストが高く、疎であり、訓練初期には情報量が少ないことが多い。代わりに、我々は代理指標を構築することを提案する。これは、候補モデルの専門家作成ソリューションに対する次トークン分布から、エントロピー、トップk精度、専門家トークン順位などのトークンレベルの統計量を集約したものである。3つの設定において、我々の代理指標は一貫して損失ベースおよび計算量ベースのベースラインを上回った。1) 異種ファミリー間のモデル選択では、多様な推論モデル群を平均スピアマンρ = 0.81で順位付けした(クロスエントロピー損失ではρ = 0.36)。2) 事前学習データ選択では、ターゲットモデルに対する25の候補コーパスを、直接評価の約1万分の1の計算コストで信頼性高く順位付けし、パレートフロンティアを既存手法を超えて押し広げた。3) 訓練時予測では、18倍の計算量にわたる下流精度を、既存の代替手法の約半分の誤差で外挿した。これらの結果は、専門家の軌跡がモデルの能力評価に幅広く有用な信号源であり、モデル開発ライフサイクル全体にわたって信頼性の高い性能予測を可能にすることを示唆している。
現行のデジタル短編ドラマ制作における手法は、通常、ワンショットでLLMが生成した脚本と疎結合なパイプラインに依存しており、短編ドラマ生成に求められる次の三つの要件を満たせていない。(1) ナラティブのテンポ——弱いフック、不十分な盛り上がり、魅力的でない結末を招く。(2) 空間的一貫性——クリップ間でシーンのレイアウトがずれ、キャラクターの位置が一貫しない。(3) 制作レベルの品質管理——脚本およびビジュアルの各段階で大規模な手動レビューと修正が必要となる。本稿では、ユーザーが一文で示したアイデアを、構造化された中間モジュールと反復的改良により完全に制作された短編ドラマへと変換する、階層型マルチエージェントフレームワーク「One Sentence, One Drama」を提案する。本手法は以下の三つの主要コンポーネントにより構成される。(1) マルチエージェントの討論に基づくストーリー生成モジュール——短編ドラマのテンポとナラティブの一貫性を実現する。(2) 3D基盤のファーストフレーム生成機構——クリップ間でキャラクターの位置とシーンレイアウトを一貫させるための共有空間参照を確立する。(3) 多段階レビューループ——脚本、ビジュアル、動画生成の各段階で包括的な誤り検出と対象を絞った修正を実行する。また、シーンレベルのBGMマッチングとシーン遷移計画を導入し、観客の没入体験を向上させる。本タスクを体系的に評価するため、標準的な動画品質指標を短編ドラマ固有の評価基準で拡張したベンチマーク「Short-Drama-Bench」を導入する。実験結果は、本手法がナラティブ品質、クリップ間の一貫性、および全体的な視聴体験において既存のパイプラインを大幅に上回ることを示している。
大規模言語モデル(LLM)やエージェントシステムは臨床意思決定支援において有望な成果を示しているが、既存の研究の多くは証拠が既に整理されモデルに提供されているという前提に立っている。しかし実際の臨床ワークフローでは、エージェントが能動的に証拠を探索し、反復的に計画を立て、異種の情報源からマルチモーダルな証拠を統合する必要がある。本稿では、受動的な証拠の消費から能動的な証拠の獲得へとパラダイムを転換する、動的なマルチモーダル証拠探索のための自動エージェントフレームワークClinSeekAgentを紹介する。ClinSeekAgentは、臨床クエリと生データソースへのアクセスのみを与えられ、医学知識ベースへの問い合わせ、生のEHRのナビゲーション、医療画像ツールの呼び出しにより証拠を収集し、新しい情報が得られるたびに仮説を洗練し、収集した証拠を根拠に基づく臨床判断へと統合する。ClinSeekAgentは、先端LLMの推論時エージェントとして機能するだけでなく、高品質なエージェント軌跡をコンパクトなオープンソースモデルに蒸留するための学習時パイプラインとしても機能する。推論時の有効性を検証するため、固定された事前選択証拠に基づくCurated Input推論と、生臨床データに対するAutomated Evidence-Seekingを組み合わせたClinSeek-Benchを構築した。テキストのみのEHRタスクでは、ClinSeekAgentによりClaude Opus 4.6の総合F1値が60.0から63.2に、MiniMax M2.5が43.1から47.3に向上し、評価した9つのホストモデルのうち7つで陽性リスク予測の改善が認められた。マルチモーダルタスクでは、ClinSeekAgentによりClaude Opus 4.6が47.5から62.6(+15.1)に向上し、評価した全モデルが3つのCXR関連タスク群すべてで改善を示した。さらに、エージェント的な証拠探索軌跡をClinSeek-35B-A3Bに蒸留することで、ClinSeekAgentを学習パイプラインとして検証した。これにより、既存のAgentEHR-Benchにおける平均F1値が34.0となり、Qwen3.5-35B-A3Bベースラインを+11.9ポイント上回り、Claude Opus 4.6に迫る性能を達成した。
長尺動画のほとんどのフレームは冗長ですが、重要な情報は時間的なサプライズ、すなわち実際の視覚的特徴が予測された進化から逸脱する瞬間に存在します。人間の脳の予測コーディングに着想を得て、我々はSwift Samplingを導入します。これはエレガントでトレーニング不要のフレーム選択アルゴリズムであり、動画内の情報量の多い瞬間を自動的に特定します。具体的には、動画を視覚的潜在空間における微分可能な軌跡としてモデル化し、その特徴の速度と加速度を計算します。次に、テイラー展開を適用して後続フレームの期待される経路を予測します。この予測多様体から大きく逸脱するフレームは時間的にサプライズなフレームとして識別され、サンプリングのために選択されます。補助ネットワークや動画固有のハイパーパラメータ調整に依存する従来のトレーニング不要の手法とは異なり、Swift Samplingは非常に軽量で、ベースラインに対して0.02倍の追加計算コストしか追加せず、主要なベースラインよりも30倍低いオーバーヘッドを実現します。3つの長尺動画質問応答ベンチマークと10の異なるダウンストリームタスクにおいて、Swift Samplingは一様サンプリングおよび従来のクエリ非依存ベースラインを上回ります。特にフレーム予算が限られた長尺動画で威力を発揮し、精度を最大+12.5ポイント向上させます。
モデルカードは、パフォーマンス、構成、データセットの表を含む、テキストによる説明と構造化された成果物を組み合わせてモデルの動作を記述する。既存のモデル検索システムは主にテキスト上の意味的類似性に依存しており、その結果、均質な結果セットが生成され、代替案の探索が制限される可能性がある。我々は、モデル検索は本質的に比較的であると主張する。すなわち、ユーザーはタスクに適合しつつも測定可能な点で差別化されたモデルを求める。このバランスを達成するには、冗長な説明ではなく、凝縮された高品質のエビデンスに基づく検索が必要であり、そのエビデンスの多くは構造化された表に集中していると仮説を立てる。本稿では、ModelTablesベンチマーク上に構築されたテーブル駆動型モデル検索フレームワークStructuredSemanticSearchを提案する。クエリが与えられると、StructuredSemanticSearchはタスク整合性のための意味ベースラインと、ユニオン可能性、結合可能性、キーワード検索などのテーブル発見演算子を用いてクエリに関連するモデルカードテーブルを発見する構造認識パイプラインを組み合わせる。取得されたテーブルは、制御されたtop-k予算の下でモデルカードにマッピングされ、テキストベースとテーブルベースの検索の公平な比較を可能にする。検索に加えて、StructuredSemanticSearchは方向性認識統合を通じてテーブル統合をモデルテーブル領域に適応させ、部分的に重複し、時には転置されたエビデンステーブルからコンパクトな統合ビューを生成する。評価のために、モデルカードからコンパクトなエビデンスアイテムを抽出し、クエリを条件または意図に特化したナゲットにマッチングし、取得されたモデルカード候補セットにおけるエビデンスのカバレッジと多様性を測定する、ナゲットベースの監査可能なプロトコルを導入する。このプロトコルはまた、動的なモデルレイクにおける近似的なエビデンスベースのラベリングへのスケーラブルな道筋を提供する。597のモデル推薦クエリを用いた実験では、構造認識パイプラインが意味ベースラインよりも優れたナゲットカバレッジを示した。
エージェントはいつ、どのように計画を立てるべきかという問いに対して、主流のアプローチでは適応的な計算(例:思考の連鎖)を備えた反応型ポリシーとしてエージェントを構築し、計画が暗黙的に現れることを期待してエンドツーエンドで訓練する。しかし、計画の存在、構造、または範囲を制御できないため、これらのシステムは推論の長さを大幅に増加させ、信頼性のある精度向上なしに非効率なトークン使用を引き起こす。本稿では、効率的なエージェント推論を実現するには、意思決定を3つのシステムに分解することが有益であると主張する。すなわち、世界モデルを介した将来状態予測に基づく熟考を接地するシミュレーション推論(システムII)、学習されたコンフィギュレーターを介していつ、どの程度深く計画を立てるかを決定する自己調整(システムIII)、および詳細な行動を処理する反応型実行(システムI)である。シミュレーション推論は、ドメインごとのエンジニアリングなしに多様なタスクにわたる統一的な計画を提供し、自己調整は、必要に応じてのみ計画器が起動されることを保証する。これを検証するために、SR^2AM(自己調整シミュレーション推論エージェントLLM)を開発し、両方をLLMの思考の連鎖内で別個の段階として実現し、LLMを世界モデルとして用いる。我々は2つのインスタンス化を探求する。すなわち、プロンプトによるマルチモジュールシステムから決定を記録する方式(v0.1)と、事前訓練された推論LLMのトレースから構造化された計画を再構築する方式(v1.0)であり、教師あり学習とそれに続く強化学習(RL)により訓練される。数学、科学、表形式分析、ウェブ情報検索にわたって、v0.1-8Bとv1.0-30Bはそれぞれ120-355Bおよび685B-1Tパラメータシステムと競合するPass@1を達成し、v1.0-30Bは同等のエージェントLLMと比較して25.8〜95.3%少ない推論トークンを使用する。RLは平均計画期間を22.8%増加させる一方、計画頻度はわずか2.0%しか増加せず、より頻繁に計画を立てるのではなく、より先を見越した計画を立てることを学習することが示された。より広く見れば、学習された自己調整は、計画を超えて、エージェントが自身の学習と適応をどのように統制するかにまで拡張されることが期待される原則を具体化している。
従来のビジュアルオブジェクトトラッキング(VOT)手法は通常、タスク固有の教師あり学習に依存しており、未知の物体や、妨害物体、遮蔽、非線形運動を含む困難なシナリオへの汎化が制限されています。最近のビジョン基盤モデル、例えばSAM 2は、大規模な事前学習から強力なビデオ理解の事前知識を学習し、より堅牢で汎化可能なトラッカーを構築するための有望な基盤を提供します。しかしながら、SAM 2をVOTに直接適用することは依然として最適とは言えません。なぜなら、SAM 2はターゲットの運動ダイナミクスを明示的にモデル化せず、フレーム間の幾何学的および意味的一貫性を強制しないからです。これらは信頼性の高い追跡に不可欠です。この問題に対処するため、我々はSAMOSAを提案します。これは、運動、幾何学、および意味的手がかりを明示的に活用することにより、SAM 2を複雑なVOTシナリオに適応させる新しいトラッキングフレームワークです。具体的には、軽量な非線形運動予測器を導入し、ターゲットのダイナミクスをモデル化し、マスク選択およびメモリフィルタリングをガイドします。さらに、意味的手がかりを活用してターゲットのずれを検出し、追跡失敗から回復します。一方、幾何学的な手がかりは構造的制約として組み込まれ、追跡の安定性を向上させます。このようにして、SAMOSAはSAM 2の暗黙的なビデオ理解の事前知識と、明示的な追跡指向のモデリングとの間のギャップを埋めます。広範な実験により、SAMOSAは一般的なベンチマークにおいて最先端のSAM 2ベースの手法を一貫して上回り、教師ありVOT手法よりも強い汎化を示し、複雑な非線形運動シナリオを代表する対UAVデータセットで大幅な改善を達成することを示しています。コードはhttps://github.com/DurYi/SAMOSAで公開されています。
マルチモーダル大規模言語モデル(MLLM)と拡散モデルはそれぞれ目覚ましい成熟を遂げている。MLLMは強力な意味的基盤に基づき、多様なマルチモーダル入力を推論することに長けている一方、拡散モデルは写真のようにリアルな画像や動画を合成する。我々は、これら二つのファミリーが単純な役割分担によって統合可能であると主張する。すなわち、MLLMが意味的な計画を実行し、拡散モデルが高レベルの意味的ガイダンスと低レベルの視覚的特徴からピクセルをレンダリングする。このアイデアに基づき、我々は動画生成と編集のための統一フレームワークであるBerniniを提案する。MLLMベースのプランナーはターゲットとなる意味表現をViT埋め込み空間で直接予測し、DiTベースのレンダラーはこの計画に条件付けられ、テキスト特徴量、さらに編集のためには詳細を保持するためのソースVAE特徴量によって拡張されて、ピクセルを合成する。意味表現がインターフェースとして機能するため、プランナーとレンダラーは別々に訓練され、軽度の共訓練のみで済み、両コンポーネントの事前訓練された強みを維持しつつ、効率的な訓練を実現する。複数の視覚入力をより適切に処理するために、セグメント認識3D回転位置埋め込み(SA-3D RoPE)を導入し、さらにプランナーにチェーン・オブ・ソート推論を組み込むことで、理解を生成に効果的に転送する。Berniniは、多岐にわたる動画生成・編集ベンチマークにおいて最先端の性能を達成し、MLLMの事前訓練された理解が困難な編集タスクにおける強力な汎化につながっている。
多くの公共建築物では、訪問者の方向確認を支援するために「現在地」を示すフロアプランが提供されている。フロアプラン位置推定は、フロアプラン内で視覚的観測が行われた場所を計算によって特定することで、この機能を再現しようとするものである。しかし、既存の手法は通常、制御された小規模環境と精密なベクトル化フロアプランを前提としており、大規模建物やラスタライズされたフロアプランへの適用が制限されている。本稿では、シーンの再構成された3次元表現にタスクを基づけることで、実環境におけるフロアプラン位置推定を実現する手法を提案する。制約のない画像集合を入力として、重力方向に合わせた3次元シーンを再構成し、それを2次元密度マップに投影してフロアプランの代理とする。そして、フロアプラン位置推定を、この代理マップと入力フロアプランを2次元相似変換によって位置合わせする問題として定式化する。密度マップと建築フロアプランの間の見た目のギャップを埋めるため、2次元基盤モデルを適用してクロスモーダル対応を学習し、構造的一貫性を保ちながら意味的に整合した対応を促進するファインチューニング手法を導入する。広範な実験により、本手法は従来手法と比較して大幅な改善を示し、特に1枚の画像のみという極めて疎な設定でも有効であることを確認した。コードとデータは公開予定である。
テキスト画像生成(T2I)モデルを人間の選好に合わせるために、プロンプトへの適合性や知覚品質に基づいて生成画像をスコアリングまたはランク付けする画像報酬モデルへの依存が高まっている。既存の報酬モデルは、大規模な人間の選好コーパスでBradley-Terry(BT)選好モデルとして訓練されることが一般的であり、そのため訓練コストが高く、適応が困難で、評価基準が不透明である。一方、Vision-Language Model(VLM)ジャッジはテキストによるルーブリックを通じてより詳細な評価を提供できるが、人手で設計されたりヒューリスティックに生成されたスコアリングルールは人間の選好を確実に反映できない可能性がある。本論文では、T2I分野で初めてとなる、VLMジャッジをガイドする明示的なルーブリックを自動的に合成・選択するルーブリック学習フレームワーク、AutoRubric-T2Iを提案する。AutoRubric-T2Iはまず、選好ペアから推論トレースを合成して候補ルーブリックを生成し、次に各ルーブリックの下でVLMジャッジを用いてペア画像をスコアリングし、選好学習のためのペアごとのルーブリックスコア差を生成する。ノイズや冗長なルールを除去するため、さらにℓ₁正則化ロジスティック回帰リファイナを採用し、最も識別力のあるTop-Nルーブリックを選択する。広範な評価により、AutoRubric-T2Iがアノテーション済み選好データの0.01%未満を使用して高品質で解釈可能な報酬信号を生成し、大規模な報酬モデル訓練の必要性を大幅に低減することが示された。MMRB2などの画像報酬ベンチマークにおいて、AutoRubric-T2Iは強力な報酬モデルのベースラインを上回る性能を示す。さらに下流のT2Iタスク(TIIFやUniGenBench++など)において、AutoRubric-T2IをRL報酬として検証し、拡散モデル上のFlow-GRPOパイプラインを用いたスカラー報酬モデルと比較して生成品質を改善することを確認した。
私たちはTerminalWorldを紹介します。これは、実環境の端末記録から高忠実度の評価タスクを自動的にリバースエンジニアリングする、スケーラブルなデータエンジンです。80,870件の端末記録を処理し、このエンジンは18の実世界カテゴリにわたる1,530の検証済みタスクからなる完全なベンチマークを生成します。タスクは短い日常的な操作から50ステップを超えるワークフローまで多岐にわたり、1,280のユニークなコマンドをカバーします。これらの中から、手動でレビューされた200の代表的なタスクからなるVerifiedサブセットを厳選しました。TerminalWorld-Verifiedを用いて8つの最先端モデルと6つのエージェントを包括的にベンチマークした結果、現在のシステムは実際の端末ワークフローに苦戦しており、最大通過率はわずか62.5%にとどまることが明らかになりました。さらに、TerminalWorldは既存の専門家厳選ベンチマーク(例:Terminal-Bench)とは異なる実世界の端末能力を捉えており、それらのスコアとの相関は弱い(ピアソンのr=0.20)ことが示されました。自動化エンジンにより、TerminalWorldは設計上、本物でありスケーラブルであり、開発者の実践が進化するにつれて実環境の端末でエージェントを評価することが可能になります。データとコードは https://github.com/EuniAI/TerminalWorld で入手できます。
時系列の臨床記録には、患者の経時的な変化を示す豊富なエビデンスが含まれているが、このシグナルを臨床予測のための学習用教師信号に変換することは依然として課題である。我々は、時間順に整理されたMIMIC-IIIの記録を、過去の患者コンテキストと将来の可能性のあるイベントに関する自然言語の質問、および後続の文書から解決されたラベルからなる例に変換することで、Foresight Learningを臨床予測に拡張する。このプロセスにより、投薬、処置、臓器サポート、微生物学、死亡率にわたる702件の入院から6,900件の予測例が得られる。これらの例で訓練された小さなLoRAアダプタは、プロンプトを用いたベースモデルよりも改善され、期待キャリブレーション誤差を0.1269から0.0398に、ブライアスコアを0.199から0.145に低減し、保留質問におけるGPT-5の点推定値をわずかに上回る。このアプローチにより、手作業で設計された構造化特徴量やエンドポイント固有の分類器を必要とせずに、時系列記録から再利用可能な臨床予測の教師信号を得ることが可能になる。
製造可能なチップレイアウトは数千もの形状ベースの設計ルールを満たす必要があり、設計ルールチェック(DRC)は、レイアウト上で実行可能なDRCスクリプトを実行することでこれを強制する。自然言語のルールを正しいDRCスクリプトに翻訳する作業は労力がかかり、専門的な知識を要するため、DRCスクリプトの合成とデバッグにLLMエージェントを活用する動機となっている。しかし、既存のベンチマークは評価セットが小さく、スクリプトを実行の正確性ではなくコード類似性で評価することが多く、これまでの機械学習ベースの手法は実行フィードバックを無視するか、エージェントの入力としてラベル付きテストレイアウトを必要としていた。そこで我々は、Rule2DRCを導入する。これはDRCスクリプトコーディングエージェント向けの大規模ベンチマークであり、1,000のルール対スクリプトタスクと、実行ベースのスコアリングのための13,921の評価用チップレイアウトを提供する。Rule2DRCは、エージェントへの入力として評価レイアウトを必要とせずに、DRC実行結果を通じて機能的正当性を測定する評価パイプラインを提供する。また、実行フィードバックを利用して識別力の高いテストケースを生成し、従来は区別できなかった候補スクリプトを分離することで、この領域におけるBest-of-N選択性能を大幅に向上させるテスターエージェントであるSplitTesterも提案する。コードはhttps://github.com/snu-mllab/Rule2DRCで公開している。
検証可能な報酬からの強化学習(RLVR)は、LLMの推論において大きな可能性を示しているが、結果ベースのRLVRは難しい問題に対しては非効率的である。なぜなら、正しい最終回答に到達するロールアウトが稀であり、サンプルレベルのクレジット割り当てでは失敗した試みにおける部分的な進捗を活用できないからである。本論文では、SCRL(サブ問題カリキュラム強化学習)を導入する。これは、参照推論連鎖から検証可能なサブ問題を導出し、最終サブ問題を元の問題に固定するカリキュラム強化学習フレームワークである。これにより、難しい問題における部分的な進捗が検証可能な学習信号に変換される。アルゴリズム的には、SCRLはサブ問題レベルの正規化を使用する。これは各サブ問題の位置で独立に報酬を正規化し、得られたアドバンテージを対応する回答スパンに割り当てることで、外部の評価基準や報酬モデルなしでより細かいクレジット割り当てを可能にする。我々の分析は、サブ問題カリキュラムが難しい問題を勾配のデッドゾーンから引き上げ、元の問題が難しくなるほど相対的な利得が大きくなることを示している。7つの数学的推論ベンチマークにおいて、SCRLは強力なカリキュラム学習ベースラインを上回り、GRPOと比較して平均精度をQwen3-4B-Baseで+4.1ポイント、Qwen3-14B-Baseで+1.9ポイント改善した。AIME24、AIME25、IMO-Benchにおいて、SCRLはQwen3-4B-Base上でpass@1を+3.7ポイント、pass@64を+4.6ポイントさらに改善し、難しい推論問題でのより良い探索を示している。
ウェアラブルデバイスおよびモバイルデバイスが日常生活にますます組み込まれるにつれ、これらは実環境下で人間の動作を継続的にセンシングする実用的な手段を提供します。しかし、慣性信号は身体位置、装着位置、センサーの向き、デバイスハードウェア、サンプリングプロトコルなどのセンシング設定に大きく依存します。この設定依存性により、デバイスやデータセット間で転送可能な動作表現を学習することが困難になり、クローズドセット認識を超えたウェアラブルIMUの幅広い利用が制限されます。本論文では、設定非依存の人間動作モデリングのための幾何学を考慮したフレームワークAnyMoを紹介します。AnyMoは、密な体表面配置に対する物理学に基づくIMUシミュレーションを用いて多様で現実的な合成信号を生成し、ペア化された合成配置ビューとマスクされた部分観測からグラフエンコーダを事前学習し、複数位置のIMUを全身動作トークンにトークン化し、これらのトークンを大規模言語モデル(LLM)と整列させて動作言語理解を実現します。AnyMoを3つの補完的なタスクで評価します:14の未見の下流データセットにわたるゼロショット行動認識、クロスモーダル検索、およびウェアラブルIMU動作キャプショニングです。HARにおいて平均Accuracy/F1/R@2を11.7\%/11.6\%/22.6\%向上させ、ゼロショットのIMUからテキストおよびテキストからIMUへの検索MRRをそれぞれ15.9\%と28.6\%向上させ、ゼロショットキャプショニングのBERT-F1を18.8\%向上させました。これらの結果は、実環境下でのウェアラブル動作理解のための汎用モデルとしてAnyMoを支持するものです。プロジェクトページ:https://baiyuchen.com/project/AnyMo。
表現オートエンコーダ(RAE)は、凍結された視覚基盤モデル(VFM)をトークナイザエンコーダとして活用し、堅牢な高次表現を提供することで、潜在拡散モデルにおける高速な収束と高品質な生成を促進する。しかしながら、VFMを凍結すると、その空間再構成能力が本質的に制約され、詳細な生成や画像編集が制限される。一方、ファインチューニングによる再構成指向の信号の組み込みは、事前学習された意味空間を乱し、生成の忠実度を低下させる。このトレードオフに対処するため、我々はRAE向けのシンプルかつ効果的なフレームワークであるDecQを提案する。具体的には、DecQは軽量な詳細凝縮クエリを導入し、凝縮モジュールを介して中間VFM特徴から詳細な情報を抽出する。これらのクエリはデコーダに組み込まれて再構成を支援し、生成モデリング中にパッチトークンと共に生成される。浅い層と深い層の両方からの情報を集約することで、DecQは再構成と生成のトレードオフを効果的に緩和し、再構成品質と生成性能の両方を向上させる。実験結果は以下のことを示している。(1)わずか8個の追加クエリと3.9%の追加計算で、DecQは凍結されたDINOv2ベースのRAEよりも再構成を改善し、PSNRを19.13 dBから22.76 dBに向上させる。(2)生成モデリングにおいて、DecQはRAEよりも3.3倍高速な収束を達成し、ガイダンスなしでFID 1.41、ガイダンスありで1.05を達成する。
政治的テキストにおけるシュワルツ価値観の検出は困難である。なぜなら、暗黙的な手がかりは多くの場合、周囲の議論や近接する価値観間の微妙な差異に依存するからである。本研究では、文脈と明示的な道徳知識が文レベルでの価値観検出にいつ役立つかを調査する。ValuesML/Touché ValueEval形式を用いて、文、ウィンドウ、全文書の入力を比較する。厳選された道徳知識ベースを用いたno-RAG設定と検索拡張設定、教師ありDeBERTa-v3-base/largeエンコーダ、そして12Bから123BパラメータのゼロショットLLMを対象とする。結果は、より多くの文脈が一律に良いとは限らないことを示す。全文書の文脈は、文のみの入力と比較して教師ありDeBERTaエンコーダのマクロF1スコアを3.8~4.8ポイント向上させるが、ゼロショットLLMでは一貫した改善は見られない。検索された道徳知識は、一致比較においてより一貫して有用であり、初期融合条件下でテストした全モデルファミリーと文脈条件で改善が見られた。しかし、DeBERTa-v3-baseからlargeへのスケーリング、および12Bからより大きなLLMへのスケーリングは、必ずしも利得を保証せず、エンコーダにおいては単純な初期融合が、テストした後期融合やクロスアテンションRAG変種よりも優れている。価値観ごとの分析は、文脈と検索が、社会的に位置づけられた価値観や概念的に混同されやすい価値観において最も効果的であることを示す。これらの知見は、価値観に配慮したNLPは、長い入力をより大きなモデルを普遍的な改善として扱うのではなく、文脈、知識、モデルファミリーを総合的に評価すべきであることを示唆している。
全方位プロアクティブストリーミングビデオ理解、すなわち連続的な音声・映像ストリームからいつ発話すべきか、何を言うべきかを自律的に判断する能力は、全方位モーダル大規模言語モデルの新たな機能として登場している。既存のベンチマークには三つの主要な欠点がある:主に視覚信号に依存していること、ポーリング方式や固定タイムスタンプ方式を採用しており真のプロアクティブ評価ではないこと、カバーするタスクの範囲が限られていることである。これにより、全方位プロアクティブストリーミングモデルの信頼性のある評価と差別化が妨げられている。本論文では、全方位モーダル知覚、プロアクティブ応答、多様なビデオ理解タスクを共同で評価する初のベンチマークであるOmniProを提案する。OmniProは、9つのサブタスクと3つの認知レベルにわたる2,700の人間確認済みサンプルで構成され、6つの基本的なビデオ理解能力をカバーする。特筆すべきは、サンプルの84%が音声信号(発話または非発話)を必要とし、各サンプルにはモダリティ分離ラベルが付与されており、詳細なマルチモーダル分析が可能である。さらに、デュアルモード評価プロトコルを導入する:プローブモードでは、各グラウンドトゥルーストリガーの前後でモデルにクエリを実行してコンテンツ理解を評価し、オンラインモードでは、ストリーム入力においてモデルが自律的に応答タイミングを決定する完全なプロアクティブ能力を評価する。11の代表的なモデルを評価した結果、三つの主要な知見が得られた:(1)音声は一貫した性能向上をもたらすが、モデル間での活用度に大きなばらつきがある、(2)時間経過とともに性能が著しく低下し、長期的なロバスト性が限定的である、(3)非発話音声知覚が最も弱い次元である。
大規模言語モデル(LLM)がユーザーの目標形成、洗練、拡張の方法をますます形作る中、人間とAIの協働における貢献の帰属は、ユーザーが自身の依存度を調整し、評価者がAI支援作業を評価する上で極めて重要になりつつある。しかし、既存の手法は最終成果物に焦点を当てており、目標そのものが共同で形成されるプロセスを見落としている。我々は目標レベルの帰属フレームワークCoTraceを提案する。これは明示的な目標を検証可能な要件に分解し、対話ターン全体にわたる直接的な貢献と間接的な影響の両方を追跡する。CoTraceを638件の実世界の協働ログに適用した結果、モデルは目標形成の貢献の11~26%しか占めていないものの、より低レベルの具体的な要件の導入に大きく貢献し、さまざまな間接的な貢献を行っていることが判明した。制御されたシミュレーションを通じて、インタラクション設計の選択がモデルの目標形成行動に有意に影響を与えることを示す。ユーザー調査では、参加者に目標レベルの分析を提示することで、彼らの知覚する貢献が5段階評価で約2ポイント変動し、ユーザーが自身のAI支援作業をどのように理解しているかに体系的な較正の誤りが存在することが明らかになった。
Lean Refactorを提案する。これは、Lean証明の多目的・制御可能・バージョン耐性リファクタリングのためのプラグアンドプレイ型検索拡張エージェンティックフレームワークである。LLMが生成した証明は、正しいものの冗長でライブラリのバージョン間で脆弱であることが知られているが、既存のリファクタリング研究では以下の3つの実用的課題が見過ごされている。1) Leanのリファクタリングは本質的に多目的である(証明の長さ、コンパイルコスト、バージョン互換性がしばしばトレードオフの関係にある)。2) Leanリポジトリは互換性が脆弱である一方、LLMのリリースはLean/Mathlibのバージョンを認識しない。3) 学習ベースのパイプラインはLLMの新リリースごとに繰り返しファインチューニングが必要であり、モデルの更新頻度にもLeanのリリースサイクルにもスケールしない。Lean Refactorは、凍結されたエージェンティックLLMを、厳選された多目的リファクタリング戦略データベースからの検索によって誘導する。各戦略には、対応するLean/Mathlibバージョンや期待されるコンパイルコスト削減量などのメタデータが高密度に付与されている。実験では、競技用ベンチマークで70%超、研究リポジトリで20%超のトークンレベルの圧縮、最大60%のコンパイル時間削減を達成し、従来手法やClaude Codeを上回った。バージョンでフィルタリングされた検索により、対象Leanバージョンでの圧縮率がさらに向上し、リファクタリングされたminiF2F証明は、リファクタリングされていないものと比較して、将来のLeanリリースへのゼロショットバージョン転送性能が向上した。
クラス不均衡は医用画像セグメンテーションにおける根本的な課題であり、頻出クラスが訓練を支配し、希少クラスが犠牲になる傾向がある。損失ベースの手法では、バッチ内のピクセル単位の損失を再重み付けすることで不均衡を緩和する一方、サンプリング戦略はどの画像がバッチに入るかを制御する。しかし、いずれもバッチ内にどのクラスが現れるかを明示的に制御しないため、希少クラスの露出は部分的にしか再均衡化されない。本研究では、完全教師あり設定においてクラス均衡なバッチ構築を促進するために、数ショット学習からのエピソディックサンプリングを採用する。エピソディックサンプリングを従来のメトリック学習の文脈から切り離し、CTにおける体組成セグメンテーションで評価する。エピソディックサンプリングをランダムサンプリングおよび重み付きサンプリングと比較し、公開SAROSデータセットの210スキャンから得られた9種類の筋肉および脂肪組織を対象とする。訓練は完全データ条件下と低データ条件下で実施し、さらに訓練イテレーション予算を一致させた比較も行う。完全データ訓練では、3つの戦略は同程度の性能を示した(エピソディックで平均Dice 0.882、ランダムおよび重み付きで0.878)。低データ訓練では、エピソディックサンプリングがランダムおよび重み付きを上回り(0.787対0.758および0.762)、その差は訓練イテレーションの12倍の違いに起因する。訓練予算を一致させた条件下では、ランダムと重み付きは早期に過学習する一方、エピソディックは約3倍のイテレーションにわたって改善を続けてから頭打ちとなった。これらの知見は、訓練イテレーション予算がサンプリング戦略における認識不足の交絡因子であることを明らかにし、小規模データセットに対するイテレーションを考慮した評価プロトコルの必要性を示唆する。さらに、エピソディックサンプリングの残差の利点は、クラス均衡バッチによる暗黙の正則化効果と一致しており、クラス不均衡な医用画像セグメンテーションに対する低コストでモデル非依存の戦略を提供する。コードはhttps://github.com/iasonsky/episodic-samplingで入手可能である。
スケーリング則により、言語モデルの性能はモデルサイズ、データ、計算量から予測可能となったが、通常はオプティマイザを固定された訓練の詳細として扱っている。我々は、この仮定が表現スケーリングの基本的な軸を見落としていることを示す。すなわち、オプティマイザが追加されたFFN幅をどの程度効果的に利用されたスペクトル容量に変換するかである。フィードフォワードネットワーク表現の固有スペクトルを、ソフトおよびハードスペクトルランクを通じて測定することで、同じTransformerアーキテクチャでも異なるオプティマイザで訓練すると、著しく異なるスペクトルスケーリング則が実現されることを発見した。アーキテクチャと幅スケジュールを固定した場合、AdamWは学習が最も困難であることが知られている稀なトークン(TAIL)表現において弱いハードランクスケーリング(β=0.44)を示すのに対し、Muonは同じ条件下で線形スケーリング(β=1.02)を達成し、スケーリング指数が2.3倍増加している。この差は検証損失に還元できない。AdamWの構成は、訓練を延長することで、低ランクのDion変種とパープレキシティを一致させることができるが、スペクトル幾何は著しく異なっており、損失が一致しても表現構造が一致するわけではないことを示している。ハード-ソフトランクの非対称性はさらに、オプティマイザが実現される容量の大きさだけでなく、その容量が固有モード間でどのように構造化されるかにおいても異なることを明らかにしている。オプティマイザの効果とアーキテクチャの効果を区別するために、我々はアーキテクチャ介入(例:アテンションランクや位置エンコーディング)と比較し、オプティマイザによって引き起こされるスペクトルシフトがアーキテクチャの効果をしばしば上回ることを発見した。これらの結果は、最適化を表現スケーリングの第一級の軸として位置づけることを示唆しており、オプティマイザとアーキテクチャの共同設計を動機づける。
強プラトン的表象仮説は、人工ニューラルネットワークにおける表現の収束を建設的に活用できることを示唆している。すなわち、ペアデータなしで普遍的な潜在空間を通じてモデル間で埋め込みを変換できるのである。我々は、同様の幾何学が人間の脳全体で復元可能かどうかを問う。自然シーンデータセットのfMRIデータを用いて、繰り返し提示される刺激を利用することで脳データのみから被験者固有の埋め込みを学習する自己教師ありエンコーダを提案する。これらの独立に学習された空間が、被験者間のペアサンプルや中間モデル表現を必要とせずに、教師なし直交回転を用いて被験者間で変換可能であることを示す。ペアワイズ回転を単一の共有潜在空間に同期させることで、被験者間検索がさらに向上する。これは、被験者固有の空間が共通の座標系と相互に互換性があることを示している。これらの結果は、人間の視覚野における共有された神経幾何学の証拠を提供する。すなわち、被験者固有のfMRI表現は個人間で近似的に等長であり、純粋に幾何学的な変換を通じて変換可能である。
自然環境下での3次元動物再構築は、種の多様性、頻繁な遮蔽、多動物シーンの一般的な存在により依然として困難であり、既存の手法は主に単一動物設定に焦点を当てている。本稿では、単一画像からの多動物3次元再構築を可能にする初のプロンプト可能なフレームワーク「SAM 3D Animal」を提案する。SMAL+パラメトリック動物モデルに基づく本手法は、複数の個体を同時に再構築し、キーポイントおよびマスクの形で柔軟なプロンプトをサポートすることで、混雑した遮蔽シーンにおける信頼性の高い曖昧性解消を実現する。このようなモデルを訓練するために、種の多様性、相互作用、遮蔽パターンを拡充するよう設計された、5,000枚以上の画像を含む多動物3次元データセット「Herd3D」を新たに導入する。Animal3D、APTv2、Animal Kingdomデータセットでの実験により、本フレームワークは既存のモデルベースおよびモデルフリー手法を上回る最先端の結果を達成し、自然環境下でのプロンプト駆動型動物3次元再構築に対するスケーラブルで効果的なソリューションを示している。
インタラクティブなストリーミング音楽生成は、オフラインモデルでは不可能なライブパフォーマンスや共創に生成モデルを活用する実現を約束する。しかしながら、最先端のモデルは離散自己回帰モデルの領域に存在し、トレーニングと推論の両方に産業レベルの計算資源を必要とする。本研究では、オープンソースコミュニティで広くサポートされているが非ストリーミングかつ双方向的な性質を持つ音声拡散モデルが、コンシューマ向けハードウェアで利用可能なインタラクティブモデルへと効率的に転用可能かどうかを調査する。ブロック単位のアウトペインティング拡散の現代的なパイプラインを批判的に検討することで、推論時に生じる重要な非効率性を特定し、それが離散自己回帰モデルよりも厳密に劣る計算効率をもたらすことを明らかにする。我々は、Live Music Diffusion Models(LMDMs)を提案する。これは生成拡散プロセスの単純な修正であり、ブロック単位のKVキャッシングにより、離散型Live Music Models(LMMs)の推論計算量を回復し、さらにそれを上回る。LMMsとは異なり、LMDMsは我々の新規なARCフォーシングパラダイムを通じて安定した事後学習の調整を可能にし、明示的な強化学習や報酬モデルを用いずに誤差蓄積を低減する。我々は、テキスト条件付き生成、スケッチベースの音楽合成、ジャミングなどの多くの創造的領域におけるLMDMsの応用を示す。最後に、LMDMsが実際のアーティストとAIのコラボレーションにおいて生成型楽器としてどのように使用できるかを示す。これはLMDMsを「生成ディレイ」として活用し、コンシューマ向けゲーミングノートPC上でローカルに動作させながら、ミュージシャンの即興演奏をライブで変換して多様な音色効果を生み出すものである。
視覚慣性オドメトリ(VIO)は移動ロボットのナビゲーションに不可欠であり、多数の画素を持つカメラを利用する。しかし、カメラ画像の取得と処理には多大なリソースを要する。本研究では、平面オドメトリに対するミニマルなアプローチを提案し、わずか4つの視覚計測値とIMU(慣性計測ユニット)があれば、差動駆動ロボットに対して頑健な運動推定が可能であることを示す。我々の重要な知見は、光学ガボールマスクを通して外界を感知する4つの下向きフォトダイオードが、速度を符号化した信号を生成するという点にある。これに基づき、物理的に根拠のあるシミュレータを用いて、マスクパラメータと時間畳み込みネットワーク(TCN)を共同最適化する。その結果得られたモデルは、フォトダイオードによるわずか4つの計測値から速度を復号する。これらの速度推定値とIMUからの角速度を組み合わせることで、連続的な平面軌跡が得られる。我々は差動駆動ロボットに搭載した試作センサを用いて本手法を検証した。多様な屋内・屋外の地形において、本システムは実世界での微調整を行うことなく、基準となる真値に密に追従する。本研究は、ミニマルなセンシングにより効率的かつ高精度な平面オドメトリが実現できることを示している。
ファッション画像検索は、現代のeコマースシステムの基盤である。多様なクエリ形式や検索意図に対応可能な統一フレームワークが実務上強く求められている。しかしながら、既存手法は限定的な検索タスクに焦点を当てており、このような多様性を十分に捉えていない。そこで本研究では、多様な現実的なファッション検索シナリオを処理可能な統一フレームワークを開発し、真に汎用的なファッション画像検索を実現することを目指す。データ基盤を構築するため、まず断片的なファッションデータセットを統合した包括的なベンチマークU-FIREを導入する。これに加えて、汎化性能テスト用に手動で厳選した2つのデータセットを提供する。これに基づき、マルチモーダル大規模言語モデルに基づく統一フレームワークFashionLensを提案する。多様なマッチング目的に対処するため、適応的球面線形補間によりクエリ表現をタスクに整合した計量空間へ動的に変換する提案誘導型球面クエリキャリブレータを設計する。さらに、タスクの複雑さやデータ規模の違いによる最適化の不均衡を緩和するため、リアルタイムの学習困難度とデータ規模の事前情報に基づいてタスクを自動的に再重み付けする勾配誘導型適応サンプリング戦略を開発する。U-FIREでの実験により、FashionLensは多様な検索シナリオにおいて最先端の性能を達成し、未見のタスクに対しても頑健に汎化することが示された。データとコードはhttps://github.com/haokunwen/FashionLensで公開されている。