翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は、自然言語による記述を機能的なコードへ直接変換することを可能にし、自動化されたソフトウェア開発を根本的に変革しました。この進化は、Github Copilot(Microsoft)、Cursor(Anysphere)、Trae(ByteDance)、Claude Code(Anthropic)といったツールを通じて商業的な採用を促進しています。本分野は、ルールベースシステムからTransformerベースのアーキテクチャへと劇的に発展し、HumanEvalなどのベンチマークにおいて成功率を一桁から95%超へと飛躍的に向上させてきました。本研究では、コードLLMに関する体系的な総括と実践的ガイド(一連の分析・検証実験)を提供し、データキュレーションから高度なプロンプティング手法、コード事前学習、教師ありファインチューニング、強化学習、自律的コーディングエージェントを経るまでの完全なモデルライフサイクルを体系的に検証します。汎用LLM(GPT-4、Claude、LLaMA)とコード特化型LLM(StarCoder、Code LLaMA、DeepSeek-Coder、QwenCoder)のコード能力を分析し、技術的アプローチ、設計判断、トレードオフを批判的に検討します。さらに、学術研究(ベンチマークや課題)と実世界での展開(ソフトウェア関連のコードタスク)の間にある研究と実践の隔たり——コードの正確性、セキュリティ、大規模コードベースへの文脈理解、開発ワークフローとの統合などを含む——を明確にし、有望な研究方向性を実用的なニーズに対応づけます。最後に、スケーリング則、フレームワーク選択、ハイパーパラメータ感応性、モデルアーキテクチャ、データセット比較を網羅する、コード事前学習、教師ありファインチューニング、強化学習に関する一連の実験を通じて包括的な分析を提供します。
大規模マルチモーダルモデル(LMM)は、テキストによる連鎖思考(Chain-of-Thought)を用いた映像推論において大きな可能性を示している。しかし、特に証拠がまばらで時間的に分散する長尺映像の処理において、幻覚(hallucination)の影響を受けやすいという課題が残る。本研究では、人間が長尺映像を理解する方法——まず全体を俯瞰し、その後関連クリップを詳細に検討する——に着想を得て、マルチモーダルなツール連鎖思考(Multimodal Chain-of-Tool-Thought)を介して「長尺映像を用いた思考」を実現するエンドツーエンドのエージェントフレームワーク「LongVT」を提案する。具体的には、LMMが本来備える時間的定位能力を映像クリッピングツールとして活用し、特定の映像クリップに焦点を当て、より細かい粒度のフレームを再サンプリングする。この大域から局所への推論ループは、回答が確かな視覚的証拠に基づくまで繰り返される。長尺映像推論タスクにおける細粒度の質疑応答(QA)データの不足を鑑み、学習と評価の両方を支援するデータスイート「VideoSIAH」を整備し公開予定である。具体的には、学習データセットは、ツール統合型コールドスタート教師ありファインチューニング用24万7,900サンプル、エージェント強化学習用1,600サンプル、エージェント強化学習ファインチューニング用1万5,400サンプルで構成される。評価ベンチマークは、人間をループに組み込んだ半自動データパイプラインで慎重に精選された1,280のQAペアから成る。緻密に設計された3段階の学習戦略と広範な実証検証により、LongVTは4つの難易度の高い長尺映像理解・推論ベンチマークにおいて、既存の強力なベースラインを一貫して上回る性能を示した。コード、データ、モデルチェックポイントはhttps://github.com/EvolvingLMMs-Lab/LongVT で公開されている。
現在のマルチモーダルモデルは、単一モダリティ表現の限界を超え、理解と生成を統合することを目指しており、意味的一貫性の較正にテキスト対画像(T2I)タスクを頻繁に利用している。しかし、学習と評価における静的な単一画像生成への依存は、静的なパターンマッチングと意味的融合への過剰適合を招き、時間的経過とともに展開する動的プロセスのモデル化能力を根本的に阻害している。これらの制約に対処するため、我々はEnvisionを提案する。これは連鎖的テキスト対複数画像生成のための因果的事象進行ベンチマークである。世界知識に基盤を置き、時空間的因果関係で構造化されたこのベンチマークは、既存の評価次元を再編成し、6つの科学・人文分野にわたる1,000の四段階プロンプトを含む。評価を単一画像から連続フレームへ移行し、モデルが因果的・時間的制約を遵守しながら真に世界知識を内在化しているかを評価するため、多次元的一貫性、物理性、審美性を統合した総合的指標Envision-Scoreを導入した。15モデル(専門T2Iモデル10、統合モデル5)の包括的評価により以下が明らかになった:専門T2Iモデルは審美的レンダリングに熟達するものの、本質的な世界知識を欠如している。統合マルチモーダルモデルはこの隔たりを埋め、因果的ナラティブの一貫性において専門モデルを一貫して上回る。しかし、これらの統合アーキテクチャでさえクローズドソースモデルに劣り、時空間的一貫性という核心的課題を克服するのに苦戦している。これは、因果的に孤立した単一画像への注力が、多フレーム推論と生成を妨げ、動的世界モデリングよりも静的なパターンマッチングを促進し、最終的に世界知識の内在化と生成を制限していることを実証している。
本論文は、大規模言語モデルを用いた強化学習(RL)における新たな定式化を提案し、ポリシー勾配法(REINFORCEなど)において、真の系列レベル報酬が代理トークンレベル目的関数を通じて最適化される理由と条件を説明する。具体的には、一次近似を通じて、この代理目的関数が有効となるのは、学習と推論の乖離およびポリシーの陳腐化の両方が最小化された場合に限り、その正当性が高まることを示す。この知見は、重要度サンプリング補正、クリッピング、特にMixture-of-Experts(MoE)モデルにおけるRouting Replayなど、RL学習を安定化させる広く採用されている技術の重要性を原理的に説明するものである。合計数十万GPU時間に及ぶ30B MoEモデルを用いた大規模実験を通じて、オン方策学習においては、重要度サンプリング補正を組み込んだ基本ポリシー勾配アルゴリズムが最高の学習安定性を達成することを示す。収束を加速させるためにオフ方策更新を導入する場合、クリッピングとRouting Replayの組み合わせが、ポリシーの陳腐化による不安定性を緩和するために不可欠となる。特に、学習が安定化された後は、長時間の最適化により、コールドスタート初期化の違いに関わらず一貫して同等の最終性能が得られる。我々は、共有された知見と安定したRL学習のための確立された手法が、将来の研究を促進することを期待する。
深層研究エージェント(DRA)は、反復的な情報検索と統合を通じてアナリストレベルのレポートを自動生成することを目指す。しかし、既存のDRAの大半は質問応答ベンチマークで検証されており、包括的なレポート生成に関する研究は未だ軽視されている。さらに深刻なことに、現行のレポート統合ベンチマークは課題の複雑さと主観的評価指標に悩まされており、これはユーザーニーズを反映せず、生成レポートの実用性を制限している。これらの課題を解決するため、我々はFine-grained DEepResearch bench(FINDER)を提案する。これは100件の人手で精選された研究課題と419の構造化チェックリスト項目から構成される強化ベンチマークであり、レポート構造、分析的深さ、事実に基づく根拠を標準化する。主流DRAによって生成された約1,000件のレポートに基づき、我々はさらに深層研究エージェント初の失敗分類体系であるDeep rEsearch Failure Taxonomy(DEFT)を提案する。DEFTは推論、検索、生成の3領域にわたる14の詳細な失敗モードを含み、グラウンデッドセオリーに基づき、人間と大規模言語モデルの共同注釈及び注釈者間信頼性検証を経て構築された。実験結果から、現行のDRAは課題理解ではなく、証拠の統合、検証、および推論に耐える計画立案に苦戦していることが明らかとなった。
近年の映像拡散モデルは視覚的に魅力的なクリップを合成できるが、物体の浮遊、加速度の漂移、衝突の不整合など、基本的な物理法則に違反するケースが頻繁に観察される。これは視覚的リアリズムと物理的リアリズムの間に持続的な隔たりがあることを示している。本論文では、検証可能な報酬に基づく映像生成のための初の物理基礎型学習後フレームワーク「NewtonRewards」を提案する。人間やVLMのフィードバックに依存する代わりに、NewtonRewardsは凍結されたユーティリティモデルを用いて生成映像から測定可能な代理指標を抽出する:光フローは速度の代理指標として、高レベル外観特徴は質量の代理指標として機能する。これらの代理指標により、2つの相補的な報酬を通じてニュートン力学の構造を明示的に強制できる:ニュートン運動学制約は等加速度 dynamics を強制し、質量保存報酬は自明な退化解を防止する。我々は新たに構築した大規模ベンチマーク「NewtonBench-60K」を用いて、5つのニュートン運動プリミティブ(自由落下、水平/放物投擲、斜面滑り降り/登り)に対してNewtonRewardsを評価した。視覚指標と物理指標の全プリミティブにおいて、NewtonRewardsは従来の学習後手法を一貫して上回り、物理的妥当性、動作の滑らかさ、時間的一貫性を改善した。さらに高さ、速度、摩擦の分布外変化下でも強固な性能を維持した。我々の結果は、物理基礎型の検証可能報酬が物理認識映像生成へのスケーラブルな道筋を提供することを示唆している。
既存研究では、参照画像を基にした様々なカスタマイズ生成タスクが探究されてきたが、一貫性のある微細なディテールの生成には依然として課題があった。本論文では、参照画像誘導型の後編集アプローチを適用し、生成画像の不一致問題を解決するImageCriticを提案する。まず、VLMベースの選択と明示的な劣化処理により取得された参照-劣化-ターゲットの三組データセットを構築し、既存生成モデルで観察される一般的な不正確さや不一致を効果的に模倣する。さらに、モデルの注意機構と内在的表現に関する詳細な分析に基づき、注意整合性損失とディテールエンコーダを考案し、不一致を精密に補正する。ImageCriticはエージェントフレームワークに統合可能で、複雑なシナリオにおいて多段階のローカル編集により自動的に不一致を検出・修正できる。大規模な実験により、ImageCriticが様々なカスタマイズ生成シナリオにおけるディテール関連の問題を効果的に解決し、既存手法を大幅に上回る改善をもたらすことを実証する。
現在の自己回帰型ビデオ拡散モデルは、以下の3つの核心的ボトルネックに制約されている:(i) 基本モデルの3D回転位置埋め込み(3D-RoPE)によって課される有限の時間的視野、(ii) 長時間のロールアウトにおける細粒度の動作制御を維持する際の遅いプロンプト応答性、(iii) 単一の生成ストリーム内で不連続な映画的遷移を実現できない点。我々は、これら3つの制限を相互接続された3つのコンポーネント――ブロック相対論的RoPE、KVフラッシュ、RoPEカット――を通じて解決する推論時統一フレームワークであるinfty-RoPEを提案する。ブロック相対論的RoPEは、時間符号化を移動する局所基準枠として再定式化し、新たに生成される各潜在ブロックを基本モデルの最大フレーム視野に対して回転させると同時に、以前のブロックは相対的時間幾何学を保存するために後方へ回転させる。この相対論的定式化により固定時間位置が排除され、基本的位置制限をはるかに超えた連続的なビデオ生成が可能となる。再符号化なしで細粒度の動作制御を得るため、KVフラッシュはグローバルシンクと最後に生成された潜在フレームの2つの潜在フレームのみを保持してKVキャッシュを更新し、即時のプロンプト応答性を保証する。最後に、RoPEカットは時間的RoPE座標に制御された不連続性を導入し、単一の連続ロールアウト内でのマルチカットシーン遷移を可能とする。これらのコンポーネントが統合されることで、infty-RoPEは無限視野・制御可能・映画的なビデオ拡散のための学習不要の基盤を確立する。包括的実験により、infty-RoPEが従来の自己回帰モデルをVBench総合スコアで一貫して上回ることを示す。
統合マルチモーダルモデル(UMM)は、単一の枠組み内でマルチモーダル理解と生成を統合的に行うことを目指す。本論文では、VAEエンコーダと表現エンコーダをカスケード接続することで統合的な連続的視覚表現を構築する、ネイティブUMMであるTUNAを提案する。この統合表現空間により、画像と動画に対する理解タスクと生成タスクの両方をエンドツーエンドで処理可能となる。分離型表現を用いた従来のUMMと比較して、TUNAの統合視覚空間は個別のエンコーダによる表現形式の不一致を回避し、理解と生成の両面で分離型アプローチを上回る性能を示す。さらに、強力な事前学習済み表現エンコーダほど全てのマルチモーダルタスクで一貫して優れた性能を発揮することから、表現エンコーダの重要性が明らかとなった。最後に、この統合環境下では、理解データと生成データの両方で共同訓練を行うことで、両タスクが相互に干渉ではなく協調的に改善されることを確認した。大規模なマルチモーダル理解・生成ベンチマーク実験により、TUNAが画像/動画理解、画像/動画生成、画像編集において最先端の結果を達成し、その統合表現設計の有効性と拡張性が実証された。
本論文では、効率的なオンデバイス展開と強力なタスク性能を両立させるLiquid Foundation Models(LFM2)ファミリーを提案する。エッジ環境のレイテンシとメモリ制約下でハードウェアインザループのアーキテクチャ探索を行い、ゲート付き短縮畳み込みと少数のグループ化クエリ注意ブロックを組み合わせたコンパクトなハイブリッドバックボーンを構築した。これにより、同規模のモデルと比較してCPU上で最大2倍の高速なプリフィルおよびデコード処理を実現している。LFM2ファミリーは350M~8.3Bパラメータをカバーし、密モデル(350M/700M/1.2B/2.6B)と専門家混合モデル(合計8.3B/活性化1.5B)を包含する。全モデルは32Kトークンのコンテキスト長を有し、10-12兆トークンで事前学習されたLFM2は多様なベンチマークで優れた性能を発揮する(例:LFM2-2.6BはIFEvalで79.56%、GSM8Kで82.41%を達成)。さらに、マルチモーダル変種として視覚言語タスク用LFM2-VL、音声処理用LFM2-Audio、検索用LFM2-ColBERTを構築した。LFM2-VLはトークン効率の良い視覚処理により精度とレイテンシの調整を可能とし、LFM2-Audioは音声入出力経路を分離することで3倍大規模なモデルに匹敵するリアルタイム音声対話を実現する。LFM2-ColBERTは多言語対応の低レイテンシ検索エンコーダを提供する。全モデルはExecuTorch/llama.cpp/vLLM向けのオープンウェイトとデプロイメントパッケージを公開し、高速・省メモリ推論と強力なタスク性能を要するエッジアプリケーションの実用的基盤となっている。
知識グラフ(KG)は大規模言語モデル(LLM)に対して構造化された検証可能な基盤を提供するが、現行のLLMベースのシステムでは、KGをテキスト検索の補助構造として利用することが一般的であり、その本質的な品質は十分に探究されていない。本研究では、Wikonticを提案する。これは、修飾子付きの候補トリプルを抽出し、Wikidataベースの型と関係制約を適用し、重複を削減するためにエンティティを正規化することで、オープンドメインテキストからKGを構築する多段階パイプラインである。生成されるKGはコンパクトでオントロジー整合性が高く、接続性が良好である。MuSiQueでは、正解エンティティが生成トリプルの96%に出現した。HotpotQAでは、トリプルのみを用いた設定で76.0 F1を、MuSiQueでは59.8 F1を達成し、依然として文脈テキストを必要とする複数の検索拡張生成ベースラインを凌駕または匹敵する性能を示した。さらに、WikonticはMINE-1ベンチマークにおいて86%という最先端の情報保持性能を達成し、従来のKG構築手法を上回った。Wikonticは構築時にも効率的であり、KG構築に要する出力トークン数は1,000未満で、AriGraphの約3分の1、GraphRAGの20分の1未満である。提案パイプラインは、生成KGの品質を向上させ、LLMで構造化知識を活用するためのスケーラブルなソリューションを提供する。
大規模言語モデル(LLM)の近年の進歩は、特に詳細な探索と考察を可能にする長い連鎖思考(CoT)プロンプティングを通じて、創発的な推論能力によって牽引されてきた。しかしながら、こうした進歩にもかかわらず、長いCoTを用いるLLMは、しばしば「考えすぎ」や過度に長い推論連鎖といった、性能を損なう最適ではない推論行動を示す。本論文では、推論プロセスを最適化の観点から分析し、CoTを各推論ステップが問題解決への更新となる勾配降下法の手続きとして捉える。この視点に基づき、我々は学習後調整においてLLMの推論を改善する新しい手法であるRePro(プロセスレベル報酬補正)を提案する。ReProは、CoTの根底にある最適化プロセスを評価する代理目的関数を定義し、その強度と安定性を定量化する二重スコアリング機構を利用する。これらのスコアは複合的なプロセスレベル報酬に集約され、検証可能な報酬を用いた強化学習(RLVR)パイプラインにシームレスに統合されてLLMを最適化する。数学、科学、コーディングにわたるベンチマークで評価された、複数の強化学習アルゴリズムと多様なLLMを用いた大規模な実験により、ReProが推論性能を一貫して向上させ、最適ではない推論行動を軽減することが実証された。
拡散モデルは生成モデルの主要なクラスとして台頭しているが、その反復的なサンプリング過程は計算コストが高いままである。タイムステップ蒸留は生成を加速する有望な技術であるが、大規模な訓練を必要とし、画像品質の劣化を招くことが多い。さらに、美的魅力やユーザー嗜好といった特定の目的に対して、強化学習を用いてこれらの蒸留モデルをファインチューニングすることは、極めて不安定で報酬ハッキングに陥りやすいことで知られている。本研究では、蒸留とRLベースの精緻化を統合した高速収束を実現する新しいフレームワーク、Flash-DMDを提案する。具体的には、まず、訓練コストを大幅に削減しつつリアリズムを向上させる効率的なタイムステップ認識蒸留戦略を提案する。これはDMD2のわずか2.1%の訓練コストでそれを上回る性能を示す。次に、RL目標によるファインチューニングとタイムステップ蒸留訓練を同時に継続する共同訓練スキームを導入する。継続中の蒸留から得られる安定した明確な損失が強力な正則化器として機能し、RL訓練過程を効果的に安定化させ、ポリシー崩壊を防止することを実証する。スコアベースモデルとフローマッチングモデルを用いた大規模な実験により、提案するFlash-DMDが、数ステップのサンプリング体制において、大幅に高速に収束するだけでなく、視覚的品質、人間の嗜好、テキスト-画像整合性の指標において既存手法を上回る、最先端の生成品質を達成することを示す。本研究は、効率的で高忠実度、かつ安定した生成モデルを訓練するための効果的なパラダイムを提示する。コードは近日公開予定である。
Vision-Language-Action(VLA)モデルは、多様なロボットタスクにおいてその能力を急速に高めている。しかし、実際の環境への導入は依然として遅く非効率である。デモンストレーション動画は滑らかに見せるために5~10倍速で再生されることが多く、動作の停滞や環境変化への反応遅延が目立つ。非同期推論は、ロボットが動作の実行と推論を同時に行うことを可能にすることで、継続的かつ低遅延の制御を実現する有望な解決策である。しかし、推論中もロボットと環境が変化し続けるため、予測と実行の時間的なずれが生じる。これにより顕著な動作不安定が発生するが、既存手法はこれを緩和するために精度の低下や実行時オーバーヘッドの増大を招いている。本研究では、VLA向けの汎用非同期推論フレームワークVLASHを提案する。VLASHは、追加のオーバーヘッドやアーキテクチャ変更なしに、滑らかで正確かつ高速な反応制御を実現する。VLASHは、以前に生成されたアクションチャンクを用いてロボット状態を先回りして推定することで、予測と実行の間のギャップを埋める。実験では、VLASHが同期推論と比較して最大2.03倍の高速化と最大17.4倍の反応遅延低減を達成しつつ、元の精度を完全に維持することを示す。さらに、従来の同期推論では困難な、卓球やモグラたたきといった高速反応・高精度タスクをVLAで処理可能にする。コードはhttps://github.com/mit-han-lab/vlash で公開されている。
本論文では、一般化された視覚言語行動(VLA)ポリシーを、長期的で繊細なマニピュレーションにおいて高度に専門化されたポリシーへと変換するロボット学習フレームワーク「GR-RL」を提案する。既存のVLAポリシーでは、人間による実演の最適性を前提とすることが核心となっている。しかし我々は、高度に繊細で精密なマニピュレーションタスクにおいては、人間による実演はノイズが多く、最適ではないと主張する。GR-RLは、実演データを強化学習によってフィルタリング、拡張、強化する多段階の訓練パイプラインを提案する。第一に、GR-RLは視覚・言語条件付きのタスク進捗度を学習し、実演軌跡をフィルタリングして、進捗に寄与する遷移のみを保持する。具体的には、疎な報酬を用いたオフライン強化学習を直接適用することで、得られるQ値をロバストな進捗度関数として扱えることを示す。次に、GR-RLの汎化性能とパフォーマンスを大幅に向上させる形態的対称性拡張を導入する。最後に、高精度制御のためのVLAポリシーとその実動作をより良く一致させるため、潜在空間ノイズ予測器を学習するオンライン強化学習を実行する。このパイプラインにより、GR-RLは、我々の知る限り、複数のアイレットに靴紐を通して靴を結ぶという、長期的な推論、ミリメートルレベルの精度、および柔軟な軟体物との相互作用を必要とするタスクを83.3%の成功率で自律的に達成する初の学習ベースのポリシーである。GR-RLが、汎用ロボット基盤モデルが信頼性の高い実世界の専門家へと特化するための一歩となることを期待する。
大規模なビデオ-テキスト事前学習は強力な性能を達成するが、意味的カバレッジが限られたノイジーな合成キャプションに依存しており、物体の運動、3D形状、物理的手がかりなどの暗黙的な世界知識を見落としがちである。一方、マスク付きビデオモデリング(MVM)は時空間構造を直接活用するが、一般的なタスクではテキスト監視手法に劣る。この乖離は、見過ごされていた構造的問題に起因すると私たちは考える:ピクセルレベル再構築は収束に苦戦し、その低レベルな要求は意味論と衝突することが多い。また、潜在表現予測はしばしばショートカット学習を促進する。これらを解決するため、私たちは従来のエンコーダ-デコーダ設計をエンコーダ-予測器-デコーダ(EPD)フレームワークに分離する(予測器は潜在世界モデルとして機能)。さらに、この世界モデルのために意味的一貫性を保ちつつ詳細を保存する潜在空間を構築する二段階事前学習スキーム、InternVideo-Nextを提案する。第一に、ピクセルMVMにおける従来の線形デコーダは、予測器出力の潜在表現がピクセル空間へ線形射影されることを強制し、意味的抽象化との衝突を引き起こす。私たちのStage 1では、条件付き拡散デコーダを提案し、信頼性の高い画像レベルの意味的プライアを注入して意味論と収束性を強化し、ピクセルレベルの忠実性と高レベルな意味的抽象化を橋渡しする。Stage 2では、この空間内で凍結したStage 1のターゲットを予測することで世界知識をさらに学習し、ショートカット学習を軽減する。公開のラベルなしビデオで学習したInternVideo-Nextは、ベンチマークでState-of-the-Artの結果を達成し、一般化されたビデオ表現学習へのスケーラブルな道筋を提供する。
Flow-based生成モデルは近年高い性能を示しているが、サンプリングには通常、常微分方程式(ODE)の高コストな数値積分が伴う。Rectified Flowはほぼ直線的な確率経路を学習することでワンステップサンプリングを可能にするが、この直線性を達成するには計算コストの高い複数回のリフロー反復が必要である。MeanFlowは時間平均速度を直接モデル化することでワンステップ生成を実現するが、曲率の高いフローで学習する場合、収束が遅くノイズの多い教師信号という課題を抱える。これらの制約を解決するため、我々は単一のリフローステップのみで補正軌道に沿った平均速度場をモデル化するRectified MeanFlowを提案する。これにより完全に直線化された軌道を必要とせず、効率的な学習が可能となる。さらに、残留曲率を低減し性能を向上させる簡潔かつ効果的な打切りヒューリスティックを導入する。ImageNetにおける64×64、256×256、512×512解像度の大規模実験により、Re-MeanFlowがサンプル品質と学習効率の両面で、従来のワンステップフロー蒸留法やRectified Flow法を一貫して上回ることを実証した。コードはhttps://github.com/Xinxi-Zhang/Re-MeanFlowで公開されている。
本論文では、検索アルゴリズムの目的がLLMとの整合性を取ることにある点を指摘する。これはLLMにおける知識蒸留の目的と類似している。我々は、情報理論の観点から蒸留言語モデル(DLM)と元のLLMの情報焦点の類似性を分析し、DLMを検索アルゴリズムとして活用する新たなパラダイムを提案する。この知見に基づき、長文脈推論のためのアルゴリズムとシステムの協調設計であるSpeContextを発表する。(1) アルゴリズムレベルでは、SpeContextはDLMのヘッドレベル注意重みに基づく軽量検索ヘッドを提案し、冗長性の剪定により90%以上のパラメータ削減を達成する。(2) システムレベルでは、弾力的ロード戦略による非同期プリフェッチデータフローを設計し、KVキャッシュ検索とLLM計算を効果的に重畳させる。(3) コンパイルレベルでは、理論的メモリモデルを構築し、GPUメモリ利用率を最大化することで加速を実現する適応型メモリ管理システムを実装する。SpeContextをクラウドとエッジという二つのリソース制約環境に展開し評価した。大規模実験により、Huggingfaceフレームワークと比較して、SpeContextは精度劣化をほぼ無視しつつ、クラウド環境で最大24.89倍、エッジ環境で10.06倍のスループット向上を達成し、精度とスループットのパレートフロンティアを推進することを示した。
ストリーミング動画大規模言語モデル(VideoLLM)は、様々な動画理解タスクにおいて印象的な性能を示しているが、連続的な動画ストリームから得られる高密度な視覚トークンの処理に伴う高い計算コストにより、リアルタイム展開において重大な課題に直面している。ストリーミング動画シナリオでは、処理のボトルネックは主にVision Transformer(ViT)のエンコーディング段階にあり、時間的に類似したフレームの冗長な処理が非効率性を引き起こしている。さらに、LLMのプリフィリング段階における膨張したトークン列は、レイテンシとメモリオーバーヘッドをさらに悪化させる。これらの課題に対処するため、我々は既存のストリーミングVideoLLMにシームレスに統合可能なプラグアンドプレイ型の階層的フレームワークであるStreaming Token Compression(STC)を提案する。これはViTエンコーディング段階とLLMプリフィリング段階の両方を最適化し、処理を高速化する。STCは2つのトークンレベル加速器を導入する:時間的に類似したフレームからの特徴量をキャッシュして再利用することでViTエンコーディングのオーバーヘッドを削減するSTC-Cacherと、LLMに入力される前の視覚トークン列を圧縮し、空間的・時間的関連性に基づいて最も顕著なトークンのみを保持するSTC-Prunerである。5つのベンチマークを用いた4つのベースラインストリーミングVideoLLMにおける広範な実験により、STCが他の圧縮手法を上回る性能を示すことを実証した。特に、STCはReKVフレームワークにおいて精度を99%以上維持しつつ、ViTエンコーディングレイテンシとLLMプリフィリングレイテンシをそれぞれ24.5%、45.3%削減した。
大規模言語モデル(LLM)は、コード生成、数学的推論、エージェントベースのワークフローにおける応用を支える基盤技術である。実際のシステムでは、商用APIまたはオープンソースのデプロイメントを通じてLLMにアクセスし、モデル群(GPT、Claude、Llamaなど)は急速に進化している。この急速な進化は、性能、コスト、導入制約、プライバシーなどの要因により、頻繁なモデル切り替えを迫っている。しかし、プロンプトはモデルに対して極めて敏感であり、あるモデル用に設計されたプロンプトを別のモデルで再利用すると、対象モデル向けに最適化されたプロンプトに比べて性能が大幅に低下することが多い。我々はこの現象を「モデルドリフト」と呼ぶ。多様なLLM設定にわたる広範な実証分析を通じて、モデルドリフトが頻繁に発生し、かつ深刻であることを示す。この課題に対処するため、我々はPromptBridgeを提案する。これは学習不要のフレームワークであり、モデル切り替え下でもプロンプトの有効性を維持し、タスク単位やモデル単位での高コストな再最適化を必要とせずに、モデル間でのプロンプト転移を可能にする。PromptBridgeは較正用の少数のアライメントタスクのみを必要とする。まず、Model-Adaptive Reflective Prompt Evolution(MAP-RPE)を適用し、反復的な反省的改良と定量的評価を通じて、タスクおよびモデルに特化した最適プロンプトを獲得する。得られたソースモデルとターゲットモデル用の較正済みプロンプトペアを用いて、PromptBridgeはモデル間プロンプトマッピングを学習する。テスト時(未見タスクの場合)、ソースモデル用プロンプトが与えられると、このマッピングがターゲットモデル向けの最適化プロンプトを直接生成する。単一エージェントおよびマルチエージェント設定での実験により、PromptBridgeが下流タスクの精度を一貫して向上させながら、移行コストを削減することを実証する。コードは近日公開予定である。
テストタイム計算リソース拡張は、推論時に追加の計算資源を割り当てることで大規模言語モデル(LLM)の数学的推論能力を強化する有力なパラダイムとして登場した。しかし、現在の手法は全ての推論サブ問題に均一に資源を配分するため、困難なサブ問題には注意が不足し、日常的な操作には不釣り合いな資源が消費されるという根本的なボトルネックが生じている。この均一な配分は、追加の計算資源に対する収穫逓減を引き起こす性能ボトルネックを生み出す。二重過程理論に着想を得て、我々はサブ問題の難易度に基づいて計算資源を選択的に配分するフレームワークSCALE(Selective Resource Allocation)を提案する。SCALEは4つの段階で動作する:(1)問題を逐次的な推論サブ問題に分解、(2)各サブ問題の難易度評価により日常的操作と計算困難なサブ問題を区別、(3)単純なサブ問題にはシステム1、複雑な問題にはシステム2を割り当てる選択的処理モードの割り当て、(4)文脈伝播を伴う逐次実行。日常的操作を効率的に処理しつつ困難なサブ問題に資源を集中させることで、SCALEは優れた資源利用効率で大幅な性能向上を実現する。大規模な実験により、SCALEが均一拡張ベースラインを大幅に上回り、AIME25では57.50%から71.25%まで最大13.75ポイントの精度向上を達成しつつ計算コストを33%-53%削減できることが実証された。これは現在の手法の根本的限界に対処するテストタイム拡張技術の大きな進歩を示している。
多言語テキスト画像生成(T2I)モデルは、視覚的なリアリズムと意味的整合性において急速に進歩し、現在広く利用されている。しかし、その出力は文化的文脈によって異なる。言語は文化的含意を内包するため、多言語プロンプトから合成される画像は、言語横断的な文化的一貫性を保持すべきである。我々は包括的分析を行い、現在のT2Iモデルが多言語プロンプトに対して文化的に中立な、または英語バイアスのかかった結果を生成しがちであることを明らかにした。代表的な2つのモデルを分析した結果、この問題は文化的知識の欠如ではなく、文化関連の表現が十分に活性化されていないことに起因することが示唆された。我々は、文化に敏感な信号を少数の固定層内の小さなニューロン群に局在化させるプロービング手法を提案する。この知見に基づき、二つの相補的なアライメント戦略を導入する:(1)バックボーンのファインチューニングを必要とせず、特定されたニューロンを増幅する推論時文化的活性化、および(2)文化的に関連する層のみを更新する層ターゲット型文化強化である。我々が構築したCultureBenchを用いた実験により、忠実性と多様性を保ちつつ、強力なベースラインを上回る文化的一貫性の向上が一貫して確認された。
マルチモーダル大規模言語モデル(MLLM)における視覚トークンの急増は、特に高解像度画像や動画を処理する際に、過剰なメモリ消費と推論遅延を引き起こす。トークン剪定は冗長性を除去することでこの問題を緩和する技術であるが、既存手法はユーザークエリとの関連性を無視するか、注意機構の限界に起因する適応性・有効性の低下が課題であった。これらの課題に対処するため、我々は再学習不要で多様なMLLMに汎化するプラグアンドプレイ型剪定手法「Script」を提案する。Scriptは二つのモジュールで構成される:視覚的に冗長なトークンを除去するグラフ構造剪定モジュールと、クエリ関連の視覚情報を保持するクエリ条件付き意味剪定モジュールである。両者が協調してマルチモーダルタスクの性能向上を実現する。画像・動画理解タスクにおける14のベンチマーク実験により、Scriptが既存剪定手法と比較して一貫して高いモデル効率と予測精度を達成することを示す。LLaVA-NeXT-7Bでは、最大6.8倍のプリフィル速度向上と10倍のFLOP削減を達成しつつ、元の性能の96.88%を維持した。
単一画像からの画素単位の幾何特性の復元は、見た目の曖昧性と、2D観測と3D構造との間の非単射的な写像により、原理的に不良設定問題である。識別的な回帰モデルは大規模な教師あり学習により高い性能を達成するが、その成功は利用可能なデータの規模・品質・多様性、および限られた物理的推論に制約される。近年の拡散モデルは、大規模な画像-テキストデータから学習された幾何情報と意味情報を符号化する強力な世界事前分布を示すが、その確率的な生成定式化を決定論的な幾何推論に直接再利用することは最適ではない。前者は多様で高精細な画像生成に向けて最適化されているのに対し、後者は安定かつ正確な予測を必要とするためである。本研究では、事前学習された生成的事前分布を最大限に活用する最適な適応プロトコルを提供するため、安定・正確・細粒度な幾何的密な予測のための2段階決定論的フレームワークであるLotus-2を提案する。具体的には、第1段階では、コア予測器が、クリーンデータ目的関数と軽量な局所連続性モジュール(LCM)を用いた単一段階の決定論的定式化を採用し、グリッドアーティファクトのない大域的に一貫した構造を生成する。第2段階では、詳細シャープナーが、コア予測器によって定義された多様体内で制約付き多段階整流フロー精緻化を実行し、ノイズのない決定論的フローマッチングを通じて微細な幾何形状を強化する。既存の大規模データセットの1%未満である59Kの訓練サンプルのみを使用して、Lotus-2は単眼深度推定において新たなstate-of-the-artを達成し、表面法線予測においても高い競争力を示す。これらの結果は、拡散モデルが決定論的世界事前分布として機能し、従来の識別的・生成的パラダイムを超えた高品質な幾何推論を可能にすることを実証している。
ストリーミング動画理解には、時間的に連続するフレームを処理するだけでなく、ARグラスなどの現実的な応用に向けてユーザーの意図を予測する能力がモデルに求められる。既存のストリーミング評価ベンチマークは時間的推論を評価するが、MLLMがストリーミング環境下で人間の注視信号を解釈または活用できるかを測定するものはない。この空白を埋めるため、我々はストリーミング動画においてMLLMが注視情報を時間的・能動的推論にどの程度効果的に活用できるかを評価する初のベンチマーク「StreamGaze」を提案する。StreamGazeは、注視誘導型の過去・現在・能動的タスクを導入し、ストリーミング動画理解を包括的に評価する。これらのタスクは、モデルがリアルタイムの注視情報を用いて移動する注意力を追跡し、過去および現在観測されたフレームのみからユーザー意図を推論できるかを評価する。 StreamGaze構築のため、注視点抽出、領域特化的な視覚的プロンプト生成、スキャンパス構築を経て、エゴセントリック動画と生の注視軌跡を整合させるQA生成パイプラインを開発した。このパイプラインは、人間の知覚ダイナミクスを忠実に反映した時空間的に根拠付けられたQAペアを生成する。全てのStreamGazeタスクにおいて、最先端MLLMと人間の性能には大きな隔たりが観察され、注視に基づく時間的推論、意図モデリング、能動的予測における根本的限界が明らかになった。さらに、注視プロンプト戦略、推論挙動、タスク特有の失敗モードに関する詳細分析を提供し、現在のMLLMが苦戦する理由と将来のモデルが習得すべき能力について深い示唆を与える。全てのデータとコードは公開し、注視誘導型ストリーミング動画理解の継続的研究を支援する。
DeepSeek-R1に触発された最近のマルチモーダル推論モデルは、視覚言語システムを大幅に進歩させてきた。しかし、リモートセンシング(RS)タスクにおいて、我々は広範に見せかけの推論(pseudo reasoning)を観察する。すなわち、モデルは視覚的証拠に基づいて正解へ真に推論するのではなく、推論のプロセスを叙述するのである。我々はこれを「一瞥効果(Glance Effect)」に帰する。これは、大規模なRS画像に対する単一の粗い知覚が不完全な理解を生み、視覚的証拠ではなく言語的な自己一貫性に基づく推論をもたらす現象である。この問題に対処するため、我々はRS-EoT(Remote Sensing Evidence-of-Thought)を提案する。これは、言語駆動型の反復的な視覚的証拠探索パラダイムである。このパラダイムを組み込むために、推論と視覚的検査を交互に行うサイクルを通じて推論トレースを合成する、自己対戦型マルチエージェントシステムであるSocraticAgentを提案する。これらのパターンを強化し一般化するために、2段階の漸進的強化学習(RL)戦略を提案する。まず、細粒度のグラウンディングタスクに対するRLでRS-EoT能力を強化し、その後、RS VQAに対するRLでより広範な理解シナリオへ一般化する。実験により、RS-EoTは複数のRS VQAおよびグラウンディングベンチマークでState-of-the-Art性能を達成することを示す。分析により、推論と証拠探索の明確な反復サイクルが明らかとなり、RS-EoTが一瞥効果を軽減し、真の証拠に基づく推論を可能にすることが確認された。コード、データ、モデルはhttps://geox-lab.github.io/Asking_like_Socratesで公開されている。
グラフィカルユーザーインタフェース(GUI)エージェントが逐次的なナビゲーションタスクを実行するには、履歴コンテキストを効果的に活用する必要がある。過去の行動と観察結果を組み込むことで意思決定を改善できるが、履歴全体を単純に使用すると計算オーバーヘッドが過剰となり、無関係な情報による注意散漫を招く。この問題に対処するため、我々は履歴情報を効率的かつ効果的に活用するために、履歴コンテキスト認識方策最適化(HCPO)で学習させたGUIエージェント「HiconAgent」を提案する。HCPOは、二つの相補的なコンポーネントを通じて、サンプリングと方策更新の両方における履歴の使用法を最適化する:(1)動的コンテキストサンプリング(DCS)は、サンプリング中に可変長の履歴をエージェントに提示し、最も関連性の高いコンテキストを適応的に利用できるようにする;(2)アンカー誘導履歴圧縮(AHC)は、圧縮ブランチが履歴の観察結果を除去しながらも情報フローのアンカーとして履歴行動を保持するデュアルブランチ戦略により、方策更新段階を改良する。圧縮ブランチと非圧縮ブランチは、履歴強化アライメント損失を介して結合され、効率性を維持しつつ一貫した履歴利用を強制する。主要なGUIナビゲーションベンチマークでの実験により、優れた性能が実証された。HiconAgent-3Bは、モデルサイズが小さいにもかかわらず、GUI-OdysseyにおいてGUI-R1-7Bを接地精度で+8.46%、ステップ成功率で+11.32%上回り、AndroidControlおよびAITWでは最大2.47倍の計算速度向上と60%のFLOPs削減を達成しつつ、同等の結果を得た。
大規模推論モデル(LRM)は数学、コード生成、タスク計画において強力な性能を発揮するが、冗長な「思考」トークンの長い連鎖に依存するため、高レイテンシ、冗長性、非連続的な推論経路という課題を抱えている。本論文では、人間の推論が「メンタリーズ」と呼ばれる記号的で合成的な精神言語で行われるとする思考言語仮説に着想を得て、同様に圧縮された様式で推論を行うモデルを訓練するフレームワークを提案する。メンタリーズは抽象推論を超高密度・構造化トークンとして符号化し、モデルがはるかに少ないステップで複雑な問題を解決することを可能にする。効率性と正確性の両立を目指し、我々は「より短い長さを優先する最適化(SLPO)」を提案する。これは、正確性を維持した簡潔な解法を報酬としつつ、必要に応じて長い推論も許容する強化学習手法である。メンタリーズに適合したモデルにSLPOを適用した結果、計算オーバーヘッドなしに詳細な思考の利点を保持しつつ、大幅に高い圧縮率を実現した。AIME 2024/2025、MinervaMath、OlympiadBench、Math500、AMCを含むベンチマークにおいて、我々のORIONモデルは、DeepSeek R1 Distilledモデルと比較して、推論トレースのトークン数を4~16分の1に削減、推論レイテンシを最大5倍低減、訓練コストを7~9分の1に削減しつつ、その精度の90~98%を維持した。ORIONは、ClaudeやChatGPT-4oに対しても最大5%の精度向上と2倍の圧縮率維持を達成している。これらの結果は、メンタリーズ様式の圧縮推論が、人間に似た認知的効率性への一歩を示し、精度を犠牲にすることなく、リアルタイムでコスト効率の高い推論を実現することを示唆している。
拡散モデルに基づくInversion-Denoising Paradigmは、多様な画像編集・復元タスクにおいて優れた性能を発揮する。本論文ではそのメカニズムを再検討し、再構成品質の劣化における重要な見過ごされ要因、すなわち近似ノイズ誤差を明らかにする。この誤差は、ステップtにおけるノイズをステップt-1での予測値で近似することに起因し、反転プロセス全体で深刻な誤差蓄積を引き起こす。我々は、頑健で適応的な反転のためのProjection-Orthogonal Least Squares(POLARIS)を提案する。POLARISは、反転問題を誤差補償問題から誤差起源問題へと再定式化する。埋め込みや潜在コードを最適化して蓄積されたドリフトを相殺する代わりに、POLARISはガイダンス係数ωをステップごとの変数として扱い、各ステップでの反転誤差を数学的に最小化する式を導出する。特筆すべきは、POLARISがわずか1行のコード変更で潜在表現の品質を向上させる点である。無視できる程度の性能オーバーヘッドで、ノイズ近似誤差を大幅に軽減し、下流タスクの精度を一貫して向上させる。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させ、効果的なマルチターンおよびツール統合型の推論を実行する自律エージェントを実現してきた。エージェントを定義する主要なプロトコルとして指示文が用いられるが、RLVRでは一般に、静的に手設計された指示文に依存している。しかし、これらの指示文は基盤モデルに対して最適ではない可能性があり、最適な指示文は、エージェントの方策が改善され環境との相互作用が探索されるにつれて変化する可能性がある。この隔たりを埋めるため、我々は指示文最適化を強化学習(RL)ループの動的要素として統合する、新しい指示文-方策共進化フレームワークであるINSPOを提案する。INSPOは、質問と共にサンプリングされる動的な指示文候補群を維持し、RLループ内の報酬信号が各指示文に自動的に帰属され、低性能の指示文は定期的に剪定される。新しい指示文は、方策に基づく反射メカニズムを通じて生成・検証される。これは、LLMベースのオプティマイザがリプレイバッファからの過去の経験を分析し、現在の方策を踏まえてより効果的な戦略を進化させるものである。マルチターン検索および推論タスクにおいて広範な実験を行い、INSPOが静的な指示文に依存する強力なベースラインを大幅に上回ることを実証した。INSPOは、エージェントをより戦略的な推論経路へ導く革新的な指示文を発見し、計算オーバーヘッドのわずかな増加のみで大幅な性能向上を達成する。
専門的な臨床AIアシスタントが医療現場に急速に浸透しつつあり、汎用大規模言語モデル(LLM)よりも安全または信頼性が高いと位置づけられることが多い。しかし、最先端モデルとは異なり、これらの臨床ツールは独立した定量的評価がほとんど行われておらず、診断、トリアージ、ガイドライン解釈への影響が拡大しているにもかかわらず、重大なエビデンス格差が生じている。我々は、MedQA(医学知識)とHealthBench(臨床家整合性)タスクを組み合わせた1,000項目のミニベンチマークを用いて、広く導入されている2つの臨床AIシステム(OpenEvidenceとUpToDate Expert AI)を、3つの最先端汎用LLM(GPT-5、Gemini 3 Pro、Claude Sonnet 4.5)と比較評価した。汎用モデルは臨床ツールを一貫して上回り、GPT-5が最高スコアを達成した一方、OpenEvidenceとUpToDateは、完全性、伝達品質、文脈認識、システムベースの安全推論において課題を示した。これらの知見は、臨床意思決定支援として販売されているツールが最先端LLMに遅れをとっている場合が多いことを明らかにし、患者対応ワークフローへの導入前における透明性のある独立した評価の緊急性を浮き彫りにしている。
テストタイムスケーリング(TTS)――推論時の計算資源の動的割り当て――は、大規模言語モデル(LLM)の推論能力を向上させる有望な方向性である。しかし、同一条件下での既知のTTS戦略の体系的な比較は不足しており、モデルタイプや問題の難易度が性能に与える影響も不明なままである。これらの課題に対処するため、我々は4つの推論データセットを用い、8つのオープンソースLLM(7Bから235Bパラメータ)によって生成された300億トークン以上にわたる、初の大規模なTTS研究を実施した。以下の3つの一貫した傾向を観察した:(1)普遍的に優位な単一のTTS戦略は存在しない;(2)推論モデルは、問題の難易度と思考過程の長さにわたって特徴的なトレース品質パターンを示し、短期視野型と長期視野型のカテゴリを形成する;(3)あるモデルタイプにおいて、最適なTTS性能は計算バジェットに対して単調にスケールする。これらの知見に基づき、問題の難易度、モデルタイプ、計算バジェットを考慮した最適なTTS戦略を選択する実用的なレシピを提供し、効果的な推論時スケーリングへの実践的指針を示す。
近年、画像編集モデルは次世代の知的能力を誇り、認知と創造性に基づいた画像編集を促進しています。しかし、既存のベンチマークは評価範囲が狭すぎるため、これらの高度な能力を包括的に評価できていません。この問題に対処するため、我々はWiseEditを提案します。これは、深いタスクの深さと広範な知識の幅を特徴とする、認知と創造性に基づいた画像編集の包括的評価のための知識集約型ベンチマークです。 人間の認知的創造過程との類推から、WiseEditは画像編集を3つの連鎖的ステップ、すなわち「認識」「解釈」「想像」に分解し、各ステップは特定の段階でモデルが完了するのが困難なタスクに対応しています。また、これら3つのステップのいずれも容易に完了できない複雑なタスクも含みます。さらに、WiseEditは3つの基本的な知識タイプ、すなわち「宣言的知識」「手続き的知識」「メタ認知的知識」を組み込んでいます。 最終的に、WiseEditは1,220のテストケースから構成され、最先端の画像編集モデルが知識ベースの認知的推論と創造的構成能力において抱える限界を客観的に明らかにします。ベンチマーク、評価コード、および各モデルで生成された画像はまもなく公開される予定です。プロジェクトページ: https://qnancy.github.io/wiseedit_project_page/
既存のカメラ制御型動画生成モデルは映画的な結果を生成可能だが、3D一貫性と高精細な時間同期マルチビュー動画の生成へ直接拡張することは依然として困難であり、これは4D世界を制御するための重要な能力である。一部の研究はデータ拡張やテスト時最適化を採用するが、これらの手法はモデルの一般化能力の限界と拡張性の問題に制約される。そこで本論文はChronosObserverを提案する。これは学習不要な手法であり、4D世界シーンの時空間的制約を表現する「世界状態ハイパースペース」と、ハイパースペースを用いて複数ビューの拡散サンプリング軌道を同期させる「ハイパースペース誘導サンプリング」を含む。実験結果により、本手法が拡散モデルの学習やファインチューニングを必要とせず、高精細かつ3D一貫性のある時間同期マルチビュー動画の生成を実現することを示す。
我々は、従来の演算子選択・離散化・固有値解法を必要とせず、非構造化データから形状及び多様体解析のためのスペクトル基底を直接学習する新規フレームワークを提案する。最適近似理論に基づき、プローブ関数の選定された分布において学習された基底における再構成誤差を最小化することにより、陰的近似演算子を分解するネットワークを訓練する。適切な分布において、本手法は幾何学処理の基礎であるラプラシアン演算子とその固有分解の近似と見なすことができる。さらに、本手法はスペクトル基底のみならず、陰的計量のサンプリング密度及び基礎演算子の固有値を統一的に回復する。特筆すべきは、本教師なし手法はメッシュ化や多様体次元といったデータ多様体に関する仮定を設けず、任意の次元のデータセットに拡張可能である点である。3次元表面上の点群及び高次元画像多様体において、本手法は演算子の明示的構築なしに、ラプラシアンのそれに類似した有意義なスペクトル基底を生成する。従来の演算子選択・構築・固有分解を学習ベースアプローチに置き換えることで、本フレームワークは従来の処理パイプラインに対する原理的かつデータ駆動型の代替手段を提供する。これは特に高次元空間における非構造化データの幾何学処理に新たな可能性を開くものである。
コンピュータビジョンにおける長年の課題は、ビデオから動きをモデル化することですが、動きの背後にある表現、すなわち物体を変形・移動させる目に見えない物理的相互作用については、ほとんど研究が進んでいません。本論文では、視覚的観察から目に見えない力を復元する方法、例えば、地面に落ちる葉を観察して風の場を推定する方法を研究します。我々の重要な革新は、ビデオから直接、物体の形状、物理的特性、および相互作用を共同でモデル化する、エンドツーエンドの微分可能な逆グラフィックスフレームワークです。バックプロパゲーションを通じて、本手法は物体の動きから力の表現を復元することを可能にします。合成および実世界のシナリオで本手法を検証し、ビデオから妥当な力場を推論できることを実証します。さらに、物理ベースのビデオ生成や編集を含む、本手法の潜在的な応用例を示します。本アプローチが、ピクセルの背後にある物理プロセスの理解とモデル化に光を当て、視覚と物理学の間のギャップを埋める一助となることを期待します。より多くのビデオ結果はプロジェクトページ(https://chaoren2357.github.io/seeingthewind/)でご確認ください。
大規模言語モデルは高リソース多言語タスクでは優れた性能を示すが、低リソース及び極少リソースのインド系言語については、依然として評価が著しく不足している。本論文では、11の言語(低リソース:ネパール語、グジャラート語、マラーティー語、オディア語、極少リソース:ドーグリー語、マイティリー語、ラージャスターン語、サンスクリット、ボド語、サンターリー語、コンカニ語)に加え、サンスクリットと英語のコード混合データセットを対象とした、人間による精選を経た13,000問以上の多肢選択式問題から構成されるベンチマーク「IndicParam」を提案する。19のプロプライエタリ及びオープンウェイトの大規模言語モデルを評価した結果、最高性能のGPT-5でも平均正解率は45.0%に留まり、DeepSeek-3.2(43.1%)、Claude-4.5(42.7%)が続くことが明らかになった。さらに、各問題を知識指向型と純粋言語学型に分類し、事実の記憶力と文法的熟達度を区別して評価する。加えて、従来の多肢選択式問題に加え、リストに基づくマッチング、主張と理由のペア、順序付けなど、多様な問題形式を扱う能力を評価する。IndicParamは、言語間転移の限界に関する知見を提供し、インド系言語における挑戦的なベンチマークを確立するものである。データセットは https://huggingface.co/datasets/bharatgenai/IndicParam で公開されている。ベンチマーク実行用スクリプトは https://github.com/ayushbits/IndicParam で提供されている。
現在のストーリー可視化手法は、被写体の配置をテキストのみに依存する傾向があり、芸術的一貫性の維持に課題を抱えています。これらの限界を克服するため、我々はレイアウトを考慮したストーリー可視化フレームワーク「DreamingComics」を提案します。事前学習済みのビデオ拡散トランスフォーマー(DiT)モデルを基盤とし、その時空間的な事前知識を活用することで、アイデンティティとスタイルの一貫性を強化します。レイアウトに基づく位置制御のために、対象レイアウトに基づいて埋め込みを再索引付する領域認識位置符号化方式「RegionalRoPE」を提案します。さらに、マスク条件付き損失を導入し、各被写体の視覚的特徴を指定領域に制約します。自然言語スクリプトからレイアウトを推論するため、漫画風レイアウトを生成するように学習させたLLMベースのレイアウト生成器を統合し、柔軟で制御可能なレイアウト条件付けを実現します。本手法を包括的に評価した結果、従来手法と比較してキャラクター一貫性が29.2%、スタイル類似性が36.2%向上し、高い空間精度を示すことを確認しました。プロジェクトページはhttps://yj7082126.github.io/dreamingcomics/で公開されています。
因果推論は、単に見えているものを理解するだけでなく、その背後にある原因を理解する人間の能力を支えている。この能力を現代のAIシステムで再現するため、我々は視覚的因果発見という新たなタスクを提案する。このタスクでは、モデルが視覚的実体の存在を単に知覚するのではなく、多様なシナリオにおいてそれら間の因果関係を推論することを要求する。この目的に向けて、我々はまず、エンティティレベルの因果グラフで注釈付けされた32,000枚以上の画像からなる大規模データセットVCG-32Kを構築した。さらに、因果認識推論を通じて視覚的因果発見を行う新しい視覚言語モデルCauSightを開発した。我々の学習手法は3つの要素を統合している:(1) VCG-32Kからの学習データキュレーション、(2) 推論軌道を合成するための因果思考木(ToCT)、(3) 推論方針を洗練させるために設計された因果報酬を用いた強化学習。実験の結果、CauSightは視覚的因果発見タスクにおいてGPT-4.1を大幅に上回り、性能を3倍以上(21%の絶対向上)向上させることを示した。コード、モデル、データセットは全てプロジェクトページ(https://github.com/OpenCausaLab/CauSight )で公開している。
近年、教師ありファインチューニング(SFT)による必須の運転知識の獲得と、強化学習ファインチューニング(RFT)による意思決定・計画能力のさらなる強化という、2段階のファインチューニング戦略が、知識駆動型自律走行(AD)パラダイムを進展させる上で強い可能性を示している。しかし、SFTの学習特性は依然として推論の汎化を制限し、運転性能の真の潜在能力を拘束している。一方、現在のRFT手法は、シーン理解が対応する報酬の定量化が困難なオープンエンドな問題であるため、主に下流タスクに適用されている。これらの課題を解決するため、我々はOpenREADを提案する。これは、高水準の推論から低水準の軌道計画に至る全範囲にわたってエンドツーエンドのRFTを可能にする、オープンエンドな推論を強化したビジョン言語モデル(VLM)ベースの自律走行(AD)フレームワークである。具体的には、まずオープンソースの運転関連知識データセットに対して大規模な連鎖思考(Chain-of-Thought, CoT)アノテーションを構築し、強力なQwen3大規模言語モデル(LLM)をRFTにおける批評家として活用して、報酬モデリングにおけるオープンエンドな質問に対する推論の質を定量化する。大規模な実験により、エンドツーエンドの共同RFTが上流・下流の両タスクにおいて大幅な改善をもたらし、OpenREADが推論及び計画のベンチマークでState-of-the-Artの性能を達成できることが確認された。
オープンソースのテキスト専用翻訳大規模言語モデル(LLM)は、言語カバレッジと品質において著しい進歩を遂げている。しかし、音声翻訳(ST)においてこれらのモデルは、音声認識を先行させた後に翻訳を行うカスケード型パイプラインでのみ使用される。これにより追加の遅延が生じ、特に同時通訳型ST(SimulST)においては深刻な問題となり、曖昧性解消に寄与し得る画像などのマルチモーダルな文脈をモデルが活用するのを妨げている。事前学習済みマルチモーダル基盤モデル(MMFM)は、複数のモダリティにわたる強力な知覚・推論能力を既に有するが、専用の翻訳LLMが持つ多言語カバレッジや特化した翻訳性能には一般に欠ける。効果的なマルチモーダル翻訳システムを構築するため、我々はMMFMと翻訳LLMを融合するエンドツーエンドのアプローチを提案する。事前学習済みMMFMの複数層から得られる隠れ状態を翻訳LLMに接続する新たな融合戦略を導入し、共同のエンドツーエンド学習を可能にする。この結果得られたモデル、OmniFusion(MMFMとしてOmni 2.5-7B、翻訳LLMとしてSeedX PPO-7Bを基盤)は、音声→テキスト、音声+画像→テキスト、テキスト+画像→テキストの翻訳を実行可能である。実験により、OmniFusionが音声入力と視覚入力を効果的に活用し、カスケード型パイプラインと比較してSimulSTにおいて1秒の遅延削減を達成するとともに、全体的な翻訳品質も向上させることが実証された。コードはhttps://github.com/saikoneru/OmniFusion で公開されている。
カメラと物体の運動は、ビデオの叙述において中心的な役割を果たす。しかし、特に複雑な物体運動下では、これらの撮影された運動を精密に編集することは依然として大きな課題である。現在のモーション制御画像-動画(I2V)手法は、一貫性のある動画編集のための完全なシーンコンテキストを欠くことが多く、一方で動画-動画(V2V)手法は視点の変化や基本的な物体移動を提供するが、細粒度の物体運動に対する制御は限定的である。本論文では、カメラと物体の運動を共同編集可能にするトラック条件付きV2Vフレームワークを提案する。これを実現するため、動画生成モデルをソース動画と、ソース及びターゲットの運動を表現する対をなす3次元ポイントトラックに条件付けする。これらの3次元トラックは、時空間的一貫性を保ちながら、ソース動画から豊富なコンテキストを新しい運動に転送する疎な対応関係を確立する。決定的に、2次元トラックと比較して、3次元トラックは明示的な深度手がかりを提供し、モデルが深度順序を解決し、精密な運動編集のためにオクルージョンを処理することを可能にする。合成データと実データを用いた2段階の訓練により、本モデルは、共同カメラ/物体操作、運動転送、非剛体変形を含む多様な運動編集をサポートし、動画編集における新たな創造的可能性を解き放つ。
甲状腺癌の世界的な増加に伴い、様々なコンピュータ支援検出法が開発されている。甲状腺結節の正確なセグメンテーションは、AI支援による臨床意思決定支援システムを開発する上で重要な第一歩である。本研究では、超音波画像におけるYOLOv5アルゴリズムを用いた甲状腺結節のインスタンスセグメンテーションに焦点を当てる。ドプラ画像を含むバージョンと含まないバージョンの2種類のデータセットに対して、複数のYOLOv5バリアント(Nano、Small、Medium、Large、XLarge)を評価した。YOLOv5-Largeアルゴリズムは、ドプラ画像を含むデータセットにおいてダイス係数91%、mAP 0.87で最高の性能を達成した。特に、医師によって通常除外されるドプラ画像がセグメンテーション性能を大幅に向上させ得ることを結果は示している。ドプラ画像を除外した場合、YOLOv5-Smallモデルはダイス係数79%であったが、ドプラ画像を含めることで全てのモデルバリアントで性能が向上した。これらの知見は、YOLOv5を用いたインスタンスセグメンテーションが甲状腺結節検出の効果的なリアルタイム手法を提供し、自動診断システムにおける臨床応用の可能性を持つことを示唆している。
本論文では、LibriBrain 2025 PNPLコンペティション向けに、Conformerベースのデコーダを提案する。これは、音声検出と音素分類という2つの基礎的MEGタスクを対象とする。我々のアプローチは、コンパクトなConformerを生の306チャネルMEG信号に適用し、軽量な畳み込み投影層とタスク特化のヘッドを組み合わせたものである。音声検出では、MEG向けに調整したSpecAugmentにより、MEG特有のデータ拡張手法の初期的探求を行った。音素分類では、100サンプル平均化された事例を扱うため、逆平方根クラス重み付けと動的グループ化ローダを採用した。さらに、単純なインスタンスレベルの正規化が、ホールドアウト分割における分布シフトを緩和する上で決定的に重要であることが示された。公式のStandardトラック分割とF1-macroスコアを用いたモデル選択により、最高のシステムはリーダーボードで音声検出88.9%、音素分類65.8%を達成し、コンペティションのベースラインを凌駕し、両タスクでトップ10内にランクインした。実装の詳細については、技術文書、ソースコード、チェックポイントをhttps://github.com/neural2speech/libribrain-experiments で公開している。
Business Process Model and Notation (BPMN) は、複雑なビジネスワークフローを表現するために広く採用されている標準規格である。BPMN図は視覚的な画像として交換されることが多いが、計算論的分析において既存の手法は主にXML表現に依存している。本研究では、Vision-Language Models (VLM) を活用し、ソースモデルファイルやテキスト注釈を必要とせず、画像から直接BPMN図の構造化されたJSON表現を抽出するパイプラインを提案する。また、テキスト情報を強化するために光学式文字認識(OCR)を組み込み、ソースXMLファイルから得られた正解データと照合して生成された要素リストを評価する。本手法により、原本のソースファイルが利用不能なシナリオにおいても、堅牢なコンポーネント抽出が可能となる。複数のVLMを比較評価した結果、テキスト強化にOCRを利用することで、いくつかのモデルで性能向上が認められた。加えて、OCRに基づく強化手法に関する詳細な統計分析とプロンプトのアブレーションスタディを実施し、それらがモデル性能に与える影響をより明確に理解するための知見を提供する。