翻訳付きの日次キュレーションされたAI研究論文
拡散モデルに基づく動画生成の最近の進歩は制御可能な動画編集に新たな可能性をもたらしたが、4次元シーン理解の限界やオクルージョン・照明効果の不適切な処理により、現実的な動画オブジェクト挿入(VOI)は依然として課題である。本論文では、幾何学的に一貫したオブジェクト配置と外観の忠実な動画合成を実現する新しいVOIフレームワーク「InsertAnywhere」を提案する。本手法はまず、シーン幾何学を再構築し、ユーザー指定のオブジェクト配置を時間的一貫性とオクルージョン整合性を保ちながらフレーム間で伝播する4次元対応マスク生成モジュールから始まる。この空間的基盤に基づき、拡散ベースの動画生成モデルを拡張して、挿入オブジェクトと照明・陰影などの周辺局所変動を統合的に合成する。教師あり学習を可能にするため、ROSEオブジェクト除去データセットを変換して、オブジェクト除去済み動画・オブジェクト存在動画・VLM生成参照画像の三重項から構成される照明対応合成データセットROSE++を導入した。大規模な実験を通し、本フレームワークが多様な実世界シナリオにおいて幾何学的に妥当で視覚的に一貫性のあるオブジェクト挿入を生成し、既存の研究および商用モデルを大幅に上回ることを実証する。
人間は、長文や複雑なテキストを理解する際に、内容の全体的な意味表現に依存している。このグローバルな視点は、心理学におけるマインドスケープ認識能力が示すように、既存の知識を体系化し、新たな情報を解釈し、文書全体に散在する証拠を統合するのに役立つ。現在の検索拡張生成(RAG)システムにはこのような指針が欠けており、長文コンテキストのタスクに苦戦している。本論文では、大規模言語モデルベースのRAGシステムに明示的なグローバルコンテキスト認識を備えた初のアプローチである、マインドスケープ認識RAG(MiA-RAG)を提案する。MiA-RAGは階層的要約を通じてマインドスケープを構築し、検索と生成の両方をこのグローバルな意味表現に条件付けする。これにより、検索器は豊かなクエリ埋め込みを形成し、生成器は一貫性のあるグローバルコンテキスト内で検索された証拠に基づいて推論を行うことができる。MiA-RAGを、証拠に基づく理解とグローバルな意味構成のための多様な長文コンテキスト及び二言語ベンチマークで評価した結果、一貫してベースラインを上回り、さらに分析により、局所的な詳細を一貫性のあるグローバル表現に整合させ、より人間らしい長文コンテキストの検索と推論を可能にすることが示された。
Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.
マルチモーダル大規模言語モデル(MLLM)は、視覚的グラウンディング、セグメンテーション、キャプション生成などの視覚理解タスクにおいて顕著な進展を遂げている。しかしながら、知覚レベルでの画像特徴の認識能力には未だ限界がある。本研究では、美的特性、品質、構造とテクスチャという3つの主要領域にわたる知覚レベル画像理解の統一フレームワーク「UniPercept-Bench」を提案する。階層的な定義体系を確立し、大規模データセットを構築することで、知覚レベル画像理解の評価基盤を整備した。この基盤に立脚し、ドメイン適応型事前学習とタスク整合強化学習により訓練された強力なベースライン「UniPercept」を開発。これにより、視覚評価(VR)と視覚質問応答(VQA)の両タスクにわたる頑健な汎化性能を実現した。UniPerceptは知覚レベル画像理解において既存のMLLMを凌駕し、テキストから画像への生成タスクにおけるプラグアンドプレイ型報酬モデルとしても機能する。本研究はMLLM時代における「知覚レベル画像理解」を定義し、包括的ベンチマークと強力なベースラインの導入を通じて、知覚レベルのマルチモーダル画像理解の発展に堅固な基盤を提供する。
GUIエージェントの開発は、次世代の人間とコンピュータのインタラクションに革命をもたらす可能性を秘めています。このビジョンに動かされ、我々はMAI-UIを提案します。これは2B、8B、32B、235B-A22Bといったサイズのフルスペクトラムをカバーする基盤GUIエージェントファミリーです。我々は、実用的な展開における4つの主要な課題を特定しました:ネイティブなエージェントとユーザーのインタラクションの欠如、UIのみによる操作の限界、実用的な展開アーキテクチャの不在、そして動的環境における脆さです。MAI-UIは、統一された方法論でこれらの課題に取り組みます:ナビゲーションデータをユーザーインタラクションとMCPツール呼び出しを含むように拡張する自己進化型データパイプライン、タスク状態によって実行をルーティングするネイティブなデバイス-クラウド協調システム、並列環境とコンテキスト長をスケールさせる高度な最適化を備えたオンライン強化学習フレームワークです。MAI-UIは、GUIグラウンディングとモバイルナビゲーションの両方で新たな最高性能を確立しました。グラウンディングベンチマークでは、ScreenSpot-Proで73.5%、MMBench GUI L2で91.3%、OSWorld-Gで70.9%、UI-Visionで49.2%を達成し、ScreenSpot-ProにおいてGemini-3-ProおよびSeed1.8を上回りました。モバイルGUIナビゲーションでは、AndroidWorldで76.7%という新たなSOTAを樹立し、UI-Tars-2、Gemini-2.5-Pro、Seed1.8を凌駕しました。MobileWorldでは、MAI-UIは41.7%の成功率を記録し、エンドツーエンドGUIモデルを大幅に上回り、Gemini-3-Proベースのエージェントフレームワークと競合する性能を示しました。我々のオンライン強化学習実験では、並列環境を32から512にスケーリングすることで+5.2ポイント、環境ステップのバジェットを15から50に増加させることで+4.3ポイントの顕著な性能向上が確認されました。最後に、ネイティブなデバイス-クラウド協調システムは、オンデバイス性能を33%向上させ、クラウドモデルの呼び出しを40%以上削減し、ユーザーのプライバシーを保護します。
大規模視覚言語モデル(VLM)は、外部ツールを介して注入される中間的視覚手がかり、あるいは推論中に潜在視覚トークンとして生成される手がかりから恩恵を受けることが多い。しかし、これらのメカニズムは依然として細粒度の視覚的証拠(例:チャート内のポリライン)を見落としており、ドメイン横断的な汎化性能が低く、推論時のコストが高いという課題がある。本論文では、訓練中に知覚を形成する双方向の「どこを見るべきか」信号へと、質問条件付きマスク視覚を変換する双方向知覚形成(BiPS)を提案する。BiPSはまず、元の画像と質問に関連する領域のみを保持する証拠保存視覚との間にKL一貫性制約を適用し、支持ピクセルの粗いながらも完全なカバレッジを促進する。次に、元の画像と、重要なピクセルがマスクされ元の回答を支持しなくなる証拠除去視覚との間にKL分離制約を適用し、テキストのみに依存した近道(すなわちテキスト単独からの回答)を抑制し、細粒度の視覚依存を強制する。8つのベンチマークにわたる評価では、BiPSがQwen2.5-VL-7Bを平均8.2%向上させ、未見のデータセットや画像タイプへの強力なドメイン外汎化性能を示した。
大規模言語モデル(LLM)は、ロボティクス、自動運転、具身知能、産業オートメーションなど時間制約の厳しいシステムにおいて、意思決定、制御、安全クリティカルなタスクのために所定の時間枠内で正確な応答を生成することが極めて重要となっている。しかし、LLMの自己回帰的生成プロセスは、エンドツーエンドの実行時間をモデル化・推定することを困難にしている。さらに、固定されたキー・バリュー(KV)キャッシュ削除比率に基づく既存の効率的な推論手法は、多様な時間制約を持つタスクに適応することが難しく、不適切な削除比率は推論の不完全化や応答性能の低下を招く可能性がある。本論文では、推論効率と応答性能のバランスを取る新しい時間制約付き推論フレームワーク「TimeBill」を提案する。具体的には、LLMのエンドツーエンド実行時間を正確に予測するため、細粒度の応答長予測器(RLP)と実行時間推定器(ETE)を提案する。これに続き、実行時間予測と所与の時間制約に基づいてKVキャッシュ削除比率を適応的に調整する時間制約付き効率推論手法を開発する。最後に、広範な実験を通じて、TimeBillが様々な超過実行戦略下でのタスク完了率の向上と応答性能の維持において優位性を持つことを実証する。
AIエージェントが「画像を用いて思考する」能力には、推論と知覚の高度な融合が求められます。しかし、現在のオープンなマルチモーダルエージェントは、詳細な図表を含む文書の分析や地図のナビゲーションといった実世界のタスクに不可欠な推論能力において、依然として大きく不足しています。この課題を解決するため、我々は視覚的詳細への交互の注意を伴うマルチモーダル推論を評価する新しいベンチマーク「O3-Bench」を提案します。O3-Benchは、エージェントが複数ステップの推論を通じて画像内の異なる領域から微妙な視覚情報を統合することを要求する難易度の高い問題を特徴としています。これらの問題は、OpenAI o3のような最先端システムにとっても極めて難しく、O3-Benchでの正解率は40.8%に留まっています。 この状況を改善するため、我々は視覚推論エージェント(vReasoner)と視覚検索エージェント(vSearcher)から成るマルチエージェントフレームワーク「InSight-o3」を提案します。vSearcherに対して我々が導入するのは、一般化された視覚検索タスクです。これは、自然画像中の単純な物体や図形だけでなく、自由形式の言語で記述された関係的、曖昧、または概念的な領域を特定するタスクです。さらに、強化学習を用いてこのタスク向けに特別に訓練されたマルチモーダルLLMを提示します。プラグアンドプレイ型のエージェントとして、我々のvSearcherは最先端のマルチモーダルモデル(vReasonerとして)を強化し、様々なベンチマークにおけるそれらの性能を大幅に向上させます。これは、強力なo3に類似したオープンシステムに向けた具体的な一歩を示すものです。コードとデータセットはhttps://github.com/m-Just/InSight-o3 で公開されています。
逆変換に基づく視覚編集は、ユーザーの指示に基づいて画像や動画を編集する効果的かつ学習不要な手法を提供する。既存手法では通常、編集の一貫性を維持するためにサンプリング過程でソース画像情報を注入する。しかし、このサンプリング戦略はソース情報に過度に依存するため、ターゲット画像の編集に悪影響を及ぼす(例:被写体のポーズや数、色などの属性を指示通りに変更できない)。本研究では、この問題をAttentionとLatentの両面から解決するProEditを提案する。Attentionの側面では、編集領域におけるソースとターゲットのKV特徴を混合するKV-mixを導入し、背景の一貫性を維持しつつ編集領域へのソース画像の影響を軽減する。Latentの側面では、ソース潜在表現の編集領域を摂動させるLatents-Shiftを提案し、サンプリングにおける逆変換潜在表現の影響を除去する。複数の画像・動画編集ベンチマークでの大規模実験により、本手法がSOTA性能を達成することを示す。さらに、当社の設計はプラグアンドプレイ方式であり、RF-Solver、FireFlow、UniEditなどの既存の逆変換・編集手法にシームレスに統合可能である。
近年のテキスト動画生成モデルは、視覚的なリアリズム、動きの忠実度、テキストと動画の整合性において顕著な進歩を示しているが、社会的に首尾一貫した行動を生成する能力には根本的な限界がある。短い視覚的手がかりから意図、信念、感情、社会的規範を容易に推論する人間とは異なり、現在のモデルは、根底にある因果的または心理的な論理を捉えることなく、文字通りの場面を描写しがちである。この隔たりを体系的に評価するため、我々は動画生成における社会的推論の最初のベンチマークを導入する。発達心理学及び社会心理学の知見に基づき、本ベンチマークは30の古典的社会認知パラダイムを、心的状態推論、目標指向行動、共同注意、社会的調整、向社会的行動、社会的規範、マルチエージェント戦略という7つの核心的次元に体系化する。これらのパラダイムを運用可能にするため、我々は完全に学習データに依存しないエージェントベースのパイプラインを開発した。これは、(i)各実験の推論メカニズムを抽出し、(ii)多様な動画生成対応シナリオを統合し、(iii)手がかりに基づく批評を通じて概念的中立性と難易度制御を強化し、(iv)高容量のVLM評価器を用いて、生成的動画を社会的推論の5つの解釈可能な次元にわたって評価するものである。この枠組みを用いて、我々は7つの最先端動画生成システムにわたる初の大規模研究を実施した。その結果、現代のモデルは表面的な妥当性には優れるものの、意図認識、信念推論、共同注意、向社会的推論において体系的に失敗しているという、重大な性能格差が明らかになった。
気象モデリングには正確な予測とメカニズム的解釈の両方が必要であるが、既存手法はこれらの目標を個別に扱い、生成と理解を分離している。この課題を解決するため、我々は気象生成と理解を単一アーキテクチャに統合した初のマルチモーダル基盤モデル「Omni-Weather」を提案する。Omni-Weatherは、気象生成タスクのためのレーダーエンコーダを統合し、共有された自己注意機構を用いた統一的な処理を実現する。さらに、気象生成における因果推論のためのChain-of-Thoughtデータセットを構築し、解釈可能な出力と優れた知覚品質を実現した。大規模な実験により、Omni-Weatherが気象生成と理解の両方で最先端の性能を達成することを示す。生成タスクと理解タスクが気象領域において相互に強化し合えることも明らかになった。Omni-Weatherは気象生成と理解の統合の実現可能性と価値を実証するものである。
自動的なプレゼンテーションスライド生成は、コンテンツ作成を大幅に効率化できる可能性を秘めています。しかし、ユーザーごとに好みが異なるため、既存の過少指定された定式化では、個々のユーザーのニーズに合わない最適ではない結果が生じがちです。本研究では、論文からスライドへの生成をユーザー指定の好みに条件づける新規タスクを提案します。我々は、人間の行動にヒントを得たエージェント型フレームワークであるSlideTailorを提案します。このフレームワークは、ユーザーに沿った方法で編集可能なスライドを段階的に生成します。ユーザーに詳細なテキスト形式での好みの記入を求める代わりに、本システムは論文とスライドの事例ペアとビジュアルテンプレートのみを要求します。これらは、コンテンツと視覚スタイルにわたる豊富なユーザー選好を暗黙的にコード化した、自然で提供しやすい成果物です。これらの入力が暗黙的かつラベル付けされていないにもかかわらず、本フレームワークは選好を効果的に抽出・一般化し、カスタマイズされたスライド生成を導きます。さらに、スライド内容を計画された口頭説明に整合させるための新規なチェーン・オブ・スピーチ機構を導入します。この設計は、生成されるスライドの品質を大幅に向上させ、ビデオプレゼンテーションのような下流アプリケーションを可能にします。この新規タスクを支援するため、多様なユーザー選好を捉えたベンチマークデータセットを構築し、堅牢な評価のための注意深く設計された解釈可能な指標を設けました。大規模な実験により、本フレームワークの有効性が実証されています。
ユニットテストのような実行ベースのフィードバックは、テスト時スケーリング(TTS)や強化学習(RL)を用いたコーディングエージェントの開発において広く利用されている。このパラダイムでは、正確なフィードバックを提供するために、スケーラブルで信頼性の高いユニットテストケースの収集が求められ、その結果得られるフィードバックはしばしばスパースであり、両方成功または両方失敗である軌跡を効果的に区別できない。対照的に、報酬モデルからの実行不要なフィードバックは、ユニットテストケースに依存せず、より細かな信号を提供できる。この可能性にもかかわらず、現実的なソフトウェアエンジニアリング(SWE)エージェント向けの実行不要フィードバックの研究は未だ不十分である。TTSとRLの両方で有効な汎用性の高い報酬モデルの開発を目指す中で、我々は、TTS性能がほぼ同一である2つの検証器が、RLでは非常に異なる結果をもたらし得ることを観察した。直感的には、TTSは主にモデルが最良の軌跡を選択する能力を反映するが、この能力は必ずしもRLに一般化するわけではない。この制限に対処するため、我々はRLトレーニングにおいて重要な2つの追加側面、すなわち分類精度と較正を特定した。そして、これらの指標全体で良好に機能する頑健な報酬モデルを訓練する方法を調査するため、包括的な制御実験を実施した。特に、訓練データ規模、ポリシーの混合、データソースの構成など、様々な要因の影響を分析した。これらの調査に基づき、我々はSWE-RMを導入する。これは、合計300億パラメータ、推論時に30億パラメータが活性化されるエキスパートの混合アーキテクチャを採用した、正確かつ頑健な報酬モデルである。SWE-RMは、TTSとRLの両方の性能においてSWEエージェントを大幅に改善する。例えば、SWE-Bench Verifiedにおいて、TTSを使用した場合、Qwen3-Coder-Flashの精度を51.6%から62.0%に、Qwen3-Coder-Maxの精度を67.0%から74.6%に向上させ、オープンソースモデルの中で新たなstate-of-the-art性能を達成した。
本論文は、一般の非可換環上の正確な3×3行列乗算のための新しい最先端アルゴリズムを提案する。このアルゴリズムは、基底変換を伴わずに、スカラー加算回数58回のランク23のスキームを実現し、従来の最小加算回数60回を改善した。この結果は、三値制限付きフリップグラフ探索と、共通部分式除去のための貪欲な交差削減を組み合わせた自動探索によって発見された。得られたスキームは係数が{-1, 0, 1}のみであり、任意の体にわたる効率性と移植性を保証する。スカラー演算の総回数は83から81に削減された。
大規模推論モデル(LRM)は通常、推論能力を向上させるために検証可能な報酬を用いた強化学習(RLVR)によって訓練される。このパラダイムでは、ポリシーは正と負の自己生成ロールアウト(それぞれ異なるサンプル極性に対応する)の両方を用いて更新される。本論文では、これらのサンプル極性がRLVRの訓練ダイナミクスと振る舞いにどのように影響するかについて体系的な調査を行う。我々は、正サンプルが既存の正しい推論パターンを鋭敏化させる一方で、負サンプルは新たな推論経路の探索を促進することを発見した。さらに、サンプルレベルとトークンレベルの両方で正負サンプルのアドバンテージ値を調整することがRLVR訓練に与える影響を探る。これらの知見に基づき、我々は異なる極性に属するキートークンに対してアドバンテージ信号をより精密に割り当てる、適応的かつ非対称的なトークンレベルアドバンテージ形成法によるポリシー最適化手法、すなわちA3POを提案する。5つの推論ベンチマークによる実験は、本手法の有効性を実証している。