翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル大規模言語モデルの最近の進歩は、GUI自動化に前例のない可能性をもたらしています。しかし、根本的な課題が残っています:注信の信頼性を維持しながら、いかに効率的に高品質な訓練データを取得するか?我々は、較正済みステップ報酬システムによって駆動される自己進化型訓練パイプラインを提案します。これは、モデル生成の軌跡を軌跡レベルの較正を通じて信頼性の高い訓練信号に変換し、10~100倍低コストで90%超の注信精度を達成します。このパイプラインを活用し、我々はStep-GUIを開発しました。これは、堅牢な汎用能力を維持しながら、最先端のGUI性能(8B: AndroidWorld 80.2%、OSWorld 48.5%、ScreenShot-Pro 62.6%)を達成するモデルファミリー(4B/8B)です。 GUIエージェントの能力が向上するにつれ、実用的な展開には、ユーザーのプライバシーを保護しながら異種デバイス間で標準化されたインターフェースが求められます。この目的のために、我々はGUI-MCPを提案します。これは、GUI自動化のための初のモデルコンテキストプロトコルであり、低レベル原子操作と高レベルタスク委譲をローカル専門モデルに結合する階層型アーキテクチャを備え、機密データがオンデバイスに留まる高プライバシー実行を可能にします。 最後に、エージェントが実際の日常使用を処理できるかどうかを評価するため、我々はAndroidDailyを導入します。これは実世界のモバイル使用パターンに基づくベンチマークで、高頻度日常シナリオにおける3146の静的アクションと235のエンドツーエンドタスクを含みます(8B: 静的89.91%、エンドツーエンド52.50%)。我々の研究は、実用的なGUIエージェントの開発を推進し、日常的なデジタル相互作用における実世界展開の強力な可能性を示しています。
大規模言語モデル(LLM)駆動のエージェントシステムと推論システムにおける実用上の重要課題である効率性は、自己回帰(AR)復号化の inherent な遅延によって制約が強まっている。投機的復号化は草案・検証スキームによってこのコストを軽減するが、既存のアプローチはAR草案モデル(ドラフター)に依存しており、二つの根本的な問題を引き起こす:(1)ステップごとの不確実性蓄積により、ターゲットモデルとドラフター間の信頼関係が段階的に崩壊すること、(2)ARドラフターの本質的に逐次的な復号化。これらの要因が相まって、速度向上効果は限定的となる。本論文では、拡散大規模言語モデル(dLLM)ドラフターが、その根本的に異なる確率モデリングと効率的な並列復号化戦略により、これらの問題を自然に克服できることを示す。この知見に基づき、拡散で草案生成しARモデルで検証する効率的な投機的復号化フレームワークDEERを提案する。高品質な草案生成を実現するため、DEERはdLLMベースのドラフターをターゲットARモデルに整合させる二段階トレーニングパイプラインを採用し、さらに単一ステップ復号化によって長い草案セグメントを生成する。実験では、DEERが最大32トークンの草案受容長を達成し、EAGLE-3の10トークンを大幅に上回った。さらに、HumanEvalにおけるQwen3-30B-A3Bの評価では、DEERが5.54倍の高速化を達成したのに対し、EAGLE-3は2.41倍に留まった。コード、モデル、デモ等はhttps://czc726.github.io/DEER/で公開予定である。
マルチトークン生成は、トランスフォーマーベースの大規模モデル推論を高速化する有望なパラダイムとして登場している。近年の研究では、推論遅延を低減するために拡散型大規模言語モデル(dLLM)を用いた並列デコードが主に探求されている。ARモデルと同等の生成品質を達成するため、多くの技術がARモデルをdLLMに適応させて並列デコードを可能にしている。しかし、これらの手法は事前学習と事後学習のミスマッチにより、ARモデルと比較して限定的な高速化に留まっている。具体的には、事後学習で用いられるマスクデータ分布は事前学習で観測された実世界データ分布から大きく乖離しており、dLLMが双方向注意機構に依存するため、事前学習で獲得された因果的な事前知識と衝突し、正確なKVキャッシュの再利用の統合を妨げている。この問題に対処するため、我々はJacobi Forcingを提案する。これはモデル自身が生成する並列デコード軌道上で学習を行う漸進的蒸留パラダイムであり、ARモデルを効率的な並列デコーダへと滑らかに移行させながら、事前学習済みの因果推論特性を保持する。このパラダイムで学習されたモデルであるJacobi Forcing Modelは、コーディングおよび数学ベンチマークにおいて、性能劣化を最小限に抑えつつ3.8倍の実時間高速化を達成する。さらに、Jacobi Forcing Modelの軌道特性に基づき、拒否リサイクリングを備えたマルチブロックデコードを導入し、反復あたり最大4.5倍高いトークン受理数と約4.0倍の実時間高速化を実現し、追加計算コストと推論遅延の低減を効果的に交換する。実装はhttps://github.com/hao-ai-lab/JacobiForcingで公開されている。
現在のマルチモーダル大規模言語モデルは強力な知覚・推論能力を有するが、高い計算量とメモリ要件のため、オンデバイス環境への直接導入が困難である。小パラメータモデルが強力な汎用能力を次第に獲得する中で、標準的なVision Transformer(ViT)エンコーダは依然として重大なボトルネックとなっており、高解像度入力の処理時に過剰なレイテンシとメモリ消費に悩まされている。これらの課題に対処するため、我々はオンデバイス推論に特化した効率的なマルチモーダル大規模言語モデルHyperVLを提案する。HyperVLは画像タイル化戦略によりピークメモリ使用量を抑制し、二つの新技術を組み込んでいる:(1)冗長な計算を排除する最適な符号化解像度を適応的に予測するVisual Resolution Compressor(VRC)、(2)マルチスケールViTエンコーダを統一フレームワーク内で調整し、共有LLM下で視覚ブランチの動的切り替えを可能にするDual Consistency Learning(DCL)。大規模な実験により、HyperVLが同等サイズのモデル群の中で複数ベンチマークにおいて最先端の性能を達成することを実証した。さらに、実機モバイルデバイスにおいてレイテンシと消費電力を大幅に削減し、オンデバイスマルチモーダル推論における実用性を立証している。
近年の強化学習(RL)手法、例えば結果監視型GRPOは、Vision Language Model(VLM)における連鎖思考推論を進展させてきたが、重要な課題が残されている:(i)高コストでノイズの多い手作業による注釈や外部検証器への依存;(ii)GRPOにおける平坦で疎な報酬スキーム;(iii)連鎖推論と最終回答間の論理的不整合。本論文では、注釈や外部検証器を必要とせずVLMの視覚推論を強化する、検証可能な報誉を用いたRL(RLVR)のための教師なし手法Puzzle Curriculum GRPO(PC-GRPO)を提案する。PC-GRPOはラベルを3つの自己教師ありパズル環境で置き換える:PatchFit、回転(二値報酬)、ジグソー(段階的部分報酬により報酬の疎性を緩和)。平坦な報酬と消失するグループ相対優位性に対処するため、サンプルを動的に重み付けし中程度の難易度でピークに達する難易度対応カリキュラムを導入する。さらに学習後も推論-回答整合性(RAC)を監視:LLMにおける標準GRPOの報告を反映し、RACは通常早期に上昇した後劣化するが、本カリキュラムはこの低下を遅らせ、整合性強化報酬スキームがRACをさらに向上させる。RACは下流タスクの精度と相関する。多様なベンチマーク及びQwen-7B/Qwen-3Bバックボーンにおいて、PC-GRPOは推論品質、学習安定性、最終タスク精度を改善し、VLMのためのスケーラブルで検証可能かつ解釈可能なRL学習後処理への実用的な道筋を提供する。
ユニバーサルトランスフォーマー(UT)は、ARC-AGIや数独のような複雑な推論タスクに広く用いられているが、その性能向上の具体的な要因は未解明のままである。本研究では、UTの変種を体系的に分析し、ARC-AGIにおける改善は主に、精巧なアーキテクチャ設計ではなく、トランスフォーマーの回帰的帰納バイアスと強力な非線形成分に起因することを明らかにする。この知見に基づき、我々は短距離畳み込みと切り詰めた誤差逆伝播を組み込んだUniversal Reasoning Model(URM)を提案する。本手法は推論性能を大幅に向上させ、ARC-AGI 1では53.8% pass@1、ARC-AGI 2では16.0% pass@1というState-of-the-Artを達成した。実装コードはhttps://github.com/zitian-gao/URMで公開されている。
近年の視覚生成モデルは、ラスター画像の絡み合った性質により、画像編集における一貫性の維持に苦戦することが多い。ラスター画像では全ての視覚コンテンツが単一のキャンバスに融合されている。一方、プロフェッショナルなデザインツールはレイヤー表現を採用しており、一貫性を保ちつつ個別の編集を可能にしている。この観点に着想を得て、我々はQwen-Image-Layeredを提案する。これは単一のRGB画像を複数の意味的に分離されたRGBAレイヤーに分解するエンドツーエンドの拡散モデルであり、本質的な編集可能性を実現する。各RGBAレイヤーは他のコンテンツに影響を与えることなく独立して操作できる。可変長の分解を実現するため、以下の3つの主要コンポーネントを導入した:(1) RGB画像とRGBA画像の潜在表現を統一するRGBA-VAE、(2) 可変数の画像レイヤー分解が可能なVLD-MMDiT(Variable Layers Decomposition MMDiT)アーキテクチャ、(3) 事前学習済み画像生成モデルを多層画像分解器に適応させる多段階トレーニング戦略である。さらに、高品質な多層トレーニング画像の不足に対処するため、Photoshopドキュメント(PSD)から多層画像を抽出・注釈するパイプラインを構築した。実験により、本手法が分解品質において既存手法を大幅に上回り、一貫性のある画像編集の新たなパラダイムを確立することを実証した。コードとモデルはhttps://github.com/QwenLM/Qwen-Image-Layeredで公開されている。
我々はIC-Effectを提案する。これは命令誘導型のDiTベースのフレームワークであり、数ショットの映像VFX編集において複雑な効果(炎、パーティクル、アニメキャラクターなど)を合成しつつ、空間的・時間的一貫性を厳密に保持する。映像VFX編集は、注入された効果が背景とシームレスに調和し、背景は完全に変化せず、効果パターンが限られたペアデータから効率的に学習されねばならないため、極めて困難である。しかし既存の映像編集モデルはこれらの要件を満たせていない。IC-Effectはソース映像をクリーンな文脈条件として活用し、DiTモデルの文脈学習能力を利用して精密な背景保持と自然な効果注入を実現する。一般編集適応とEffect-LoRAによる効果特化学習からなる2段階トレーニング戦略により、強力な命令追従性と頑健な効果モデリングを保証する。効率性向上のため、時空間的疎トークン化を導入し、計算量を大幅に削減しながら高忠実度を実現する。さらに15種類の高品質視覚スタイルに跨るペアVFX編集データセットを公開する。大規模実験により、IC-Effectが高品質で制御可能かつ時間的一貫性のあるVFX編集を実現し、映像制作の新たな可能性を拓くことを示す。
連続的な視覚入力に基づく空間理解は、MLLMが物理環境における汎用アシスタントへと進化する上で極めて重要である。しかし、この目標に向けた進捗を総合的に評価するベンチマークは未だ存在しない。本研究では、MLLMのビデオベース空間知能を評価するため、完全に人手で注釈付けされたベンチマーク「MMSI-Video-Bench」を提案する。本ベンチマークは、知覚、計画、予測、クロスビデオ推論という4段階のフレームワークを、25のデータセットと内部ビデオから収集した1,278のクリップに基づく1,106の質問を通じて具体化する。各設問は、3DV専門家によって注意深く設計・レビューされ、説明根拠とともに、正確で曖昧さのない接地を保証している。多様なデータソースと総合的なタスクカバレッジを活かし、MMSI-Video-Benchは、特定能力評価のための3つのドメイン指向サブベンチマーク(室内シーン知覚ベンチ、ロボットベンチ、接地ベンチ)もサポートする。我々は25の強力なオープンソースおよびプロプライエタリなMLLMを評価し、顕著な人間-AI間のギャップを明らかにした:多くのモデルがほぼ偶然の水準で性能を示し、最良の推論モデルでさえ人間より約60%遅れている。さらに、空間的にファインチューニングされたモデルでさえ、本ベンチマークでは効果的に汎化できないことがわかった。詳細な誤り分析は、幾何学的推論、運動の接地、長期予測、クロスビデオ対応における系統的な失敗を浮き彫りにした。また、典型的なフレームサンプリング戦略が本推論集約型ベンチマークではうまく移行しないこと、3D空間手がかりや連鎖的思考プロンプトも有意な改善をもたらさないことを示す。本ベンチマークが、ビデオベース空間知能の進歩に向けた強固なテストベッドを確立することを期待する。
AI駆動の映像生成技術の悪用は深刻な社会的懸念を引き起こしており、信頼性の高いAI生成映像検出システムの緊急な必要性が浮き彫りになっています。しかし、既存手法の多くは二値分類に限定されており、人間による解釈に必要な説明が不足しています。本論文では、AI生成映像における人間が知覚可能な視覚的アーティファクトを特定し、それを検出と説明の両方に対する根拠ある証拠として活用する専門的なマルチモーダル大規模言語モデル「Skyra」を提案します。この目的を支援するため、細粒度な人間による注釈を付与した初の大規模AI生成映像アーティファクトデータセットであるViF-CoT-4Kを構築し、教師ありファインチューニングに活用します。さらに、モデルの時空間的アーティファクト知覚能力、説明能力、検出精度を体系的に強化する2段階の学習戦略を開発します。Skyraを総合的に評価するため、10以上の最先端映像生成モデルで生成された3,000の高品質サンプルから構成されるベンチマークViF-Benchを導入します。大規模な実験により、Skyraが複数のベンチマークで既存手法を凌駕することを実証するとともに、説明可能なAI生成映像検出の進展に向けた貴重な知見を得ました。
生成モデルは、いわゆるディープフェイクと呼ばれる高度に写実的なコンテンツを合成可能であり、既に大規模に悪用されてデジタルメディアの真正性を損なう事態を招いている。現行のディープフェイク検出手法は、以下の二つの理由から信頼性に欠ける。(i) 非真正なコンテンツを事後的に識別することは(例:記憶されたサンプルでは)往々にして不可能であり、これは無限に大きくなりうる偽陽性率(FPR)を招く。(ii) 敵対者は最小限の計算資源で既知の検出器に適応し、ほぼ完璧な精度で検出を回避できるため、検出手法の頑健性が不足している。これらの課題を解決するため、我々はサンプルが真正であるか、またはその真正性を蓋然的に否定できるかを判定する再合成フレームワークを提案する。我々は、効率的な(すなわち計算資源が制限された)敵対者を想定した高精度・低再現率の設定に焦点を当て、二つの主要な貢献を行う。第一に、較正された再合成手法が、制御可能かつ低いFPRを維持しつつ、真正サンプルを検証する最も信頼性の高いアプローチであることを実証する。第二に、従来手法が同等の計算予算の下で容易に回避されるのに対し、本手法が効率的な敵対者に対して敵对的頑健性を達成することを示す。本アプローチは複数のモダリティをサポートし、最先端の逆変換技術を活用する。
人間は本来、任意の時間軸で推論を行う能力を備えています。つまり、与えられたタスクに必要であれば、長い動画を反復的に流し見したり、短い動画を完全に視聴したりすることを臨機応変に判断できます。このことから、映像推論モデルも異なる時間スケールにわたって柔軟に推論できることが期待されます。しかし、現状のSOTAモデルは、長い動画を最初から最後まで視聴するように、大量のフレームを処理しながら単一のターンで答えを予測するように訓練されており、多大なリソースを必要とします。ここで疑問が生じます:高性能な任意時間軸映像推論システムの開発は可能か? 人間の行動にヒントを得て、我々はまずSAGEを提案します。これは、長い動画に対してはマルチターン推論を行い、より単純な問題については単一ターンで処理するエージェントシステムです。第二に、SAGEの中核をなすオーケストレータであるSAGE-MMを訓練するため、Gemini-2.5-Flashを用いた容易な合成データ生成パイプラインを導入します。さらに、SAGE-MMに任意時間軸推論能力を確実に習得させるために不可欠な、効果的な強化学習による事後学習手法を提案します。第三に、実世界のエンターテインメント用途における映像推論能力を評価するため、平均再生時間が700秒を超えるSAGE-Benchを構築しました。最後に、提案するシステム、データ、強化学習手法の有効性を実証的に検証し、オープンエンドの映像推論タスクで最大6.1%、10分を超える長い動画では顕著な8.2%の改善を確認しました。
近年のマルチモーダル研究において、拡散パラダイムはその独自のデコード特性により、自己回帰パラダイム(AR)の有望な代替として台頭してきている。しかし、基盤となる拡散言語モデルの能力限界により、拡散型視覚言語モデル(dVLM)の性能は依然として主流モデルに大きく遅れを取っている。この状況は、単純ながら根本的な疑問を提起する:既存の強力なARモデルに基づいてdVLMを構築することは可能なのか?これに対し我々は、任意の強力なARモデルから変換可能なdVLMファミリーであるDiffusionVLを提案する。単純なファインチューニングを通じて、AR事前学習モデルを拡散パラダイムに適応させることに成功した。このアプローチから2つの重要な知見が得られた:(1)ARベースのマルチモーダルモデルから拡散モデルへのパラダイム転換は極めて有効である。(2)AR言語モデルを直接dVLMに変換することも可能であり、LLaVAスタイルの視覚指示チューニングと競合する性能を達成する。さらに、任意長生成とKVキャッシュの再利用をサポートするブロックデコード設計をdVLMに導入し、推論速度を大幅に向上させた。大規模な実験を実施した結果、従来手法に必要とされるデータ量の5%未満で学習したにもかかわらず、DiffusionVLは総合的な性能向上(MMMU-Pro(視覚)ベンチで34.4%、MME(認知)ベンチで37.5%の向上)と、2倍の推論高速化を同時に達成した。モデルとコードはhttps://github.com/hustvl/DiffusionVL で公開されている。
強化学習は大規模言語モデルの推論能力を強化する上で不可欠となっているが、現在の探索メカニズムは、これらのモデルの実際の学習方法と根本的に整合していない。エントロピー報酬や外部の意味的比較器は表面的な多様性を促進するが、最適化を形作る更新方向においてサンプリングされた軌道が異なることを保証しない。本論文では、探索が外部ヒューリスティクスではなくモデル自身の一次更新幾何学によって駆動される、勾配誘導型強化学習フレームワークG2RLを提案する。G2RLは各応答に対して、標準的な順伝播で無視可能なコストで得られる最終層の感度からシーケンスレベルの特徴量を構築し、サンプリングされたグループ内でこれらの特徴量を比較することで各軌道が方策をどのように再形成するかを測定する。新規の勾配方向を導入する軌道には有界の乗算的報酬スケーラーが与えられ、冗長または多様体外の更新は強調されなくなる。これにより、PPOスタイルの安定性やKL制御と自然に整合した自己言及的な探索信号が得られる。Qwen3 base 1.7Bおよび4Bモデルを用いた数学および一般推論ベンチマーク(MATH500、AMC、AIME24、AIME25、GPQA、MMLUpro)において、G2RLはエントロピーベースのGRPOや外部埋め込み手法と比較して、pass@1、maj@16、pass@kを一貫して改善した。誘導された幾何学を分析すると、G2RLが意味的一貫性を維持しつつ、実質的により直交的かつしばしば反対方向の勾配への探索を拡大することがわかり、方策自身の更新空間が大規模言語モデル強化学習における探索を導くためにはるかに忠実で効果的な基盤を提供することを明らかにした。
近年の多言語固有表現認識(NER)研究では、大規模言語モデル(LLM)が効果的な合成的教師信号を提供できることが示されているが、そのようなデータセットは体系的な再利用可能リソースというより、より広範な実験の副産物として登場することがほとんどであった。本論文では、教師-生徒パラダイムを91言語25書記系にスケールするデータセット作成パイプラインであるFiNERwebを提案する。FineWeb-Eduを基盤とする本手法では、NER関連文書を特定する回帰モデルを訓練し、多言語LLMを用いてそれらにアノテーションを行うことで、約22万5千の文書と23万5千の異なるエンティティラベルからなるデータセットを構築した。実験結果では、回帰モデルが84 F1以上の性能を達成し、FiNERwebで訓練されたモデルが、強力なベースラインと比べて19倍少ないデータで訓練されているにも関わらず、英語、タイ語、スワヒリ語におけるゼロショット転移設定で同等または改善された性能を得ることが示された。さらに、LLMを評価者として用いてアノテーション品質を評価した結果、忠実性(5点中3.99点)と完全性(5点中4.05点)の両方で一貫して高いスコアが観察され、信頼性の高い情報量の多いアノテーションが行われていることが示唆された。加えて、現在の最先端モデルが英語ラベルではなく対象言語ラベルで評価された場合、F1スコアが0.02から0.09低下することを確認したため、データセットには英語ラベルに加えて各対象言語に翻訳されたラベルセットも付属して公開する。多言語固有表現認識のためのより効果的な教師-生徒訓練を促進するため、FiNERwebおよび関連する全ての成果物を研究コミュニティに公開する。
大規模言語モデル(LLM)は、下流モデルの評価および訓練用の合成データセット生成にますます利用されている。しかし、従来の研究では、このような生成データは多様性に欠けることが指摘されている。本論文では、多様なデータセットを生成するための新しい原理に基づくアプローチ「Voyager」を提案する。本アプローチは反復的であり、行列点過程の仕組みを用いてデータセットの多様性を最適化する数学的量を直接最適化する。さらに、本アプローチは訓練不要、クローズドソースモデルに適用可能、かつスケーラブルである。本手法の動作に関する理論的根拠を提供するだけでなく、包括的な実験を通じて、Voyagerが多様性において1.5~3倍の向上を実現し、一般的なベースラインアプローチを大幅に上回ることを実証する。
自己回帰型ビデオ拡散モデルは世界シミュレーションへの可能性を秘めるが、訓練時と推論時の不一致に起因するエクスポージャーバイアスに弱い。近年の研究は学習後処理でこの問題に対処するが、双方向教師モデルやオンライン識別器に依存する場合が多い。我々はエンドツーエンドの解決策として、教師モデルを必要とせず、自己回帰型ビデオモデルをゼロから大規模に訓練可能なResampling Forcingを提案する。本手法の中核は、訓練時に履歴フレーム上で推論時のモデル誤差を模倣する自己再サンプリング機構である。劣化した履歴を条件として、疎な因果マスクが時間的因果性を保証しつつ、フレーム単位の拡散損失による並列訓練を可能にする。効率的な長尺生成を実現するため、クエリごとに最も関連性の高いk個の履歴フレームを動的に取得するパラメータ不要機構である履歴ルーティングをさらに導入する。実験により、本手法が蒸留ベースのベースラインと同等の性能を達成しつつ、自然長の訓練により長尺ビデオで優れた時間的一貫性を発揮することを実証する。
自律走行は長年にわたり、モジュール型の「知覚-判断-行動」パイプラインに依存してきた。人手で設計されたインターフェースとルールベースのコンポーネントは、複雑な状況やロングテールのシナリオでしばしば破綻する。さらに、カスケード構造によって知覚誤差が下流の経路計画や制御に伝播し、性能が劣化するという課題があった。視覚-行動(VA)モデルは視覚入力を行動に直接写像する学習により一部の制約を解決したが、ブラックボックス性、分布変化への脆弱性、構造化された推論や指示追従能力の欠如といった課題を残している。 大規模言語モデル(LLM)とマルチモーダル学習の進展により、視覚-言語-行動(VLA)フレームワークが登場した。これは知覚機能を言語に基づく意思決定と統合するアプローチである。視覚理解、言語的推論、実行可能な出力を統合するVLAは、より解釈可能で一般性が高く、人間の意図に沿った走行ポリシー実現への道筋を提供する。 本論文は自律走行における新興分野であるVLAの体系的な分類を提示する。初期のVAアプローチから現代のVLAフレームワークへの発展を辿り、既存手法を二つの主要パラダイムに整理する:知覚・推論・計画を単一モデルに統合するEnd-to-End VLAと、低速の熟慮(VLM経由)と高速の安全批判的実行(プランナー経由)を分離するDual-System VLAである。これらのパラダイム内で、テキスト型と数値型の行動生成器、明示的と暗黙的な指導メカニズムといった下位分類をさらに区別する。 また、VLAベースの走行システムを評価する代表的なデータセットとベンチマークをまとめ、ロバスト性、解釈性、指示忠実性といった主要な課題と未解決の方向性を強調する。全体として、本論文は人間互換の自律走行システムを推進するための一貫した基盤の確立を目指すものである。
近年、映像生成技術は目覚ましい進歩を遂げ、視覚的に魅力的な映像と同期した音声を生成するモデルが可能となった。既存の映像生成ベンチマークは視覚的品質に関する包括的な評価指標を提供するが、特に同期した音声-映像出力を生成するモデルに対する説得力のある評価が欠如している。この課題を解決するため、我々は同期音声-映像生成の能力を体系的に評価するための多次元的なベンチマークフレームワーク「VABench」を提案する。VABenchは、テキストから音声-映像への生成(T2AV)、画像から音声-映像への生成(I2AV)、ステレオ音声-映像生成という3つの主要タスクを包含する。さらに、15の次元をカバーする2つの主要評価モジュールを構築した。これらの次元は、ペアワイズ類似性(テキスト-映像、テキスト-音声、映像-音声)、音声-映像同期、唇の動きと音声の一貫性、厳選された音声・映像質問応答(QA)ペアなどを重点的に評価する。さらにVABenchは、動物、人間の音声、音楽、環境音、物理的同期音、複雑な場面、仮想世界という7つの主要コンテンツカテゴリを網羅する。評価結果の体系的分析と可視化を提供し、同期音声機能を備えた映像生成モデルの評価における新たな標準を確立し、本分野の包括的な発展を促進することを目指す。
最も基本的なレベルにおいて、ピクセルは私たちが世界を認識する視覚情報の源泉です。ピクセルは、低次元の属性から高次元の概念に至るまで、あらゆるレベルの情報を含んでいます。オートエンコーダは、ピクセルやその他の生の入力から表現を学習するための古典的かつ長年にわたるパラダイムです。本研究では、オートエンコーダに基づく自己教師あり学習が今日でも競争力を維持し、下流タスクのための強力な表現を生成できる一方で、シンプルで安定性が高く効率的であることを実証します。我々のモデル(コードネーム「Pixio」)は、より挑戦的な事前学習タスクとより高性能なアーキテクチャを備えた、拡張型マスク化オートエンコーダ(MAE)です。このモデルは、人間による選別を最小限に抑えた自己選別戦略を用いて、ウェブクロールにより収集した20億枚の画像で学習されています。Pixioは、単眼深度推定(Depth Anythingなど)、フィードフォワード型3D再構成(MapAnything)、セマンティックセグメンテーション、ロボット学習など、実世界における多様な下流タスクにおいて競争力のある性能を発揮し、同規模で学習されたDINOv3を上回るか、あるいは同等の結果を示します。我々の結果は、ピクセル空間における自己教師あり学習が、潜在空間アプローチの有望な代替手段および補完として機能し得ることを示唆しています。
テキストから画像への生成モデルの急速な進化は、視覚コンテンツ制作に革命をもたらしている。Nano Banana Proのような商業製品が大きな注目を集める一方で、従来の低レベル視覚タスクにおける汎用ソルバーとしての可能性は、ほとんど探られていないのが現状である。本研究では、「Nano Banana Proは低レベル視覚の万能選手たり得るか?」という核心的な問いに取り組む。40の多様なデータセットにわたる14の異なる低レベルタスクについて、包括的なゼロショット評価を実施した。ファインチューニングなしの単純なテキストプロンプトを用いて、Nano Banana Proを最先端の特化型モデルと比較評価した。我々の詳細な分析は、明確な性能の二面性を明らかにしている:Nano Banana Proは優れた主観的視覚品質を示し、特化型モデルを凌ぐ説得力のある高周波詳細をしばしば生成(幻覚的生成)する一方で、従来の参照ベースの定量的指標では遅れをとる。この不一致は、生成モデルに内在する確率性に起因すると考えられ、従来の指標が要求する厳密なピクセルレベルの一貫性を維持することが困難であるためと考察される。本報告は、Nano Banana Proが低レベル視覚タスクにおいて有能なゼロショットの競合相手であると位置付ける一方で、ドメイン特化型モデルの高い忠実度の達成には依然として大きな課題が残されていることを浮き彫りにする。
本論文では、FrontierCSを紹介する。これはコンピュータサイエンスの多様な領域にわたる156の自由記述形式問題から構成されるベンチマークであり、CS博士号取得者やトップクラスの競技プログラミング参加者・問題作成者を含む専門家によって設計・査読された。既存のベンチマークが既知の最適解を持つ課題に焦点を当てるのに対し、FrontierCSは最適解が未確定であるものの、解決策の質を客観的に評価可能な問題を対象とする。モデルは直接的な答えを出力するのではなく、実行可能なプログラムを実装することでこれらの課題に取り組む。FrontierCSには、客観的部分採点が可能な競技プログラミング問題のNP困難バリアントであるアルゴリズム問題と、同様の特性を持つ研究問題が含まれる。各問題に対して、専門家による参照解法と自動評価器を提供する。自由記述形式の設計、測定可能な進捗、専門家による監修を組み合わせることで、FrontierCSはコンピュータサイエンスの最先端の難易度を有するベンチマークを提供する。実証的に、先進的推論モデルはアルゴリズム部門・研究部門の両方において依然として人間の専門家に大きく遅れており、推論リソースの単純な増加だけではこの差は埋まらないことが分かった。また、モデルは高品質なアルゴリズムやシステム設計を発見するのではなく、単に動作するコードの生成に過剰に最適化する傾向が頻繁に見られた。
大規模言語モデル(LLM)のコンテキストウィンドウ拡大に伴う計算量とメモリのオーバーヘッドは、その拡張性を深刻に制限している。注目すべき解決策として、DeepSeek-OCRやGlyphなどのフレームワークに代表される視覚-テキスト圧縮(VTC)がある。これは長文を高密度な2次元視覚表現に変換することで、3倍から20倍のトークン圧縮率を実現する。しかし、この高い情報密度が視覚言語モデル(VLM)の中核的な長文理解能力に与える影響は、十分に研究されていない。この課題を解決するため、我々はVTC初のベンチマークを導入し、VLMの性能を3つの長文理解設定で体系的に評価する:情報の検索と統合能力を評価するVTC-Retrieval、語彙的重複が最小限の事実定位のために潜在的な関連性を推論することを要求するVTC-Reasoning、長期的な対話記憶内での総合的な質問応答を測定するVTC-Memoryである。さらに、多様な入力シナリオを模倣するVTCBench-Wildを確立した。オープンソースおよびプロプライエタリモデルの主要モデルをベンチマークで包括的に評価した結果、ほとんどのVLMはテキスト情報(OCRなど)のデコードは良好であるものの、VTC圧縮情報を用いた長文理解能力が驚くほど低く、文脈内の長い関連性や依存関係を捉えられないことが明らかになった。本研究はVTCに対する深い理解を提供し、より効率的で拡張性の高いVLM設計の基盤となる。
大規模言語モデル(LLM)エージェントが、大規模で動的なコンテキストを生成する環境に展開される機会が増えている。しかし、重大なボトルネックが残っている:エージェントはこのコンテキストにアクセスできる一方で、その静的プロンプトにはコンテキストを効果的に管理するメカニズムが欠如しており、修正失敗や機能強化失敗が繰り返し発生している。この能力ギャップに対処するため、我々はSCOPE(プロンプト進化による自己進化的コンテキスト最適化)を提案する。SCOPEはコンテキスト管理をオンライン最適化問題として定式化し、実行トレースからガイドラインを合成してエージェントのプロンプトを自動的に進化させる。我々は、戦術的特異性(即時のエラー解決)と戦略的一般性(長期的原則の進化)のバランスを取るデュアルストリームメカニズムを提案する。さらに、戦略の適用範囲を最大化し、エージェントが任意のタスクに対して正しい戦略を持つ可能性を高めるため、視点駆動探索を導入する。HLEベンチマークによる実験では、SCOPEが人間の介入なしにタスク成功率を14.23%から38.64%に向上させることが示された。コードはhttps://github.com/JarvisPei/SCOPE で公開している。
自動船舶識別装置(AIS)はデータ駆動型の海上監視を可能にするが、信頼性の問題や観測間隔の不均一性に課題を抱えている。本研究では、グローバルスコープのAISデータを用いた船舶の目的地推定に対し、港から港への長大な軌跡をネスト化されたシーケンス構造として再定義する差別化的アプローチを提案する。空間グリッドを活用した本手法は、詳細な解像度を維持しつつ時空間バイアスを軽減する。軌跡の長期目的地を数日から数週間前に推定するため、再構築された軌跡を処理する新規の深層学習アーキテクチャWAYを設計した。WAYは軌跡表現層とチャネル集約型逐次処理(CASP)ブロックで構成される。表現層は運動学的特徴と非運動学的特徴からマルチチャネルベクトルシーケンスを生成し、CASPブロックはマルチヘッドのチャネル注意機構と自己注意機構を活用して情報の集約と逐次伝達を行う。さらに、単一ラベルによる多対多訓練を可能にするタスク特化型の勾配ドロップアウト(GD)手法を提案する。本手法はサンプル長に基づいて勾配流を確率的に遮断することで、偏ったフィードバックの集中を防止する。5年間のAISデータを用いた実験により、WAYが軌跡の進行度に関わらず従来の空間グリッドベース手法を凌駕することを実証した。GDの採用が性能向上に寄与することも確認されている。最後に、到着予定時刻(ETA)推定のマルチタスク学習を通じ、WAYの実用化可能性を探る。
強化学習(RL)エージェントの性能は、基盤となる特徴表現の質に大きく依存する。双曲特徴空間は、複雑なRL環境にしばしば存在する階層的・関係的構造を自然に捉えるため、この目的に適している。しかし、これらの空間を活用する際には、RLの非定常性により最適化上の課題に直面することが多い。本研究では、双曲深層RLエージェントの学習の成功と失敗を決定づける主要因を明らかにする。双曲幾何学のポアンカレ球モデルおよび双曲面モデルにおける核心的操作の勾配を分析することにより、大きなノルムを持つ埋め込みが勾配ベースの学習を不安定にし、近接方策最適化(PPO)における信頼領域の違反を引き起こすことを示す。これらの知見に基づき、我々は新しい双曲PPOエージェントであるHyper++を提案する。これは以下の3つの構成要素から成る:(i)回帰ではなくカテゴリカルな価値損失による安定した批評家の学習、(ii)クリッピングによる次元の呪いを回避しつつ有界なノルムを保証する特徴正則化、(iii)最適化に適した形式の双曲ネットワーク層の採用。ProcGenにおける実験により、Hyper++が学習の安定性を保証し、既存の双曲エージェントを上回り、実時間で約30%の学習時間短減を実現することを示す。Double DQNを用いたAtari-5では、Hyper++はユークリッドおよび双曲ベースラインを大幅に上回る。コードはhttps://github.com/Probabilistic-and-Interactive-ML/hyper-rl で公開している。
小規模言語モデル(SLM)は、低遅延かつ軽量な展開が求められる分類タスクを中心に広く利用されている。解釈可能性と頑健性の重要性が高まる中、説明性に基づく指導学習は、訓練時に帰属説明に基づく監督を導入する効果的な枠組みとして登場した。しかし、一般的で信頼性の高い帰属説明の事前分布を導出することは依然として大きな課題である。分類設定における代表的な帰属説明手法を分析した結果、これらの手法はクラス関連トークンを確実に強調できるものの、意味的に類似したクラス間で共通するキーワードに注目しがちであることが分かった。このようなクラスは標準的な訓練下では元来識別が困難であるため、これらの帰属説明は識別の手がかりとして不十分であり、モデルの識別能力向上効果が限定的となる。この課題を克服するため、本研究ではClass-Aware Attribution Prior(CAP)を提案する。これは、言語モデルが細粒度のクラス区別を捉え、より顕著で識別性の高い帰属説明の事前分布を生成するよう導く新しい枠組みである。この考え方を発展させ、CAPの事前分布と既存の帰属説明手法の事前分布を組み合わせ、より包括的でバランスの取れた監督信号を形成するCAP Hybridをさらに提案する。モデルの自己帰属説明をこれらの強化された事前分布に整合させることで、多様で意思決定に関連する特徴の学習を促進する。全データ、少数ショット、敵対的シナリオにおける広範な実験により、本手法が解釈可能性と頑健性の両方を一貫して向上させることを実証する。
専門家混合(MoE)モデルは、計算コストを大幅に増加させずに言語モデルのスケールアップを実現するデファクトスタンダードなアーキテクチャとして台頭してきた。最近のMoEモデルでは、専門家の細粒度化(専門家の中間次元の縮小)と高スパース性(活性化専門家数を一定に保ちつつ総専門家数を増加)が明確なトレンドとなっており、FLOP当たりのモデル品質向上が図られている。しかしながら、細粒度MoEは活性化メモリ使用量の増大と高いIOコストによるハードウェア効率の低下に悩まされ、高スパースMoEはGrouped GEMMカーネルにおけるパディングによる計算の無駄が課題となる。これに対し我々は、逆伝播における活性化キャッシュを最小化するメモリ効率の高いMoEの順伝播・逆伝播アルゴリズムを提案する。さらに、あらゆるMoEアーキテクチャで恩恵を得られる、メモリIOと計算をオーバーラップさせるGPUカーネルを設計した。最後に、Grouped GEMMカーネルにおけるパディングによる計算の無駄を最小化する新規の「トークンラウンディング」手法を提案する。結果として、我々の手法SonicMoEは、細粒度7B MoEにおいてScatterMoEのBF16 MoEカーネルと比較し、活性化メモリを45%削減し、1.86倍の計算スループット向上をHopper GPUで達成した。具体的には、FSDP-2を用いた7B MoEモデル訓練において、SonicMoEは64基のH100で1日あたり2130億トークンの訓練スループットを達成し、96基のH100を使用するScatterMoEの2250億トークン/日に匹敵する性能をlm-engineコードベースで実現した。高MoEスパース性設定下では、従来のtop-Kルーティングと同等の下流性能を維持しつつ、タイル対応型トークンラウンディングアルゴリズムがカーネル実行時間でさらに1.16倍の高速化を実現した。我々は全てのカーネルをオープンソース化し、MoEモデル訓練の高速化に貢献する。
個人化された大規模言語モデル(LLM)は、ユーザーの事実を記憶し、それを正確に適用し、時間の経過とともに適応して、ユーザーが好む応答を提供すべきである。既存のLLM個人化ベンチマークは、主に2つの軸を中心に構成されている。すなわち、ユーザー情報を正確に想起することと、記憶した情報を下流タスクで正確に適用することである。我々は、第三の軸である「好感度」が、主観的でありながらユーザー体験の中心でありながら、現在のベンチマークでは十分に測定されていないと主張する。好感度を包括的に測定するため、我々はLikeBenchを提案する。これは、マルチセッションで動的な評価フレームワークであり、LLMが時間の経過とともにユーザーの嗜好に適応して、より好感の持てる応答をどの程度提供できるかによって、複数の次元にわたって好感度を測定する。LikeBenchでは、LLMはシミュレートされたユーザーと対話し、進行中の対話のみから嗜好を学習する。相互作用が進むにつれて、モデルは応答に適応しようと試み、各ターンの後、同じシミュレートされたユーザーによって7つの次元で好感度が評価される。我々の知る限り、好感度を複数の診断指標(感情的適応、形式性の一致、知識適応、参照理解、会話長適応、ユーモア適応、コールバック)に分解したのは本研究が初めてであり、モデルの弱点を特定しやすくしている。シミュレートされたユーザーをより現実的かつ識別力のあるものにするため、LikeBenchは、従来研究で用いられてきた粗い高/低特性評価ベースのペルソナではなく、細かく心理学的に基礎付けられた記述的ペルソナを使用する。我々のベンチマークは、強力な記憶性能が高い好感度を保証しないことを示している。記憶精度が低い(86%、17 facts/profile)DeepSeek R1は、記憶精度が高い(93%、43 facts/profile)Qwen3よりも、好感度スコアで28%上回った。GPT-5のようなSOTAモデルでさえ、短いやり取りでは適応が良好であるが、より長くノイズの多い相互作用では限定的な頑健性しか示さない。
ロボットマニピュレーションには、複雑な実世界タスクを扱うために、豊富なマルチモーダル知覚と効果的な学習フレームワークの両方が必要である。触覚と視覚の知覚を統合する透過型皮膚(STS)センサーは、有望なセンシング能力を提供する一方、現代の模倣学習は方策獲得の強力な手段を提供する。しかし、既存のSTS設計はマルチモーダル知覚の同時実現ができておらず、信頼性の高い触覚トラッキングにも課題がある。さらに、これらの豊富なマルチモーダル信号を学習ベースのマニピュレーションパイプラインに統合することは未解決の課題である。本研究では、視覚知覚とロバストな触覚信号抽出を同時に可能にするSTSセンサー「TacThru」と、これらのマルチモーダル信号をマニピュレーションに活用する模倣学習フレームワーク「TacThru-UMI」を提案する。我々のセンサーは、完全透明エラストマー、持続照明、新規のキーラインマーカー、効率的なトラッキングを特徴とし、学習システムはTransformerベースのDiffusion Policyを通じてこれらの信号を統合する。5つの困難な実世界タスクでの実験により、TacThru-UMIが平均85.5%の成功率を達成し、触覚・視覚の交互利用(66.3%)や視覚のみ(55.4%)のベースラインを大幅に上回ることを示した。本システムは、薄く柔らかい物体との接触検出やマルチモーダル協調を要する高精度マニピュレーションを含む重要なシナリオで優れた性能を発揮する。本研究は、同時マルチモーダル知覚と現代的な学習フレームワークの組み合わせが、より精密で適応性の高いロボットマニピュレーションを実現することを実証する。
人間の対話は、注意や感情を伝えるうなずき、視線移動、表情などの非言語的合図と発話が継続的に交換される過程である。こうした双方向の力学を3次元でモデル化することは、表現力豊かなアバターや対話型ロボットの構築に不可欠である。しかし、既存のフレームワークでは、発話と傾聴を独立した過程として扱うか、非因果的な全系列モデリングに依存することが多く、ターン間の時間的一貫性が損なわれる傾向がある。本論文では、対話を交互に現れる視聴覚文脈としてモデル化する3次元会話頭部生成のための因果的フレームワーク「TIMAR(Turn-level Interleaved Masked AutoRegression)」を提案する。TIMARは各ターン内でマルチモーダル情報を融合し、ターンレベルの因果的注意機構によって対話履歴を蓄積する。さらに、軽量な拡散ヘッドにより、協調動作と表現的なばらつきの両方を捉えた連続的な3次元頭部動態を予測する。DualTalkベンチマークによる実験では、TIMARがテストセットにおいてFréc