翻訳付きの日次キュレーションされたAI研究論文
本論文では、4次元再構成、新規軌道ビデオ生成、および豊富な下流アプリケーションが可能な汎用4Dワールドモデル「NeoVerse」を提案する。我々はまず、現在の4Dワールドモデリング手法におけるスケーラビリティの共通課題を特定した。これは高価で特殊なマルチビュー4Dデータ、あるいは煩雑な学習前処理に起因するものである。対照的に、NeoVerseは多様な実世界モノクロ動画への完全なパイプラインのスケーラビリティを実現する核心的設計思想に基づいている。具体的には、NeoVerseは姿勢推定を必要としないフィードフォワード型4D再構成、オンライン単眼劣化パターンシミュレーション、および他のよく整合された技術を特徴とする。これらの設計により、NeoVerseは多様な領域への汎用性と一般化性能を獲得している。同時に、NeoVerseは標準的な再構成および生成ベンチマークにおいて最先端の性能を達成した。プロジェクトページはhttps://neoverse-4d.github.ioで公開されている。
既存の大規模言語モデル(LLM)エージェントフレームワークは、高い設定コストと静的な能力という2つの重大な課題に直面しています。高品質なエージェントを構築するには、ツール統合やプロンプトエンジニアリングに多大な手作業を要することが多く、一方でデプロイ後のエージェントは、高価なファインチューニングなしでは動的環境に適応できません。これらの問題を解決するため、我々はLLMエージェントの自動生成と継続的進化を目的としたモジュラー型フレームワーク「Youtu-Agent」を提案します。Youtu-Agentは、実行環境、ツールキット、コンテキスト管理を分離する構造化設定システムを特徴とし、柔軟な再利用と自動合成を可能にします。標準タスク向けのワークフローモードと、複雑な非標準要件に対応可能なメタエージェントモードという2つの生成パラダイムを導入し、ツールコード、プロンプト、設定の自動生成を実現します。さらに、Youtu-Agentはハイブリッド方策最適化システムを構築しています:(1)エージェントがパラメータ更新なしで文脈内最適化を通じて経験を蓄積し性能を向上させる「Agent Practice」モジュール、(2)分散トレーニングフレームワークと連携し、あらゆるYoutu-Agentの大規模エンドツーエンド強化学習をスケーラブルかつ安定的に実現する「Agent RL」モジュールです。実験では、Youtu-Agentがオープンウェイトモデルを用いてWebWalkerQA(71.47%)およびGAIA(72.8%)でState-of-the-Art性能を達成しました。自動生成パイプラインは81%以上のツール合成成功率を達成し、PracticeモジュールはAIME 2024/2025においてそれぞれ+2.7%、+5.4%の性能向上を実現しました。さらに、Agent RLトレーニングは7B LLMにおいて40%の高速化と安定した性能向上を達成し、数学および一般/マルチホップQAベンチマークにおいて、それぞれコーディング/推論能力を最大35%、検索能力を21%向上させました。
話し頭生成は、仮想コミュニケーションやコンテンツ制作のために、静止画ポートレートから生き生きとしたアバターを作成する技術である。しかし、現在のモデルは真に双方向的なコミュニケーションの感覚を十分に伝えられておらず、感情的な関与に欠ける一方向的な応答を生成することが多い。我々は、真に双方向的なアバターの実現に向けた二つの主要な課題を特定した:因果的制約下でのリアルタイム動作生成と、追加の教師データなしで表現力豊かで活気のある反応を学習することである。これらの課題に対処するため、我々は拡散強制法を通じてユーザーとアバターのリアルタイム相互作用をモデル化する新しいフレームワーク「Avatar Forcing」を提案する。この設計により、アバターはユーザーの音声や動作を含むマルチモーダル入力を低遅延で処理し、音声、頷き、笑いなどの言語的・非言語的合図に対して即座に反応することが可能となる。さらに、ユーザー条件をドロップして構築した合成負例を活用した直接選好最適化手法を導入し、表現力豊かな相互作用をラベルなしで学習する。実験結果では、本フレームワークが低遅延(約500ms)でのリアルタイム相互作用を実現し、ベースライン比6.8倍の高速化を達成、反応性と表現性に優れたアバター動作を生成し、ベースラインに対して80%以上で選好されることを示した。
視覚言語モデル(VLM)はエージェント的な推論によって複雑なタスクを解決できるが、その能力は主にテキスト指向の連鎖的思考や単体のツール呼び出しに限定されている。特に、検索や画像切り抜きといった外部ツールの協調を要する知識集約的で視覚的に複雑なシナリオにおいて、動的なツール操作と連続的な推論をシームレスに組み合わせる人間並みの熟練度を発揮することはできない。本研究では、強化学習(RL)を通じてVLMに視覚的推論とツール使用能力を交差的に付与する新しいマルチモーダルエージェント推論・検索フレームワーク「SenseNova-MARS」を提案する。具体的には、SenseNova-MARSは画像検索、テキスト検索、画像切り抜きツールを動的に統合し、細粒度かつ知識集約的な視覚理解課題に取り組む。RL段階では、訓練の安定性を向上させ、ツール呼び出しと効果的な推論能力を促進するため、バッチ正規化グループシーケンス政策最適化(BN-GSPO)アルゴリズムを開発した。複雑な視覚タスクにおけるエージェント型VLMを包括的に評価するため、高解像度画像と知識集約的・検索指向の質問で構成される初の検索特化ベンチマーク「HR-MMSearch」を導入した。実験により、SenseNova-MARSがオープンソースの検索および細粒度画像理解ベンチマークで最先端の性能を達成することが実証された。特に検索指向ベンチマークでは、SenseNova-MARS-8BはMMSearchで67.84、HR-MMSearchで41.64を記録し、Gemini-3-FlashやGPT-5などのプロプライエタリモデルを凌駕した。SenseNova-MARSは、効果的かつ堅牢なツール使用能力を提供することで、エージェント型VLMの発展に向けた有望な一歩を示す。本研究の推進のため、全てのコード、モデル、データセットを公開予定である。
マルチモーダル大規模言語モデル(MLLM)は、映像理解において目覚ましい進展を見せている。しかし、重大な脆弱性を抱えている。言語的な事前知識への過度な依存により、特に常識に反する反事実的映像を処理する際に、視覚的根拠を欠いた虚構(ハルシネーション)が生じやすいのである。この制約は、テキストと映像の本質的なデータ不均衡に起因しており、反事実的データの収集と注釈付けに多大なコストがかかるため、解決が困難である。この問題に対処するため、我々はDualityForgeを提案する。これは、制御可能な拡散モデルベースの映像編集を用いて実世界の映像を反事実的シナリオへ変換する、新しい反事実的データ合成フレームワークである。構造化された文脈情報を映像編集およびQA生成プロセスに組み込むことで、本フレームワークは、対照学習のための元映像と編集済み映像のペアと、高品質なQAペアを自動的に生成する。これに基づき、MLLMの虚構を軽減するために設計された大規模映像データセットDualityVidQAを構築した。さらに、このペアデータの対照性を最大限に活用するため、2段階のSFT-RL訓練手法であるDuality-Normalized Advantage Training(DNA-Train)を提案する。RL段階ではペア単位のℓ1アドバンテージ正規化を適用し、より安定かつ効率的な方策最適化を実現する。DualityVidQA-Testでの実験により、本手法が反事実的映像におけるモデルの虚構を大幅に軽減し、Qwen2.5-VL-7Bベースラインに対して24.0%の相対的改善をもたらすことが実証された。さらに、我々のアプローチは虚構評価と一般目的ベンチマークの両方で顕著な性能向上を達成し、強力な汎化能力を示している。データセットとコードは公開予定である。
単眼動画から動的3Dシーンを再構築するには、高周波の外観詳細と時間的に連続な動きを同時に捕捉する必要がある。既存の単一ガウシアンプリミティブを用いる手法は、そのローパスフィルタ特性によって制限され、標準的なガボール関数はエネルギー不安定性を引き起こす。さらに、時間的連続性の制約が不足しているため、補間時にモーションアーティファクトが生じやすい。本研究では、明示的動的シーンモデリングにおける周波数適応性と時間的連続性の両課題に応える統一フレームワークAdaGaRを提案する。適応的ガボール表現を導入し、学習可能な周波数重みと適応的エネルギー補償によりガウシアンを拡張することで、詳細捕捉と安定性のバランスを実現する。時間的連続性については、3次エルミートスプラインと時間曲率正則化を採用し、滑らかな動きの進化を保証する。深度推定、点追跡、前景マスクを組み合わせた適応的初期化機構により、訓練初期段階で安定した点群分布を構築する。Tap-Vid DAVISにおける実験では、最高水準の性能(PSNR 35.49, SSIM 0.9433, LPIPS 0.0723)を実証し、フレーム補間、深度一貫性、動画編集、ステレオビュー合成において強力な一般化性能を示した。プロジェクトページ: https://jiewenchan.github.io/AdaGaR/
近年の進歩、特に言語モデルの開発において顕著な発展が見られるにもかかわらず、このようなモデルがどのように継続的学習/記憶、自己改善、効果的な解決策の発見を行うかについては、根本的な課題や未解決の問題が残されています。本論文では、ネスト化学習(Nested Learning: NL)と呼ばれる新しい学習パラダイムを提案します。これは、機械学習モデルを、それぞれが独自のコンテキストフローを持つ、ネスト化されたマルチレベルおよび/または並列最適化問題の集合として一貫して表現するものです。NLの観点から見ると、既存の深層学習手法は自身のコンテキストフローを圧縮することでデータから学習しており、大規模モデルにおいてインコンテキスト学習が自然に出現することがわかります。NLは、より多くのレベルを持つより表現力豊かな学習アルゴリズムを設計するための哲学を示唆し、その結果、高次元のインコンテキスト学習を実現し、効果的な継続的学習能力を潜在的に解放する可能性があります。我々は以下の3つの核心的な貢献を通じてNLの有効性を主張します:(1)表現力豊かなオプティマイザ:既知の勾配ベースオプティマイザ(Adam、運動量付きSGDなど)が、実際には勾配情報を(勾配降下法によって)圧縮することを目的とした連想記憶モジュールであることを示します。この知見に基づき、深層メモリおよび/またはより強力な学習規則を持つ、より表現力豊かな他のオプティマイザを提示します。(2)自己修正型学習モジュール:学習アルゴリズムに関するNLの洞察を活用し、自身の更新アルゴリズムを学習することで自己修正を行うシーケンスモデルを提示します。(3)連続メモリシステム:従来の長期/短期記憶の視点を一般化する新しいメモリシステムの定式化を提示します。自己修正型シーケンスモデルと連続メモリシステムを組み合わせることで、Hopeと名付けた継続的学習モジュールを提案し、言語モデリング、知識統合、数ショット一般化タスク、継続的学習、長文脈推論タスクにおいて有望な結果を示しています。
深層残差ネットワークの有効性は、本質的に恒等ショートカット接続に依存している。このメカニズムは勾配消失問題を効果的に緩和する一方で、特徴変換に厳密に加法的な帰納的バイアスを課すため、複雑な状態遷移をモデル化するネットワークの能力を制限している。本論文では、恒等ショートカットを学習可能なデータ依存の幾何変換で変調することにより、標準的な残差接続を一般化した新規アーキテクチャであるDeep Delta Learning(DDL)を提案する。この変換はデルタ演算子と称され、反射方向ベクトルk(X)とゲートスカラーβ(X)でパラメータ化された単位行列のランク1摂動を構成する。本稿ではこの演算子のスペクトル解析を行い、ゲートβ(X)が恒等写像、直交射影、幾何反射の間の動的補間を可能にすることを示す。さらに、残差更新を同期型ランク1注入として再構築し、ゲートが古い情報の消去と新たな特徴の書き込みの両方を制御する動的ステップサイズとして機能するようにした。この統一化により、ネットワークは層ごとの遷移演算子のスペクトルを明示的に制御できるようになり、ゲート付き残差アーキテクチャの安定した学習特性を維持しつつ、複雑な非単調ダイナミクスのモデル化が可能となる。
最先端の大規模言語モデル(LLM)パイプラインは、ブートストラップされた推論ループに依存している。すなわち、多様な思考の連鎖をサンプリングし、最高スコアのものを強化するというもので、主に正しさを最適化する。我々は、この設計選択が、推論経路に対するモデルの分布の崩壊に対してどのように敏感であるかを分析する。これは意味的エントロピーを急激に減少させ、創造的問題解決を損なうものである。この失敗を分析するため、我々は**分布的創造的推論(Distributional Creative Reasoning, DCR)**を提案する。これは、訓練を解軌跡上の確率測度を通じた勾配流として捉える統一的な変分目的関数である。STaR、GRPO、DPO、さらにエントロピー・ボーナスやその他の手法は、すべて同一の損失関数の特殊なケースとして構成される。この枠組みは三つの核心的な結果をもたらす:(i) **多様性減衰定理**。これは、正しさに基づく目的関数が如何にしてSTaR、GRPO、DPOにおいて異なる様式の多様性減衰を引き起こすかを記述する。(ii) 安定かつ多様な方策への収束を保証し、崩壊を効果的に防止する設計。(iii) これを実践的に達成するためのシンプルで実行可能な手法。このようにDCRは、**正しくかつ創造的であり続けるLLM** のための最初の原理に基づいた手法を提供する。
近年の研究により、強化学習(RL)が大規模言語モデル(LLM)の推論能力を大幅に向上させ得ることが示されている。しかし、このようなRL訓練の効果は、事前学習済みモデルのトークン出力分布によって定義される探索空間に大きく依存する。本論文では、標準的な交差エントロピー損失を再検討し、それを単一ステップのエピソードに適用された政策勾配最適化の一例として解釈する。事前学習分布が後続のRLの探索可能性をどのように形成するかを体系的に研究するため、方策オン型RLの原理を教師あり学習に適応させた一般化事前学習目標を提案する。次トークン予測を確率的決定過程として捉え直し、多様性と精度のバランスを明示的に取る報酬形成戦略を導入する。本手法は、正解トークンに対する確率集中度を制御する正の報酬スケーリング係数と、高順位と低順位の負例トークンを非対称に扱う順位考慮メカニズムを採用する。これにより、事前学習済みのトークン出力分布を再形成し、RLにより好ましい探索空間を提供する方法を探り、エンドツーエンドの推論性能向上を目指す。分布エントロピーが高いほど効果的な探索が促進されるという直感に反し、精度指向の事前分布を課すことがRLにとって優れた探索空間を生み出すことを発見した。
現代の言語モデルにおける系列モデリング層は、一般的に記憶容量と計算効率の間でトレードオフに直面しています。Softmaxアテンションは二次コストが膨大になる代わりに無制限の記憶容量を提供する一方、線形変種は効率性を提供するものの、限定的で固定サイズの記憶容量に悩まされています。本論文では、この対立を解決する新しいアーキテクションであるFast-weight Product Key Memory(FwPKM)を提案します。FwPKMは、静的なモジュールであるProduct Key Memory(PKM)を動的な「高速重み」エピソード記憶へと変換します。PKMとは異なり、FwPKMはトレーニング時と推論時の両方で、局所的なチャンクレベルの勾配降下法を通じてそのパラメータを動的に更新し、モデルが入力系列から新しいキーと値のペアを迅速に記憶し、検索することを可能にします。実験結果から、FwPKMは標準モジュールの意味記憶を補完する効果的なエピソード記憶として機能し、長文脈データセットにおいて大幅なパープレキシティの低減をもたらすことが明らかになりました。特に、「干し草の山の中の針」評価において、FwPKMは4Kトークンの系列でトレーニングされたのみにも関わらず、128Kトークンの文脈へと一般化することが示されました。
大規模言語モデル(LLM)は、推論とコード生成において著しい進歩を示している。しかし、これらの能力を評価するための新しいベンチマークを効率的に作成することは依然として課題である。従来のベンチマーク作成は人的労力に依存しており、このプロセスは費用と時間を要する。さらに、既存のベンチマークはLLMの学習データを汚染することが多く、真の能力を正確に評価するには新規性と多様性に富んだベンチマークが必要とされる。本研究では、情報理論の原則に基づいて推論ベンチマークを自動生成・評価する新規フレームワーク「InfoSynth」を提案する。我々は、高コストなモデル評価に依存せずにベンチマークの新規性と多様性を定量化するため、KLダイバージェンスとエントロピーに基づく指標を提案する。このフレームワークに基づき、遺伝的アルゴリズムと反復的なコードフィードバックを用いて、シードデータセットから堅牢なPythonコーディング問題を合成するエンドツーエンドのパイプラインを開発する。本手法は、新しい問題に対する正確なテストケースと解答を97%の確率で生成し、合成されたベンチマークはシードデータセットと比較して一貫して高い新規性と多様性を示す。さらに、本アルゴリズムは生成問題の新規性/多様性および難易度を制御する方法を提供する。InfoSynthは、LLM向けに高品質で新規性・多様性に富んだベンチマークを構築するためのスケーラブルで自己検証型のパイプラインを実現する。プロジェクトページ: https://ishirgarg.github.io/infosynth_web/
3Dモーフィングは、特にカテゴリ間において意味的に一貫性があり時間的に滑らかな変形を生成することが困難であるため、依然として課題となっている。本研究では、高品質な3Dモーフィングのためのトレーニング不要のフレームワークであるMorphAny3Dを提案する。本フレームワークは、構造化潜在表現を利用する。我々の重要な知見は、3D生成モデルのアテンション機構内でソースとターゲットのSLAT特徴を知的にブレンドすることが、自然で説得力のあるモーフィングシーケンスを生成するという点である。この目的のために、構造的一貫性のためにソースとターゲットの情報を融合するMorphing Cross-Attentionと、前フレームの特徴を組み込むことで時間的一貫性を強化するTemporal-Fused Self-Attentionを導入する。さらに、姿勢補正戦略により、モーフィングステップ内の姿勢の曖昧さを軽減する。大規模な実験により、本手法が、困難なカテゴリ間の場合であっても、最先端のモーフィングシーケンスを生成することを示す。MorphAny3Dは、分離モーフィングや3Dスタイル転送などの高度な応用をさらにサポートし、他のSLATベースの生成モデルへ一般化することが可能である。プロジェクトページ: https://xiaokunsun.github.io/MorphAny3D.github.io/