翻訳付きの日次キュレーションされたAI研究論文
ネイティブコンピュータ利用エージェント(CUA)の開発は、マルチモーダルAIにおける重要な飛躍を意味する。しかし、その潜在能力は現在、静的なデータスケーリングの制約によってボトルネックに陥っている。静的なデータセットの受動的模倣に主に依存する既存のパラダイムでは、長期的なコンピュータタスクに内在する複雑な因果ダイナミクスを捉えることが困難である。本研究では、ネイティブコンピュータ利用エージェントモデルであるEvoCUAを提案する。静的な模倣とは異なり、EvoCUAはデータ生成とポリシー最適化を自己維持的な進化サイクルに統合する。データ不足を緩和するため、多様なタスクと実行可能な検証器を自律的に生成する検証可能な合成エンジンを開発した。大規模な経験獲得を可能にするため、数万の非同期サンドボックス実行を調整するスケーラブルなインフラストラクチャを設計した。これらの大規模な軌跡に基づき、経験を効率的に内在化する反復的進化学習戦略を提案する。このメカニズムは、能力境界を特定することでポリシー更新を動的に制御し、成功したルーチンを強化するとともに、エラー分析と自己修正を通じて失敗軌跡を豊かな教師信号に変換する。OSWorldベンチマークによる実証評価では、EvoCUAが56.7%の成功率を達成し、新しいオープンソースのstate-of-the-artを確立した。特に、EvoCUAは従来の最良オープンソースモデルであるOpenCUA-72B(45.0%)を大幅に上回り、UI-TARS-2(53.1%)などのクローズドウェイトモデルも凌駕した。重要なのは、このアプローチの一般化可能性が結果によって裏付けられている点である。経験からの学習によって駆動される進化パラダイムは、様々な規模の基盤モデルにおいて一貫した性能向上をもたらし、ネイティブエージェント能力を発展させるための堅牢かつスケーラブルな経路を確立する。
拡散大規模言語モデル(dLLM)は、従来のLLMが持つ厳格な左から右への生成制約を打破し、任意の順序でのトークン生成を可能にする。直観的には、この柔軟性は固定された自己回帰的軌道を厳密に包含する解空間を意味し、数学やコーディングのような一般タスクにおいて理論的に優れた推論潜在能力を開放すると考えられる。この結果、多くの研究が強化学習(RL)を活用してdLLMの推論能力を引き出そうとしてきた。本論文では、直観に反する現実を明らかにする:現在の形式における任意順序生成は、dLLMの推論境界を拡大するどころか、むしろ狭めている。我々は、dLLMが探索に不可欠な高不確実性トークンを回避するためにこの順序柔軟性を利用する傾向があり、解空間の早期収束を招くことを発見した。この観察は、組み合わせ軌道の処理や扱い難い尤度といった相当な複雑さを、この柔軟性の維持に費やしている既存のdLLM向けRLアプローチの前提に疑問を投げかける。我々は、効果的な推論は意図的に任意順序を放棄し、代わりに標準的なGroup Relative Policy Optimization(GRPO)を適用することでより良く引き出されることを実証する。我々のアプローチであるJustGRPOは、最小限でありながら驚くほど効果的(例:GSM8Kで89.1%の精度)であり、dLLMの並列復号能力を完全に保持する。プロジェクトページ: https://nzl-thu.github.io/the-flexibility-trap
近年、マルチモーダル大規模言語モデル(MLLM)の進歩により、オフライン動画理解の性能が大幅に向上している。しかし、これらの能力をストリーミング動画入力に拡張することは依然として課題であり、既存モデルは安定した理解性能、リアルタイム応答、低GPUメモリ負荷を同時に維持することが困難である。この課題に対処するため、我々はリアルタイムかつ正確な動画ストリーム理解のための訓練不要の新規アーキテクチャ「HERMES」を提案する。注意機構のメカニズム分析に基づき、我々はKVキャッシュを複数の粒度で動画情報を包含する階層的メモリフレームワークとして概念化する。推論時、HERMESはコンパクトなKVキャッシュを再利用することで、リソース制約下での効率的なストリーミング理解を実現する。特筆すべきは、HERMESがユーザークエリ到着時に追加計算を必要とせず、連続的な動画ストリーム対話におけるリアルタイム応答を保証することであり、従来のSOTAと比較してTTFTを10倍高速化する。均一サンプリングと比較して動画トークンを最大68%削減した場合でも、HERMESは全てのベンチマークで同等または優れた精度を達成し、ストリーミングデータセットでは最大11.4%の精度向上を示す。
Vision-Language-Action(VLA)モデルはロボットマニピュレーションにおいて有望な成果を示しているものの、新しい指示や複雑なマルチタスクシナリオへの汎化に課題を抱えることが多い。本研究では、目標駆動型のデータ収集がデータセットバイアスを生み出す現在の学習パラダイムに重大な欠陥があることを明らかにする。このようなデータセットでは、言語指示が視覚観測のみから高い確率で予測可能となるため、指示と行動の間の条件付き相互情報量が消失する「情報崩壊(Information Collapse)」と呼ばれる現象が発生する。結果として、モデルは言語制約を無視する視覚専用方策に退化し、分布外(OOD)設定で失敗する。この問題に対処するため、我々はベイズ分解による指示追従を強制する新規フレームワークBayesianVLAを提案する。学習可能な潜在行動クエリ(Latent Action Queries)を導入し、視覚のみの事前分布p(a|v)と言語条件付き事後分布π(a|v,ℓ)を推定するデュアルブランチ構造を構築する。さらに、方策を最適化して行動と指示の間の条件付き点間相互情報量(PMI)を最大化する。この目的関数は視覚的ショートカットを罰則化し、言語命令を明示的に説明する行動を報酬として効果的に機能する。新規データを必要とせず、BayesianVLAは汎化性能を大幅に改善する。SimplerEnvとRoboCasaにおける大規模実験では、難易度の高いOODベンチマークSimplerEnvで11.3%の改善を含む顕著な性能向上を実証し、本手法の言語と行動の頑健な接地能力を検証した。
我々は「LLM-in-Sandbox」を提案し、大規模言語モデル(LLM)がコードサンドボックス(仮想コンピュータ環境)内で探索を行うことで、非コード領域における汎用的な知能の発現を可能にします。まず、強力なLLMが追加の訓練なしに、非コードタスクにおいてコードサンドボックスを活用する一般化能力を示すことを実証します。例えば、LLMは自発的に外部リソースにアクセスして新たな知識を獲得し、ファイルシステムを活用して長文コンテキストを処理し、スクリプトを実行してフォーマット要件を満たすことが観察されます。さらに、サンドボックス探索のためのモデル訓練に非エージェント的データのみを使用する「LLM-in-Sandbox強化学習(LLM-in-Sandbox-RL)」を通じて、これらのエージェント能力を強化できることを示します。実験により、訓練不要な設定と事後学習済み設定の両方において、LLM-in-Sandboxが数学・物理学・化学・生物医学・長文理解・指示追従にわたる頑健な一般化を達成することを確認しました。最後に、計算効率とシステム観点からの分析を行い、実環境での展開を促進するためPythonパッケージとしてオープンソース化しました。
表現オートエンコーダ(RAE)は、高次元の意味的潜在空間で学習することで、ImageNetにおける拡散モデリングにおいて明確な利点を示してきました。本研究では、このフレームワークが大規模で自由形式のテキストから画像(T2I)生成にスケールできるかどうかを調査します。まず、固定化された表現エンコーダ(SigLIP-2)上でRAEデコーダを、ImageNetを超えてWebデータ、合成データ、テキストレンダリングデータで学習させることでスケーリングしました。その結果、スケールを上げると一般的な忠実度は向上するものの、テキストのような特定のドメインでは対象を絞ったデータ構成が不可欠であることがわかりました。次に、ImageNet向けに当初提案されたRAE設計選択を厳密にストレステストします。私たちの分析により、スケーリングはフレームワークを単純化することが明らかになりました:次元依存のノイズスケジューリングは依然として重要ですが、大規模な拡散ヘッドやノイズ増強デコーディングといった構造的な複雑さは、スケール時には無視できる程度の利益しかもたらさないことがわかります。この単純化されたフレームワークに基づいて、RAEと最先端のFLUX VAEを、0.5Bから9.8Bパラメータの拡散トランスフォーマースケールにわたって制御された比較を実施します。RAEは、すべてのモデル規模においてプレトレーニング中、一貫してVAEを上回りました。さらに、高品質データセットでのファインチューニング中、VAEベースのモデルは64エポック後に壊滅的な過学習を起こしましたが、RAEモデルは256エポックを通じて安定し、一貫して優れた性能を達成しました。すべての実験を通じて、RAEベースの拡散モデルはより速い収束と優れた生成品質を示し、大規模T2I生成のための基盤として、RAEがVAEよりも単純で強力であることを確立しました。加えて、視覚的理解と生成の両方が共有された表現空間で動作可能なため、マルチモーダルモデルは生成された潜在変数を直接推論でき、統一モデルへの新たな可能性を開きます。
拡散ベースの言語モデル(DLLM)は、自己回帰(AR)モデルと比較して非逐次的なブロック単位の生成と豊富なデータ再利用を可能にするが、既存のコードDLLMは同等の計算予算下では強力なARベースラインに依然として遅れを取っている。本研究では制御された環境でこの設定を再検討し、Seed-Coderのアーキテクチャ・データ・訓練パイプラインを再利用するブロック拡散コードモデルStable-DiffCoderを提案する。効率的な知識学習と安定した訓練を実現するため、調整済みウォームアップとブロック単位クリップノイズスケジュールを強化したブロック拡散継続事前学習(CPT)段階を組み込んだ。同一データ・アーキテクチャ条件下で、Stable-DiffCoderは広範なコードベンチマークにおいてARモデルを総合的に上回る性能を示した。さらにCPTと教師ありファインチューニングのみに依存しつつ、Stable-DiffCoderは多様な~80億パラメータのARモデルおよびDLLMを凌駕する性能を達成し、拡散ベースの訓練が単独のAR訓練を超えるコードモデリング品質の向上をもたらすことを実証した。加えて、拡散ベースの任意順序モデリングは編集・推論における構造化コードモデリングを改善し、データ拡張を通じて低リソースプログラミング言語の性能向上に寄与する。
ピクセル単位の機能は、対話型知能システムを構築する上で不可欠である。しかし、ピクセル単位のマルチモーダル大規模言語モデル(MLLM)は、複雑な領域レベルエンコーダ、専門的なセグメンテーションデコーダ、互換性のない学習目標により、スケーリングが困難なままである。これらの課題に対処するため、本論文ではSAMTokを提案する。これは任意の領域マスクを2つの特殊トークンに変換し、これらのトークンを用いて高精度にマスクを再構築する離散マスクトークナイザである。マスクを新たな言語トークンとして扱うことで、SAMTokはベースMLLM(QwenVLシリーズなど)が、アーキテクチャ変更や専門的な損失設計を必要とせず、標準的な次トークン予測と単純な強化学習を通じてピクセル単位の機能を学習することを可能にする。SAMTokはSAM2を基盤とし、マスクエンコーダと残差ベクトル量子化器を用いて209Mの多様なマスクで学習され、離散的でコンパクト、かつ情報量の豊富なトークンを生成する。500万のSAMTok形式マスク理解・生成データサンプルにより、QwenVL-SAMTokは領域キャプション、領域VQA、グラウンディッド会話、参照セグメンテーション、シーングラフ解析、マルチラウンド対話的セグメンテーションにおいて、State-of-the-Artまたは同等の結果を達成した。さらに、マスク生成のための効率的な強化学習を可能にするテキスト回答マッチング報酬を導入し、GRESおよびGCGベンチマークで大幅な改善をもたらした。我々の結果は、MLLMに強力なピクセル単位機能を付与する、スケーラブルで直截なパラダイムを実証する。コードとモデルは公開されている。
科学問題における新たなstate of the artを発見するためにAIをどのように活用できるだろうか。従来のテスト時スケーリング研究(AlphaEvolveなど)は、固定された大規模言語モデル(LLM)に対するプロンプト操作による探索を行ってきた。我々はテスト時に強化学習を実施し、LLMが継続的に学習できるようにする。ただし、ここでの学習はテスト問題に特化した経験に基づく。この継続学習は極めて特殊な形態である。なぜなら、その目的が平均的に多数の良好な解を生成することではなく、一つの優れた解を生み出すことにあり、他の問題への一般化ではなくこの特定問題を解決することにあるからだ。したがって、我々の学習目標と探索サブルーチンは、最も有望な解を優先するように設計されている。本手法をTest-Time Training to Discover(TTT-Discover)と命名する。 従来研究に倣い、連続的な報酬を伴う問題に焦点を当てる。数学、GPUカーネルエンジニアリング、アルゴリズム設計、生物学など、試行した全問題における結果を報告する。TTT-Discoverはほぼ全ての領域で新たなstate of the artを達成した:(i)エルデシュの最小重複問題と自己相関不等式、(ii)GPUModeカーネル競技会(従来比最大2倍の高速化)、(iii)過去のAtCoderアルゴリズム競技会、(iv)単一細胞解析におけるノイズ除去問題である。これらの解は専門家または主催者による査読を経ている。 全ての結果はオープンモデルであるOpenAI gpt-oss-120bで達成され、公開コードで再現可能である。これは、閉鎖的なフロンティアモデルを必要とした従来の最良結果とは対照的である。テスト時トレーニングはThinking Machines社のAPI「Tinker」を用いて実行され、問題あたりのコストはわずか数百ドルに留まる。
本報告では、高度な多言語対応・制御可能・高ロバスト性・ストリーミング対応のテキスト音声合成モデル群であるQwen3-TTSシリーズを紹介する。Qwen3-TTSは、最先端の3秒音声クローニングと記述ベースの制御をサポートし、全く新しい音声の生成と出力音声のきめ細かな操作を可能にする。10言語にわたる500万時間以上の音声データで学習されたQwen3-TTSは、リアルタイム合成のためにデュアルトラックLMアーキテクチャを採用し、2つの音声トークナイザと組み合わせている:1)Qwen-TTS-Tokenizer-25Hzは、意味内容を重視した単一コードブックのコーデックであり、Qwen-Audioとのシームレスな連携を提供し、ブロック単位のDiTによるストリーミング波形再構成を可能にする。2)Qwen-TTS-Tokenizer-12Hzは、12.5 Hz・16層のマルチコードブック設計と軽量な因果的ConvNetにより、極端なビットレート削減と超低遅延ストリーミングを実現し、初回パケット送出までの時間97msを達成する。大規模な実験により、多様な客観的・主観的ベンチマーク(TTS多言語テストセット、InstructTTSEval、長文音声テストセットなど)において最先端の性能を示す。コミュニティの研究開発を促進するため、両トークナイザとモデルをApache 2.0ライセンスの下で公開する。
AIエージェントは近い将来、多様な領域において価値のある長期的タスクを自律的に遂行できるようになる可能性がある。現行のベンチマークは、現実世界のタスクを測定していないか、フロンティアモデルを意味のある形で測定するには十分な難易度に達していない。この課題に対処するため、我々はTerminal-Bench 2.0を提案する。これは実際のワークフローから着想を得た、コンピュータ端末環境における89のタスクで構成される厳選された難易度の高いベンチマークである。各タスクは独自の環境、人間によって記述された解答、検証のための包括的なテストを特徴とする。フロンティアモデルおよびエージェントのベンチマークスコアが65%未満であることを示し、モデルとエージェントの改善点を特定するための誤り分析を実施する。データセットと評価フレームワークをhttps://www.tbench.ai/ で公開し、今後の開発者および研究者の研究を支援する。
本論文は、画像理解と画像生成の両方に対応可能な単一の統合視覚表現を学習する先進的ビジョンエンコーダファミリー「OpenVision 3」を提案する。中核となるアーキテクチャは簡潔である。VAEで圧縮された画像潜在変数をViTエンコーダに入力し、その出力が2つの相補的な役割を果たすように学習する。第一に、エンコーダ出力をViT-VAEデコーダに渡して元画像を再構成し、表現が生成的な構造を捉えることを促す。第二に、同じ表現に対比学習と画像キャプション生成の目的関数を適用し、意味的特徴を強化する。再構成と意味情報に基づく信号を共有潜在空間で共同最適化することで、エンコーダは両領域で相乗効果を持ち、汎化性の高い表現を学習する。本統合設計の有効性は、エンコーダを凍結した状態での広範な下流タスク評価により検証する。マルチモーダル理解では、エンコーダをLLaVA-1.5フレームワークに組み込むと、標準的なCLIPビジョンエンコーダと同等の性能を示した(例:SeedBenchで62.4対62.2、POPEで83.7対82.9)。生成タスクではRAEフレームワーク下で評価し、標準のCLIPベースエンコーダを大幅に上回った(例:ImageNetにおけるgFIDが1.89対2.54)。本研究成果が統合モデリングに関する今後の研究を促進することを期待する。
構成画像検索(CIR)はマルチモーダル理解における重要な複雑なタスクである。現在のCIRベンチマークは、一般的にクエリのカテゴリが限定的であり、現実世界の多様な要求を捉えきれていない。この評価ギャップを埋めるため、我々は画像編集技術を活用して修正タイプと内容を精密に制御し、幅広いカテゴリにわたるクエリ合成のパイプラインを実現した。このパイプラインを用いて、新たな細粒度CIRベンチマークであるEDIRを構築した。EDIRは5つの主要カテゴリと15のサブカテゴリで構成される5,000の高品質なクエリを含む。13のマルチモーダル埋め込みモデルに対する包括的評価により、重大な能力ギャップが明らかになった。例えばRzenEmbedやGMEといった最先端モデルでさえ、全てのサブカテゴリで一貫した性能を発揮するには至らず、本ベンチマークの厳密性が示された。比較分析を通じて、モダリティバイアスやカテゴリ coverage の不足といった既存ベンチマークの内在的限界をさらに解明した。さらに、ドメイン内学習実験により本ベンチマークの実用性を実証した。この実験では、特定データで解決可能なカテゴリと、現在のモデルアーキテクチャの本質的限界が露呈するカテゴリを区別することにより、タスクの課題を明確化している。
現代AIシステムの性能は、高水準のアルゴリズム的意味論を低水準のハードウェア操作に変換する基盤カーネルの質によって根本的に制約されている。ほぼ最適なカーネルを達成するには、ハードウェアアーキテクチャとプログラミングモデルに関する専門家レベルの理解が必要であり、カーネルエンジニアリングは極めて重要ながら、非常に時間がかかりスケーラブルでないプロセスとなっている。大規模言語モデル(LLM)およびLLMベースのエージェントにおける最近の進展は、カーネル生成と最適化の自動化に新たな可能性をもたらした。LLMは形式化が困難な専門家レベルのカーネル知識を圧縮するのに適しており、エージェントシステムはカーネル開発を反復的でフィードバック駆動型のループとして位置づけることで、さらにスケーラブルな最適化を可能にする。この分野では急速な進展が見られている。しかし、この分野は依然として断片的であり、LLM駆動のカーネル生成に対する体系的な視点を欠いている。本調査は、このギャップに応えるため、LLMベースのアプローチとエージェント型最適化ワークフローにわたる既存手法の構造的な概観を提供し、この領域における学習と評価を支えるデータセットおよびベンチマークを体系的にまとめる。さらに、主要な未解決課題と将来の研究方向性を提示し、次世代の自動化カーネル最適化のための包括的な参照基準の確立を目指す。この分野の動向を追跡するため、オープンソースのGitHubリポジトリをhttps://github.com/flagos-ai/awesome-LLM-driven-kernel-generation にて維持している。
タスクの進捗推定は、静的な視覚的コンテンツを認識するのではなく、長期的なダイナミクスに対する推論を必要とします。現代の視覚言語モデル(VLM)は目に見えるものを記述することに優れていますが、部分的な観察からタスクがどの程度進行したかを推論できるかどうかは不明なままです。この目的のために、我々はVLMにおける進捗推論を体系的に評価するベンチマーク「Progress-Bench」を提案します。ベンチマーク評価を超えて、人間にヒントを得た2段階の進捗推論パラダイムを、トレーニング不要なプロンプティング手法と、精選されたデータセットProgressLM-45Kに基づくトレーニングベースの手法の両方を通じて探求します。14のVLMを用いた実験により、ほとんどのモデルはタスク進捗推定の準備がまだ整っておらず、デモンストレーションのモダリティや視点の変化に対する敏感性、および回答不能なケースへの不適切な対応が明らかになりました。構造化された進捗推論を強制するトレーニング不要なプロンプティングは限定的かつモデル依存の改善しかもたらさない一方で、トレーニングベースのProgressLM-3Bは、評価タスクと完全に異なるタスクセットで学習されたにもかかわらず、小規模なモデルサイズでも一貫した改善を達成します。さらなる分析により、特徴的なエラーパターンが明らかになり、進捗推論がいつ、なぜ成功または失敗するのかが明確になります。
映像マッティングモデルの実世界映像への一般化は、ラベル付きデータの不足により依然として大きな課題である。この問題に対処するため、我々は事前学習済みの映像拡散モデルを活用し、粗いセグメンテーションマスクをピクセル精度のアルファマットに変換するVideo Mask-to-Matte Model (VideoMaMa) を提案する。VideoMaMaは合成データのみで学習されているにも関わらず、実写映像に対して強力なゼロショット一般化能力を示す。この能力を基盤として、大規模映像マッティングのためのスケーラブルな擬似ラベリングパイプラインを構築し、多様なシーンと動きを包含する5万以上の実写映像に対して高品質なマッティング注釈を提供するMatting Anything in Video (MA-V) データセットを作成した。このデータセットの有効性を検証するため、SAM2モデルをMA-VでファインチューニングしSAM2-Matteを開発したところ、従来のマッティングデータセットで学習した同一モデルよりも、実世界映像におけるロバスト性で優れた性能を示した。これらの知見は、大規模な擬似ラベル付き映像マッティングデータの重要性を強調するとともに、生成的事前知識と利用可能なセグメンテーション手がかりが、映像マッティング研究のスケーラブルな進展を如何に推進し得るかを示すものである。
近年のビデオ生成モデルは、複雑な物理的相互作用や時間経過に伴うシーンの変化を捉える顕著な能力を示している。こうした時空間的な事前知識を活用するため、ロボティクス研究ではビデオモデルを政策学習に適応させる試みがなされているが、行動生成のために学習後の複数段階や新たなアーキテクチャ構成を必要とするため、複雑さが増す傾向にある。本研究では、大規模な事前学習済みビデオモデル(Cosmos-Predict2)を、対象プラットフォームで収集したロボット実証データを用いた単一段階の学習後処理のみで効果的なロボット政策に変換する簡潔な手法「Cosmos Policy」を提案する。この手法では、アーキテクチャの変更を一切行わない。Cosmos Policyは、ビデオモデルの潜在拡散過程内で潜在フレームとして符号化されたロボット行動を直接生成することを学習し、モデルが持つ事前学習済みの事前知識と中核的な学習アルゴリズムを活用して複雑な行動分布を捉える。さらに、Cosmos Policyは同様に潜在フレームとして符号化された将来の状態画像と価値(期待累積報酬)も生成し、成功率の高い行動軌道のテスト時計画を可能にする。評価実験において、Cosmos PolicyはLIBEROおよびRoboCasaシミュレーションベンチマークでそれぞれ98.5%、67.1%の平均成功率というState-of-the-Art性能を達成し、困難な実世界の両手操作タスクでは最高平均スコアを記録した。これは、スクラッチから学習した強力な拡散政策、ビデオモデルベースの政策、同じロボット実証データでファインチューニングされたState-of-the-Artの視覚言語行動モデルを凌駕する結果である。さらに、政策のロールアウトデータが与えられると、Cosmos Policyは経験から学習して世界モデルと価値関数を改良し、モデルベース計画を活用することで、困難なタスクにおいてさらに高い成功率を達成できる。コード、モデル、学習データはhttps://research.nvidia.com/labs/dir/cosmos-policy/で公開している。
視点画像や動画を360°パノラマに変換することで、没入型の3Dワールド生成が可能となる。既存手法では、視点画像と正距円筒図法(ERP)空間の明示的な幾何学的対応付けに依存する場合が多い。しかし、これには既知のカメラメタデータが必要であり、較正情報が通常欠如しているかノイズを含む実世界データへの応用が困難であった。本研究では、事前学習済み拡散Transformerに基づく幾何学情報不要のフレームワーク「360Anything」を提案する。視点入力とパノラマ目標を単なるトークン列として扱うことで、360Anythingは純粋にデータ駆動的に視点-正距円筒図法間のマッピングを学習し、カメラ情報の必要性を排除する。本手法は、画像および動画の視点-360°変換において、真値のカメラ情報を用いる従来手法を凌駕する最新の性能を達成する。さらに、ERP境界で生じる継ぎ目アーティファクトの根本原因をVAEエンコーダのゼロパディングに特定し、シームレスな生成を可能にする循環潜在符号化を導入する。最後に、ゼロショットカメラ視野角・方向推定ベンチマークで競合する結果を示し、360Anythingの深い幾何学的理解とコンピュータビジョンタスクにおける広範な有用性を実証する。追加結果はhttps://360anything.github.io/で公開されている。
アニメーション化された3Dオブジェクトの生成は多くのアプリケーションの中核をなす技術であるが、既存の先進的研究のほとんどは、設定の制約、長時間の処理、または品質の限界といった理由から実践的な応用が困難な場合が多い。本論文では、フィードフォワード方式でプロダクションレディな3Dメッシュを「動作状態」で予測する生成モデル、ActionMeshを提案する。初期のビデオモデルから着想を得た我々の重要な知見は、既存の3D拡散モデルに時間軸を組み込むことであり、これを「時間的3D拡散」と呼ぶ枠組みを確立した。具体的には、まず3D拡散ステージを改変し、時間変化する独立した3D形状を表す同期化された潜在変数の系列を生成する。次に、独立した形状の系列を、事前定義された参照形状の変形に対応付ける時間的3Dオートエンコーダを設計し、アニメーション構築を可能にする。これら二つの構成要素を組み合わせることで、ActionMeshは単眼カメラ映像、テキスト記述、あるいはアニメーションを記述したテキストプロンプト付きの3Dメッシュなど、様々な入力からアニメーション化された3Dメッシュを生成する。さらに、従来手法と比較して、本手法は高速であり、リグが不要でトポロジーが一貫した結果を生成するため、迅速な反復処理や、テクスチャリングやリターゲティングのようなシームレスな応用を可能にする。標準的なビデオ-to-4Dベンチマーク(Consistent4D、Objaverse)においてモデルを評価し、幾何学的精度と時間的一貫性の両方で state-of-the-art の性能を達成したことを報告する。これにより、我々のモデルが前例のない速度と品質でアニメーション3Dメッシュを提供できることを実証する。
マルチモーダル大規模言語モデル(MLLM)を新規の動画領域に一般化することは、実世界への展開において不可欠であるが、ラベル付きデータの不足により困難な課題である。インコンテクスト学習(ICL)は訓練不要な適応経路を提供するが、標準的な手法は大規模な注釈付きデータプールに依存しており、産業現場や手術環境などの専門領域では専門家による注釈が必要となるため、実用的でない場合が多い。この隔たりを埋めるため、我々は最小限の専門家監督と豊富な未ラベルデータを統合する、ラベル効率の良いフレームワーク「VIOLA(最小注釈による動画インコンテクスト学習)」を提案する。第一に、厳格な注釈予算の効率を最大化するため、密度-不確実性重み付きサンプリングを提案する。視覚的外れ値を選択するリスクがある標準的な多様性や不確実性戦略とは異なり、本手法は密度推定を活用し、同時に多様性、代表性、情報量に富むサンプルを同定する。第二に、ノイズ伝播を伴わずに残りの未ラベルデータを活用するため、ハイブリッドデータプールを構築し、信頼度考慮型検索と信頼度考慮型プロンプト生成を導入する。これらのメカニズムはラベルの信頼性を明示的にモデル化し、類似度と信頼度の複合スコアに基づいてデモンストレーションを検索するとともに、検証済みグラウンドトゥルースとノイジーな擬似ラベルをMLLMが適応的に区別することを可能にする。4種類のMLLMを用いた9つの多様なベンチマークにおける大規模実験により、本フレームワークが低リソース設定において各種ベースラインを大幅に上回り、最小限の注釈コストでロバストな適応を達成することを実証する。
大規模言語モデル(LLM)は、対話システムの評価やファインチューニングデータの生成において、人間シミュレータとしてますます利用されるようになっている。しかし、単純な「ユーザー役を演じる」プロンプトでは、冗長で非現実的な発話が生成されることが多く、いわゆるユーザープロキシエージェントの原理に基づいた評価の必要性が浮き彫りになっている。本論文では、MIRRORBENCHを提案する。これは再現性と拡張性を備えたベンチマークフレームワークであり、ユーザープロキシを、下流タスクの成功から明示的に切り離された多様な対話タスクにおいて、人間らしいユーザー発話を生成する能力のみに焦点を当てて評価する。MIRRORBENCHは、型付きインターフェース、メタデータ駆動のレジストリ、マルチバックエンドサポート、キャッシング、堅牢な可観測性を備えたモジュラー式実行エンジンを特徴とする。本システムは、プラグイン可能なユーザープロキシ、データセット、タスク、評価指標をサポートし、研究者が任意のシミュレータを、分散を考慮した統一的な環境下で評価することを可能にする。評価指標としては、3つの語彙多様性指標(MATTR、YULE'S K、HD-D)と、3つのLLM審査員ベースの指標(GTEval、ペアワイズ不可識別性、ルーブリック・アンド・リーズニング)を含む。4つの公開データセットを用いた実験において、MIRRORBENCHは分散を考慮した結果を提供し、ユーザープロキシと実在の人間ユーザーとの間に系統的な隔たりがあることを明らかにした。本フレームワークはオープンソースであり、実験の実行、設定とキャッシュの管理、レポート生成のためのシンプルなコマンドラインインターフェースを備える。フレームワークはhttps://github.com/SAP/mirrorbench からアクセス可能である。
本論文では、Numbaで高速化したPythonを用いた二次元拡散律速集積(DLA)の高性能シミュレーションフレームワーク「dla-ideal-solver」を提案する。Just-In-Time(JIT)コンパイルを活用することで、従来の静的実装に匹敵する計算スループットを達成しつつ、高水準の柔軟性を維持している。様々な注入幾何構造とウォーカー濃度におけるラプラス成長不安定性を調査した。解析の結果、希薄領域における標準的なフラクタル次元 D_f ≈ 1.71 の頑健性が確認され、Witten-Sander普遍性クラスと一致する。しかしながら、高密度環境ではスクリーニング長の飽和に起因し、Eden型のコンパクトな成長(D_f ≈ 1.87)への明確なクロスオーバーが観測された。標準的な質量-半径スケーリングに加えて、一般化されたレニィ次元とラクナリティ計量を用いて、凝集体の単フラクタル特性と空間的不均一性を定量化した。本研究は、非平衡統計力学における相転移を探求するための再現性のあるオープンソースのテストベッドを確立するものである。
大規模言語モデル(LLM)が教育応用で一般的になるにつれ、個別化され教育的に整合性の高い出力を生成するLLMプロンプトを設計・評価するための実証に基づく手法の必要性が高まっている。本研究は、構造化対話活動におけるLLM生成のフォローアップ質問分析を通じて実証された、プロンプト評価の汎用的かつ体系的なアプローチを提案する。6種類のプロンプトテンプレートを設計・検証し、各テンプレートは確立されたプロンプトエンジニアリングパターンを組み込み、異なる教育戦略を強調した。プロンプトテンプレートは、他の教育応用へ適応可能なトーナメント形式の評価フレームワークを通じて比較された。トーナメントではGlicko2評価システムを採用し、8名の評価者が質問ペアを形式、対話支援、学習者への適切性の3次元で評価した。データは3つの異なる教育展開における120件の実際のユーザーインタラクションから収集された。結果、戦略的読解に関連する単一のプロンプトが他テンプレートを有意に上回り、ペア比較での勝利確率は81%から100%に達した。このプロンプトはペルソナとコンテキスト管理パターンを組み合わせ、自己主導型学習などのメタ認知学習戦略を支援するよう設計されていた。本手法は、教育技術研究者がアドホックなプロンプトエンジニアリングを超え、教育応用のための実証に基づくプロンプト開発に向けて、プロンプト設計を体系的に評価・改善する方法を示している。
大規模言語モデル(LLM)は顕著な能力を示す一方で、その信頼性の低さは、高い利害が伴う領域への展開における重大な障壁となっている。本サーベイ論文は、この課題に取り組む機能的な進化、すなわち、不確実性が受動的な診断指標から、リアルタイムのモデル挙動を導く能動的な制御信号へと進化した過程を体系的に整理する。我々は、不確実性が以下の3つのフロンティアにおいて能動的な制御信号としてどのように活用されているかを示す:計算の最適化と自己修正のトリガーを行う高度な推論において、ツール利用や情報探索に関するメタ認知的決定を司る自律エージェントにおいて、そして、報酬ハッキングを軽減し内在的報酬による自己改善を可能にする強化学習において。これらの進展をベイズ手法やコンフォーマル予測といった新興の理論的枠組みに位置づけることで、この変革的な潮流に対する統一的な視点を提供する。本サーベイ論文は、網羅的な概観、批判的分析、実践的なデザインパターンを提供し、不確実性という新たな潮流を掌握することが、スケーラブルで信頼性が高く信頼に足る次世代AIを構築するために不可欠であると論じる。
AIエージェントは、受動的な言語モデルから、複雑な多段階タスクを実行する自律システムへと急速に進化している。しかし、高リスク環境での実用化においては、失敗に対する過信が根本的な障壁として残っている。静的な単一ターン出力向けに構築された既存の校正手法は、軌道上での誤差の累積、外部ツールに起因する不確実性、不透明な失敗モードといった、エージェントシステムに特有の課題に対処できない。これらの課題に取り組むため、本論文では初めて、**エージェント的信頼度校正**という問題を提起し、**全体的軌道校正**という新規の診断フレームワークを提案する。HTCは、エージェントの軌道全体にわたって、巨視的ダイナミクスから微視的安定性に至るまで、豊富なプロセスレベル特徴を抽出する。シンプルで解釈可能なモデルを基盤とするHTCは、8つのベンチマーク、複数の大規模言語モデル、多様なエージェントフレームワークにおいて、校正と識別の両方で強力なベースラインを一貫して上回る。性能を超えて、HTCは3つの重要な進展をもたらす。(1) 失敗の背景にあるシグナルを明らかにすることで**解釈可能性**を提供し、(2) 再学習なしに異なるドメインに適用することで**転移性**を可能にし、(3) **汎用エージェント校正器**を通じて**一般化**を達成する。GACはドメイン外のGAIAベンチマークで最高の校正性能(最低ECE)を実現する。これらの貢献が一体となり、信頼度校正に対する新たなプロセス中心のパラダイムを確立し、AIエージェントの信頼性を診断・強化するための枠組みを提供する。
人工知能エージェントは長期的推論において印象的な能力を示しているが、その信頼性は「幻覚のスパイラル」によって深刻に阻害されている。これは初期の認識的誤りが不可逆的に伝播する現象である。既存手法はジレンマに直面している:不確実性定量化(UQ)手法は通常、受動的センサーとして機能し、リスクを診断するのみで対処せず、一方で自己反省メカニズムは継続的あるいは無目的な修正に陥りがちである。この隔たりを埋めるため、我々は言語化された不確実性を能動的双方向制御信号へ変換する、統一された二重過程エージェント不確実性定量化(AUQ)フレームワークを提案する。本アーキテクチャは二つの相補的メカニズムで構成される:暗黙的に言語化された信頼度と意味的説明を伝播し盲目的意思決定を防止するシステム1(不確実性対応メモリ、UAM)、およびこれらの説明を合理的手がかりとして利用し、必要時に限りターゲットを絞った推論時解決を誘発するシステム2(不確実性対応反省、UAR)である。これによりエージェントは効率的実行と深い熟考を動的にバランスさせることが可能となる。閉ループベンチマークおよび開放型深層研究タスクにおける大規模実験により、本訓練不要アプローチが優れた性能と軌道レベルの較正を達成することを実証した。我々はこの原理に基づくAUQフレームワークが、信頼性の高いエージェント実現に向けた重要な一歩であると確信する。
IBM Quantumハードウェア上で、Violarisらによって提案された回路ファミリーを実装しベンチマーク評価を行った。この回路は、コンパイルされたウィグナーの友人スタイルの回路によって生成される古典的測定記録の相関として定義される、操作的部門間通信検証量を推定するものである。物理的な信号伝送ではなく、単一回路内におけるレジスタ間メッセージ転送パターンとしてプロトコルの5量子ビットインスタンスを実現し、現実的なデバイスノイズとコンパイル制約下でのその挙動を評価した。この回路は、制御量子ビットに依存する動力学を持つ観測者部分系の部門条件付き進化を符号化し、その後、条件付き測定文脈間の相関を探る制御転送操作が続く。 ibm_fezバックエンド上で20000ショット実行した結果、人口ベースの可視性0.877、直交軸に沿ったコヒーレンス検証量0.840および-0.811、位相感応性の大きさ約1.17を観測した。可視性指標はある種の位相緩和に感度を持たないが、コヒーレンス検証量は非対角ノイズに対する相補的な感度を提供する。 本研究は量子力学の解釈を検証または区別するものではない。その代わりに、較正済みデバイスノイズに対する非理想的なチャネルの検出可能性を評価するための、再現性のある操作的制約パイプラインを提供するものである。