翻訳付きの日次キュレーションされたAI研究論文
Deep Researchシステムのようなエージェント型検索は、大規模言語モデルが自律的にウェブを閲覧し、情報を統合し、引用付きの包括的な回答を返すことで、ユーザーがウェブ規模の情報と対話する方法に大きな変革をもたらしています。効率性と認知的負荷の軽減を約束する一方で、エージェント型検索の複雑さと開放性の増大は、短い検索期間と静的な回答を前提とした既存の評価ベンチマークや方法論を凌駕しています。本論文では、リアルタイムのウェブ閲覧と広範な情報統合を必要とする130の現実的で高品質な長期タスクからなるMind2Web 2ベンチマークを紹介します。これは1,000時間以上の人的労力をかけて構築されました。時間的に変化し複雑な回答を評価する課題に対処するため、新たな「エージェント・アズ・ア・ジャッジ」フレームワークを提案します。この方法では、タスク固有のジャッジエージェントをツリー構造のルーブリック設計に基づいて構築し、回答の正確性と出典の帰属を自動的に評価します。9つの最先端エージェント型検索システムと人間のパフォーマンスを包括的に評価し、詳細なエラー分析を通じて今後の開発に向けた洞察を導き出します。最高性能のシステムであるOpenAI Deep Researchは、人間のパフォーマンスの50-70%を達成しつつ、所要時間を半分に抑えることができ、大きな可能性を示しています。全体として、Mind2Web 2は次世代のエージェント型検索システムの開発とベンチマークのための厳密な基盤を提供します。
我々は、コスト効率の良いニューロシンボリックエージェントを開発し、「画像内のベンチを検出し、ピンクに色を変える。また、猫を削除して視界をクリアにし、壁を黄色に再着色する」といった複雑なマルチターン画像編集タスクに対応します。このエージェントは、大規模言語モデル(LLM)による高速で高レベルのサブタスク計画と、各サブタスクに対する低速で正確なツール使用および局所的なA^*探索を組み合わせ、コスト効率の良いツールパス(AIツールへの呼び出しシーケンス)を見つけます。類似したサブタスクに対するA^*のコストを節約するため、LLMを用いて過去に成功したツールパスから帰納的推論を行い、頻繁に使用されるサブルーチンを継続的に抽出・改良し、将来のタスクに再利用可能な新しいツールとして適用します。これは適応的な高速-低速計画において、まず高レベルのサブルーチンが探索され、それらが失敗した場合にのみ低レベルのA^*探索が活性化される仕組みです。再利用可能なシンボリックサブルーチンは、類似した画像に適用される同じタイプのサブタスクに対する探索コストを大幅に節約し、人間のような高速-低速ツールパスエージェント「FaSTA^*」を実現します。FaSTA^*では、まずLLMによる高速なサブタスク計画とルールベースのサブルーチン選択が試みられ、これによりほとんどのタスクがカバーされることが期待されますが、新しいまたは難しいサブタスクに対してのみ低速のA^*探索がトリガーされます。最近の画像編集手法と比較することで、FaSTA^*が計算効率において大幅に優れている一方で、成功率においても最先端のベースラインと競争力があることを実証します。
最近のシーン再構成技術の進展により、3Dガウシアンスプラッティングを用いた自動運転(AD)環境の高度にリアルなモデリングが進められています。しかし、得られた再構成結果は元の観測に強く依存しており、大幅に変更されたり新しい運転シナリオのフォトリアルな合成をサポートするには限界があります。本研究では、MADriveを紹介します。これは、既存のシーン再構築手法の能力を拡張するために設計されたメモリ拡張型再構成フレームワークで、観測された車両を大規模な外部メモリバンクから検索された視覚的に類似した3Dアセットに置き換えます。具体的には、MAD-Carsという約70,000の360度車両ビデオからなるキュレーションデータセットを公開し、メモリバンク内で最も類似した車両インスタンスを検索し、ビデオから対応する3Dアセットを再構成し、向き合わせとリライティングを通じてターゲットシーンに統合する検索モジュールを提示します。この置換により、シーン内の車両の完全な多視点表現が提供され、実験で示されているように、大幅に変更された構成のフォトリアルな合成が可能になります。プロジェクトページ: https://yandex-research.github.io/madrive/
本論文では、行動と画像の理解および生成を統合した自己回帰型行動世界モデル「WorldVLA」を提案する。WorldVLAは、Vision-Language-Action(VLA)モデルと世界モデルを単一のフレームワークに統合したものである。世界モデルは、行動と画像の理解を活用して未来の画像を予測し、環境の物理法則を学習することで行動生成を改善することを目的としている。一方、行動モデルは画像観測に基づいて次の行動を生成し、視覚理解を支援するとともに、世界モデルの視覚生成にも寄与する。我々は、WorldVLAが独立した行動モデルや世界モデルを凌駕することを実証し、世界モデルと行動モデルの相互強化を明らかにした。さらに、自己回帰的に行動シーケンスを生成する際に、行動モデルの性能が低下する現象を観察した。この現象は、行動予測におけるモデルの一般化能力の限界に起因し、初期の行動の誤差が後続の行動に伝播するためと考えられる。この問題に対処するため、現在の行動生成時に過去の行動を選択的にマスクするアテンションマスク戦略を提案し、行動チャンク生成タスクにおいて顕著な性能向上を示した。
グロッキング(Grokking)、すなわち、訓練損失が収束した後もテスト性能が長期間にわたって向上し続ける現象は、最近ニューラルネットワークの訓練において観察され、一般化のメカニズムや推論などの新たな能力の出現を謎めいたものにしている。これまでの研究では、通常、小さなモデルを数千エポックにわたって少数のトイタスクや高度に特定されたタスクで訓練していたが、本研究では、7B規模の大規模言語モデル(LLM)、すなわちOLMoEのワンパス事前訓練中のチェックポイントにおけるグロッキングを初めて調査した。訓練損失を計算し、数学的推論、コード生成、常識/ドメイン固有知識検索タスクを含む多様なベンチマークタスクで一般化を評価した。 本研究は、大規模基盤モデルの事前訓練においてもグロッキングが依然として発生することを初めて検証したが、異なるデータが非同期にグロッキング段階に入る可能性があることを示した。さらに、LLMの内部ダイナミクスを調査することで、グロッキングの「一般化の出現」を解明した。具体的には、訓練サンプルの経路(すなわち、層を跨ぐエキスパートの選択)が、グロッキング中にランダムでインスタンス固有のものから、より構造化されサンプル間で共有可能なものへと進化することを発見した。また、損失が収束しているにもかかわらず、サンプルの経路の複雑さが減少する。これらは、記憶から一般化への変換を示しており、遅延した一般化のメカニズム的な説明を提供する。本研究では、経路距離と単一経路の複雑さを定量化するための2つの新しい指標を開発した。これらの指標が、多様な下流タスクにおける一般化の改善を予測する能力を持つことを示した。これらは効率的で計算が簡単であり、訓練データにのみ依存する。したがって、事前訓練において実用的な価値を持ち、ファインチューニングやテストを行わずに一般化性能を監視することを可能にする。理論的には、より構造化された経路がモデルの複雑さを減少させ、一般化の境界を改善することを示した。
条件付き計算は、Transformerをより効率的にするための一般的な戦略です。既存の手法は、個々のモジュール(例えば、専門家混合層)を対象とするか、層を独立してスキップすることが多いです。しかし、解釈可能性の研究により、Transformerの中間層はより冗長性が高く、初期層は情報をトークンの位置に集約することが示されています。これらの知見を基に、我々は中間層から外側に向かって可変数の層を動的にスキップする新しいアーキテクチャを提案します。具体的には、学習されたゲーティング機構が入力に基づいて中央ブロックの対称的な範囲をバイパスするかどうかを決定し、ゲーティングされたアテンション機構が後続のトークンがスキップされたトークン位置に注意を向けることを防ぎます。残差ノルムは「サンドイッチ」または「perilayernorm」スキームで制御され、ゲートのスパース性は適応的正則化損失で制御されます。我々は「より単純な」トークンの計算要件を削減し、潜在的に多段階の表現階層を出現させることを目指しましたが、調査したスケールでは、層数が少ない密なベースラインと比較して、検証クロスエントロピーと推定FLOPsのトレードオフにおいて改善は達成されませんでした。コードはhttps://github.com/tim-lawson/skip-middleで公開しています。
本論文では、カメラとLiDARストリームにわたるプロンプト可能なセグメンテーションを実現するためのマルチモーダルかつ時間的な基盤モデルであるSAM4Dを提案する。カメラとLiDARの特徴を共有の3D空間に整合させるために、統一マルチモーダル位置符号化(UMPE)を導入し、シームレスなクロスモーダルプロンプティングとインタラクションを可能にする。さらに、エゴモーション補償を活用して時間的一貫性と長期的な特徴検索を強化するモーション認識クロスモーダルメモリアテンション(MCMA)を提案し、動的に変化する自動運転シーンにおける堅牢なセグメンテーションを保証する。アノテーションのボトルネックを回避するために、VFM駆動のビデオマスクレット、時空間4D再構築、およびクロスモーダルマスクレット融合を統合したマルチモーダル自動データエンジンを開発する。このフレームワークは、人間のアノテーションよりも桁違いに高速でカメラ-LiDAR整合疑似ラベルを生成し、点群表現におけるVFM由来のセマンティックフィデリティを維持する。構築したWaymo-4DSegを用いた広範な実験を行い、提案するSAM4Dの強力なクロスモーダルセグメンテーション能力とデータアノテーションにおける大きな可能性を実証する。
スキニングとリギングは、アニメーション、関節オブジェクトの再構築、モーショントランスファー、4D生成において基本的な要素です。既存のアプローチは、その簡潔さと微分可能性から、主にLinear Blend Skinning(LBS)に依存しています。しかし、LBSは体積の損失や不自然な変形といったアーティファクトを引き起こし、軟組織、毛皮、柔軟な付属器官(例えば、象の鼻、耳、脂肪組織)などの弾性材料をモデル化することができません。本研究では、これらの制限を克服するために、PhysRigを提案します。PhysRigは、剛体の骨格を体積表現(例えば、四面体メッシュ)に埋め込み、アニメーションされた骨格によって駆動される変形可能なソフトボディ構造としてシミュレートする、微分可能な物理ベースのスキニングおよびリギングフレームワークです。我々の手法は連続体力学を活用し、オブジェクトを粒子として離散化し、オイラー背景グリッドに埋め込むことで、材料特性と骨格運動の両方に対する微分可能性を確保します。さらに、材料プロトタイプを導入し、高い表現力を維持しながら学習空間を大幅に削減します。我々のフレームワークを評価するために、Objaverse、The Amazing Animals Zoo、MixaMoからのメッシュを使用して、多様なオブジェクトカテゴリとモーションパターンをカバーする包括的な合成データセットを構築しました。我々の手法は、従来のLBSベースのアプローチを一貫して上回り、より現実的で物理的に妥当な結果を生成します。さらに、ポーズ転送タスクにおける我々のフレームワークの適用性を示し、関節オブジェクトモデリングのためのその汎用性を強調します。
人間の行動からエゴセントリックな映像を予測するモデル(PEVA)を訓練します。このモデルは、過去の映像と相対的な3D身体姿勢で表される行動を入力として受け取ります。身体の関節階層によって構造化された運動学的姿勢軌跡に条件付けすることで、物理的な人間の行動が環境をどのように形成するかを一人称視点でシミュレートすることを学習します。大規模な実世界のエゴセントリック映像と身体姿勢キャプチャのデータセットであるNymeriaを用いて、自己回帰的な条件付き拡散トランスフォーマーを訓練します。さらに、難易度を段階的に上げた階層的な評価プロトコルを設計し、モデルの具現化された予測と制御能力を包括的に分析します。本研究は、複雑な実世界の環境と具現化されたエージェントの行動を、人間の視点から映像予測を通じてモデル化するという課題に取り組む最初の試みです。
大規模言語モデル(LLM)の急速な普及に伴い、それぞれが異なる強み、スタイル、またはレイテンシ/コストプロファイルに最適化されたモデルを運用するためには、ルーティングが不可欠な技術となっています。しかし、既存のLLMルーティング手法には2つの重要な制限があります。まず、人間の好みを反映する主観的評価基準を捉えられないベンチマークを使用して性能を評価している点、そして通常は限られたモデルのプールから選択している点です。本研究では、クエリをユーザー定義のドメイン(例:旅行)やアクションタイプ(例:画像編集)にマッチングすることでモデル選択を導く、好みに沿ったルーティングフレームワークを提案します。これにより、ルーティング決定に好みをエンコードする実用的なメカニズムを提供します。具体的には、クエリをドメイン-アクションの好みにマッピングしてモデルルーティング決定を行う、コンパクトな1.5BモデルであるArch-Routerを導入します。また、このアプローチは、再トレーニングやアーキテクチャの変更を必要とせずに、新しいモデルをシームレスにルーティングに追加することをサポートします。会話データセットでの実験により、本アプローチが人間の好みにクエリをマッチングする点で最先端(SOTA)の結果を達成し、主要なプロプライエタリモデルを上回ることが示されました。本アプローチは主観的評価基準を捉え、ルーティング決定をより透明かつ柔軟にします。本モデルは以下で利用可能です:https://huggingface.co/katanemo/Arch-Router-1.5B。
希少疾患は全世界で3億人以上の患者に影響を及ぼしているが、タイムリーかつ正確な診断は依然として広範な課題となっている。これは主に、臨床的な多様性、個々の疾患の低い有病率、そしてほとんどの臨床医が希少疾患に精通していないことに起因している。本論文では、大規模言語モデル(LLM)を基盤とした初の希少疾患診断エージェントシステム「DeepRare」を紹介する。このシステムは、異種混在の臨床データを処理し、希少疾患に対するランク付けされた診断仮説を生成する。各仮説には、中間的な分析ステップを検証可能な医学的証拠に結びつける透明性のある推論チェーンが付随する。 DeepRareは、長期的な記憶モジュールを備えた中央ホストと、40以上の専門ツールとウェブスケールの最新医療知識源を統合したドメイン固有の分析タスクを担当する専門エージェントサーバーという3つの主要コンポーネントで構成されている。これにより、最新の臨床情報へのアクセスが保証される。このモジュール化されたスケーラブルな設計により、複雑な診断推論を行いながらも、トレーサビリティと適応性を維持することが可能である。我々はDeepRareを8つのデータセットで評価した。システムは2,919の疾患において卓越した診断性能を示し、1,013の疾患で100%の精度を達成した。HPOベースの評価では、DeepRareは従来のバイオインフォマティクス診断ツール、LLM、および他のエージェントシステムを含む15の手法を大幅に上回り、平均Recall@1スコア57.18%を達成し、2位の手法(Reasoning LLM)を23.79ポイントの大差で凌駕した。マルチモーダル入力シナリオでは、DeepRareは109症例においてRecall@1で70.60%を達成し、Exomiserの53.20%を上回った。臨床専門家による推論チェーンの手動検証では、95.40%の一致率を達成した。さらに、DeepRareシステムはユーザーフレンドリーなウェブアプリケーションとして実装されており、http://raredx.cn/doctorで利用可能である。
私たちは、FairyGenという自動システムを提案します。このシステムは、単一の子供の絵から物語主導のカートゥーンビデオを生成し、その独特の芸術的スタイルを忠実に保持します。これまでの物語生成手法が主にキャラクターの一貫性と基本的な動きに焦点を当てていたのに対し、FairyGenは、キャラクターモデリングとスタイライズされた背景生成を明示的に分離し、表現力豊かで一貫性のある物語をサポートするために映画的なショットデザインを取り入れています。単一のキャラクタースケッチが与えられると、まずMLLMを使用して、環境設定、キャラクターのアクション、カメラの視点を指定するショットレベルの記述を含む構造化されたストーリーボードを生成します。視覚的一貫性を確保するために、キャラクターの視覚的スタイルをキャプチャし、それを背景に適用するスタイル伝播アダプタを導入し、キャラクターの完全な視覚的アイデンティティを忠実に保持しながら、スタイルに一貫したシーンを合成します。ショットデザインモジュールは、ストーリーボードに基づいてフレームのクロッピングとマルチビュー合成を通じて視覚的多様性と映画的な品質をさらに向上させます。物語をアニメーション化するために、キャラクターの3Dプロキシを再構築し、物理的に妥当なモーションシーケンスを導出し、それを使用してMMDiTベースの画像からビデオへの拡散モデルを微調整します。さらに、2段階のモーションカスタマイズアダプタを提案します。第1段階では、時間的に順不同のフレームから外観特徴を学習し、アイデンティティとモーションを分離します。第2段階では、アイデンティティの重みを固定したタイムステップシフト戦略を使用して時間的ダイナミクスをモデル化します。一度訓練されると、FairyGenはストーリーボードに沿った多様で一貫性のあるビデオシーンを直接レンダリングします。広範な実験により、私たちのシステムがスタイル的に忠実で、物語的に構造化された自然な動きを持つアニメーションを生成することが示され、個人的で魅力的な物語アニメーションの可能性が強調されています。コードはhttps://github.com/GVCLab/FairyGenで公開されます。
本論文では、生成された画像のシーンを単純な幾何学的抽象化を操作してインタラクティブに扱うためのGenerative Blocks Worldを提案する。本手法では、シーンを凸3Dプリミティブの集合体として表現し、同一のシーンを異なる数のプリミティブで表現することが可能であり、編集者が構造全体または細部を移動させることができる。シーンジオメトリが編集された後、深度とテクスチャヒントに基づいてフローベースの手法で画像が生成される。本手法のテクスチャヒントは、変更された3Dプリミティブを考慮しており、既存のキー・バリューキャッシュ技術が提供するテクスチャ一貫性を超えるものである。これらのテクスチャヒントは、(a)正確なオブジェクトおよびカメラの移動を可能にし、(b)描画されたオブジェクトの同一性を大幅に保持する。定量的および定性的な実験により、本手法が視覚的忠実度、編集可能性、および構成的汎化において従来の手法を凌駕することを示す。
基盤モデル、特に大規模言語モデル(LLM)の分散トレーニングでは、高度な通信が要求されます。その結果、高速で信頼性の高い相互接続を備えた集中型クラスタに大きく依存しています。1000億パラメータを超えるモデルを扱う際に、低速ネットワーク上でトレーニングを行い、分散型クラスタの力を解放することは可能でしょうか?本論文では、低通信大規模分散クラスタトレーニングフレームワークであるDiLoCoXを提案します。これは、パイプライン並列処理、デュアルオプティマイザポリシー、通信とローカルトレーニングのワンステップ遅延オーバーラップ、および適応型勾配圧縮スキームを組み合わせたものです。この組み合わせにより、パラメータのスケールとモデルの事前トレーニング速度が大幅に向上します。通信とローカルトレーニングのワンステップ遅延オーバーラップ、および適応型勾配圧縮スキームの利点を、収束の理論的分析を通じて正当化します。実験的には、DiLoCoXが1Gbpsネットワーク上で107Bの基盤モデルを事前トレーニングできることを実証します。バニラAllReduceと比較して、DiLoCoXは分散トレーニングにおいて357倍の高速化を達成し、モデルの収束にほとんど劣化を生じさせません。私たちの知る限り、これは1000億パラメータを超えるモデルに成功裏に適用された最初の分散トレーニングフレームワークです。
本論文では、大規模言語モデル(LLM)の数学的推論能力を向上させるために、正しさと潜在性という2つの補完的な報酬信号を統合した新しい報酬モデリングフレームワーク「DuaShepherd」を提案する。正しさに基づく信号は段階的な誤りの識別を重視する一方で、潜在性に基づく信号は正しい最終解答に到達する可能性に焦点を当てる。我々は、両方の信号を含む大規模な報酬モデリングデータセットを構築するための自動化パイプラインを開発した。マルチタスク設定で2つの報酬モデルを学習するために、統一されたマルチヘッドアーキテクチャを探索し、正しさと潜在性を並行して学習することの利点を実証した。これら2つの信号を複合確率として組み合わせることで、我々のモデルは複数のベンチマークで一貫した性能向上を達成した。MATH500およびProcessBenchでの実証評価により、この組み合わせた報酬は、いずれかの報酬タイプのみで学習したモデルを大幅に上回り、同等のリソース制約下で最先端の性能を達成することが確認された。
我々はMuseControlLiteを提案する。これは、様々な時間変化する音楽的属性と参照オーディオ信号を用いて、テキストから音楽を生成するモデルを精密に条件付けするために設計された軽量なメカニズムである。重要な発見は、テキスト条件の条件付け器においてテキストから音楽を生成するモデルがほとんど使用してこなかった位置埋め込みが、関心のある条件が時間の関数である場合に極めて重要であるということだ。メロディー制御を例として、我々の実験では、デカップルされたクロスアテンション層に回転位置埋め込みを追加するだけで、制御精度が56.6%から61.1%に向上し、最先端のファインチューニングメカニズムと比べて6.75倍少ない学習可能なパラメータで済むことが示された。これは、Stable Audio Openの事前学習済み拡散Transformerモデルを使用している。我々は、様々な音楽的属性制御、オーディオインペインティング、オーディオアウトペインティングを評価し、MusicGen-LargeやStable Audio Open ControlNetよりも大幅に低いファインチューニングコストで、わずか85Mの学習可能なパラメータで改善された制御性を実証した。ソースコード、モデルチェックポイント、デモ例はhttps://musecontrollite.github.io/web/で入手可能である。
ヒューリスティックアルゴリズムは、組み合わせ最適化(CO)問題を解決する上で重要な役割を果たすが、従来の設計は手動の専門知識に大きく依存しており、多様なインスタンスにわたる汎化が困難である。本論文では、大規模言語モデル(LLM)を活用した二段階のハイパーヒューリスティックフレームワークであるHeurAgenixを提案する。このフレームワークは、まずヒューリスティックを進化させ、その後それらを自動的に選択する。ヒューリスティック進化フェーズでは、HeurAgenixはLLMを利用して、シードヒューリスティック解と高品質な解を比較し、再利用可能な進化戦略を抽出する。問題解決中には、LLMの知覚能力に基づいて、各問題状態に対して最も有望なヒューリスティックを動的に選択する。柔軟性を確保するため、このセレクターは最先端のLLMまたは推論コストの低い軽量なファインチューニングモデルのいずれかを使用できる。COの複雑さによる信頼性の高い監視データの不足を緩和するため、選択の嗜好と状態知覚からの信号を共同で活用する二重報酬メカニズムを用いて、軽量なヒューリスティックセレクターをファインチューニングし、ノイズの多い注釈下でも堅牢な選択を可能にする。標準的なベンチマークでの広範な実験により、HeurAgenixが既存のLLMベースのハイパーヒューリスティックを上回るだけでなく、専門的なソルバーにも匹敵またはそれを超える性能を示すことが確認された。コードはhttps://github.com/microsoft/HeurAgenixで公開されている。