翻訳付きの日次キュレーションされたAI研究論文
ビデオ生成技術は目覚ましい進歩を遂げ、インタラクティブな世界探索の基盤となることが期待されています。しかし、既存のビデオ生成データセットは、世界探索のトレーニングに適していないという課題を抱えています。具体的には、限られた場所、短い時間、静的なシーン、そして探索や世界に関するアノテーションの欠如といった制約があります。本論文では、世界探索のための豊富なアノテーションを備えた高品質な一人称視点の全世界ビデオデータセット「Sekai」(日本語で「世界」を意味する)を紹介します。このデータセットは、750の都市にわたる100以上の国と地域から収集された、歩行またはドローン視点(FPVおよびUVA)の5,000時間以上のビデオで構成されています。私たちは、ビデオを収集、前処理、アノテーションするための効率的で効果的なツールボックスを開発し、位置、シーン、天気、混雑度、キャプション、カメラ軌道などの情報を付与しました。実験により、データセットの品質が実証されています。また、そのサブセットを使用して、インタラクティブなビデオ世界探索モデル「YUME」(日本語で「夢」を意味する)をトレーニングしました。私たちは、Sekaiがビデオ生成と世界探索の分野に貢献し、価値あるアプリケーションを促進することを信じています。
近年の視覚言語モデル(VLM)の進展により、大規模言語モデル(LLM)を活用することで、GPT-4Vのようなクローズドソースシステムと同等の性能を達成することが可能となった。しかし、これらのモデルを実際のシナリオ、特にリソースが制約されたデバイス上で展開することは、その膨大な計算需要のために依然として困難である。これにより、大規模なVLMから知識を抽出し、より小型で効率的なモデルに蒸留することへの関心が高まっている。ここで重要な課題となるのは、VLMアーキテクチャの多様性である。これらのアーキテクチャは異なるLLMを基盤としており、語彙サイズ、トークン分割、トークンインデックスの順序などが異なる様々なトークンタイプを採用している。特定のVLMタイプに限定されるという課題に対処するため、我々はGeneration after Recalibration(GenRecal)という、VLMのための汎用的な蒸留フレームワークを提案する。GenRecalは、異種のVLM間で特徴表現を整列・適応させるRecalibratorを組み込んでおり、異なるタイプのVLM間での効果的な知識転移を可能にする。複数の挑戦的なベンチマークでの広範な実験を通じて、GenRecalがベースライン性能を大幅に向上させ、最終的には大規模なオープンソースおよびクローズドソースのVLMを凌駕することを実証した。
分散型で低性能な計算ノード(例えば、複数のオンスポットインスタンス)で大規模言語モデル(LLM)をトレーニングすることは、トレーニングコストを削減し、モデルの民主化を可能にする。しかし、ここで避けられない課題は、ノードの故障やオペレータのスケジューリングポリシーによるノードの離脱であり、これによりモデルの一部であるステージが失われることである。従来の故障からの回復手法としては、定期的にモデル全体のコピーを追加のストレージに送信するチェックポイント方式や、冗長計算が用いられてきた。これらの手法は、故障が発生しない場合でも通信や計算のオーバーヘッドが大きく、大規模モデルではスケーラビリティに問題がある。本論文では、CheckFreeという効率的な回復手法を提案する。この手法では、故障したステージを最も近い隣接ステージの重み付き平均で置き換える。従来の手法とは異なり、CheckFreeは追加の計算やストレージを必要としない。ただし、隣接ステージの平均化という性質上、中間ステージの故障のみを回復できる。さらに、CheckFree+という手法を提案し、順不同のパイプライン実行を用いて最初と最後のステージのクラッシュにも対応できるように拡張した。順不同パイプラインにより、これらのステージの動作は隣接ステージによって模倣され、CheckFree+は隣接ステージの重みを単純にコピーすることで回復を実現する。(デ)エンベディング層を回復するために、CheckFree+はこれらの層を隣接ステージにコピーし、比較的小さなストレージオーバーヘッドを必要とする。我々は、124Mから1.5BまでのモデルサイズのLLaMaモデルを用いて、様々な故障頻度で本手法を詳細に評価した。低および中程度の故障率(5-10%)の場合、CheckFreeとCheckFree+は、ウォールクロック時間における収束性において、チェックポイント方式や冗長計算を12%以上上回る性能を示した。提案手法は、以下のURLで公開されているコードで実行可能である:https://github.com/gensyn-ai/CheckFree。
長い連鎖思考(Long Chain-of-Thought, Long CoT)推論を用いて訓練された大規模推論モデル(Large Reasoning Models, LRMs)の最近の進展は、顕著なクロスドメイン汎化能力を示している。しかし、そのような転移を支える根本的なメカニズムはまだ十分に理解されていない。我々は、クロスドメイン汎化が共有された抽象的な推論プロトタイプ――ドメインを超えた問題の本質を捉える基本的な推論パターン――から生じると仮説を立てる。これらのプロトタイプは表現のニュアンスを最小化し、一見多様なタスクが共有された推論構造に基づいていることを明らかにする。この仮説に基づき、我々はProtoReasoningを提案する。これは、スケーラブルで検証可能なプロトタイプ表現(論理推論のためのProlog、計画のためのPDDL)を活用してLLMの推論能力を強化するフレームワークである。ProtoReasoningの特徴は以下の通りである:(1)問題を対応するプロトタイプ表現に変換する自動化されたプロトタイプ構築パイプライン、(2)Prolog/PDDLインタプリタを通じて信頼性のあるフィードバックを提供する包括的な検証システム、(3)プロトタイプ空間内で任意に問題を合成しつつ正確性を保証するスケーラビリティ。大規模な実験により、ProtoReasoningは論理推論(Enigmata-Eval)においてベースラインモデルに対して4.7%、計画タスクにおいて6.3%、一般的な推論(MMLU)において4.0%、数学(AIME24)において1.0%の改善を達成することが示された。特に、アブレーション研究により、プロトタイプ空間での学習は、自然言語表現のみでの訓練と比較して、構造的に類似した問題に対する汎化能力が向上することを確認し、推論プロトタイプが大規模言語モデルにおける汎化可能な推論の基盤であるという我々の仮説を検証した。
今日のAIエージェントは、主に分断された状態にあります。つまり、オンラインで得られた膨大なデジタル情報や知識を検索し、推論するか、あるいは身体的な知覚、計画、行動を通じて物理世界と相互作用するかのいずれかであり、両方を同時に行うことは稀です。この分断により、オンラインレシピを使った料理、動的な地図データを使ったナビゲーション、ウェブ知識を用いた現実世界のランドマークの解釈など、物理的およびデジタルの知能を統合する必要があるタスクを解決する能力が制限されています。私たちは、身体性とウェブ規模の推論をシームレスに橋渡しする新しいAIエージェントのパラダイムである「Embodied Web Agents」を紹介します。この概念を具体化するために、まず、現実的な3Dの屋内および屋外環境と機能的なウェブインターフェースを緊密に統合した「Embodied Web Agentsタスク環境」という統一シミュレーションプラットフォームを開発しました。このプラットフォームを基盤として、料理、ナビゲーション、ショッピング、観光、位置特定など、物理的およびデジタルの領域にわたる協調的な推論を必要とする多様なタスクを含む「Embodied Web Agentsベンチマーク」を構築し、公開しました。これにより、クロスドメインの知能を体系的に評価することが可能となります。実験結果からは、最先端のAIシステムと人間の能力との間に大きな性能差があることが明らかになり、身体的な認知とウェブ規模の知識アクセスの交差点における課題と機会が示されました。すべてのデータセット、コード、ウェブサイトは、プロジェクトページhttps://embodied-web-agent.github.io/で公開されています。
本論文では、Whisperの話者分離条件付きバリアントであるDiCoWと、Pyannoteを基盤とした話者分離パイプラインであるDiariZenを組み合わせた、2話者向け自動音声認識(ASR)システムを提案する。まず、両システムをドメイン外(OOD)の多言語シナリオにおいて、微調整なしで評価した。このシナリオでは、DiariZenがベースラインのPyannote話者分離モデルを一貫して上回り、強力な汎化性能を示した。DiCoWは、ターゲット話者ASR向けに英語データのみで微調整されているにもかかわらず、堅牢な多言語性能を維持しており、エンコーダの変更がWhisperの多言語能力を保持していることを示唆している。次に、DiCoWとDiariZenをMLC-SLMチャレンジデータで微調整した。微調整後のDiariZenは、微調整後のPyannoteベースラインを引き続き上回り、DiCoWはドメイン適応によりさらなる性能向上を達成した。最終システムは、マイクロ平均tcpWER/CERで16.75%を達成し、MLC-SLMチャレンジのタスク2で2位となった。最後に、学習データにおけるいくつかのラベル付けの不整合(例:欠落した音声セグメントや誤った無音注釈)が、話者分離の微調整を妨げる可能性があることを指摘した。これらの問題を解決し、システムの堅牢性を向上させるための簡単な緩和策を提案する。
我々は、マルチモーダルな科学文脈における主張の検証能力を評価するために特別に設計された初のベンチマーク「SciVer」を紹介する。SciVerは1,113の科学論文に基づく3,000の専門家注釈付き例で構成され、マルチモーダル科学主張検証における一般的な推論タイプを代表する4つのサブセットをカバーしている。詳細な評価を可能にするため、各例には専門家による注釈付きの支持証拠が含まれている。我々は、o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision、Qwen2.5-VLを含む21の最先端マルチモーダル基盤モデルの性能を評価した。実験の結果、これらのモデルと人間の専門家との間にSciVerにおいて大きな性能差があることが明らかになった。検索拡張生成(RAG)の詳細な分析と人間によるエラー評価を通じて、現在のオープンソースモデルにおける重要な限界を特定し、マルチモーダル科学文献タスクにおけるモデルの理解と推論を進めるための重要な洞察を提供する。
オープンエンドな長文生成の評価は、良い出力と悪い出力を明確に区別する基準を定義することが難しいため、課題となっています。既存の手法では、一貫性、スタイル、関連性といった重要な側面を見落とすことが多く、事前学習データに偏りがあるため、オープンエンドな長文評価は未開拓の問題となっています。このギャップを埋めるため、我々はPrefBERTを提案します。PrefBERTは、GRPOにおけるオープンエンドな長文生成を評価し、良い出力と悪い出力に対して異なる報酬を与えることでその訓練を導くスコアリングモデルです。多様な長文スタイルとリッカート尺度で評価された品質を持つ2つの応答評価データセットで訓練されたPrefBERTは、従来の指標であるROUGE-LやBERTScoreよりも優れた意味的報酬フィードバックを提供し、GRPOを効果的にサポートします。LLM-as-a-judge、人間による評価、質的分析を含む包括的な評価を通じて、PrefBERTが複数文や段落レベルの応答で訓練されても、様々な長文に対して信頼性を保ち、GRPOが必要とする検証可能な報酬とよく一致することを示します。人間による評価では、PrefBERTを報酬信号として使用して訓練されたポリシーモデルが、従来の指標で訓練されたものよりも人間の好みに沿った応答を生成することを確認しました。我々のコードはhttps://github.com/zli12321/long_form_rlで公開されています。
大規模言語モデルの急速な進展により、意思決定、調整、タスク実行におけるエージェントシステムが進化してきた。しかし、既存のエージェントシステム生成フレームワークは完全な自律性を欠いており、ゼロからのエージェント生成、自己最適化するエージェント機能、および協調が不足しているため、適応性と拡張性が制限されている。本論文では、SwarmAgenticを提案する。これは、完全に自動化されたエージェントシステム生成のためのフレームワークであり、ゼロからエージェントシステムを構築し、言語駆動型探索を通じて相互依存するコンポーネントとしてエージェント機能と協調を共同で最適化する。システムレベルの構造を効率的に探索するために、SwarmAgenticは候補システムの集団を維持し、フィードバックに基づく更新を通じて進化させる。これは、粒子群最適化(PSO)に着想を得ている。我々は、高レベルの計画、システムレベルの調整、創造的推論を含む6つの現実世界のオープンエンドで探索的なタスクにおいて、本手法を評価した。タスクの説明と目的関数のみを与えられた場合、SwarmAgenticはすべてのベースラインを上回り、TravelPlannerベンチマークにおいてADASに対して+261.8%の相対的な改善を達成し、構造的に制約のないタスクにおける完全自動化の有効性を強調した。このフレームワークは、スウォームインテリジェンスと完全に自動化されたシステムのマルチエージェント生成を橋渡しする、スケーラブルで自律的なエージェントシステム設計に向けた重要な一歩を示している。我々のコードはhttps://yaoz720.github.io/SwarmAgentic/で公開されている。
近年、テストタイムスケーリングを施した大規模言語モデル(LLMs)は、長い連鎖的思考(CoT)を生成することで、科学的および専門的タスクにおいて卓越した推論能力を示しています。これらの推論モデルを開発する上で重要な要素として、強化学習(RL)があり、特にProximal Policy Optimization(PPO)とその派生手法が、試行錯誤を通じてモデルを学習させることを可能にしています。しかし、PPOはその本質的なオンライン学習の性質により時間がかかる上に、応答長が増加することでさらにその問題が顕著になります。本研究では、PPOの新たな拡張手法であるTruncated Proximal Policy Optimization(T-PPO)を提案し、ポリシー更新と長さ制限付き応答生成を効率化することで学習効率を向上させます。T-PPOは、完全同期型の長文生成プロセスに内在するハードウェア利用率の低さという問題を緩和します。この問題は、完全なロールアウトを待つ間にリソースがしばしばアイドル状態になることに起因しています。我々の貢献は二つあります。第一に、不完全な応答から得られるアドバンテージ推定を維持しつつ、ポリシー学習の整合性を保つExtended Generalized Advantage Estimation(EGAE)を提案します。第二に、ポリシーモデルと価値モデルの独立した最適化を可能にする計算効率化メカニズムを考案します。このメカニズムは、プロンプトと切り捨てられたトークンを選択的にフィルタリングすることで、冗長な計算を削減し、収束性能を犠牲にすることなく学習プロセスを加速します。我々は、32Bのベースモデルを用いたAIME 2024においてT-PPOの有効性と効率性を実証しました。実験結果は、T-PPOが推論LLMsの学習効率を最大2.5倍向上させ、既存の競合手法を凌駕することを示しています。
大規模マルチモーダルMixture-of-Experts(MoE)は、アクティブなパラメータ数を固定したままモデルサイズを効果的に拡大し、性能を向上させます。しかし、従来の研究では主に完全精度のエキスパートをスパースアップサイクリング中に使用していました。これらはエンドタスクで優れた性能を示すものの、大量のエキスパートが高いメモリフットプリントを引き起こし、エッジデバイスへの展開に大きな課題を突きつけます。本研究では、Mixture-of-Ternary-Expertsモデルを高密度チェックポイントからトレーニングするためのスケーラブルでメモリ効率の良いアプローチであるMoTEを提案します。少数の高精度エキスパートをトレーニングする代わりに、アップサイクリング中により多くの低精度エキスパートをトレーニングすることを提案します。具体的には、事前学習済みのFFNを共有エキスパートとして使用し、パラメータが{-1, 0, 1}の三元ルーティングエキスパートをトレーニングします。広範な実験により、我々のアプローチがモデルサイズに沿って有望なスケーリングトレンドを示すことが明らかになりました。MoTEは、完全精度のベースラインであるMoE-LLaVAと同等の性能を達成しつつ、より低いメモリフットプリントを提供します。さらに、我々のアプローチはポストトレーニング量子化手法と互換性があり、メモリ制約がさらに厳しくなるほどその利点が増幅されます。3.4GBのエキスパートメモリフットプリントを同じ量に保ち、ポストトレーニング量子化と組み合わせた場合、MoTEはMoE-LLaVAをエンドタスクの平均精度で4.3%上回り、メモリ制約のあるデバイスにおけるその有効性と潜在能力を実証しています。
没入型VRプレゼンスのための3Dシーンの自動生成は、数十年にわたり重要な研究テーマとなってきた。しかし、既存の手法は、高ポリゴンメッシュモデリングと事後的な簡略化、または大規模な3Dガウシアンに依存することが多く、複雑なパイプラインや視覚的なリアリズムの制限を引き起こしている。本論文では、説得力のある没入体験を実現するために、このような網羅的なモデリングが不要であることを示す。我々は、コンパクトでフォトリアルなワールドモデリングのための新しいエージェントガイド型フレームワークであるImmerseGenを紹介する。ImmerseGenは、シーンを軽量な幾何学的プロキシ(すなわち、簡略化された地形とビルボードメッシュ)の階層的な構成として表現し、これらのプロキシ上にRGBAテクスチャを合成することでフォトリアルな外観を生成する。具体的には、ユーザー中心のベースワールド合成のための地形条件付きテクスチャリングと、中景および前景の風景のためのRGBAアセットテクスチャリングを提案する。この再定式化により、以下の利点が得られる:(i) エージェントが生成モデルをガイドしてシーンとシームレスに統合される一貫したテクスチャを生成することを可能にすることで、モデリングを簡素化する;(ii) 複雑なジオメトリの作成と削減を回避し、プロキシ上に直接フォトリアルなテクスチャを合成することで、視覚品質を劣化させることなく維持する;(iii) モバイルVRヘッドセットでのリアルタイムレンダリングに適したコンパクトな表現を可能にする。テキストプロンプトからのシーン作成を自動化するために、セマンティックグリッドベースの分析を強化したVLMベースのモデリングエージェントを導入し、空間推論と正確なアセット配置を改善する。ImmerseGenはさらに、動的効果と環境音をシーンに追加し、マルチセンサリ没入をサポートする。シーン生成とライブVR展示の実験により、ImmerseGenが従来の手法と比較して優れたフォトリアリズム、空間的一貫性、およびレンダリング効率を達成することが実証された。プロジェクトウェブページ: https://immersegen.github.io。
データが不足している領域では、大規模なラベル付きデータセットを収集することが現実的でないため、画像分類モデルの構築は依然として煩雑な作業です。インコンテキスト学習(ICL)は、few-shot画像分類(FSIC)の有望なパラダイムとして登場し、勾配ベースの適応なしにモデルがドメイン間で汎化することを可能にしました。しかし、これまでの研究では、ICLベースのFSICパイプラインの重要な構成要素である画像埋め込みの役割をほとんど考慮してきませんでした。本研究では、埋め込みモデル(そのアーキテクチャ、事前学習、および学習ダイナミクス)を分析の中心に据えたICLフレームワークであるPictSureを提案します。我々は、異なる視覚エンコーダのタイプ、事前学習の目的、および微調整戦略が下流のFSIC性能に及ぼす影響を体系的に検証します。実験結果から、学習の成功とドメイン外の性能は、埋め込みモデルがどのように事前学習されたかに大きく依存することが明らかになりました。その結果、PictSureは、学習分布と大きく異なるドメイン外のベンチマークにおいて、既存のICLベースのFSICモデルを上回る性能を発揮しつつ、ドメイン内タスクでも同等の結果を維持することに成功しました。コードはhttps://github.com/PictSure/pictsure-libraryで公開されています。
マルチモーダル大規模言語モデル(MLLMs)は、マルチモーダル推論やクロスモーダル検索などのタスクにおいて優れた性能を発揮するが、分散したマルチモーダルデータと厳格なプライバシー要件のため、実世界のシナリオでの展開には課題がある。フェデレーテッドラーニング(FL)は、データを中央集約せずに協調的なモデルトレーニングを可能にする解決策を提供する。しかし、MLLMsに対するFLの実現には、高い計算要求、クライアント側の容量制限、大きな通信コスト、および異種クライアントデータといった重大な課題が存在する。既存のFL手法は、クライアント側に完全なモデルを展開することを前提としているが、大規模MLLMsの場合、その巨大なサイズと通信要求のためにこの前提が崩れる。これらの制限を解決するため、我々はFedNanoを提案する。これは、LLMをサーバー側に集中化しつつ、クライアント固有の適応のための軽量モジュールであるNanoEdgeを導入する初めてのFLフレームワークである。NanoEdgeは、モダリティ固有のエンコーダ、コネクタ、および低ランク適応を備えたトレーニング可能なNanoAdapterを採用している。この設計により、クライアント側にLLMを展開する必要がなくなり、クライアント側のストレージを95%削減し、通信オーバーヘッドをモデルパラメータのわずか0.01%に抑えることができる。コンパクトなNanoAdapterの更新のみを送信することで、FedNanoは異種クライアントデータとリソース制約を処理しつつ、プライバシーを保護する。実験により、FedNanoは既存のFLベースラインを上回り、MLLMのスケールとFLの実現可能性のギャップを埋め、スケーラブルで分散型のマルチモーダルAIシステムを可能にすることが示された。
大規模言語モデルを基盤とした大規模視覚言語モデルの最近の進展により、視覚的特徴と言語モデルの表現を整合させることが主流のパラダイムとして確立されました。しかし、継承された言語モデルのアーキテクチャ設計は、マルチモーダル処理において最適とは言えない特性を導入しています。第一に、大規模視覚言語モデルは注意配分において二峰性分布を示し、文脈が拡大するにつれて中間の視覚内容が徐々に無視される傾向があります。第二に、従来の位置符号化スキームは、動的な高解像度画像を処理する際に重要な2次元構造的関係を保持できません。これらの制限に対処するため、我々はCoMemoを提案します。これは、視覚処理のためにコンテキスト画像パスと画像メモリパスを組み合わせたデュアルパスアーキテクチャであり、視覚情報の無視を効果的に軽減します。さらに、RoPE-DHRという新しい位置符号化メカニズムを導入します。これは、サムネイルベースの位置集約を用いて、2次元空間認識を維持しつつ、長いシーケンスにおける遠隔減衰を緩和します。長文脈理解、複数画像推論、視覚質問応答を含む7つのベンチマークでの評価により、CoMemoが従来の大規模視覚言語モデルアーキテクチャと比較して優れた性能を示すことが実証されました。プロジェクトページはhttps://lalbj.github.io/projects/CoMemo/で公開されています。
コンピュータ利用エージェントは、スクリーンショットやアクセシビリティツリーを処理することで、グラフィカルユーザーインターフェースと直接対話できるLLMベースのエージェントである。これらのシステムは人気を集めつつあるが、その安全性はほとんど注目されておらず、有害な行動の可能性を評価・理解することが広範な採用に不可欠であるにもかかわらず、この点が見過ごされている。このギャップを埋めるため、我々はOS-Harmを導入する。これは、コンピュータ利用エージェントの安全性を測定するための新しいベンチマークである。OS-HarmはOSWorld環境の上に構築されており、3つのカテゴリーの危害(意図的なユーザーの誤用、プロンプトインジェクション攻撃、モデルの誤動作)にわたってモデルをテストすることを目的としている。これらのケースをカバーするため、我々は150のタスクを作成し、それらはいくつかのタイプの安全違反(ハラスメント、著作権侵害、偽情報、データ流出など)にまたがり、エージェントがさまざまなOSアプリケーション(メールクライアント、コードエディタ、ブラウザなど)と対話することを要求する。さらに、エージェントの正確性と安全性を評価するための自動化されたジャッジを提案し、人間の注釈との高い一致(0.76および0.79のF1スコア)を達成する。我々は、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Proなどのフロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。特に、すべてのモデルは多くの意図的な誤用クエリに直接従う傾向があり、静的なプロンプトインジェクションに対して比較的脆弱であり、時折安全でない行動を実行する。OS-Harmベンチマークはhttps://github.com/tml-epfl/os-harmで利用可能である。
最近のベンチマークでは、大規模言語モデル(LLM)の事実的一貫性と修辞的堅牢性が探求されてきた。しかし、事実として真である文の方向性のあるフレーミングがモデルの同意にどのように影響するかについては、LLMユーザーにとって一般的なシナリオでありながら、知識のギャップが存在する。AssertBenchは、FEVEROUSという事実検証データセットから証拠に裏打ちされた事実をサンプリングすることでこの問題に取り組む。各(証拠に基づく)事実に対して、ユーザーがその文が事実として正しいと主張するフレーミングプロンプトと、ユーザーがそれが誤りであると主張するフレーミングプロンプトの2つを構築する。その後、モデルの同意とその理由を記録する。望ましい結果は、モデルが自己主張し、両方のフレーミングにおいて一貫した真実評価を維持し、ユーザーに同意するために評価を切り替えないことである。AssertBenchは、同じ主張を中立的に提示した場合のモデルの精度に基づいて結果を層別化することで、フレーミングによる変動をモデルの基礎となる事実知識から分離する。これにより、このベンチマークは、同じ事実について矛盾するユーザーの主張を提示された際に、LLMが「自説を貫く」能力を測定することを目指している。完全なソースコードはhttps://github.com/achowd32/assert-benchで利用可能である。
現実世界における全身の一般的な動きを追跡する能力は、汎用ヒューマノイドロボットを構築する上で有用な方法です。しかし、これを実現するには、動きの時間的および運動学的多様性、ポリシーの能力、そして上半身と下半身の協調の難しさといった課題があります。これらの問題に対処するため、我々はGMT(General Motion Tracking)を提案します。これは、ヒューマノイドロボットが現実世界で多様な動きを追跡できるようにする単一の統一ポリシーを訓練する、汎用的でスケーラブルなモーショントラッキングフレームワークです。GMTは、Adaptive Sampling戦略とMotion Mixture-of-Experts(MoE)アーキテクチャという2つのコアコンポーネントに基づいて構築されています。Adaptive Samplingは、訓練中に簡単な動きと難しい動きを自動的にバランスさせます。MoEは、モーションマニホールドの異なる領域の専門化をより良く保証します。シミュレーションと現実世界の両方での広範な実験を通じて、GMTの有効性を示し、統一された汎用ポリシーを使用して幅広い動きにおいて最先端の性能を達成しました。ビデオと追加情報はhttps://gmt-humanoid.github.ioでご覧いただけます。
拡散モデルに基づく画像生成は高品質な合成コンテンツの生成に優れていますが、推論が遅く計算コストが高いという課題があります。これまでの研究では、拡散トランスフォーマー内の特徴量をキャッシュし、推論ステップ間で再利用することでこの問題を緩和しようと試みてきました。しかし、これらの手法はしばしば硬直的なヒューリスティックに依存しており、限定的な高速化しか達成できないか、アーキテクチャ間での汎化性能が低いという問題がありました。本研究では、進化的キャッシングによる拡散モデル高速化手法(ECAD)を提案します。ECADは遺伝的アルゴリズムを用いて、少数のキャリブレーションプロンプトのみを使用し、モデルごとに効率的なキャッシングスケジュールを学習し、パレートフロンティアを形成します。ECADはネットワークパラメータや参照画像の変更を必要とせず、大幅な推論速度の向上を実現し、品質とレイテンシのトレードオフを細かく制御可能で、異なる拡散モデルにシームレスに適応します。特に、ECADが学習したスケジュールは、キャリブレーション中に見られなかった解像度やモデルバリアントに対しても効果的に汎化します。PixArt-alpha、PixArt-Sigma、FLUX-1.devにおいて、複数のメトリクス(FID、CLIP、Image Reward)を用いて多様なベンチマーク(COCO、MJHQ-30k、PartiPrompts)で評価を行い、従来手法を一貫して上回る改善を示しました。PixArt-alphaでは、ECADは従来の最先端手法を4.47 COCO FIDで上回り、推論速度を2.35倍から2.58倍に向上させるスケジュールを特定しました。我々の結果は、ECADが拡散推論を高速化するためのスケーラブルで汎化可能なアプローチであることを示しています。プロジェクトウェブサイトはhttps://aniaggarwal.github.io/ecad、コードはhttps://github.com/aniaggarwal/ecadで公開されています。