翻訳付きの日次キュレーションされたAI研究論文
Yumeは、画像、テキスト、または動画を使用して、インタラクティブで現実的かつダイナミックな世界を創造し、周辺機器や神経信号を用いた探索と制御を可能にすることを目指しています。本報告書では、入力画像からダイナミックな世界を生成し、キーボード操作による世界の探索を可能にする\methodのプレビュー版を紹介します。この高忠実度かつインタラクティブな動画世界生成を実現するために、カメラモーションの量子化、動画生成アーキテクチャ、高度なサンプラー、およびモデル加速を含む、よく設計されたフレームワークを導入します。まず、安定したトレーニングとユーザーフレンドリーなインタラクションを実現するために、キーボード入力を用いたカメラモーションの量子化を行います。次に、無限の動画生成を自己回帰的に行うためのメモリモジュールを備えたMasked Video Diffusion Transformer(MVDT)を紹介します。その後、トレーニング不要のAnti-Artifact Mechanism(AAM)と確率微分方程式に基づくTime Travel Sampling(TTS-SDE)をサンプラーに導入し、より優れた視覚品質とより正確な制御を実現します。さらに、敵対的蒸留とキャッシュメカニズムの相乗的最適化によるモデル加速を調査します。高品質な世界探索データセット\sekaiを使用して\methodをトレーニングし、多様なシーンやアプリケーションで顕著な結果を達成しました。すべてのデータ、コードベース、およびモデル重みはhttps://github.com/stdstu12/YUMEで利用可能です。Yumeは、その本来の目標を達成するために毎月更新されます。プロジェクトページ:https://stdstu12.github.io/YUME-Project/。
マルチモーダル大規模言語モデル(MLLM)において、人間のような知覚と推論を実現することは、人工知能における中心的な課題のままである。最近の研究は主にMLLMの推論能力の向上に焦点を当ててきたが、根本的な疑問が残っている:マルチモーダル大規模言語モデルは、本当に人間のように世界を認識できるのか?本論文は、推論から知覚へと焦点を移す。推論に特化したベンチマークを構築するのではなく、人間が直感的に処理する合成画像を用いてMLLMの性能を評価する4つの診断タスクからなる挑戦的な知覚指向のベンチマーク「チューリング・アイ・テスト(TET)」を導入する。我々の調査結果は、最先端のMLLMが、人間にとっては簡単な知覚タスクにおいて壊滅的な失敗を示すことを明らかにしている。以前のベンチマークで有効であったインコンテキスト学習や言語バックボーンのトレーニングは、我々のタスクでの性能向上に失敗する一方で、ビジョンタワーのファインチューニングは迅速な適応を可能にし、我々のベンチマークが言語バックボーンの知識と推論能力ではなく、ビジョンタワーの一般化に課題を提起していることを示唆している。これは、現在のMLLMと人間の知覚の間にある重要なギャップである。本バージョンでは、TETタスクの代表的なサブセットを公開し、今後の研究では視覚的一般化を強化するためのより多様なタスクと手法を導入する予定である。
高品質なプレゼンテーションスライドの作成は、非専門家にとって難しい課題となり得る。その理由は、多様なデザイン選択肢を適切にナビゲートする複雑さにある。多くの自動化ツールはレイアウトやカラースキームを提案できるが、実際のワークフローで重要な要素である出力の洗練能力を欠いていることが多い。我々はDesignLabを提案する。これはデザインプロセスを2つの役割に分離するもので、デザインの課題を特定する「デザインレビュアー」と、それらを修正する「デザインコントリビューター」からなる。この分解により、レビュアーが継続的に課題を検出し、コントリビューターがそれを修正する反復ループが可能となり、各イテレーションごとにドラフトがさらに磨かれ、従来達成できなかった品質に到達する。我々はこれらの役割のために大規模言語モデルをファインチューニングし、制御された摂動を導入して中間ドラフトをシミュレートすることで、デザインレビュアーがデザインエラーを学習し、コントリビューターがそれらを修正する方法を学べるようにした。実験の結果、DesignLabは反復的なデザインの性質を取り入れることで、洗練されたプロフェッショナルなスライドを実現し、既存のデザイン生成手法や商用ツールを上回る性能を示した。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化するための有力なパラダイムとして登場しました。既存の研究は、数学的問題解決、コーディングタスク、論理的推論といった個別の推論領域に主に焦点を当ててきました。しかし、現実世界の推論シナリオでは、複数の認知スキルを統合的に適用することが本質的に求められます。それにもかかわらず、強化学習下でのこれらの推論スキル間の相互作用は十分に理解されていません。このギャップを埋めるため、我々はRLVRフレームワーク内での多領域推論に関する体系的な調査を提示し、特に数学的推論、コード生成、論理パズル解決という3つの主要領域に焦点を当てます。本研究は以下の4つの主要な構成要素を含む包括的な調査を行います:(1) GRPOアルゴリズムとQwen-2.5-7Bモデルファミリーを活用し、単一領域のデータセットで訓練されたモデルの領域内での改善と領域間の汎化能力を徹底的に評価します。(2) さらに、複数の領域を組み合わせた訓練中に生じる相互の強化や競合といった複雑な相互作用を検証します。(3) SFT(Supervised Fine-Tuning)が強化学習に与える影響を理解するため、同一のRL設定下でのベースモデルと指示モデルの性能差を分析・比較します。(4) また、カリキュラム学習戦略、報酬設計のバリエーション、言語固有の要因といった重要なRL訓練の詳細に深く踏み込み、それらの影響を体系的に探ります。広範な実験を通じて、我々の結果は領域間の相互作用を支配するダイナミクスに関する重要な洞察を提供し、専門的かつ汎用的な推論性能に影響を与える主要な要因を明らかにします。これらの知見は、LLMの包括的な多領域推論能力を育むためのRL手法の最適化に貴重な指針を提供します。
最近のスパースボクセル表現の進展により、高解像度かつ細密なジオメトリを備えた3Dコンテンツ生成の品質が大幅に向上しました。しかし、既存のフレームワークでは、2段階の拡散パイプラインにおけるアテンションメカニズムの二次的な計算複雑性により、深刻な計算効率の低下が生じています。本研究では、品質を損なうことなくスパースボクセルモデリングを大幅に高速化する効率的な3D生成フレームワークであるUltra3Dを提案します。本手法では、コンパクトなVecSet表現を活用して、第1段階で粗いオブジェクトレイアウトを効率的に生成し、トークン数を削減してボクセル座標予測を加速します。第2段階でボクセルごとの潜在特徴を洗練するために、意味的に一貫したパート領域内でアテンション計算を制限するジオメトリを考慮した局所化アテンションメカニズムであるPart Attentionを導入します。この設計により、構造的な連続性を保ちながら不必要なグローバルアテンションを回避し、潜在生成において最大6.7倍の高速化を実現します。このメカニズムをサポートするために、生のメッシュをパートラベル付きスパースボクセルに変換するスケーラブルなパートアノテーションパイプラインを構築します。大規模な実験により、Ultra3Dが1024解像度での高解像度3D生成をサポートし、視覚的忠実度とユーザー選好の両方において最先端の性能を達成することが実証されました。
エージェント型検索は、より自律的で適応的な検索拡張のパラダイムとして、インテリジェント検索システムの進化を牽引しています。しかし、既存の評価フレームワークはエージェント型検索の目標と十分に整合していません。第一に、現在のベンチマークで一般的に使用される複雑なクエリは、現実的なユーザー検索シナリオから乖離していることが多いです。第二に、従来のアプローチではエンドツーエンド評価のためのグラウンドトゥルースを抽出する際にノイズが導入され、細粒度レベルでの評価が歪められる傾向があります。第三に、現在のほとんどのフレームワークは最終的な回答の品質にのみ焦点を当てており、エージェント型検索に内在する反復プロセスの評価を軽視しています。これらの課題に対処するため、我々はRAVine(Reality-Aligned eValuation framework for agentic LLMs with search)を提案します。RAVineは、ユーザーの意図をより適切に反映するマルチポイントクエリと長文回答を対象とし、細粒度評価の精度を向上させるための帰属可能なグラウンドトゥルース構築戦略を導入します。さらに、RAVineは反復プロセス全体におけるモデルの検索ツールとの相互作用を検証し、効率性の要素も考慮します。我々はRAVineを使用して一連のモデルをベンチマークし、いくつかの洞察を得ました。これらがエージェント型検索システムの開発を進める一助となることを期待しています。コードとデータセットはhttps://github.com/SwordFaith/RAVineで公開されています。
既存の自然言語ベース(例:人間の言語)の大規模言語モデル(LLM)は、強化学習(RL)を用いて訓練されていますが、重要な課題に直面しています。その検証プロセスは、重要な訓練信号を提供するものの、信頼性も拡張性もありません。実際、主流の大規模なプロプライエタリモデルは、検証可能なプログラムを生成することがほとんどできません。有望でありながらも未開拓の代替手段として、形式的言語ベースの推論があります。LLMを厳密な形式的システムに基づかせ、生成モデルが形式的言語空間(例:Dafny)で動作するようにすることで、その推論プロセスと結果を自動的かつ数学的に証明可能な形で検証することが可能になります。この能力は、大規模で信頼性の高い形式的ソフトウェア検証を実現するために極めて重要です。LLMの推論能力とコーディング能力を誘導するために、人間が注釈を付けた連鎖的思考(chain-of-thought)やその他の人間の事前知識を利用することが一般的です。しかし、複雑なプログラミングタスクを監督するためにそのような事前知識を提供することは、許容できないほど多大な労力を要します。本研究では、形式的言語であるDafnyを主要な環境として、人間の事前知識を削減する方法を体系的に探求します。私たちのパイプラインは、自動的で拡張可能なデータキュレーションパイプラインの導入と、形式的言語検証器からのフィードバックを統合した慎重なRL設計に主に依存しています。私たちは、仕様推論のための自動形式化された仕様を持つ合成的な形式的プログラムのベンチマークであるDafnyCompを紹介します。私たちの教師あり微調整(SFT)段階では、小さなモデル(例:0.5B)でも構文的に有効で検証可能なDafnyコードを生成することが可能であり、プロプライエタリモデルを凌駕します。正則化を伴うRLはさらに性能を向上させ、ドメイン外タスクに対するより強力な汎化を実現し、困難なDafnyCompベンチマークにおいてすべての強力なベースラインを上回ります。
大規模言語モデル(LLMs)は、適切に設計されたプロンプトを用いることで最高の性能を発揮しますが、プロンプトエンジニアリングは依然として手動で行われ、一貫性がなく、非専門家にとってはアクセスが困難です。本論文では、自然言語のタスク記述を高品質なプロンプトに変換する自動プロンプト最適化フレームワーク「Promptomatix」を紹介します。Promptomatixは、手動での調整やドメイン知識を必要とせず、軽量なメタプロンプトベースの最適化ツールとDSPyを活用したコンパイラをサポートし、モジュール設計により将来のより高度なフレームワークへの拡張を可能にします。本システムは、ユーザーの意図を分析し、合成トレーニングデータを生成し、プロンプト戦略を選択し、コストを考慮した目的に基づいてプロンプトを改良します。5つのタスクカテゴリで評価を行った結果、Promptomatixは既存のライブラリと比較して競争力のある、あるいは優れた性能を達成し、プロンプトの長さと計算オーバーヘッドを削減することで、プロンプト最適化をスケーラブルかつ効率的に実現します。
高品質な3Dアセットは、コンピュータグラフィックスや3Dビジョンにおける様々なアプリケーションにおいて不可欠ですが、その取得コストの高さから依然として不足しています。この不足を解消するため、我々はElevate3Dを提案します。これは、容易に入手可能な低品質の3Dアセットを高品質に変換する新しいフレームワークです。Elevate3Dの中核には、HFS-SDEditという特殊なテクスチャ強化手法があり、外観や形状を維持しながら劣化を修正し、テクスチャ品質を大幅に向上させます。さらに、Elevate3Dはビューごとに動作し、テクスチャとジオメトリの精緻化を交互に行います。従来の手法がジオメトリの精緻化をほとんど考慮していなかったのに対し、我々のフレームワークは、HFS-SDEditで精緻化された画像から幾何学的な手がかりを抽出し、最先端の単眼幾何予測器を活用します。このアプローチにより、強化されたテクスチャとシームレスに整合する詳細で正確なジオメトリが保証されます。Elevate3Dは、3Dモデルの精緻化において最新の競合手法を凌駕し、高品質なオープンソース3Dアセットの不足を効果的に解消します。
ビデオ拡散モデルの急速な進展は、特に従来のスカラー時間ステップ変数によって課されるフレーム進化の厳密な同期化といった、時間モデリングにおける根本的な制約によって妨げられてきた。タスク固有の適応や自己回帰モデルがこれらの課題に対処しようと試みてきたが、それらは依然として計算効率の低さ、破滅的な忘却、または適用範囲の狭さに制約されている。本研究では、ベクトル化時間ステップ適応(VTA)を活用し、統一されたビデオ拡散フレームワーク内で細かな時間制御を可能にする画期的なパラダイムであるPusaを提案する。さらに、VTAは非破壊的な適応であり、ベースモデルの能力を完全に保持する。SOTAのWan2.1-T2V-14BモデルをVTAでファインチューニングすることにより、前例のない効率を達成した——Wan-I2V-14Bの性能を、トレーニングコストの1/200以下(\500対\geq 100,000)およびデータセットサイズの1/2500以下(4K対\geq 10Mサンプル)で上回った。Pusaは、画像からビデオ(I2V)生成の新たな基準を確立し、VBench-I2Vの総合スコアで87.32\%(Wan-I2V-14Bの86.86\%対)を達成するだけでなく、開始-終了フレームやビデオ拡張といった多くのゼロショット多タスク能力を解き放つ——すべてタスク固有のトレーニングなしで。一方で、Pusaはテキストからビデオ生成も行うことができる。機構的分析により、我々のアプローチが基礎モデルの生成事前分布を保持しつつ、時間ダイナミクスを外科的に注入し、ベクトル化時間ステップに内在する組み合わせ爆発を回避することが明らかになった。この研究は、次世代ビデオ合成のためのスケーラブルで効率的かつ汎用的なパラダイムを確立し、研究と産業の両方において高忠実度ビデオ生成を民主化する。コードはhttps://github.com/Yaofang-Liu/Pusa-VidGenで公開されている。
テキストから画像を生成する拡散モデル(DMs)は、画像生成において顕著な成功を収めている。しかし、これらのモデルが訓練データを無意識に記憶し複製する可能性があるため、データプライバシーや知的財産に関する懸念が残っている。最近の緩和策は、記憶が局所化可能であるという仮定に基づき、複製を引き起こす重みを特定し刈り込むことに焦点を当てている。本研究では、これらの刈り込みに基づくアプローチの堅牢性を評価する。刈り込み後であっても、入力プロンプトのテキスト埋め込みにわずかな調整を加えるだけでデータの複製が再び引き起こされることを示し、これらの防御策の脆弱性を明らかにする。さらに、記憶の局所性という根本的な仮定に異議を唱え、テキスト埋め込み空間内の多様な位置から複製が引き起こされ、モデル内で異なる経路をたどることを示す。我々の研究結果は、既存の緩和策が不十分であることを示し、記憶された内容の検索を抑制するのではなく、真に除去する方法の必要性を強調する。この方向性への第一歩として、複製トリガーを反復的に探索し、モデルを更新して堅牢性を高める新たな敵対的ファインチューニング手法を提案する。本研究を通じて、テキストから画像を生成するDMsにおける記憶の性質に関する新たな知見を提供し、より信頼性が高く規制に準拠した生成AIを構築するための基盤を築く。