翻訳付きの日次キュレーションされたAI研究論文
我々はDepth Anything 3 (DA3)を提案する。これは、カメラ姿勢が既知・未知を問わず、任意の数の視覚入力から空間的一貫性のある幾何学情報を予測するモデルである。最小限のモデリングを追求する中で、DA3は二つの重要な知見をもたらした:単一のプレーンなトランスフォーマー(例:バニラDINOエンコーダ)がアーキテクチャの特殊化なしにバックボーンとして十分機能すること、そして単一の深度光線予測ターゲットが複雑なマルチタスク学習を不要にすることである。教師-生徒学習パラダイムを通じて、本モデルはDepth Anything 2 (DA2)と同等の詳細度と汎化性能を達成する。我々はカメラ姿勢推定、任意視点幾何学、視覚的レンダリングを網羅する新しい視覚幾何学ベンチマークを確立した。このベンチマークにおいて、DA3は全タスクで新たなstate-of-the-artを樹立し、従来のSOTAであるVGGTをカメラ姿勢精度で平均44.3%、幾何学精度で25.1%上回った。さらに、単眼深度推定においてもDA2を凌駕する。全てのモデルは公開学術データセットのみで学習されている。
世界モデルは、知的エージェントが自身の行動に対する世界の変化を想像・予測・推論し、それに基づいて計画と戦略を立てることを可能にする。近年の映像生成モデルは現実的な視覚シーケンスを生成するが、多くはプロンプトから完全な映像を生成する方式であり、意図的な推論に必要な因果的制御性、対話性、長期的整合性を欠いている。一方、既存の世界モデリングの取り組みは、物理現象やゲーム、3Dシーン動力学など限定的な領域に焦点を当てることが多く、深度と制御性に制約があり、多様な環境や相互作用形式への汎化が困難である。本研究では、履歴と自然言語で記述された行動を条件として、高品質な映像シミュレーションを通じて未来の世界状態を予測する、汎用的・対話的・長期的な世界モデルPANを提案する。PANはGenerative Latent Prediction(GLP)アーキテクチャを採用し、大規模言語モデル(LLM)に基づく自己回帰的潜在動力学バックボーン(広範なテキストベースの知識に基づくシミュレーションを実現し、言語指定された行動の条件付けを可能にする)と、知覚的に詳細かつ時間的に一貫した視覚観測を再構築する映像拡散デコーダを組み合わせることで、潜在空間推論(想像)と実現可能な世界動力学(現実)の統合を達成する。多様な領域にわたる大規模な映像-行動ペアで学習されたPANは、一貫した長期動力学を伴う開放領域の行動条件付きシミュレーションをサポートする。大規模な実験により、PANは他の映像生成モデルや世界モデルと比較して、行動条件付き世界シミュレーション、長期予測、シミュレーション推論において優れた性能を達成し、推論と行動のための未来世界状態の予測的シミュレーションを可能とする汎用世界モデルへ向けた一歩を踏み出すことを示す。
拡散モデルは、直接的な高解像度サンプリングが遅くコストがかかるため、訓練解像度を超えるスケーリングに苦戦しており、事後の画像超解像(ISR)はデコード後に操作するため、アーティファクトや追加の遅延を引き起こします。本研究では、Latent Upscaler Adapter(LUA)を提案します。LUAは、最終的なVAEデコードステップの前に、生成器の潜在コード上で直接超解像を行う軽量モジュールです。LUAはドロップインコンポーネントとして統合され、ベースモデルや追加の拡散ステージに変更を加える必要がなく、潜在空間での単一のフィードフォワードパスを通じて高解像度合成を可能にします。スケール固有のピクセルシャッフルヘッドを備えた共有のSwinスタイルのバックボーンは、2倍および4倍のファクターをサポートし、画像空間SRベースラインとの互換性を維持し、ほぼ3倍低いデコードおよびアップスケーリング時間で同等の知覚品質を達成します(512pxから1024px生成の場合、SwinIRアーキテクチャを使用したピクセル空間SRの1.87秒に比べて、+0.42秒のみ追加)。さらに、LUAは異なるVAEの潜在空間にわたる強い汎化能力を示し、新しいデコーダごとにゼロから再訓練することなく容易に展開できます。広範な実験により、LUAはネイティブの高解像度生成の忠実度に非常に近い結果を示し、現代の拡散パイプラインにおいてスケーラブルで高忠実度の画像合成への実用的かつ効率的な道筋を提供することが実証されました。
ブラックボックス蒸留は、プロプライエタリな教師モデルの内部ロジットやパラメータにアクセスせず、そのテキスト出力のみから学習することで、生徒大規模言語モデル(LLM)を生成する手法である。本研究では、オン方策かつブラックボックスな蒸留を可能にする生成的敵対的蒸留(GAD)を提案する。GADは生徒LLMを生成器として位置づけ、その応答と教師LLMの応答を識別する判別器を訓練することで、ミニマックスゲームを構築する。判別器は生徒と共進化するオン方策報酬モデルとして機能し、安定した適応的フィードバックを提供する。実験結果から、GADが一般的に用いられる系列レベル知識蒸留を一貫して上回ることが示された。特に、GADで訓練されたQwen2.5-14B-Instruct(生徒モデル)は、LMSYS-Chat自動評価において教師モデルのGPT-5-Chatに匹敵する性能を達成した。本結果は、GADがブラックボックスLLM蒸留の有望かつ効果的なパラダイムであることを立証する。
専門特化型のAIモデルは映像生成や理解といった個別タスクでは優れる一方、現実世界の応用ではこれらの機能を組み合わせた複雑で反復的なワークフローが求められます。この隔たりを埋めるため、我々は次世代ビデオ汎用AIのためのオープンソース・全能型マルチエージェントフレームワーク「UniVA」を提案します。UniVAは映像理解、セグメンテーション、編集、生成を統合した一貫性のあるワークフローを実現します。Plan-and-Actデュアルエージェントアーキテクチャを採用し、高度に自動化された能動的ワークフローを推進:プランナーエージェントがユーザーの意図を解釈して構造化された映像処理ステップに分解し、エグゼキューターエージェントがモジュール式のMCPベースツールサーバー(分析、生成、編集、追跡など)を通じて実行します。階層型マルチレベルメモリ(グローバル知識、タスクコンテキスト、ユーザー固有の選好)により、長期的推論・文脈の一貫性・エージェント間通信を維持し、完全なトレーサビリティを持つ対話的かつ自己内省的な映像制作を実現します。この設計により、従来は単機能モデルやモノリシックな映像言語モデルでは煩雑だった反復的・任意条件付き映像ワークフロー(例:テキスト/画像/映像条件付き生成 → マルチラウンド編集 → 物体セグメンテーション → 合成的合成)が可能になります。さらに、理解・編集・セグメンテーション・生成にわたる多段階映像タスクのベンチマークスイート「UniVA-Bench」を導入し、このようなエージェント型映像システムを厳密に評価します。UniVAとUniVA-Benchは完全オープンソースとして公開され、次世代マルチモーダルAIシステムのための対話的・エージェント的・汎用的な映像知能の研究促進を目指します。(https://univa.online/)
Group Relative Policy Optimization(GRPO)は、大規模言語モデル(LLM)の学習後調整において高い有用性を実証している。GRPOでは、プロンプトに対するモデルの応答を強化学習を通じて好ましい完成文へと導く。通信量が少ない特性上、GRPOは分散型学習に本質的に適しており、複数のノードが並行してプロンプトに応答した後、文字列形式で交換することが可能である。本研究では、分散型GRPOにおける初の敵対的攻撃を提示する。悪意のある参加者が、文脈外攻撃と文脈内攻撃の両方において、良性モデルに任意の悪意あるトークンを注入することでシステムを汚染し得ることを実証する。数学課題とコーディング課題を用いた実証例により、敵対的攻撃が良性ノードを容易に汚染し、その局所的なLLM学習後調整を妨害できることを示す。わずか50回の反復で最大100%の攻撃成功率を達成できる。我々は、全ユーザーが同一モデルを学習する場合と異なるモデルを学習する場合に応じた二つの防御手法を提案し、これらの防御により最大100%の攻撃阻止率を達成し、攻撃を不可能にできることを示す。
大規模言語モデル(LLM)は推論・洞察・ツール利用において画期的な進展を遂げてきたが、人間や組織、社会が日常的に実行する規模に匹敵する長大なプロセス連鎖を実現することは未だ困難であった。モデルには拡張を阻む持続的なエラー率が存在する。例えばハノイの塔を題材とした最近の実験では、プロセスが数百ステップ以内に必ず脱線することが示されている。このため、LLM研究では現在も論理的依存ステップが比較的少ないタスクで評価されることが多い一方、長大なタスクを実行するLLMの能力(あるいは不能)への関心が高まっている。本論文では、100万ステップを超えるLLM処理を誤りゼロで成功させ、原理的にはさらに大規模なスケールに対応可能な初のシステム「MAKER」を提案する。このアプローチでは、タスクを極限まで細分化し、各サブタスクを専門マイクロエージェントに担当させる。分解による高度なモジュール性により、効率的なマルチエージェント投票システムを通じて各ステップで誤り修正が可能となる。この極限分解と誤り修正の組み合わせがスケーリングを実現する。したがって、現行LLMの継続的改良に依存するのではなく、大規模分解型エージェントプロセス(MDAP)が組織や社会レベルの課題を効率的に解決する道筋となり得ることが示唆される。
大規模言語モデルは、複雑だが検証が容易な問題では著しい進歩を遂げているものの、未知の領域を発見する能力には依然として課題を残している。本論文では、未解決問題に対する新たなアルゴリズム発見を目的とした自律的研究エージェント「AlphaResearch」を提案する。発見プロセスの実現可能性と革新性を両立させるため、実行ベースの検証環境と模擬的な実世界の査読環境を組み合わせた新規の二重研究環境を構築した。AlphaResearchは以下のステップを反復的に実行して新アルゴリズムを発見する:(1)新たなアイデアの提案 (2)二重研究環境におけるアイデアの検証 (3)高性能化のための研究提案の最適化。透明性の高い評価プロセスを促進するため、実行可能なパイプライン・客観的指標・再現性検証を経て厳選された8つの未解決アルゴリズム問題コンペティションを含む新規評価ベンチマーク「AlphaResearchComp」を構築した。AlphaResearchは人間の研究者との直接比較で2/8の勝率を達成し、LLMによるアルゴリズム発見の加速可能性を示した。特に「円充填問題」で発見されたアルゴリズムは、人間の研究者や既存研究(AlphaEvolveなど)の強力なベースラインを凌駕し、既知の最高性能を達成した。さらに、6/8の失敗事例に関する包括的分析を実施し、将来の研究に向けた貴重な知見を提供する。
大規模言語モデル(LLM)は、収束性と汎化性能の向上を目的として、AdamWのような古典的最適化手法で訓練されることが増えている。しかし、量子発想の手法が古典的訓練を強化するメカニズムは未解明の部分が多い。本研究では、量子回路摂動を注入することで勾配更新と量子重ね合わせを結びつける新規オプティマイザ「重ね合わせ勾配降下法(SGD)」を提案する。数学的枠組みを提示し、PyTorchとQiskitを用いたハイブリッド量子古典回路を実装した。合成系列分類タスクと大規模LLMファインチューニングにおける実験では、SGDがAdamWよりも高速に収束し、最終損失も低減することが示された。有望な結果が得られた一方で、拡張性とハードウェア制約が実用化の障壁となっている。総じて本研究は、量子コンピューティングと深層学習の交叉領域に新たな知見をもたらし、量子原理を活用してモデル挙動を制御・強化する実用的な道筋を示唆するものである。
我々は、音楽(歌曲を含む)理解において基盤的なオーディオモデルの発展を推進するために設計された新規の大規模音声言語モデル「Music Flamingo」を提案する。音声言語研究は急速に進展しているが、音楽はその動的・多層的・高密度な性質から依然として課題となっている。さらに、高品質な音楽データと注釈の不足が主因で、オープンな音声理解モデルのスケーリングが困難であるため、研究の進展は制限されてきた。その結果、従来のモデルは短く高次元なキャプション生成に留まり、表面的な質問への回答のみ可能で、多様な音楽文化にわたる汎化能力も限定的であった。これらの課題に対処するため、我々はハーモニー・構造・音色・歌詞・文化的文脈を網羅する豊富なキャプションと質疑応答ペアを生成する多段階パイプラインで注釈を付与した大規模データセットMF-Skillsを構築した。Audio Flamingo 3の拡張バックボーンをMF-Skillsでファインチューニングし、音楽理解に関連する複数のスキルを強化する。推論能力向上のため、音楽理論に基づく新規チェイン・オブ・シンクデータセットMF-Thinkを用いたコールドスタートを経て、カスタム報酬によるGRPOベース強化学習を行うポストトレーニング手法を導入する。Music Flamingoは音楽理解と推論の10以上のベンチマークで最先端の結果を達成し、汎用的かつ音楽的に知的な音声言語モデルとしての地位を確立した。強力な実験結果に加え、本モデルは表面的な認識から歌曲に対する多層的で人間らしい知覚へとモデルを進化させる道筋を示し、高度な音楽理解の新たな基準を設定する。本研究成果が、音楽を人間と同等に意味豊かに扱う次世代モデル構築のための基盤とベンチマークをコミュニティに提供すると確信している。
Deep Research(DR)は、大規模言語モデル(LLM)を活用して未解決の質問に対処する新興のエージェントアプリケーションである。これには、多段階推論、文書横断的な統合、証拠に基づく長文回答の生成など、複数の能力の統合が要求される。DRの評価は、回答が長文かつ多様で、多くの有効な解決策が存在し、動的な情報源に依存することが多いため、依然として困難な課題である。本研究では、2,800時間以上に及ぶ人的労力をかけて構築されたDR向け標準化ベンチマーク「ResearchRubrics」を紹介する。これは、現実的で分野多様なプロンプトと、事実の裏付け、推論の健全性、明瞭さを評価するための2,500以上に及ぶ専門家執筆の詳細な評価ルーブリックを組み合わせたものである。さらに、DRタスクを概念的広がり、論理的入れ子構造、探索性の3軸に沿って分類する新しい複雑性フレームワークを提案する。加えて、DRエージェントのルーブリック遵守度を測定する、人間およびモデルベースの評価プロトコルを開発する。いくつかの最先端DRシステムを評価した結果、GeminiのDRやOpenAIのDRのような主要エージェントでさえ、暗黙のコンテキストの見落としや検索情報への不適切な推論が主因で、当ルーブリックへの平均遵守率が68%未満であることが判明した。この結果は、深層研究能力に対する頑健でスケーラブルな評価の必要性を浮き彫りにしており、我々は確かな根拠に基づく研究アシスタントの開発進展を促進するため、ResearchRubrics(全プロンプト、ルーブリック、評価コードを含む)を公開する。
命令ベースの画像編集モデルは近年目覚ましい性能を達成し、複数の命令プロンプトから入力画像に対して複雑な編集を可能にしている。しかし、これらのモデルはプロンプト内の各命令を固定された強度で適用するため、個々の編集強度を精密かつ連続的に制御するユーザーの能力が制限されている。本論文では、細粒度で解釈可能な命令制御を備えた連続的画像編集フレームワーク「SliderEdit」を提案する。複数部分からなる編集命令が与えられた場合、SliderEditは個々の命令を分離し、それぞれをグローバルに学習されたスライダーとして公開し、その強度をスムーズに調整できるようにする。テキストから画像への生成においてスライダーベースの属性制御を導入した従来研究(各属性や概念に対して個別の学習やファインチューニングが必要となることが一般的)とは異なり、我々の手法は多様な編集、属性、合成的命令に汎化する単一の低ランク適応行列群を学習する。これにより、空間的局所性と大域的な意味的一貫性の両方を保ちながら、個々の編集次元に沿った連続的な補間が可能となる。SliderEditをFLUX-KontextやQwen-Image-Editなどの最先端画像編集モデルに適用した結果、編集の制御性、視覚的一貫性、ユーザーによる操縦性において大幅な改善が観察された。我々の知る限り、命令ベース画像編集モデルにおける連続的かつ細粒度な命令制御のフレームワークを探求し提案するのは本研究が初めてである。本成果は、連続的かつ合成的な制御を備えた対話型の命令駆動画像操作への道を開くものである。
物理環境における効果的な人間-エージェント協調には、何に対して行動すべきかだけでなく、操作可能な要素がどこに存在し、どのように相互作用すべきかを理解することが求められる。既存のアプローチは多くの場合、オブジェクトレベルで動作するか、細粒度のアフォーダンス推論を断片的に扱っており、一貫性のある指示駆動型の接地と推論が欠如している。本研究では、新しいタスクである「細粒度3D具象化推論」を提案する。このタスクでは、エージェントが課題指示に基づき、3Dシーン内で参照される各アフォーダンス要素に対して、その空間的位置、動作タイプ、動作軸から構成される構造化された三つ組を予測する必要がある。この課題を解決するため、マルチモーダル大規模言語モデル(MLLM)と独自設計の連鎖思考推論パラダイムを統合した新しいフレームワーク「AffordBot」を提案する。3D入力と2D互換MLLMの間の隔たりを埋めるため、シーンの全方位画像をレンダリングし、3D要素候補をこれらのビューに投影することで、シーン幾何学に沿った豊富な視覚的表現を形成する。提案する連鎖思考パイプラインは、能動的知覚段階から始まり、MLLMに指示に基づいて最も情報量の多い視点を選択させた後、段階的な推論を進めてアフォーダンス要素の位置特定と妥当な相互作用動作の推定を行う。SceneFun3Dデータセットによる評価では、AffordBotは3D点群入力とMLLMのみを用いて、物理的に接地された強力な一般化と推論能力を示し、最先端の性能を達成した。
大規模言語モデル(LLM)の近年の進展は、様々なタスクにおいて印象的な性能をもたらしているが、高度な指示追従(IF)能力、特に複雑でマルチターン、システムプロンプトを伴う指示への対応は、依然として大きな課題である。こうした能力に対する厳密な評価と効果的な学習は、高品質な人手注釈ベンチマークと信頼性が高く解釈可能な報酬信号の不足によって妨げられている。本研究では、1,600以上のプロンプトと専門家によって精選された評価基準を特徴とする包括的ベンチマーク、AdvancedIF(近日公開予定)を提案する。これはLLMの複雑なマルチターン指示およびシステムレベル指示への追従能力を評価する。さらに我々は、評価基準生成、ファインチューニングされた評価基準検証器、報酬形成を活用して、指示追従のための効果的な強化学習を可能にする新しい学習後パイプライン、RIFL(Rubric-based Instruction-Following Learning)を提案する。大規模な実験により、RIFLがLLMの指示追従能力を大幅に改善し、AdvancedIFにおいて6.7%の絶対的な性能向上を達成し、公開ベンチマークでも強い結果を示すことを実証する。 ablation studyにより、RIFLの各コンポーネントの有効性が確認された。本研究は、評価基準がLLMの高度なIF能力の学習と評価の両方における強力なツールであることを示し、より能力が高く信頼性のあるAIシステムへの道を開くものである。
生成品質が向上しているにもかかわらず、現在のテキストから画像(T2I)モデルは、均質な出力を生成する傾向があり、多様性に欠けることが多い。本研究は、T2Iモデルにおける頑健な多様性評価の必要性に対処する枠組みを提案する。本枠組みは、個々の概念とその関連する変動要因を評価することで、多様性を体系的に査定する。主な貢献は以下の通りである:(1) 細やかな多様性評価のための新しい人間評価テンプレート、(2) 特定された変動要因(例:プロンプト「リンゴの画像」、変動要因「色」)とともに多様な概念を網羅する厳選されたプロンプトセット、(3) 二項検定を用いた人間の注釈に基づくモデル比較の方法論。さらに、我々は多様性測定のための様々な画像埋め込み手法を厳密に比較する。特に、本原理に基づくアプローチにより、T2Iモデルを多様性で順位付けし、モデルが特に困難とするカテゴリを特定することを可能にする。本研究は頑健な方法論と知見を提供し、T2Iモデルの多様性と指標開発の改善への道を開くものである。
批判能力は、モデルが自己改善し信頼性の高いAIアシスタントとして機能する上で極めて重要である。言語のみの設定では広く研究されているが、大規模マルチモーダルモデル(LMM)のマルチモーダルな批判については、画像キャプション生成や視覚的推論などのタスクにおける能力の向上にもかかわらず、未だ十分に探究されていない。本研究では、LMMの批判能力を基本、修正、比較の多次元にわたって評価する包括的ベンチマークMM-CRITICを提案する。MM-CRITICは8つの主要タスクタイプと500以上のタスクを網羅し、様々なモデルサイズのLMMからの応答を収集した4471サンプルで構成される。評価の信頼性を高めるため、専門家の知見に基づく正解を評価基準に統合し、GPT-4oが応答の注釈付けと参照批判文の生成を行うように導く。これにより信頼できる判断の基準を提供する。大規模な実験によりMM-CRITICの有効性が検証され、主要LMMの批判能力に関する多次元にわたる総合的な評価が実現した。さらなる分析から、応答品質と批判能力の相関関係、評価次元による批判の難易度の違いなど、いくつかの重要な知見が得られた。コードはhttps://github.com/MichealZeng0420/MM-Criticで公開している。
下流文献における引用論文の再現性に関するセンチメントは、コミュニティの視点を提供し、発表された研究成果の実際の再現性を示す有望なシグナルとして示されている。再現性指向のセンチメントを効果的に予測し、その再現性との相関をさらに体系的に研究するための効果的なモデルを訓練するために、我々は機械学習論文における合計30,734件の引用コンテキストから構成されるCC30kデータセットを導入する。各引用コンテキストは、引用論文の知覚された再現性または再現可能性を反映する、再現性指向のセンチメントラベル(Positive、Negative、Neutral)のいずれかで注釈付けられている。このうち25,829件はクラウドソーシングによりラベル付けされ、負例ラベルの不足に対処するために制御されたパイプラインを通じて生成された負例で補完されている。従来の感情分析データセットとは異なり、CC30kは再現性指向のセンチメントに焦点を当て、計算論的再現性研究のためのリソースにおける研究ギャップに対処する。本データセットは、堅牢なデータクレンジング、慎重なクラウドワーカーの選定、徹底的な検証を含むパイプラインを通じて作成された。結果として得られたデータセットのラベル付け精度は94%に達する。さらに、我々のデータセットを用いたファインチューニング後、3つの大規模言語モデルの再現性指向センチメント分類における性能が大幅に向上することを実証した。本データセットは、機械学習論文の再現性に関する大規模評価の基盤を築くものである。CC30kデータセットおよびデータセットの生成と分析に使用したJupyterノートブックは、https://github.com/lamps-lab/CC30k で公開されている。
ゼロショット異常分類(AC)と異常領域分割(AS)手法は、ラベル付きサンプルを一切使用せずに欠陥を識別し輪郭を描くことを目的とする。本論文では、既存手法が見落としている重要な特性を明らかにする:工業製品に共通する正常な画像パッチは、2D外観だけでなく3D形状においても、多くの類似パッチが存在するのに対し、異常は多様で孤立したままであるという事実である。この識別性の高い特性を明示的に活用するため、ゼロショットAC/AS向けの相互スコアリングフレームワーク(MuSc-V2)を提案する。本フレームワークは、単一の2D/3Dまたはマルチモダリティを柔軟にサポートする。具体的には、まず反復的点群グループ化(IPG)により3D表現を改善し、不連続表面からの誤検出を低減する。次に、複数次数による類似近傍集約(SNAMD)を用いて、2D/3D近傍手がかりをより識別性の高いマルチスケールパッチ特徴量に統合し、相互スコアリングに供する。中核となるのは、各モダリティ内のサンプルが互いにスコアを付与する相互スコアリング機構(MSM)と、2Dと3Dのスコアを融合してモダリティ固有の検出漏れ異常を補完するクロスモーダル異常強調(CAE)である。最後に、制約付き近傍再スコアリング(RsCon)により、より代表性の高いサンプルとの類似性に基づく誤分類を抑制する。本フレームワークは、データセット全体およびより小規模な部分集合の両方で、一貫してロバストな性能を発揮し、多様な製品ラインにわたるシームレスな適応性を確保する。この新規フレームワークにより、MuSc-V2は顕著な性能向上を達成した:MVTec 3D-ADデータセットで+23.7%AP、Eyecandiesデータセットで+19.3%APの向上を実現し、従来のゼロショットベンチマークを凌駕し、ほとんどの数ショット手法をも上回った。コードはhttps://github.com/HUST-SLOW/MuSc-V2 で公開予定である。