翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルは関数レベルやファイルレベルのコード生成において優れた性能を発揮するが、ゼロから完全なリポジトリを生成することは依然として根本的な課題である。このプロセスでは、提案レベルと実装レベルにわたる一貫性のある信頼性の高い計画が求められるが、自然言語はその曖昧さと冗長性のため、複雑なソフトウェア構造を忠実に表現するには不向きである。この問題に対処するため、我々はリポジトリ計画グラフ(Repository Planning Graph, RPG)を提案する。RPGは、提案レベルと実装レベルの計画を統合し、機能、ファイル構造、データフロー、および関数を1つのグラフにエンコードする永続的な表現である。RPGは曖昧な自然言語を明示的な設計図に置き換え、長期的な計画とスケーラブルなリポジトリ生成を可能にする。RPGを基盤として、ゼロからのリポジトリ生成のためのグラフ駆動型フレームワークであるZeroRepoを開発した。ZeroRepoは3つの段階で動作する:提案レベルの計画と実装レベルの洗練によりグラフを構築し、その後、グラフに基づいたコード生成とテスト検証を行う。この設定を評価するため、1,052のタスクを含む6つの実世界プロジェクトからなるベンチマークRepoCraftを構築した。RepoCraftにおいて、ZeroRepoは平均約36K LOCのリポジトリを生成し、最強のベースライン(Claude Code)の約3.9倍、他のベースラインの約64倍に相当する。ZeroRepoは81.5%の機能カバレッジと69.7%のパス率を達成し、Claude Codeをそれぞれ27.3ポイントと35.8ポイント上回った。さらに分析により、RPGが複雑な依存関係をモデル化し、ほぼ線形スケーリングを通じて段階的に洗練された計画を可能にし、LLMのリポジトリ理解を向上させ、エージェントのローカライゼーションを加速することが示された。
視覚コンテンツを理解し生成する能力を兼ね備えた統一されたマルチモーダル大規模言語モデル(LLMs)は、非常に大きな可能性を秘めています。しかし、既存のオープンソースモデルでは、これらの能力間のパフォーマンスのトレードオフがしばしば問題となります。本研究では、Manzanoを提案します。これは、ハイブリッド画像トークナイザーと入念に調整されたトレーニングレシピを組み合わせることで、この緊張を大幅に緩和するシンプルでスケーラブルな統一フレームワークです。単一の共有視覚エンコーダが、画像からテキストへの理解のための連続的な埋め込みと、テキストから画像への生成のための離散的なトークンを共通の意味空間内で生成する2つの軽量アダプタに供給します。統一された自己回帰型LLMは、テキストと画像トークンの形で高レベルの意味を予測し、補助的な拡散デコーダがその後画像トークンをピクセルに変換します。このアーキテクチャは、理解と生成のデータに対する統一されたトレーニングレシピとともに、両方の能力のスケーラブルな共同学習を可能にします。Manzanoは、統一モデルの中で最先端の結果を達成し、特にテキストが豊富な評価において専門モデルと競合します。我々の研究は、タスク間の最小限の衝突とモデルサイズのスケーリングによる一貫した利得を示し、ハイブリッドトークナイザーの設計選択を検証しています。
生成モデリング、表現学習、分類は機械学習(ML)における3つの核心的な問題であるが、それらの最先端(SoTA)の解決策は依然として大きく分離されたままである。本論文では、統一的な原理がこれら3つすべてに対応できるかどうかを問う。そのような統一はMLパイプラインを簡素化し、タスク間のより大きなシナジーを促進する可能性がある。我々は、この目標に向けた一歩としてLatent Zoning Network(LZN)を提案する。LZNの核心は、すべてのタスクにわたる情報をエンコードする共有ガウス潜在空間を作成することである。各データタイプ(例えば、画像、テキスト、ラベル)は、サンプルを互いに素な潜在ゾーンにマッピングするエンコーダと、潜在変数をデータに戻すデコーダを備えている。MLタスクはこれらのエンコーダとデコーダの組み合わせとして表現される。例えば、ラベル条件付き画像生成はラベルエンコーダと画像デコーダを使用し、画像埋め込みは画像エンコーダを使用し、分類は画像エンコーダとラベルデコーダを使用する。我々は、LZNの可能性を3つの段階的に複雑化するシナリオで示す:(1)LZNは既存のモデルを強化できる(画像生成):SoTAのRectified Flowモデルと組み合わせることで、LZNはCIFAR10のFIDを2.76から2.59に改善する―訓練目的を変更することなく。(2)LZNはタスクを独立して解決できる(表現学習):LZNは補助損失関数なしで教師なし表現学習を実装でき、ImageNetの下流線形分類において、MoCoおよびSimCLR手法をそれぞれ9.3%および0.2%上回る。(3)LZNは複数のタスクを同時に解決できる(生成と分類の同時実行):画像およびラベルエンコーダ/デコーダを使用することで、LZNは設計上両タスクを同時に実行し、FIDを改善し、CIFAR10でSoTAの分類精度を達成する。コードと訓練済みモデルはhttps://github.com/microsoft/latent-zoning-networksで公開されている。プロジェクトウェブサイトはhttps://zinanlin.me/blogs/latent_zoning_networks.htmlにある。
屋内環境の高精細3Dモデル作成は、設計、仮想現実、ロボティクスにおける応用において不可欠です。しかし、手動での3Dモデリングは依然として時間と労力を要する作業です。近年の生成AIの進歩により自動シーン合成が可能になりましたが、既存の手法では視覚的品質、多様性、意味的一貫性、ユーザー制御のバランスを取ることが課題となっています。この課題の主なボトルネックは、このタスクに特化した大規模で高品質なデータセットの不足です。このギャップを埋めるため、12,328の構造化された注釈付きシーン、57,440の部屋、470万枚のフォトリアルな2Dレンダリングを含む包括的な合成データセットを導入します。このデータセットを活用し、現実的で意味的に一貫した3D屋内シーンを生成する新しいマルチビューマルチモーダル拡散モデルであるSpatialGenを提案します。3Dレイアウトとテキストプロンプトから導出された参照画像を入力として、我々のモデルは任意の視点から外観(カラー画像)、幾何学(シーン座標マップ)、意味(セマンティックセグメンテーションマップ)を合成し、モダリティ間の空間的一貫性を保ちます。実験では、SpatialGenが従来の手法よりも優れた結果を一貫して生成することが確認されました。我々は、コミュニティを支援し、屋内シーンの理解と生成の分野を進展させるため、データとモデルをオープンソースとして公開します。
マルチモーダル大規模言語モデル(MLLMs)の急速な進展に伴い、それらを人間の選好に適合させることが重要な課題となっている。報酬モデル(RMs)はこの目標を達成するための中核技術であるが、学術界および産業界において、最先端のマルチモーダル報酬モデル(MRMs)を構築するための体系的なガイドが現状では不足している。本論文は、徹底的な実験分析を通じて、高性能なMRMsを構築するための明確な「レシピ」を提供することを目的としている。我々は、MRM開発パイプラインにおけるすべての重要な要素を体系的に調査し、報酬モデリングのパラダイム(例:Naive-RM、Critic-based RM、Generative RM)、報酬ヘッドのアーキテクチャ、トレーニング戦略、データキュレーション(10以上のマルチモーダルおよびテキストのみの選好データセットをカバー)、バックボーンモデルとモデル規模、アンサンブル手法などを含む。 これらの実験的知見に基づき、我々はBaseRewardを紹介する。BaseRewardは、強力かつ効率的なマルチモーダル報酬モデリングのベースラインであり、{Qwen2.5-VL}バックボーンに基づいたシンプルでありながら効果的なアーキテクチャを採用し、最適化された2層の報酬ヘッドを備え、高品質なマルチモーダルおよびテキストのみの選好データを慎重にキュレーションした混合物でトレーニングされている。我々の結果は、BaseRewardがMM-RLHF-Reward Bench、VL-Reward Bench、Multimodal Reward Benchなどの主要なベンチマークにおいて新たなSOTAを確立し、従来のモデルを凌駕することを示している。さらに、静的ベンチマークを超えた実用性を検証するため、BaseRewardを実世界の強化学習パイプラインに統合し、MLLMのパフォーマンスを様々な知覚、推論、会話タスクにおいて向上させることに成功した。本作業は、単にトップクラスのMRMを提供するだけでなく、次世代のMLLMsのための堅牢な報酬モデルを開発するための明確で実証に基づいたガイドをコミュニティに提供するものである。
ビジョン・ランゲージ・アクション(VLA)モデルを用いたロボットの実世界強化学習(RL)は、疎な手作り報酬と非効率的な探索によってボトルネックとなっている。本研究では、InternVLを基盤とし、大規模な異種データセットで訓練された汎用的なプロセス報酬モデルであるVLACを提案する。ペアワイズ観測と言語目標が与えられると、VLACは密な進捗差分と完了信号を出力し、タスク固有の報酬設計を不要とし、未見のタスクや環境へのワンショット・インコンテキスト転移をサポートする。VLACは、知覚、対話、推論能力を強化するためにビジョン・ランゲージデータセットで訓練され、アクション生成と進捗推定を基盤とするロボットおよび人間の軌跡データとともに、無関係なプロンプトを拒否し、回帰や停滞を検出するために大量のネガティブおよび意味的に不一致なサンプルを構築することでさらに強化されている。プロンプト制御により、単一のVLACモデルが報酬とアクショントークンを交互に生成し、批評家とポリシーを統合する。非同期の実世界RLループ内に展開し、段階的な人間介入プロトコル(オフライン実演再生、リターンと探索、人間ガイド付き探索)を重ねることで、探索を加速し、初期学習を安定化する。4つの異なる実世界操作タスクにおいて、VLACは約200回の実世界インタラクションエピソード内で成功率を約30%から約90%に引き上げ、人間介入を取り入れることでサンプル効率がさらに50%向上し、最終的に100%の成功率を達成する。
本研究では、単一の入力画像からパーソナライズされたビデオを合成するための高忠実度モデル「Lynx」を提案する。Lynxは、オープンソースのDiffusion Transformer(DiT)基盤モデルをベースとして構築され、2つの軽量アダプターを導入することで、アイデンティティの忠実性を確保する。IDアダプターは、Perceiver Resamplerを用いてArcFaceから導出された顔埋め込みをコンパクトなアイデンティティトークンに変換し、条件付けを行う。一方、Refアダプターは、凍結された参照パスウェイから得られた密なVAE特徴を統合し、クロスアテンションを通じてすべてのトランスフォーマーレイヤーに微細な詳細を注入する。これらのモジュールは、時間的整合性と視覚的リアリズムを維持しながら、堅牢なアイデンティティ保存を可能にする。40名の被験者と20の無作為なプロンプトから構成された厳選されたベンチマーク(800のテストケース)による評価を通じて、Lynxは優れた顔の類似性、競争力のあるプロンプト追従、および高いビデオ品質を実証し、パーソナライズされたビデオ生成の技術を進展させた。
AI駆動の人間-GUIインタラクション自動化の分野において、マルチモーダル大規模言語モデルと強化学習の微調整技術の急速な進展が顕著な進歩をもたらしている一方で、根本的な課題が依然として存在する:それらのインタラクションロジックは、自然な人間-GUIコミュニケーションパターンから大きく逸脱している。このギャップを埋めるため、我々は「Blink-Think-Link」(BTL)を提案する。これは、ユーザーとグラフィカルインターフェースの間の人間の認知プロセスを模倣した、脳に着想を得た人間-GUIインタラクションのフレームワークである。このシステムは、インタラクションを以下の3つの生物学的に妥当な段階に分解する:(1) Blink - サッカード眼球運動に類似した、関連する画面領域の迅速な検出と注意、(2) Think - 認知計画を反映した高次レベルの推論と意思決定、(3) Link - 人間の行動選択メカニズムを模倣した、精密な運動制御のための実行可能なコマンドの生成。さらに、BTLフレームワークに対して2つの重要な技術的革新を導入する:(1) Blink Data Generation - ブリンクデータに特化して最適化された自動アノテーションパイプライン、(2) BTL Reward - プロセスと結果の両方に基づいて強化学習を可能にする初のルールベースの報酬メカニズム。このフレームワークを基盤として、BTL-UIというGUIエージェントモデルを開発し、包括的なベンチマークにおいて静的GUI理解と動的インタラクションタスクの両方で一貫して最先端の性能を実証した。これらの結果は、高度なGUIエージェントの開発における本フレームワークの有効性を決定的に実証するものである。
COLMAPは長らく静的なシーンにおけるカメラパラメータ最適化の主要な手法として残ってきたが、その長時間の実行時間と動的なシーンへの適用におけるグラウンドトゥルース(GT)モーションマスクへの依存性によって制約を受けている。多くの研究が、GT焦点距離、モーションマスク、3D点群、カメラポーズ、メトリック深度などのより多くの事前情報を教師信号として組み込むことで改善を試みてきたが、これらは通常、カジュアルに撮影されたRGBビデオでは利用できない。本論文では、単一のRGBビデオのみを教師信号として、動的なシーンにおけるより正確で効率的なカメラパラメータ最適化のための新たな手法を提案する。我々の手法は以下の3つの主要なコンポーネントから構成される:(1) パッチ単位のトラッキングフィルタ。これにより、RGBビデオ全体にわたる頑健で最大限に疎なヒンジ状の関係を確立する。(2) 外れ値対応の共同最適化。モーションの事前情報に依存せず、移動する外れ値を適応的に重み付けすることで、効率的なカメラパラメータ最適化を実現する。(3) 二段階最適化戦略。Softplus制限と損失関数の凸最小値とのトレードオフにより、安定性と最適化速度を向上させる。我々は、カメラ推定値を視覚的および数値的に評価する。さらに精度を検証するために、カメラ推定値を4D再構成手法に投入し、得られた3Dシーン、およびレンダリングされた2D RGBと深度マップを評価する。4つの実世界のデータセット(NeRF-DS、DAVIS、iPhone、TUM-dynamics)と1つの合成データセット(MPI-Sintel)を用いて実験を行い、我々の手法が単一のRGBビデオを唯一の教師信号として、より効率的かつ正確にカメラパラメータを推定することを示す。
指示文誘導型テキスト音声合成(ITTS)は、自然言語プロンプトを通じて音声生成を制御することを可能にし、従来のTTSよりも直感的なインターフェースを提供します。しかし、ユーザーのスタイル指示とリスナーの知覚との整合性は、ほとんど未解明のままです。本研究ではまず、2つの表現的次元(程度副詞と段階的な感情強度)にわたるITTSの制御性に関する知覚分析を行い、話者の年齢と単語レベルの強調属性に関する人間の評価を収集します。指示と知覚のギャップを包括的に明らかにするため、大規模な人間評価によるデータ収集を行い、Expressive VOice Control(E-VOC)コーパスを提供します。さらに、(1)gpt-4o-mini-ttsが音響次元において指示と生成された発話の整合性が最も高く、信頼性の高いITTSモデルであることを明らかにします。(2)分析された5つのITTSシステムは、指示が子供や高齢者の声を使用するよう求めている場合でも、成人の声を生成する傾向があります。(3)細かな制御は依然として主要な課題であり、ほとんどのITTSシステムがわずかに異なる属性指示を解釈する点で大幅な改善の余地があることを示しています。
ロールプレイングエージェント(RPA)は、没入感のあるインタラクティブなキャラクターをシミュレートする能力から、ますます注目を集めています。しかし、既存のアプローチは主に静的な役割プロファイルに焦点を当てており、人間に内在する動的な知覚能力を見落としています。このギャップを埋めるため、我々はビデオモダリティをRPAに組み込むことで、動的な役割プロファイルという概念を導入します。これをサポートするため、60,000本のビデオと700,000の対応するダイアログからなる大規模で高品質なデータセット「Role-playing-Video60k」を構築しました。このデータセットに基づき、適応的時間サンプリングと動的および静的な役割プロファイル表現を組み合わせた包括的なRPAフレームワークを開発します。具体的には、動的プロファイルはビデオフレームを適応的にサンプリングし、それらを時間順にLLMに供給することで作成され、静的なプロファイルは(1)ファインチューニング中のトレーニングビデオからのキャラクターダイアログと、(2)推論中の入力ビデオからの要約コンテキストで構成されます。この統合により、RPAはより優れた応答を生成できるようになります。さらに、8つのメトリックをカバーする堅牢な評価方法を提案します。実験結果は、我々のフレームワークの有効性を示し、RPAの開発における動的な役割プロファイルの重要性を強調しています。
人間の会話は、言語、音声、視覚的な手がかりを含み、それぞれの媒体が補完的な情報を提供します。例えば、音声はテキストだけでは完全に捉えられない雰囲気やトーンを伝えます。マルチモーダルLLMは多様な入力からテキスト応答を生成することに焦点を当てていますが、自然で魅力的な音声を生成することにはあまり注意が払われていません。私たちは、会話のムードや応答スタイルの情報に基づいて音声応答を生成する人間らしいエージェントを提案します。これを実現するために、エージェントが自然な音声を生成できるようにするための音声に焦点を当てた新しいMultiSensory Conversationデータセットを構築します。次に、テキスト応答と音声記述を生成するためのマルチモーダルLLMベースのモデルを提案し、これを用いてパラ言語情報を含む音声を生成します。実験結果は、会話において視覚と音声の両方のモダリティを活用して魅力的な音声を生成する効果を示しています。ソースコードはhttps://github.com/kimtaesu24/MSenCで公開されています。
事前学習済みの自動音声認識(ASR)モデル、例えばWhisperは高い性能を発揮するが、未見の語彙や言い回しを扱うためにはドメイン適応が必要である。多くの実世界の設定では、音声データの収集が非現実的であり、テキストのみの適応が求められる。本研究では、事前学習済みのエンコーダ-デコーダASRモデルに対する、深層監視型のテキストのみの適応手法であるWhisTLEを提案する。WhisTLEは、テキストからエンコーダ出力をモデル化するために変分自己符号化器(VAE)を訓練し、学習されたテキストから潜在表現へのエンコーダを用いてデコーダを微調整する。オプションとして、テキストから音声(TTS)への適応を組み合わせることも可能である。推論時には、元のエンコーダが復元され、追加の実行時コストが発生しない。4つのドメイン外データセットと4つのASRモデルを用いた実験において、WhisTLE with TTSは、TTSのみの適応と比較して単語誤り率(WER)を12.3%相対的に削減し、32のシナリオのうち27において全ての非WhisTLEベースラインを上回った。
具現化エージェントの究極の目標は、人間と対話できる協力者を創出することであり、単に指示に従う受動的な実行者ではない。これには、エージェントがコミュニケーションを取り、調整し、人間のフィードバックに基づいて行動を適応させる能力が求められる。最近のVLA(Vision-Language-Action)の進展は、この目標に向けた道筋を提供している。しかし、現在のVLAベースの具現化エージェントの多くは一方向モードで動作しており、指示を受け取り、フィードバックなしにそれを実行する。このアプローチは、指示が曖昧であることが多い現実世界のシナリオでは失敗する。本論文では、この問題を「Ask-to-Clarify」フレームワークで解決する。このフレームワークは、まず曖昧な指示を多段階の対話を通じて質問することで解決し、次にエンドツーエンドで低レベルのアクションを生成する。具体的には、Ask-to-Clarifyフレームワークは、協力のためのVLM(Vision-Language Model)とアクションのための拡散モデルの2つのコンポーネントで構成される。また、VLMの出力に基づいて拡散モデルの条件を生成する接続モジュールを導入する。このモジュールは、指示に基づいて観測を調整し、信頼性のある条件を作成する。我々は、2段階の知識隔離戦略を用いてフレームワークを訓練する。まず、曖昧さを解決する対話データを使用して協力コンポーネントを微調整し、曖昧さに対処する。次に、協力コンポーネントを凍結したままアクションコンポーネントを統合する。これにより、拡散モデルを微調整してアクションを生成する際に対話能力を保持する。この訓練戦略により、フレームワークはまず質問を行い、次にアクションを生成できることが保証される。推論時には、信号検出器がルーターとして機能し、フレームワークが質問とアクションの切り替えを支援する。我々は、Ask-to-Clarifyフレームワークを8つの現実世界のタスクで評価し、既存の最先端のVLAを上回る性能を示した。結果は、提案されたフレームワークと訓練戦略が、協力的な具現化エージェントに向けた道筋を提供することを示唆している。