翻訳付きの日次キュレーションされたAI研究論文
Vision-Language-Action(VLA)モデルは、通常、大規模なVision-Language Model(VLM)をロボットデータで事前学習させることで、知覚空間と行動空間のギャップを埋めます。このアプローチは性能を大幅に向上させますが、同時に多大なトレーニングコストも伴います。本論文では、視覚言語(VL)表現を行動(A)に効果的に橋渡しする方法を探ります。我々は、VLAモデルが大規模なVLMと広範な事前学習に依存することを軽減するために設計された新しいパラダイム、VLA-Adapterを紹介します。この目的のために、まずさまざまなVL条件の有効性を体系的に分析し、知覚空間と行動空間を橋渡しするためにどの条件が本質的であるかについての重要な知見を提示します。これらの洞察に基づいて、最適な条件を行動空間に自律的に注入するBridge Attentionを備えた軽量なPolicyモジュールを提案します。この方法により、我々の手法は、ロボットデータの事前学習を一切行わずに、わずか0.5Bパラメータのバックボーンを使用して高い性能を達成します。シミュレーションおよび実世界のロボットベンチマークでの広範な実験により、VLA-Adapterが最先端レベルの性能を達成するだけでなく、これまでに報告された中で最速の推論速度を提供することが実証されています。さらに、提案された高度な橋渡しパラダイムのおかげで、VLA-Adapterは、単一のコンシューマーグレードGPUでわずか8時間で強力なVLAモデルをトレーニングすることを可能にし、VLAモデルの展開障壁を大幅に低減します。プロジェクトページ:https://vla-adapter.github.io/。
人間中心のビデオ生成(HCVG)手法は、テキスト、画像、音声などの多様な入力から人間のビデオを合成することを目指しています。既存の手法では、二つの課題によりこれらの異種モダリティを効果的に調整することが困難です。一つは、三重の条件が揃った学習データの不足、もう一つは、被写体の保存と音声-視覚同期というサブタスクを多モダリティ入力と協調させる難しさです。本研究では、協調的な多モダリティ制御のための統一HCVGフレームワークであるHuMoを提案します。最初の課題に対して、多様でペアになったテキスト、参照画像、音声を含む高品質なデータセットを構築しました。二つ目の課題に対して、タスク固有の戦略を用いた二段階の漸進的多モダリティ学習パラダイムを提案します。被写体保存タスクでは、基盤モデルのプロンプト追従能力と視覚生成能力を維持するため、最小限の侵襲的な画像注入戦略を採用します。音声-視覚同期タスクでは、一般的に採用される音声クロスアテンションレイヤーに加え、モデルが音声を顔の領域と関連付けるよう暗黙的に導く「予測によるフォーカス」戦略を提案します。多モダリティ入力間の制御可能性を共同で学習するため、以前に獲得した能力を基に、音声-視覚同期タスクを段階的に組み込みます。推論時には、柔軟で細かな多モダリティ制御のため、ノイズ除去ステップ間でガイダンス重みを動的に調整する時間適応型Classifier-Free Guidance戦略を設計します。広範な実験結果により、HuMoはサブタスクにおいて専門的な最先端手法を凌駕し、協調的な多モダリティ条件付きHCVGのための統一フレームワークを確立しました。プロジェクトページ: https://phantom-video.github.io/HuMo
Vision-Language-Action (VLA) モデルは、最近、ロボット操作における強力なパラダイムとして登場しました。大規模な事前学習と教師あり微調整 (SFT) によって大幅な進展が見られたものの、これらのモデルは2つの根本的な課題に直面しています:(i) SFTのスケーリングに必要な大規模な人間操作によるロボット軌跡データの不足とその高コスト、(ii) 分布シフトを伴うタスクへの限定的な汎化能力です。Large Reasoning Models (LRMs) における最近のブレークスルーは、強化学習 (RL) が段階的な推論能力を劇的に向上させることができることを示しており、自然な疑問が生じます:RLは同様にVLAの長期的な段階的行動計画を改善できるのか?本論文では、VLAモデルに特化した効率的なRLフレームワークであるSimpleVLA-RLを紹介します。veRLを基盤として、VLA固有の軌跡サンプリング、スケーラブルな並列化、マルチ環境レンダリング、最適化された損失計算を導入しました。OpenVLA-OFTに適用した場合、SimpleVLA-RLはLIBEROにおいてSoTA性能を達成し、さらに我々が導入した探索強化戦略によりRoboTwin 1.0\&2.0においてpi_0を上回る結果を示しました。SimpleVLA-RLは、大規模データへの依存を軽減し、堅牢な汎化を可能にするだけでなく、現実世界のタスクにおいてSFTを顕著に上回ります。さらに、RLトレーニング中に「pushcut」と呼ばれる新たな現象を発見しました。これは、ポリシーが以前のトレーニングプロセスで見られなかった新たなパターンを発見する現象です。Github: https://github.com/PRIME-RL/SimpleVLA-RL
音声対音声大規模言語モデル(SLLM)が注目を集めつつある。テキストベースの大規模言語モデル(LLM)から派生したSLLMは、知識と推論能力の低下を示すことが多い。我々は、この制限が、現在のSLLMのトレーニングパラダイムが特徴表現空間における音響-意味的ギャップを埋められないことに起因すると仮説を立てた。この問題を解決するため、我々はEchoXを提案する。EchoXは意味的表現を活用し、動的に音声トレーニングターゲットを生成する。このアプローチは音響的学習と意味的学習を統合し、EchoXが音声LLMとして強力な推論能力を維持することを可能にする。実験結果は、約6千時間のトレーニングデータを用いたEchoXが、複数の知識ベースの質問応答ベンチマークで先進的な性能を達成することを示している。本プロジェクトはhttps://github.com/FreedomIntelligence/EchoXで公開されている。
オーディオ駆動型アバター動画生成の最近の進展により、視聴覚的なリアリズムが大幅に向上しています。しかし、既存の手法では、指示条件付けを単に音響的または視覚的な手がかりに基づく低レベルの追跡として扱っており、指示が伝えるコミュニケーション目的をモデル化していません。この制限により、物語の一貫性とキャラクターの表現力が損なわれています。このギャップを埋めるため、我々はKling-Avatarを提案します。これは、マルチモーダルな指示理解とフォトリアリスティックな肖像生成を統合した新しいカスケード型フレームワークです。我々のアプローチは2段階のパイプラインを採用しています。第1段階では、多様な指示信号に基づいてブループリント動画を生成するマルチモーダル大規模言語モデル(MLLM)ディレクターを設計し、キャラクターの動きや感情などの高レベルな意味論を制御します。第2段階では、ブループリントのキーフレームに基づいて、first-last frame戦略を用いて複数のサブクリップを並列生成します。このグローバルからローカルへのフレームワークは、細部の詳細を保持しながら、マルチモーダル指示の背後にある高レベルの意図を忠実にエンコードします。我々の並列アーキテクチャは、長時間動画の高速かつ安定した生成を可能にし、デジタルヒューマンのライブストリーミングやブログなどの実世界のアプリケーションに適しています。我々の手法を包括的に評価するため、多様な指示と挑戦的なシナリオをカバーする375の精選されたサンプルからなるベンチマークを構築しました。広範な実験により、Kling-Avatarが最大1080p、48fpsで鮮やかで滑らかな長時間動画を生成でき、リップシンクロ精度、感情と動的な表現力、指示制御性、アイデンティティ保持、クロスドメイン汎化において優れた性能を達成することが示されました。これらの結果により、Kling-Avatarは意味的に基づいた高忠実度のオーディオ駆動型アバター合成の新しいベンチマークとして確立されました。
長期的なタスクにおいて、大規模言語モデル(LLMs)に基づく最近のエージェントは、まばらで結果ベースの報酬が中間ステップへの信用割り当てを困難にするという重大な課題に直面している。従来の手法は、主に密な報酬信号を作成して学習を導くことに焦点を当てており、逆強化学習のような伝統的な強化学習技術や、ステップごとのフィードバックを提供するプロセス報酬モデルを使用している。本論文では、LLMsの学習ダイナミクスにおける根本的な問題を特定する:ポリシー勾配の大きさが本質的にエントロピーと結合しており、これにより確信を持った正しい行動に対する非効率的な小さな更新が生じ、不確実な行動に対する大きな更新が不安定化する可能性がある。これを解決するために、ステップごとの不確実性と最終的なタスク結果に基づいて学習信号を再調整するエントロピー調整ポリシー勾配(EMPG)を提案する。EMPGは、確信を持った正しい行動に対する更新を増幅し、確信を持った誤りを罰し、不確実なステップからの更新を減衰させて探索を安定化する。さらに、将来の明確さを促進するボーナス項を導入し、エージェントがより予測可能な解決策を見つけることを奨励する。WebShop、ALFWorld、Deep Searchという3つの挑戦的なエージェントタスクにおける包括的な実験を通じて、EMPGが大幅な性能向上を達成し、強力なポリシー勾配ベースラインを大幅に上回ることを示す。プロジェクトページはhttps://empgseed-seed.github.io/にある。
オープンソースのテキストから画像生成(T2I)モデルの進展は、大規模で推論に焦点を当てたデータセットと包括的な評価ベンチマークの欠如によって妨げられており、主要なクローズドソースシステムとの性能差が生じている。この課題に対処するため、我々はFLUX-Reason-6MとPRISM-Bench(Precise and Robust Image Synthesis Measurement Benchmark)を導入する。FLUX-Reason-6Mは、600万枚の高品質なFLUX生成画像と2000万の二言語(英語と中国語)説明からなる大規模データセットであり、複雑な推論を教えるために特別に設計されている。画像は、想像力、実体、テキストレンダリング、スタイル、感情、構成の6つの主要な特性に従って整理され、画像生成ステップの詳細な分解を提供するための明示的な生成連鎖思考(GCoT)が設計されている。データキュレーション全体には15,000 A100 GPU日を要し、大規模な産業ラボ以外ではこれまで達成できなかったリソースをコミュニティに提供する。PRISM-Benchは、GCoTを使用した困難な長文チャレンジを含む7つの異なるトラックを備えた新しい評価基準を提供する。慎重に設計されたプロンプトを通じて、高度な視覚言語モデルを活用し、プロンプトと画像の整合性および画像の美学を人間に沿ったニュアンスで評価する。PRISM-Benchでの19の主要モデルの広範な評価により、重要な性能差が明らかになり、改善が必要な特定の領域が強調される。我々のデータセット、ベンチマーク、および評価コードは、推論指向のT2I生成の次の波を促進するために公開される。プロジェクトページ: https://flux-reason-6m.github.io/ 。
本論文では、オートエンコーダのレンズを通じて新しい洞察に満ちたパラダイムを紹介する。具体的には、画像をテキストに圧縮する理解プロセス(I2T)をエンコーダとして、そのテキストから画像を再構築する生成プロセス(T2I)をデコーダとして捉える。再構成の忠実度を統一的な訓練目的として用いることで、理解と生成のプロセス間の双方向的な情報の流れを強化し、相互に利益をもたらす。これを実現するために、我々は統一的なマルチモーダル学習のための新しいフレームワークであるUAEを提案する。まず、大規模な長文脈の画像キャプションを用いてデコーダを事前訓練し、細かい意味的および複雑な空間的関係を捉える。次に、強化学習(RL)を用いたUnified-GRPOを提案し、以下の3つの段階をカバーする:(1) セマンティック再構成損失を用いてエンコーダとデコーダを穏やかに初期化するコールドスタートフェーズ、(2) 理解のための生成フェーズでは、エンコーダがデコーダの再構成品質を最大化する情報量の多いキャプションを生成するように訓練され、視覚的理解が強化される、(3) 生成のための理解フェーズでは、デコーダがこれらのキャプションから再構成するように洗練され、細部を活用し、長文脈の指示に従う能力と生成の忠実度が向上する。評価のために、UMMの統一度を評価するために特別に設計された最初のベンチマークであるUnified-Benchを導入する。マルチモーダル学習領域において驚くべき「アハ体験」が生じる:RLが進むにつれて、エンコーダは自律的により記述的なキャプションを生成し、同時にデコーダはこれらの複雑な記述を深く理解する能力を示し、驚くほど忠実な再構成を実現する。
大規模言語モデル(LLMs)は広範な世界知識と強力な汎用推論能力を有しているが、標準的な機械学習(ML)タスクにおいて、多くの文脈内の例から学習すること、すなわち、勾配降下法を用いずに純粋に文脈内学習(ICL)を通じて多数のデモンストレーションを活用することに苦戦している。本論文では、汎用LLMに強力な文脈内ML能力を備えつつ、より広範なチャットワークフローのための一般的な知識と推論能力を保持する、ポータブルな継続事前学習フレームワークであるMachineLearningLMを紹介する。 我々の事前学習手順は、最大1,024ショットに及ぶ数百万の構造的因果モデル(SCMs)からMLタスクを合成する。ランダムフォレストの教師モデルから始め、木ベースの意思決定戦略をLLMに蒸留することで、数値モデリングにおける堅牢性を強化する。すべてのタスクはトークン効率の良いプロンプトでシリアライズされ、コンテキストウィンドウごとに3倍から6倍の例を可能にし、バッチ推論を通じて最大50倍の償却スループットを実現する。 控えめなセットアップ(Qwen-2.5-7B-Instruct with LoRA rank 8)にもかかわらず、MachineLearningLMは、金融、物理学、生物学、医療分野にわたる分布外の表形式分類において、強力なLLMベースライン(例:GPT-5-mini)を平均約15%上回る。また、顕著な多数ショットスケーリング法則を示す:文脈内デモンストレーションが8から1,024に増加するにつれて、精度が単調に向上する。タスク固有のトレーニングなしで、数百ショットにわたってランダムフォレストレベルの精度を達成する。知識と推論を含む一般的なチャット能力も保持されており、MMLUで75.4%を達成する。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させるための強力なパラダイムである。しかし、現在のRLVR手法は探索が不十分であり、早期収束やエントロピーの崩壊を引き起こすことが多い。この課題に対処するため、我々は好奇心駆動型探索(CDE)を導入する。このフレームワークは、モデル自身の内在的な好奇心を活用して探索を導くものである。好奇心を形式化するために、アクターとクリティックの両方からの信号を利用する:アクターに対しては、生成された応答に対するパープレキシティを使用し、クリティックに対しては、マルチヘッドアーキテクチャからの価値推定の分散を使用する。これらの信号は、RLVRフレームワーク内で探索ボーナスとして機能し、モデルを導く。理論的分析により、アクターワイズのボーナスは過信エラーを自然に罰し、正しい応答の多様性を促進することが示される。さらに、クリティックワイズのボーナスは、強化学習における確立されたカウントベースの探索ボーナスと関連付けられる。実験的には、我々の手法は、AIMEベンチマークにおいてGRPO/PPOを使用した標準的なRLVRに対して約+3ポイントの改善を達成する。さらに、RLVR内のキャリブレーション崩壊メカニズムを特定し、一般的なLLMの失敗モードに光を当てる。
大規模音声言語モデル(LALMs)は急速に進化していますが、その評価は依然として困難を伴っています。これは、公平な比較と体系的な評価を制限する非効率なツールキットが原因です。現在のフレームワークは、大規模研究をボトルネックにする遅い処理速度、再現性を損なう一貫性のないプロンプト、重要な音声推論能力を見落とす狭いタスクカバレッジという3つの重大な問題を抱えています。本論文では、LALMsのための効率的かつ包括的な評価フレームワークであるAU-Harnessを紹介します。私たちのシステムは、最適化されたバッチ処理と並列実行により、既存のツールキットに対して最大127%の高速化を実現し、これまで非現実的だった大規模評価を可能にします。多様なシナリオでの公平なモデル比較のため、標準化されたプロンプトプロトコルと柔軟な設定を提供します。さらに、時間的な音声理解のためのLLM-Adaptive Diarizationと、複雑な音声ベースの認知タスクのためのSpoken Language Reasoningという2つの新しい評価カテゴリーを導入します。380以上のタスクにわたる評価を通じて、現在のLALMs、特に時間的理解と複雑な音声言語推論タスクにおける重大なギャップを明らかにしました。また、音声ベンチマークに存在する指示モダリティの標準化の欠如が、困難な複雑指示追従ダウンストリームタスクにおいて最大9.5ポイントの絶対的な性能差を引き起こす可能性があることも指摘しました。AU-Harnessは、実用的な評価ツールとモデルの限界に関する洞察を提供し、体系的なLALM開発を推進します。
空間知能において、空間再構築と世界探索の両面で大きな進展が見られています。しかし、現在のモデルのスケーラビリティと現実世界の忠実度は、大規模で高品質な訓練データの不足によって深刻に制約されています。カメラ姿勢情報を提供するデータセットはいくつか存在しますが、それらは通常、スケール、多様性、アノテーションの豊富さにおいて限られており、特に真のカメラ運動を伴う現実世界の動的シーンにおいて顕著です。この問題に対処するため、私たちはSpatialVIDというデータセットを収集しました。このデータセットは、多様なシーン、カメラの動き、そしてフレームごとのカメラ姿勢、深度、動作指示などの密な3Dアノテーションを含む、野外で撮影された大量のビデオで構成されています。具体的には、21,000時間以上の生ビデオを収集し、階層的なフィルタリングパイプラインを通じて270万のクリップに処理し、合計7,089時間の動的コンテンツを作成しました。その後、アノテーションパイプラインにより、これらのクリップにカメラ姿勢、深度マップ、動的マスク、構造化されたキャプション、シリアライズされた動作指示などの詳細な空間的および意味的情報が付与されます。SpatialVIDのデータ統計を分析すると、モデルの汎化性能とパフォーマンスの向上に直接寄与する豊かさと多様性が明らかになり、ビデオおよび3D視覚研究コミュニティにとって重要な資産であることが確認されました。
チャート理解は、Vision-Language Models(VLMs)の推論能力に対する重要なテストを提示します。従来のアプローチには重大な限界があります。一部の手法は外部ツールに依存しており、それらは脆弱で事前定義されたツールキットに制約されます。一方、他の手法は専門家モデルをファインチューニングしますが、これらはしばしばテキストベースの連鎖思考(CoT)のような単一の推論戦略を採用します。テキストベースの推論の中間ステップは検証が難しく、事実の正確性を報酬とする強化学習シグナルの使用を複雑にします。この問題に対処するため、我々はチャートの視覚情報を検証可能なシンボリック形式で表現するCode-as-Thought(CaT)アプローチを提案します。我々の重要な洞察は、この戦略が適応的でなければならないということです。固定されたコードのみの実装は、シンボリック表現が不適切な複雑なチャートで一貫して失敗します。この発見から、我々はVisual Programmabilityを導入します。これは、チャートと質問のペアがコードで解決されるべきか、直接的な視覚分析で解決されるべきかを決定する学習可能な特性です。我々はこの概念を適応的フレームワークに実装し、VLMがCaT経路と直接的な視覚推論経路のどちらを選択するかを学習します。モデルの選択ポリシーは、新しい二重報酬システムを使用した強化学習で訓練されます。このシステムは、モデルを事実に基づかせて数値の幻覚を防ぐデータ正確性報酬と、各戦略を使用するタイミングをモデルに教え、単一の推論モードに陥るのを防ぐ決定報酬を組み合わせます。実験では、多様なチャート理解ベンチマークで強力で堅牢な性能が示されました。我々の研究は、VLMsが推論するだけでなく、どのように推論するかを学び、各タスクに対して最適な推論経路を動的に選択できることを示しています。
エンコーダのみの言語モデルは、分類や検索を含む様々な標準的な機械学習タスクで頻繁に使用されています。しかし、特に多言語モデルに関しては、最近のエンコーダモデルの研究が不足しています。本論文では、1800以上の言語で3兆トークンの多言語テキストを事前学習したエンコーダのみの言語モデルであるmmBERTを紹介します。mmBERTを構築するために、逆マスク比率スケジュールや逆温度サンプリング比率など、いくつかの新しい要素を導入しました。また、1700以上の低リソース言語を、減衰フェーズでのみデータに追加することで、性能が劇的に向上し、比較的少量の学習データから得られる利益を最大化することを示しました。これらの低リソース言語を短い減衰フェーズにのみ含めたにもかかわらず、OpenAIのo3やGoogleのGemini 2.5 Proのようなモデルと同等の分類性能を達成しました。全体として、mmBERTが高リソース言語と低リソース言語の両方において、分類と検索タスクで前世代のモデルを大幅に上回ることを示しました。
3次元空間関係の理解は、現在の視覚言語モデル(VLMs)の主要な限界点の一つである。これまでの研究では、単一画像や屋内動画に基づく空間的質問応答(QA)データセットを作成することでこの問題に対処してきた。しかし、現実世界の具現化AIエージェント、例えばロボットや自動運転車は、通常、自己中心的な多視点観測に依存している。この目的のために、我々はEgo3D-Benchを導入する。これは、自己中心的な多視点の屋外データを用いてVLMsの空間推論能力を評価するための新しいベンチマークである。Ego3D-Benchは、品質と多様性を確保するために人間のアノテーターの多大な関与のもとで作成された8,600以上のQAペアから構成されている。我々は、GPT-4o、Gemini1.5-Pro、InternVL3、Qwen2.5-VLを含む16の最先端VLMsをベンチマークした。その結果、人間レベルのスコアとVLMの性能との間に顕著なギャップがあることが明らかになり、現在のVLMsが人間レベルの空間理解にまだ及んでいないことが強調された。このギャップを埋めるために、我々はEgo3D-VLMを提案する。これは、VLMsの3次元空間推論を強化するポストトレーニングフレームワークである。Ego3D-VLMは、推定されたグローバル3次元座標に基づいて認知地図を生成し、多肢選択QAで平均12%、絶対距離推定で平均56%の改善をもたらす。Ego3D-VLMはモジュール式であり、既存の任意のVLMと統合することができる。Ego3D-BenchとEgo3D-VLMは、現実世界の多視点環境における人間レベルの空間理解に向けた貴重なツールを提供する。
コントラスティブ言語-画像事前学習(CLIP)は多様な視覚タスクにおいて強力な性能を発揮するものの、人物表現学習への応用には2つの重要な課題が存在する:(i) 人物中心の画像に焦点を当てた大規模な注釈付き視覚-言語データの不足、および(ii) グローバルなコントラスティブ学習の本質的な限界。後者は、微細なマッチングに不可欠な識別可能なローカル特徴を維持するのが困難であり、ノイズの多いテキストトークンに対して脆弱である。本研究では、データキュレーションとモデルアーキテクチャの相乗的な改善を通じて、CLIPを人物表現学習に進化させる。まず、MLLMの文脈内学習能力を活用して、ウェブソースの画像を自動的にフィルタリングしキャプション化するノイズ耐性のあるデータ構築パイプラインを開発する。これにより、500万の高品質な人物中心の画像-テキストペアからなる大規模データセットWebPersonを構築する。次に、勾配-アテンション類似度スコアに基づいてノイズの多いテキストトークンを適応的にマスキングするGA-DMS(Gradient-Attention Guided Dual-Masking Synergetic)フレームワークを導入し、クロスモーダルアラインメントを改善する。さらに、情報量の多いテキストトークンを予測するようモデルに強制するマスクトークン予測目標を組み込み、微細な意味表現学習を強化する。大規模な実験により、GA-DMSが複数のベンチマークにおいて最先端の性能を達成することが示された。
ガウシアンスプラッティング(GS)は、離散点を連続的な空間表現に変換する最近の技術であり、3Dシーンモデリングや2D画像の超解像において有望な結果を示しています。本論文では、画像修復における未開拓の可能性を探求します。画像修復は、局所的に一貫したピクセル合成と、全体的に整合性のある意味的復元の両方を要求します。我々は、2Dガウシアンスプラッティングに基づく初の画像修復フレームワークを提案します。このフレームワークは、不完全な画像を2Dガウシアンスプラット係数の連続フィールドにエンコードし、微分可能なラスタライゼーションプロセスを通じて最終画像を再構築します。GSの連続レンダリングパラダイムは、修復結果におけるピクセルレベルの一貫性を本質的に促進します。効率性とスケーラビリティを向上させるため、メモリオーバーヘッドを削減し、推論を加速するパッチ単位のラスタライゼーション戦略を導入します。全体的な意味的整合性のために、事前学習済みのDINOモデルからの特徴を組み込みます。DINOのグローバル特徴は、小さな欠損領域に対して自然に頑健であり、大規模なマスクシナリオにおける意味的アラインメントを効果的にガイドするために適応できることが観察されました。これにより、修復された内容が周囲のシーンと文脈的に整合性を保つことが保証されます。標準ベンチマークでの広範な実験により、我々の手法が定量的指標と知覚品質の両方において競争力のある性能を達成し、2D画像処理へのガウシアンスプラッティングの適用における新たな方向性を確立することが示されました。
近年のマルチモーダル大規模言語モデル(MLLM)の進展により、エンボディドインテリジェンスの新たな可能性が開かれ、マルチモーダルな理解、推論、インタラクション、そして継続的な空間的意思決定が可能となった。しかし、現在のMLLMベースのエンボディドシステムには2つの重要な課題がある。第一に、幾何学的適応性のギャップ:2D入力のみでトレーニングされたモデル、またはハードコードされた3Dジオメトリ注入を伴うモデルは、空間情報の不足または2D一般化の制限に苦しみ、多様な空間要求を伴うタスク間での適応性が低い。第二に、エンボディメント制約のギャップ:従来の研究では、実際のロボットの物理的制約や能力を無視することが多く、理論的には有効だが実践的には実行不可能なタスクプランを生み出している。これらのギャップを解決するため、我々はOmniEVAを導入する。これは、2つの重要なイノベーションを通じて高度なエンボディド推論とタスクプランニングを可能にするエンボディド多目的プランナーである:(1)タスク適応型3Dグラウンディングメカニズム。これは、コンテキスト要件に基づいて3D融合を明示的に選択的に制御するゲーテッドルーターを導入し、多様なエンボディドタスクに対するコンテキストを意識した3Dグラウンディングを可能にする。(2)エンボディメントを意識した推論フレームワーク。これは、タスク目標とエンボディメント制約を推論ループに共同で組み込み、目標指向かつ実行可能なプランニング決定を導く。広範な実験結果は、OmniEVAが最先端の一般的なエンボディド推論性能を達成するだけでなく、幅広い下流シナリオにわたる強力な能力を示すことを実証している。提案された一連のエンボディドベンチマーク(基本的および複合タスクを含む)の評価は、その堅牢で多目的なプランニング能力を確認している。プロジェクトページ:https://omnieva.github.io
大規模視覚言語モデル(LVLM)の最近の進展により、汎用医療タスクにおける強力な性能が実証されています。しかし、歯科などの専門領域における有効性はまだ十分に検証されていません。特に、口腔放射線学で広く使用されているパノラマX線画像は、密集した解剖学的構造や微妙な病理学的兆候により解釈が困難であり、既存の医療ベンチマークや指示データセットでは捕捉されていません。この問題に対処するため、我々はパノラマX線画像解釈に特化した初の大規模マルチモーダル指示データセットおよびベンチマークであるMMOralを導入します。MMOralは20,563枚の注釈付き画像と130万件の指示追従インスタンスで構成され、属性抽出、レポート生成、視覚的質問応答、画像に基づく対話など多様なタスクタイプをカバーしています。さらに、歯科診断における5つの主要な次元を網羅した包括的な評価スイートであるMMOral-Benchを提示します。MMOral-Benchで64のLVLMを評価した結果、最高性能のモデルであるGPT-4oでさえ41.45%の精度しか達成できず、この領域における現行モデルの重大な限界が明らかになりました。この特定領域の進展を促進するため、我々はQwen2.5-VL-7Bを基にMMOral指示データセットを用いて教師ありファインチューニング(SFT)を行うOralGPTも提案します。注目すべきことに、単一エポックのSFTでLVLMの性能が大幅に向上し、例えばOralGPTは24.73%の改善を示しました。MMOralとOralGPTは、インテリジェント歯科の重要な基盤として、また歯科領域におけるより臨床的にインパクトのあるマルチモーダルAIシステムを実現するための大きな可能性を秘めています。データセット、モデル、ベンチマーク、評価スイートはhttps://github.com/isbrycee/OralGPTで公開されています。
数百万トークンに及ぶコンテキストウィンドウを持つ長文脈言語モデルの出現は、高度なコード理解とソフトウェア開発評価の新たな機会を創出しました。本論文では、現実的で複雑なソフトウェア開発シナリオにおいて長文脈LLMを評価するために特別に設計された包括的なベンチマーク、LoCoBenchを提案します。既存のコード評価ベンチマークが単一関数の補完や短文脈タスクに焦点を当てているのに対し、LoCoBenchは、コードベース全体を理解し、複数のファイルにわたる推論を行い、大規模ソフトウェアシステム全体でアーキテクチャの一貫性を維持することを要求する長文脈能力の重要な評価ギャップに対処します。本ベンチマークは、10のプログラミング言語にわたって体系的に生成された8,000の評価シナリオを提供し、コンテキスト長は10Kから1Mトークンまで広がり、100倍の変動幅を持つことで、現実的なソフトウェア開発設定における長文脈性能の劣化を正確に評価できます。LoCoBenchは、アーキテクチャ理解、クロスファイルリファクタリング、マルチセッション開発、バグ調査、機能実装、コード理解、統合テスト、セキュリティ分析といった、重要な長文脈能力を捉える8つのタスクカテゴリーを導入します。5段階のパイプラインを通じて、LLMに前例のない規模で複雑なコードベースについて推論することを要求する多様で高品質なシナリオを作成します。我々は、4つの次元にわたる17のメトリクスを含む包括的な評価フレームワークを導入し、そのうち8つは新規の評価メトリクスであり、LoCoBenchスコア(LCBS)として組み合わせます。最先端の長文脈モデルの評価を通じて、複雑なソフトウェア開発における長文脈理解が未解決の重大な課題であり、より多くの注目を必要としていることを示す大幅な性能ギャップが明らかになりました。LoCoBenchは以下で公開されています:https://github.com/SalesforceAIResearch/LoCoBench。
単一カメラとトポロジカルマップのみを使用した視覚ナビゲーションは、追加のセンサーや3Dマップを必要とする手法に比べて、最近注目を集める代替手段となっています。これは通常、現在の観測画像とサブゴール画像のペアから制御を推定する「画像相対的」アプローチによって実現されます。しかし、世界を画像レベルで表現することには限界があります。なぜなら、画像はエージェントの姿勢と実装に厳密に結びついているからです。対照的に、オブジェクトはマップの特性であり、実装や軌道に依存しない世界表現を提供します。本研究では、いくつかの望ましい特性を示す「オブジェクト相対的」制御を学習する新しいパラダイムを提案します。a) 新しいルートを、事前の経験を厳密に模倣することなく通過できる、b) 制御予測問題を画像マッチング問題から切り離すことができる、c) トレーニング-テストおよびマッピング-実行設定の両方における変動に対して、クロスエンボディメント展開において高い不変性を達成できる。我々は、「相対的」3Dシーングラフの形式でトポメトリックマップ表現を提案し、これを使用してより情報量の多いオブジェクトレベルのグローバル経路計画コストを取得します。ローカルコントローラー「ObjectReact」を、明示的なRGB入力を必要としない高レベルの「WayObject Costmap」表現に直接条件付けてトレーニングします。センサー高さの変動や、基礎となる空間理解能力に挑戦する複数のナビゲーションタスク(例えば、マップ軌道を逆方向にナビゲートする)において、画像相対的アプローチに対するオブジェクト相対的制御の利点を実証します。さらに、シミュレーションのみのポリシーが実世界の屋内環境にうまく一般化できることを示します。コードと補足資料はプロジェクトページからアクセス可能です: https://object-react.github.io/
検証可能な報酬を用いた強化学習(RLVR)による大規模言語モデル(LLM)のファインチューニングにおける中心的なパラドックスは、単一試行の精度(Pass@1)が向上するにもかかわらず、複数試行の性能(Pass@k)がしばしば低下するという現象である。これは、モデルが以前に獲得したスキルを失う「破滅的忘却」を伴うことが多い。これまでに様々な手法が提案されてきたが、発散項の選択と機能は、積極的な解決策として驚くほど検討されていない。我々は、標準的なRLVRの目的関数――モード探索的な逆KLダイバージェンスを使用するものも、発散項を完全に省くものも――が、知識保持のための重要なメカニズムを欠いていると主張する。逆KLはポリシーを狭めることでこの衰退を加速し、一方で発散項の不在はモデルが多様な知識基盤から逸脱するのを防ぐ手段を提供しない。我々は、発散項そのものを解決策として用いるという根本的な視点の転換を提案する。我々のフレームワークである「多様性保持型ハイブリッド強化学習(DPH-RL)」は、フォワードKLやJSダイバージェンスなどの質量カバー型fダイバージェンスを活用し、リハーサルメカニズムとして機能させる。初期ポリシーを継続的に参照することで、このアプローチはモデルに広範な解のカバレッジを維持させる。数学とSQL生成に関する広範な実験により、DPH-RLがPass@kの低下を解決するだけでなく、Pass@1とPass@kの両方をドメイン内およびドメイン外で改善することが示された。さらに、DPH-RLは、生成関数を用いてfダイバージェンスを計算するため、初期ポリシーからのサンプリングのみを必要とし、オンライン参照モデルを必要としないため、より訓練効率が高い。我々の研究は、RLVRを改善するための重要な、しかし見過ごされていた軸を強調し、適切な発散尺度の選択が、より汎用的で多様な推論モデルを構築するための強力なツールであることを示している。
学術研究で提案された脆弱性検出のための深層学習ソリューションは、開発者が常にアクセスできるわけではなく、産業環境での適用性はほとんど検討されていない。このような技術を学術界から産業界に移行する際には、信頼性、レガシーシステム、デジタルリテラシーの不足、学術と産業の専門知識のギャップといった課題が存在する。特に深層学習においては、性能と既存のワークフローへの統合が追加的な懸念事項となる。本研究ではまず、産業用およびオープンソースソフトウェアにおける脆弱な関数の検出におけるCodeBERTの性能を評価する。オープンソースデータでファインチューニングし、産業データでテストする場合、およびその逆の場合のクロスドメイン汎化性能を分析し、クラス不均衡を扱うための戦略も探る。これらの結果に基づき、CI/CD(継続的インテグレーション・継続的デプロイメント)に統合された推奨システムであるAI-DO(Automating vulnerability detection Integration for Developers' Operations)を開発する。これは、ファインチューニングされたCodeBERTを使用して、コードレビュー中にワークフローを中断することなく脆弱性を検出・特定するものである。最後に、企業のIT専門家を対象とした調査を通じて、このツールの有用性を評価する。結果は、産業データで訓練されたモデルは同一ドメイン内で正確に脆弱性を検出するが、オープンソースコードでは性能が低下する一方で、適切なアンダーサンプリング技術を用いてオープンデータでファインチューニングされた深層学習モデルは、脆弱性検出を改善することを示している。
マルチモーダル推薦システムは、eコマースやコンテンツプラットフォームにおいて基盤技術としてますます重要になってきており、ユーザーの過去の行動とアイテムのマルチモーダル特徴(例:視覚的およびテキスト的)を共同でモデル化することで、パーソナライズされたサービスを実現しています。しかし、既存の手法の多くは、静的な融合戦略またはグラフベースの局所的相互作用モデリングに依存しており、2つの重要な制限に直面しています:(1) 細粒度のクロスモーダル関連性をモデル化する能力が不十分で、融合品質が最適でないこと、(2) グローバルな分布レベルの一貫性が欠如しており、表現バイアスが生じることです。これらの課題に対処するため、我々はMambaRecという新しいフレームワークを提案します。このフレームワークは、注意誘導学習を通じて局所的特徴アラインメントとグローバル分布正則化を統合します。その中核として、Dilated Refinement Attention Module (DREAM)を導入します。このモジュールは、マルチスケールの拡張畳み込みとチャネル単位および空間的注意を利用して、視覚的およびテキスト的モダリティ間の細粒度の意味的パターンをアラインメントします。このモジュールは階層的関係と文脈を考慮した関連性を捉え、クロスモーダル意味モデリングを改善します。さらに、Maximum Mean Discrepancy (MMD)とコントラスティブ損失関数を適用して、グローバルなモダリティアラインメントを制約し、意味的一貫性を高めます。この二重の正則化により、モード固有の偏差が減少し、ロバスト性が向上します。スケーラビリティを向上させるため、MambaRecは高次元マルチモーダル特徴の計算コストを削減するための次元削減戦略を採用しています。実世界のeコマースデータセットを用いた広範な実験により、MambaRecが融合品質、汎化性能、効率性において既存の手法を上回ることが示されました。我々のコードはhttps://github.com/rkl71/MambaRecで公開されています。
私たちのチーム「All You Need Is A Fuzzing Brain」は、DARPAの人工知能サイバー挑戦(AIxCC)において7つのファイナリストの1つとして選ばれ、最終ラウンドで4位を獲得しました。競技中、私たちは現実世界のオープンソースCおよびJavaプロジェクトにおいて、28のセキュリティ脆弱性(そのうち6つは以前未知のゼロデイ脆弱性を含む)を自律的に発見し、そのうち14を成功裏に修正するサイバー推論システム(CRS)を開発しました。完全なCRSはhttps://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brainでオープンソースとして公開されています。本論文では、私たちのCRSの詳細な技術的説明を提供し、特にLLM(大規模言語モデル)を活用したコンポーネントと戦略に焦点を当てています。AIxCCを基盤として、私たちはさらに、AIxCCデータセットに基づいた脆弱性検出および修正タスクにおける最先端のLLMをベンチマークするための公開リーダーボードを紹介します。このリーダーボードはhttps://o2lab.github.io/FuzzingBrain-Leaderboard/で利用可能です。
大規模言語モデル(LLM)に対するデータポイズニング攻撃に関する初期の研究では、バックドアを注入することが容易であることが示されました。より最近のLLMでは、段階的な推論が追加され、攻撃対象が中間的な連鎖的思考(CoT)と、問題をサブ問題に分解するその固有の特性にまで拡大しています。これらのベクトルを利用してより巧妙なポイズニングを行うために、我々は「分解推論ポイズニング」を導入します。この手法では、攻撃者は推論パスのみを変更し、プロンプトと最終的な答えはそのままにし、トリガーを複数の個別には無害なコンポーネントに分割します。 興味深いことに、これらの分解されたポイズンを注入することは可能ですが、最終的な答えを変更するためにそれらを確実に活性化すること(単にCoTを変更するだけでなく)は驚くほど困難です。この困難は、モデルがしばしばその思考プロセス内で活性化されたバックドアから回復できることに起因します。最終的には、これらの高度なLLMの推論能力、および推論と最終的な答えの生成の間のアーキテクチャ的な分離から、バックドアに対する新たな形のロバストネスが生まれているように見えます。