翻訳付きの日次キュレーションされたAI研究論文
本論文では、リアルタイムかつインタラクティブな長尺動画生成のためのフレームレベル自己回帰(AR)フレームワーク「LongLive」を提案する。長尺動画生成は、効率性と品質の両面で課題を抱えている。拡散モデルや拡散強制モデルは高品質な動画を生成できるが、双方向注意機構のため効率性が低い。因果的注意機構を採用したARモデルはKVキャッシュを利用して推論を高速化できるが、長尺動画の学習におけるメモリ課題により品質が低下しがちである。さらに、静的なプロンプトベースの生成を超えて、ストリーミングプロンプト入力などのインタラクティブ機能は、ユーザーがリアルタイムでナラティブを誘導できる動的コンテンツ作成において重要である。このインタラクティブ要件は、特にプロンプト遷移時の視覚的一貫性と意味的整合性を確保する上で、複雑さを大幅に増大させる。これらの課題に対処するため、LongLiveは因果的フレームレベルAR設計を採用し、新たなプロンプトでキャッシュ状態を更新するKV再キャッシュメカニズムを統合して滑らかで密着した切り替えを実現する。また、長尺動画学習を可能にし、学習と推論を整合させるためのストリーミング長尺チューニング(train-long-test-long)を導入する。さらに、フレームレベル注意シンク(frame sink)と組み合わせた短いウィンドウ注意機構により、長距離の一貫性を維持しつつ高速な生成を実現する。これらの主要な設計により、LongLiveは1.3Bパラメータの短尺クリップモデルをわずか32 GPU日で分単位の生成にファインチューニングする。推論時には、単一のNVIDIA H100上で20.7 FPSを維持し、短尺および長尺動画の両方でVBenchにおいて高い性能を達成する。LongLiveは単一のH100 GPU上で最大240秒の動画をサポートする。さらに、LongLiveはINT8量子化推論をサポートし、品質の低下を最小限に抑える。
マルチターン環境におけるスパース報酬下でのLLMエージェントの訓練は、1つのタスクを完了するためにエピソード内で30回以上のインタラクションを必要とするため、強化学習における根本的な課題を提起します。本研究では、この設定に特有の重要な失敗モード、すなわち「探索-活用カスケード失敗」を特定しました。このカスケードは、初期段階でのポリシーの早期収束から始まります。スパースなフィードバックにより、エージェントは欠陥のある低エントロピー戦略に固執してしまいます。その後、エージェントは後期段階でのポリシー崩壊に陥ります。従来のエントロピー正則化が逆効果となり、カオス的な探索を促進し、訓練を不安定化させます。本研究では、この失敗サイクルを打破するための一般的なフレームワークとして、エントロピー正則化ポリシー最適化(EPO)を提案します。EPOは、以下の3つの相乗的メカニズムを通じて機能します:(1) マルチターン設定でのエントロピー正則化を採用し、探索を強化する、(2) ポリシーエントロピーを履歴平均内に制限するエントロピースムージング正則化器を導入し、急激な変動を防ぐ、(3) 訓練全体で探索と活用のバランスを取る適応的なフェーズベースの重み付けを行う。我々の分析により、EPOが収束を維持しながらエントロピー分散を単調減少させることを保証することを示します。EPOは、ScienceWorldで最大152%、ALFWorldで最大19.8%の性能向上を達成しました。本研究は、マルチターンスパース報酬設定では、従来の強化学習とは根本的に異なるエントロピー制御が必要であり、LLMエージェント訓練に広範な影響を及ぼすことを示しています。
検証可能な報酬を用いた強化学習(RLVR)は大規模言語モデル(LLM)の推論能力を強化するが、訓練過程ではしばしば{エントロピー崩壊}と{エントロピー爆発}の間で振動が生じる。これらの問題は、値なし強化学習(例えばGRPOやDAPO)で使用される平均ベースラインに起因しており、報酬の外れ値下で負のアドバンテージを持つサンプルを不適切にペナルティ化するためである。本論文では、{分位点アドバンテージ推定法}(QAE)を提案し、平均をグループごとのK分位点ベースラインに置き換える。QAEは、応答レベルでの二つのレジームを持つゲートを誘導する:難しいクエリ(p <= 1 - K)では稀な成功を強化し、簡単なクエリ(p > 1 - K)では残りの失敗をターゲットとする。一次ソフトマックス更新の下で、{両側エントロピー安全性}を証明し、一ステップのエントロピー変化に対する下限と上限を与えることで、爆発を抑制し崩壊を防ぐ。実験的には、この最小限の修正がエントロピーを安定化し、クレジット割り当てを疎化し(調整されたKの下で、約80%の応答がゼロアドバンテージを受ける)、AIME 2024/2025およびAMC 2023においてQwen3-8B/14B-Baseモデルで持続的なpass@1向上をもたらす。これらの結果は、RLVRのスケーリングにおける主要なメカニズムとして、トークンレベルのヒューリスティックではなく{ベースライン設計}を特定するものである。
本研究では、1.2Bパラメータの文書解析視覚言語モデルMinerU2.5を提案する。本モデルは、優れた計算効率を維持しつつ、最先端の認識精度を達成する。我々のアプローチは、粗から細への2段階解析戦略を採用し、大域的なレイアウト解析と局所的な内容認識を分離する。第1段階では、モデルはダウンサンプリングされた画像に対して効率的なレイアウト解析を行い、構造要素を特定することで、高解像度入力を処理する際の計算オーバーヘッドを回避する。第2段階では、大域的なレイアウトをガイドとして、元画像から抽出されたネイティブ解像度のクロップに対してターゲットを絞った内容認識を行い、密なテキスト、複雑な数式、表における微細な詳細を保持する。この戦略を支援するため、事前学習と微調整の両方に対応した多様で大規模なトレーニングコーパスを生成する包括的なデータエンジンを開発した。結果として、MinerU2.5は強力な文書解析能力を示し、複数のベンチマークにおいて最先端の性能を達成し、様々な認識タスクにおいて汎用モデルやドメイン固有モデルを凌駕しつつ、大幅に低い計算オーバーヘッドを維持する。
我々は、思考の軌跡を潜在変数として扱い、変分推論を通じて最適化する言語モデルのための変分推論フレームワークを提案する。エビデンス下界(ELBO)を出発点として、より厳密な境界を得るために多軌跡目的関数に拡張し、変分事後分布の学習を安定化する前方KL定式化を提案する。さらに、棄却サンプリングによるファインチューニングやGRPOを含む二値報酬強化学習が、局所的な前方KL目的関数として解釈可能であることを示す。この導出から、モデルの精度に基づく暗黙の重み付けが自然に生じ、これまで気づかれていなかった簡単な問題へのバイアスが明らかになる。我々は、Qwen 2.5およびQwen 3モデルファミリーを用いて、幅広い推論タスクにおいて本手法を実証的に検証する。全体として、本研究は変分推論と強化学習スタイルの手法を統合し、言語モデルの推論能力を向上させるための安定した目的関数を提供する、確率的視点に基づく原理的なアプローチを提供する。コードはhttps://github.com/sail-sg/variational-reasoningで公開されている。
ピアレビューは学術研究の基盤として機能しているが、ほとんどのAI会議では、投稿数の爆発的増加に伴い、レビューの質が低下している。低品質なレビューを確実に検出するため、我々は「誤った前提を含むレビューの弱点」または「論文ですでに回答可能なレビューの質問」を「誤情報レビューポイント」と定義する。15.2%の弱点と26.4%の質問が誤情報であることを確認し、レビューポイントが誤情報かどうかを示すReviewScoreを導入する。弱点の各前提の事実性を評価するため、弱点から明示的および暗黙的な前提を再構築する自動エンジンを提案する。ReviewScoreの評価を自動化するためのLLMの能力を検証するため、人間の専門家による注釈付きReviewScoreデータセットを構築する。次に、8つの最新のLLMを用いてReviewScoreに関する人間とモデルの一致度を測定し、中程度の一致度を確認する。また、前提レベルの事実性評価は、弱点レベルの事実性評価よりも有意に高い一致度を示すことを証明する。徹底的な不一致分析により、完全自動化されたReviewScore評価の可能性がさらに支持される。
LLM(大規模言語モデル)は、人間やAIからのフィードバックを用いた強化学習(RL)によって訓練されることが多い。しかし、そのような手法では、ニュアンスの豊かなフィードバックがスカラー報酬に圧縮され、その豊かさの多くが失われ、スケールの不均衡が生じる傾向がある。本研究では、言語フィードバックを条件付け信号として扱うことを提案する。テキストから画像を生成する際の言語事前分布に着想を得て、未見のプロンプトから新たな出力を可能にするフィードバック条件付きポリシー(FCP)を導入する。FCPは、応答とフィードバックのペアから直接学習し、オフラインデータに対する最尤訓練を通じてフィードバック条件付き事後分布を近似する。さらに、ポリシーが肯定的な条件下で生成を行い、新たなフィードバックを受けて自身を洗練させるオンラインブートストラップ段階を開発する。これにより、フィードバック駆動型学習は、報酬最適化ではなく条件付き生成として再定義され、LLMが言語フィードバックから直接学習するためのより表現力豊かな方法を提供する。コードはhttps://github.com/sail-sg/feedback-conditional-policyで公開されている。
画像キャプショニングは、視覚と言語の領域を橋渡しする基本的なタスクであり、大規模視覚言語モデル(LVLM)の事前学習において重要な役割を果たします。現在の最先端のキャプショニングモデルは、通常、人間や専有モデルによって注釈付けされた高コストでスケーラブルでないデータに依存する教師ありファインチューニング(SFT)を用いて訓練されます。このアプローチは、モデルが特定の正解を記憶する傾向を引き起こし、その汎用性や多様で創造的な記述を生成する能力を制限します。SFTの限界を克服するため、我々は、検証可能な報酬を伴う強化学習(RLVR)のパラダイムを、画像キャプショニングというオープンエンドのタスクに適用することを提案します。しかし、主な課題は、「良い」キャプションの本質的に主観的な性質に対する客観的な報酬関数を設計することです。我々は、キャプションの品質をその有用性を通じて再定義する新しい訓練フレームワークであるCaptioning Reinforcement Learning(CapRL)を導入します。高品質なキャプションは、非視覚的な言語モデルが対応する画像に関する質問に正確に答えることを可能にするべきです。CapRLは、LVLMがキャプションを生成し、そのキャプションに基づいて別の視覚情報を持たないLLMが多肢選択問題に答える精度から客観的な報酬を導出する、分離された2段階のパイプラインを採用します。主観的な画像キャプショニングタスクにRLVRを適用する最初の研究として、我々はCapRLが複数の設定で大幅に向上することを示します。CapRL-3Bによって注釈付けされたCapRL-5Mキャプションデータセットでの事前学習は、12のベンチマークで大幅な向上をもたらします。さらに、キャプション品質評価のためのPrism Framework内で、CapRLはQwen2.5-VL-72Bに匹敵する性能を達成し、ベースラインを平均8.4%上回ります。コードはこちらで利用可能です:https://github.com/InternLM/CapRL。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLMs)の推論能力を向上させるための強力なフレームワークです。しかし、現在のGRPOなどの手法は、同じ入力に対するモデルの応答が正しさにおいて異なる問題にのみ依存し、すべての応答が同じ報酬を受けるいわゆる「ゼロ分散プロンプト」を無視しています。本研究では、このようなプロンプトが無駄ではなく、実際にはポリシー最適化に意味のあるフィードバックを提供できると主張します。この目的のために、ゼロ分散プロンプトから学習信号を抽出する新しいアルゴリズムであるRL-ZVPを導入します。RL-ZVPは、応答を対比することなく、正しさを直接報酬として与え、誤りを罰するものであり、トークンレベルの特性を用いてフィードバックを調整し、情報量が豊かで微妙な信号を保持します。6つの数学的推論ベンチマークにおいて、RL-ZVPはGRPOに対して精度で最大8.61ポイント、合格率で7.77ポイントの大幅な改善を達成し、ゼロ分散プロンプトを除外する他のベースラインを一貫して上回りました。これらの結果は、RLVRにおけるゼロ分散プロンプトからの学習の未開拓の可能性を強調しています。
大規模言語モデル(LLMs)は、会話システムから、オリンピック数学や競技プログラミングなどのタスクに対する強力な推論システムへと進化しています。パラメータのスケーリングやテスト時の計算量の増加が進歩を牽引してきましたが、主要なボトルネックは高品質な訓練問題の不足です。人間が手作業で作成したデータセットはコストが高く限られており、既存の合成コーパスはしばしば簡単すぎるか範囲が狭すぎます。PromptCoT 1.0では、プロンプト合成に根拠を注入することで問題の難易度を上げることが示されました。これを基に、我々はPromptCoT 2.0を提案します。これは、手作業のヒューリスティックを期待値最大化(EM)ループに置き換えるスケーラブルなフレームワークであり、根拠を反復的に洗練してプロンプト構築を導きます。これにより、従来のコーパスよりも難しく多様な問題が生成されます。合成プロンプトは、2つのポストトレーニング体制をサポートします:(1)セルフプレイ、ここでは強力なモデルがより強力な教師なしで検証可能なフィードバックを通じて自律的に改善します;(2)教師ありファインチューニング(SFT)、ここでは弱いモデルが教師によって蒸留されたトレースから学習します。広範な実験により、このアプローチの有効性が実証されています。セルフプレイでは、PromptCoT 2.0をQwen3-30B-A3B-Thinking-2507に適用することで、30Bスケールでの最新の結果を達成し、AIME 24/25とHMMT 25でそれぞれ+4.4、+4.8、+5.3、LiveCodeBench v5/v6で+6.1と+5.0、Codeforcesで+35 Eloを記録しました。SFTでは、Qwen2.5-7B-Instructを合成プロンプトのみで訓練することで、AIME 24で73.1、AIME 25で65.6、LiveCodeBench v5で53.4の精度を達成し、人間またはハイブリッドデータで訓練されたモデルを上回りました。分析により、PromptCoT 2.0が根本的に難しく分布的に異なる問題を生成することがさらに確認されました。これらの結果は、プロンプト合成を推論スケーリングの新しい軸として確立し、PromptCoT 2.0を将来のオープンソースモデルのためのスケーラブルな基盤として位置づけます。実装はhttps://github.com/inclusionAI/PromptCoTで利用可能です。
ロボットが人間の指示を解釈し、操作タスクを実行する能力を養うためには、タスクに関連したテーブルトップシーンをトレーニング用に用意する必要があります。しかし、従来の方法では、これらのシーンを作成するために時間のかかる手動レイアウト設計や、純粋にランダム化されたレイアウトに依存しており、その妥当性やタスクとの整合性に限界がありました。本論文では、タスク指向のテーブルトップシーン生成という新たなタスクを定式化します。このタスクは、高レベルのタスク指示とテーブルトップシーンの間に大きな隔たりがあるため、非常に困難な課題となります。このような挑戦的なタスクの研究を支援するため、約10,700の合成テーブルトップシーンからなる大規模データセットMesaTask-10Kを導入します。このデータセットは、現実的なレイアウトと複雑なオブジェクト間の関係を確保するために手作業で作成されたレイアウトを含んでいます。タスクとシーンの間の隔たりを埋めるために、生成プロセスをオブジェクト推論、空間的相互関係の推論、最終的な3Dレイアウトのためのシーングラフ構築に分解するSpatial Reasoning Chainを提案します。この推論チェーンを利用し、DPOアルゴリズムでさらに強化されたLLMベースのフレームワークMesaTaskを提示します。これにより、与えられたタスク記述に適した物理的に妥当なテーブルトップシーンを生成します。徹底的な実験により、MesaTaskが現実的なレイアウトでタスクに適合するテーブルトップシーンを生成する点でベースラインを上回る性能を示すことが実証されました。プロジェクトページはhttps://mesatask.github.io/にあります。
本論文では、計算コストと資金コストを大幅に削減しつつ、最先端の性能を達成する新たな大規模マルチモーダルモデル(LMM)ファミリーであるLLaVA-OneVision-1.5を提案する。既存の研究とは異なり、LLaVA-OneVision-1.5は、ゼロから高品質な視覚言語モデルを構築するためのオープンで効率的かつ再現可能なフレームワークを提供する。LLaVA-OneVision-1.5のリリースは、以下の3つの主要コンポーネントで構成される:(1)大規模キュレーションデータセット:85Mの概念バランス型事前学習データセットLLaVA-OneVision-1.5-Mid-Trainingと、厳選された26Mの指示データセットLLaVA-OneVision-1.5-Instructを構築し、合計64Bの圧縮マルチモーダルトークンを包含する。(2)効率的なトレーニングフレームワーク:オフライン並列データパッキング戦略を活用した完全なエンドツーエンドの効率的なトレーニングフレームワークを開発し、16,000ドルの予算内でLLaVA-OneVision-1.5のトレーニングを可能にする。(3)最先端の性能:実験結果は、LLaVA-OneVision-1.5が幅広い下流タスクにおいて非常に競争力のある性能を発揮することを示している。具体的には、LLaVA-OneVision-1.5-8Bは27のベンチマークのうち18でQwen2.5-VL-7Bを上回り、LLaVA-OneVision-1.5-4Bは27のベンチマーク全てでQwen2.5-VL-3Bを凌駕する。LLaVA-OneVision-1.5-RLのリリースを間もなく予定しており、コミュニティのさらなるアップデートを待つことを奨励する。
自律エージェントは近年、多様な分野で顕著な進歩を遂げているが、その評価のほとんどは短期的で完全に観測可能なタスクに焦点を当てている。一方、大規模なソフトウェア開発、商業投資、科学的発見など、多くの重要な現実世界のタスクは、長期的で部分的に観測可能なシナリオで展開され、成功は持続的な推論、計画、メモリ管理、ツールの使用にかかっている。既存のベンチマークはこれらの長期的な課題をほとんど捉えておらず、体系的な評価にギャップが生じている。このギャップを埋めるため、我々は複雑な現実世界の課題に不可欠な基礎能力を測定する新しいベンチマーク「UltraHorizon」を導入する。我々は、3つの異なる環境にわたる探索タスクを統一的な課題として使用し、これらの中核能力を検証する。エージェントは、持続的な推論、計画、メモリとツールの管理、環境との相互作用を通じて隠れたルールを反復的に発見しなければならない長期的な発見タスクに設計されている。最も大規模な設定では、軌跡は平均20万以上のトークンと400以上のツール呼び出しを記録し、標準設定でも平均3万5千以上のトークンと60以上のツール呼び出しを伴う。我々の広範な実験は、LLMエージェントがこれらの設定で一貫して低いパフォーマンスを示すのに対し、人間の参加者はより高いスコアを達成し、エージェントの長期的な能力における持続的なギャップを浮き彫りにしている。また、単純なスケーリングが我々のタスクでは失敗することを観察した。エージェントの失敗をより明確に示すため、収集した軌跡の詳細な分析を行い、8種類のエラーを特定し、それらを2つの主要な原因に帰属させた:コンテキスト内のロックと機能的な基礎能力のギャップである。 https://github.com/StarDewXXX/UltraHorizon{我々のコードはここで利用可能になる。}
本論文では、視覚言語モデル(VLM)を基盤とした訓練不要の航空視覚言語ナビゲーション(AVLN)フレームワーク「See, Point, Fly(SPF)」を提案する。SPFは、あらゆる種類の自由形式の指示に基づいて、あらゆる環境で目標地点へのナビゲーションを実現する。既存のVLMベースのアプローチが行動予測をテキスト生成タスクとして扱うのに対し、我々の重要な洞察は、AVLNのための行動予測を2D空間的グラウンディングタスクとみなすことである。SPFはVLMを活用して曖昧な言語指示を入力画像上の反復的な2Dウェイポイント注釈に分解する。予測された移動距離とともに、SPFは予測された2DウェイポイントをUAVのための3D変位ベクトルとしての行動コマンドに変換する。さらに、SPFは移動距離を適応的に調整し、より効率的なナビゲーションを促進する。特に、SPFは閉ループ制御方式でナビゲーションを実行し、UAVが動的環境で動的目標を追従することを可能にする。SPFはDRLシミュレーションベンチマークにおいて新たな最先端を達成し、従来の最良の手法を63%の絶対差で上回った。広範な実世界評価においても、SPFは強力なベースラインを大きく上回る性能を示した。また、設計選択の有効性を強調するための包括的アブレーション研究も実施した。最後に、SPFは異なるVLMに対する顕著な汎化性能を示す。プロジェクトページ: https://spf-web.pages.dev
大規模言語モデル(LLM)の学習後圧縮は、主に低ランク重み近似に依存しており、これは重み行列の各列を共有された低次元部分空間で表現するものである。この手法は計算効率が高いが、課される構造的制約が厳格であり、モデルの精度低下を引き起こす可能性がある。本研究では、CoSpaDi(Compression via Sparse Dictionary Learning)を提案する。これは、低ランク分解をより柔軟な構造化スパース分解に置き換える、新しい学習不要の圧縮フレームワークであり、各重み行列を密な辞書と列スパース係数行列で表現する。この定式化により、元の重み行列の異なる列が適応的に選択された辞書原子によって張られる異なる部分空間で近似される「部分空間の和」表現が可能となり、単一の不変基底よりも高い表現力を提供する。重要な点として、CoSpaDiは小さなキャリブレーションデータセットを活用して分解を最適化し、圧縮された射影層の出力活性化が元のものと密接に一致するようにすることで、単なる重み近似ではなく機能的な再構成誤差を最小化する。このデータを意識した戦略により、適切な圧縮率の下でファインチューニングなしにモデルの忠実度をより良く保つことができる。さらに、結果として得られる構造化スパース性は効率的なスパース-密行列乗算を可能にし、学習後量子化と互換性があり、メモリとレイテンシのさらなる改善をもたらす。我々は、20-50%の圧縮率において、LlamaおよびQwenモデルに対して層ごとおよびグループごとの設定でCoSpaDiを評価し、最先端のデータを意識した低ランク手法に対して精度とパープレキシティの両方で一貫した優位性を示す。我々の結果は、効率的なLLM展開のための従来の低ランク手法に対する強力な代替手段として、構造化スパース辞書学習を確立するものである。
大規模言語モデルとマルチモーダルシステムの能力向上に伴い、音声優先のAIアシスタントへの関心が高まっています。しかし、既存のベンチマークは、これらのシステムの全能力を評価するには不十分です。本論文では、AIアシスタントをリスニング、スピーキング、ビューイングの観点から評価する包括的なベンチマーク「VoiceAssistant-Eval」を紹介します。VoiceAssistant-Evalは、13のタスクカテゴリーにわたる10,497の精選された例を含んでいます。これらのタスクには、リスニングのための自然音、音楽、会話、スピーキングのための多段階対話、ロールプレイ模倣、様々なシナリオ、そしてビューイングのための高度に多様な画像が含まれます。その有用性を示すため、21のオープンソースモデルとGPT-4o-Audioを評価し、応答内容と音声の品質、およびそれらの一貫性を測定しました。結果から以下の3つの主要な知見が得られました:(1) プロプライエタリモデルが必ずしもオープンソースモデルを上回るわけではない、(2) ほとんどのモデルはスピーキングタスクで優れているが、音声理解では遅れをとっている、(3) 設計の優れた小型モデルがはるかに大規模なモデルに匹敵し得る。特に、中規模のStep-Audio-2-mini(7B)は、LLaMA-Omni2-32B-Bilingualのリスニング精度を2倍以上上回りました。しかし、課題も残されています:マルチモーダル(音声+視覚)入力とロールプレイ音声模倣タスクは現在のモデルにとって難しく、堅牢性と安全性の整合性においても大きなギャップが存在します。VoiceAssistant-Evalはこれらのギャップを特定し、次世代AIアシスタントの開発を評価・指導するための厳密なフレームワークを確立します。コードとデータはhttps://mathllm.github.io/VoiceAssistantEval/ で公開されます。
我々は、事前学習済み拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離する新たなアプローチを提案する。これにより、確立された意味的対応と同様の方法で視覚的対応を可能にする。拡散モデルのバックボーンは意味的に豊かな特徴をエンコードすることが知られているが、画像合成能力を支えるためには視覚的特徴も含まれている必要がある。しかし、注釈付きデータセットの欠如により、これらの視覚的特徴を分離することは困難である。この問題に対処するため、我々は既存の被写体駆動型画像生成データセットに基づいて、意味的および視覚的対応が注釈された画像ペアを構築する自動化パイプラインを導入し、2種類の特徴を分離するためのコントラスティブアーキテクチャを設計する。分離された表現を活用して、被写体駆動型画像生成における視覚的不整合を定量化する新しい指標、Visual Semantic Matching (VSM)を提案する。実験結果は、我々のアプローチがCLIP、DINO、視覚-言語モデルなどのグローバル特徴ベースの指標を上回り、視覚的不整合を定量化するだけでなく、不整合領域の空間的ローカライゼーションも可能にすることを示している。我々の知る限り、これは被写体駆動型生成における不整合の定量化とローカライゼーションの両方をサポートする初めての手法であり、このタスクを進めるための貴重なツールを提供する。プロジェクトページ: https://abdo-eldesokey.github.io/mind-the-glitch/
ユニバーサル画像復元(UIR)は、未知の混合による劣化を被った画像を意味を保ちつつ復元することを目的としている。この条件下では、識別型復元器やUNetベースの拡散事前分布は、しばしば過剰に平滑化したり、幻覚を生じさせたり、またはドリフトを引き起こすことがある。本論文では、キャプションを必要としないUIRフレームワークであるLucidFluxを提案する。LucidFluxは、大規模拡散トランスフォーマー(Flux.1)を画像キャプションなしで適応させる。LucidFluxは、軽量なデュアルブランチコンディショナーを導入し、劣化した入力からの信号と軽度に復元されたプロキシをそれぞれ注入して、幾何学を固定し、アーティファクトを抑制する。次に、タイムステップおよびレイヤー適応型の変調スケジュールを設計し、これらの手がかりをバックボーンの階層全体にルーティングすることで、グローバル構造を保護しつつテクスチャを復元する、粗から細へのコンテキスト認識型の更新を実現する。その後、テキストプロンプトやMLLMキャプションの遅延や不安定性を回避するため、プロキシから抽出されたSigLIP特徴量を用いてキャプションフリーの意味的整合性を強制する。さらに、スケーラブルなキュレーションパイプラインにより、構造豊富な教師データを大規模にフィルタリングする。合成および実世界のベンチマークにおいて、LucidFluxは強力なオープンソースおよび商用のベースラインを一貫して上回り、アブレーションスタディにより各コンポーネントの必要性が検証された。LucidFluxは、大規模なDiTにおいて、パラメータを追加したりテキストプロンプトに依存するのではなく、いつ、どこで、何を条件付けるかが、実世界におけるロバストでキャプションフリーのユニバーサル画像復元の鍵であることを示している。
ファインチューニングは、大規模言語モデルを適応させるための基本的な手法であるが、モデル編集においては長らく非効率的とされてきた。本論文では、この通説に異議を唱え、報告されている失敗はファインチューニング自体の本質的な制約によるものではなく、編集タスクの逐次的な性質に適応させる際の単一パス深さ優先パイプライン、すなわち各サンプルを収束まで最適化してから次に進む手法に起因することを主張する。直感的ではあるが、この深さ優先パイプラインとサンプル単位の更新を組み合わせることで、各編集が過剰に最適化され、編集間での干渉が引き起こされる。我々の制御実験により、ファインチューニングを標準的な幅優先(すなわちエポックベース)パイプラインに戻し、ミニバッチ最適化を適用することで、モデル編集におけるその有効性が大幅に向上することが明らかとなった。さらに、編集におけるファインチューニングは、従来の手法から引き継がれた最適でないチューニングパラメータの位置にも悩まされている。チューニング位置の体系的な分析を通じて、我々はLocFT-BFを導出した。これは、復元されたファインチューニングフレームワークに基づくシンプルで効果的な局所的編集手法である。多様なLLMとデータセットを用いた広範な実験により、LocFT-BFが最先端の手法を大きく上回る性能を示すことが実証された。特に、我々の知る限り、一般的な能力を犠牲にすることなく、100Kの編集と72Bパラメータのモデルを維持する初めての手法であり、従来の実践を10倍上回る成果を達成した。長年の誤解を解き、原則に基づいた局所的チューニング戦略を導入することで、ファインチューニングを過小評価されたベースラインからモデル編集の主要な手法へと進化させ、将来の研究のための堅固な基盤を確立した。
大規模言語モデル(LLM)を基盤としたエージェントシステムは、リポジトリレベルのコード生成タスクにおいて印象的な性能を発揮している。しかし、視覚効果やユーザインタラクションのフィードバックに大きく依存するウェブサイトコードベースの生成のようなタスクにおいて、現在のコードエージェントは単純なコード実行にのみ依存してフィードバックと検証を行っている。このアプローチでは、生成されたコードの実際の品質を捉えることができない。本論文では、包括的かつ多層的な視覚フィードバックを活用して、ウェブサイトコードベースを反復的に生成・改良する新しいウェブサイト生成エージェントであるWebGen-Agentを提案する。ウェブサイトのスクリーンショットとGUIエージェントテストに関する詳細かつ表現力豊かなテキスト記述と提案が、視覚言語モデル(VLM)によって生成され、それらの品質を定量化するスコアが付与される。スクリーンショットとGUIエージェントのスコアは、バックトラッキングと最良選択メカニズムと統合され、エージェントの性能を向上させる。WebGen-Agentのワークフローに内在する正確な視覚スコアを活用して、LLMがWebGen-Agentの推論エンジンとして機能する能力を向上させるために、スクリーンショットとGUIエージェントフィードバックを組み込んだStep-GRPOをさらに導入する。各ステップにおけるスクリーンショットとGUIエージェントのスコアをStep-GRPOの報酬として使用することで、密で信頼性の高いプロセス監視信号を提供し、モデルのウェブサイト生成能力を効果的に向上させる。WebGen-Benchデータセットにおいて、WebGen-AgentはClaude-3.5-Sonnetの精度を26.4%から51.9%に、外観スコアを3.0から3.9に向上させ、従来の最先端エージェントシステムを凌駕する。さらに、我々のStep-GRPOトレーニングアプローチは、Qwen2.5-Coder-7B-Instructの精度を38.9%から45.4%に、外観スコアを3.4から3.7に引き上げる。
近年の大規模言語モデル(LLM)および大規模視覚言語モデル(LVLM)では、強化学習(RL)をポスト事前学習に活用するケースが増えている。具体的には、客観的タスクに対して検証可能な報酬を用いたRL(RLVR)や、主観的タスクに対して人間のフィードバックを用いたRL(RLHF)が挙げられる。しかし、RLHFは人間の選好に依存するため高コストであり、報酬とポリシーのミスマッチが生じる可能性がある。一方、RLVRは各更新後にロールアウトと正解信号を破棄するため、監督情報を無駄にしている。これらの課題に対処するため、我々はRLVRを基盤とした効率的でオンラインかつ安定した手法である「Synergistic Policy And Reward Co-Evolving Framework(SPARK)」を提案する。SPARKは、ロールアウトと正解データを破棄する代わりに、これらの貴重な情報を再利用し、モデル自体を生成型報酬モデルとして同時に訓練する。この補助的な訓練では、ポイントワイズ報酬スコア、ペアワイズ比較、さらなる考察に基づく評価といった複数の目的を組み合わせて、モデルに自身の応答を評価し改善する能力を教える。このプロセスにより、別個の報酬モデルや高コストな人間の選好データが不要となる。SPARKは、報酬精度の向上がより良いポリシー勾配を生み出し、それによって高品質なロールアウトが生成され、さらに報酬モデルが洗練されるという正の共進化フィードバックループを形成する。我々の統合フレームワークは、外部の報酬モデルやそれに伴うコストを必要とせず、自己反省を通じたテスト時のスケーリングをサポートする。SPARKは、複数のLLMおよびLVLMモデルにおいて、複数の推論、報酬モデル、および一般的なベンチマークで顕著な性能向上を達成する。例えば、SPARK-VL-7Bは、7つの推論ベンチマークで平均9.7%、2つの報酬ベンチマークで12.1%、8つの一般的なベンチマークで1.5%のベースラインを上回る性能を示し、堅牢性と広範な汎化能力を実証している。
検索拡張生成(Retrieval-Augmented Generation, RAG)およびグラフベースのRAGは、外部知識を活用して大規模言語モデル(Large Language Models, LLMs)を強化するための重要なパラダイムとなっている。しかし、既存のアプローチには根本的なトレードオフが存在する。グラフベースの手法は本質的に高品質なグラフ構造に依存するが、実用的な制約が大きい。手動で構築された知識グラフはスケールアップするのに非常にコストがかかり、コーパスから自動抽出されたグラフは基盤となるLLM抽出器の性能、特に小規模なローカルデプロイモデルを使用する場合に制限される。本論文では、これらの制限を克服するために、マルチエージェントコンテキスト進化と検索(Multi-Agent Context Evolution and Retrieval, MACER)メカニズムを導入した新たなフレームワークであるThink-on-Graph 3.0(ToG-3)を提案する。我々の核心的な革新は、Chunk-Triplets-Community異種グラフインデックスの動的構築と精緻化であり、これにより進化するクエリと進化するサブグラフの二重進化メカニズムを先駆的に取り入れ、精密な証拠検索を実現する。このアプローチは、従来のグラフベースRAG手法が通常、実際のクエリに適応せずに一度きりの静的グラフインデックスを構築するという重大な制限を解決する。Constructor、Retriever、Reflector、Responserのエージェントからなるマルチエージェントシステムは、証拠検索、回答生成、十分性の反映、そして特にクエリとサブグラフの進化という反復プロセスに協調的に関与する。この二重進化型マルチエージェントシステムにより、ToG-3は推論中にターゲットを絞ったグラフインデックスを適応的に構築し、静的で一度きりのグラフ構築の欠点を軽減し、軽量なLLMでも深く精密な推論を可能にする。広範な実験により、ToG-3が深い推論と広範な推論のベンチマークにおいて比較対象のベースラインを上回ることが示され、アブレーション研究によりMACERフレームワークの各コンポーネントの有効性が確認された。
レイアウト推定と3D物体検出は、室内シーン理解における2つの基本的なタスクである。これらを組み合わせることで、コンパクトでありながら意味的に豊かな空間表現の作成が可能となる。既存の手法は通常、点群入力を前提としているが、これはほとんどの民生用カメラが深度センサーを備えていないことや、視覚データのみが依然として主流であることから、大きな制約となっている。本研究では、この課題に対処するため、TUN3Dを提案する。TUN3Dは、マルチビュー画像を入力として与えられた実スキャンにおいて、レイアウト推定と3D物体検出を同時に行う初めての手法であり、真値のカメラポーズや深度の教師信号を必要としない。本手法は、軽量なスパース畳み込みバックボーンを基盤とし、3D物体検出とレイアウト推定のための2つの専用ヘッドを採用している。特に、レイアウト推定では、新規かつ効果的なパラメトリックな壁表現を活用している。広範な実験により、TUN3Dは、以下の3つの挑戦的なシーン理解ベンチマークにおいて、最先端の性能を達成することが示された:(i) 真値の点群を使用する場合、(ii) ポーズ付き画像を使用する場合、(iii) ポーズなし画像を使用する場合。TUN3Dは、専門的な3D物体検出手法と同等の性能を発揮しつつ、レイアウト推定を大幅に進化させ、包括的な室内シーン理解において新たなベンチマークを確立した。コードはhttps://github.com/col14m/tun3dで公開されている。
大規模言語モデルは、広範なコーパスで訓練され、多様な言語タスクを単一の生成フレームワーク内で統合することに成功している。これに触発され、Large Vision Model (LVM) のような最近の研究では、このパラダイムを視覚領域に拡張し、タスクを連続的な視覚文として組織化し、視覚プロンプトを出力を導く文脈として活用している。しかし、このようなモデリングは、モダリティやソースにわたるタスク固有の事前学習を必要とし、コストがかかるだけでなく、未見のタスクへのスケーラビリティを制限する。事前学習されたビデオ生成モデルは、本質的に時間的シーケンスの依存関係を捉えていることから、我々はより統合的でスケーラブルな代替案を探求する:事前学習されたビデオ生成モデルは、多様な画像およびビデオタスクに適応できるか?この問いに答えるため、我々はUniVidを提案する。これは、ビデオ拡散トランスフォーマーを微調整し、タスク固有の修正なしに様々な視覚タスクを処理するフレームワークである。タスクは視覚文として表現され、文脈シーケンスがタスクと期待される出力モダリティの両方を定義する。我々はUniVidの汎化能力を二つの観点から評価する:(1) 画像とビデオの両方で構成される文脈を用いたクロスモーダル推論。これはLVMの単一モーダル設定を超えるものである。(2) 自然データから注釈付きデータへのクロスソースタスク。これにはマルチソース事前学習を必要としない。自然ビデオデータのみで訓練されたにもかかわらず、UniVidは両方の設定で良好に汎化する。特に、理解タスクと生成タスクは、このパラダイムにおいて視覚文の順序を逆にするだけで簡単に切り替えることができる。これらの発見は、事前学習されたビデオ生成モデルが、視覚モデリングのためのスケーラブルで統合された基盤としての潜在能力を持つことを強調している。我々のコードはhttps://github.com/CUC-MIPG/UniVidで公開される予定である。
グラフィカルユーザーインターフェース(GUI)エージェントは、ユーザーインタラクションをエミュレートすることで、幅広い人間のタスクを自動化することを目指している。急速な進展にもかかわらず、現在のアプローチはいくつかの重要な課題に阻まれている:エンドツーエンドトレーニングにおけるデータボトルネック、遅延したエラー検出の高コスト、および矛盾したガイダンスのリスクである。人間の認知ループである「思考」「整合」「反省」に着想を得て、本論文ではD-Artemisという新しい熟慮型フレームワークを提案する。D-Artemisは、アプリ固有の詳細なヒント検索メカニズムを活用して意思決定プロセスを支援する。また、実行前の積極的な整合段階を採用し、思考-行動一貫性(TAC)チェックモジュールと行動修正エージェント(ACA)が連携して実行失敗のリスクを軽減する。実行後の状態反省エージェント(SRA)が認知ループを完結させ、経験からの戦略的学習を可能にする。重要な点として、D-Artemisは、複雑な軌跡データセットのトレーニングを必要とせずに、GUIタスクにおける汎用マルチモーダル大規模言語モデル(MLLM)の能力を強化し、強力な一般化能力を示す。D-Artemisは、主要なベンチマークにおいて新たな最先端(SOTA)結果を確立し、AndroidWorldで75.8%、ScreenSpot-V2で96.8%の成功率を達成した。広範なアブレーション研究は、各コンポーネントがフレームワークに大きく貢献していることをさらに実証している。
強化学習による微調整(Reinforcement Fine-Tuning, RFT)は、報酬の過剰最適化に悩まされることが多い。これは、ポリシーモデルが報酬信号を巧妙に利用して高得点を達成する一方で、低品質の出力を生成する現象である。我々の理論分析によれば、その鍵は高報酬領域における報酬の誤指定にある。具体的には、「優れた」応答と「単に良い」応答を確実に区別できないことが問題である。これにより、我々は高報酬領域に焦点を当てることを動機づけられた。しかし、基盤となる大規模言語モデル(LLM)の下では、そのような尾部分の事例は稀である。一方、オフポリシーの事例(例えば、より強力なモデルや書き直しによるもの)は比較的容易に得られるが、それらを単純に学習に用いると、我々が目指すポリシーに整合した報酬が誤って指定される。この問題に対処するため、我々はルーブリックに基づく報酬を検討した。設計上、ルーブリックはオフポリシーの事例を活用しつつ、その人工物に影響されない特性を持つ。高報酬領域を捉えるルーブリックを導出するため、我々は「優れた」応答と「多様な」応答を区別することの重要性を強調し、このアイデアを実現するためのワークフローを導入した。実験的に、ルーブリックに基づく報酬が報酬の過剰最適化を大幅に緩和し、LLMのポストトレーニング改善に有効であることを実証した。我々のコードはhttps://github.com/Jun-Kai-Zhang/rubrics.git で公開されている。
人間は、世界との能動的な相互作用を通じて直感的な物理学の理解を発達させる。このアプローチは、受動的な観察に依存するため物理的因果関係の把握に苦労する現在のビデオモデル(例えばSora)とは大きく異なる。この観察から、我々の中心的な仮説が導かれる:世界モデルの真の物理的直感は、現実世界との広範で因果関係に富んだ相互作用に基づいていなければならない。この仮説を検証するため、我々はWoWを提示する。これは、200万のロボット相互作用軌跡で訓練された140億パラメータの生成的世界モデルである。我々の研究結果は、モデルの物理学の理解が確率的な結果分布であり、確率的不安定性と物理的幻覚を引き起こすことを明らかにする。さらに、この創発的な能力が、SOPHIAによって物理的リアリズムに向けて積極的に制約できることを示す。ここでは、視覚言語モデルエージェントがDiT生成出力を評価し、言語指示を反復的に進化させることでその洗練を導く。加えて、共訓練された逆動力学モデルがこれらの洗練された計画を実行可能なロボット動作に変換し、想像から行動へのループを閉じる。我々は、物理的一貫性と因果推論に焦点を当てた新しいベンチマークWoWBenchを確立し、WoWが人間と自動評価の両方で最先端の性能を達成し、物理的因果関係、衝突力学、物体の永続性において強い能力を示すことを実証する。我々の研究は、大規模な現実世界の相互作用がAIにおける物理的直感の発展の基盤であることを体系的に示す。モデル、データ、ベンチマークはオープンソース化される。
強化学習(Reinforcement Learning, RL)は、長期的で報酬が疎なエージェントタスクにおいて、大規模言語モデル(LLMs)の戦略的ツール使用能力を向上させる主要なパラダイムである。しかし、RLは探索と活用のトレードオフという根本的な課題に直面している。既存の研究では、ポリシーのエントロピーに焦点を当てて探索を促進しているが、このような機械的なエントロピー最大化は、多段階にわたる分布シフトによりRLの訓練不安定性を引き起こしやすい。本論文では、エージェント自身の経験に基づいて、エントロピーの崩壊や暴走的な発散を回避しつつ、漸進的な探索と活用のバランスを実現することを目指す。我々は、SPEARというカリキュラムベースの自己模倣学習(Self-Imitation Learning, SIL)レシピを提案し、エージェント型LLMsの訓練に適用する。これは、自己生成された有望な軌跡をリプレイバッファに保存してオフポリシー更新を行う従来のSILフレームワークを拡張し、段階的にエントロピーのバランスが取れた範囲内でポリシーの進化を導くものである。具体的には、本手法はカリキュラムを導入して探索プロセスを管理し、内在的報酬を用いてスキルレベルの探索を促進し、SILを通じてアクションレベルの探索を容易にする。初期段階では、補助的なツール呼び出し報酬がツール使用スキルの蓄積に重要な役割を果たし、環境フィードバックの未知の分布に広く曝露しながらエントロピーを上昇させる。訓練が進むにつれて、自己模倣が強化され、リプレイされた経験から既存の成功パターンを活用して比較的アクションレベルの探索を行い、無制限なエントロピー増加を抑えつつ解決策の反復を加速する。さらに、訓練を安定化させるため、リプレイバッファ内の経験のアドバンテージを再調整し、ポリシーのドリフトを防ぐ。確率とアドバンテージの共分散が高いトークンのクリッピングなどの正則化を導入し、軌跡レベルのエントロピー制御を通じて過剰な自信を抑制する。
Dense O2OとMALのシンプルさと有効性を活かし、DEIMはリアルタイムDETRの主流トレーニングフレームワークとなり、YOLOシリーズを大幅に上回る性能を発揮しています。本研究では、DINOv3の特徴を組み込むことでDEIMv2を拡張しました。DEIMv2はXからAttoまでの8つのモデルサイズをカバーし、GPU、エッジ、モバイル展開に対応しています。X、L、M、Sのバリアントでは、DINOv3で事前学習または蒸留されたバックボーンを採用し、Spatial Tuning Adapter(STA)を導入しました。STAは、DINOv3の単一スケール出力を効率的にマルチスケール特徴に変換し、強力なセマンティクスに細粒度の詳細を補完して検出性能を向上させます。超軽量モデル(Nano、Pico、Femto、Atto)では、HGNetv2を深度と幅のプルーニングで適用し、厳しいリソース制約に対応します。簡素化されたデコーダとアップグレードされたDense O2Oとともに、この統一設計により、DEIMv2は多様なシナリオで優れた性能とコストのトレードオフを実現し、新たな最先端の結果を確立しました。特に、最大モデルであるDEIMv2-Xは、5030万パラメータで57.8 APを達成し、6000万パラメータ以上を必要とする従来のXスケールモデル(56.5 AP)を上回りました。コンパクトサイドでは、DEIMv2-Sが初めて1000万パラメータ未満(971万)でCOCOにおける50 APのマイルストーンを超え、50.9 APを達成しました。さらに、超軽量のDEIMv2-Picoは、わずか150万パラメータで38.5 APを実現し、YOLOv10-Nano(230万パラメータ)と同等の性能を約50%少ないパラメータで達成しました。コードと事前学習済みモデルはhttps://github.com/Intellindust-AI-Lab/DEIMv2で公開されています。
本論文では、X-Streamerを紹介する。これは、テキスト、音声、ビデオを単一の統合アーキテクチャ内で無限に相互作用させる能力を持つデジタルヒューマンエージェントを構築するための、エンドツーエンドのマルチモーダル人間世界モデリングフレームワークである。単一のポートレートから始めて、X-Streamerはストリーミングマルチモーダル入力によって駆動されるリアルタイムのオープンエンドなビデオ通話を可能にする。その中核には、マルチモーダル理解と生成を統合し、静的なポートレートを持続的で知的な視聴覚相互作用に変えるThinker-Actorデュアルトランスフォーマーアーキテクチャがある。Thinkerモジュールはストリーミングユーザー入力を知覚し、推論を行い、その隠れ状態はActorによってリアルタイムで同期されたマルチモーダルストリームに変換される。具体的には、Thinkerは事前学習済みの大規模言語-音声モデルを活用し、Actorはチャンク単位の自己回帰拡散モデルを使用して、Thinkerの隠れ状態にクロスアテンションを行い、時間的に整列したマルチモーダル応答を生成する。これには、離散的なテキストと音声トークン、および連続的なビデオ潜在変数が交互に含まれる。長期的な安定性を確保するために、時間的に整列したマルチモーダル位置埋め込みを用いたチャンク間およびチャンク内アテンションを設計し、細粒度のクロスモダリティアラインメントとコンテキスト保持を強化する。さらに、チャンク単位の拡散強制とグローバルアイデンティティ参照によって補強される。X-Streamerは2つのA100 GPU上でリアルタイムに動作し、任意のポートレートから長時間にわたる一貫したビデオチャット体験を維持し、インタラクティブなデジタルヒューマンの統合世界モデリングへの道を開く。
高解像度画像の効率的な処理は、実世界の視覚言語アプリケーションにおいて極めて重要である。しかし、既存の大規模視覚言語モデル(LVLM)は、多数の視覚トークンに起因する膨大な計算コストを伴う。「画像を用いた思考」モデルの登場により、推論はテキストを超えて視覚領域にまで拡張されている。この能力を活用し、我々は「粗から細へ」という二段階の推論パイプラインを提案する。まず、ダウンサンプリングされた画像を分析し、タスクに関連する領域を特定する。次に、これらの領域のみをフル解像度で切り取り、後続の推論段階で処理する。このアプローチにより、必要な箇所で細かな視覚的詳細を保ちつつ、計算コストを削減する。主要な課題は、与えられたクエリに真に関連する領域を推論することにある。最近の関連手法では、入力画像のダウンサンプリング後の第一段階で、効果的な推論に明確な視覚情報が必要とされる知覚主導型推論のために失敗することが多い。この問題に対処するため、我々はERGO(Efficient Reasoning & Guided Observation)を提案する。ERGOは、推論主導型の知覚を実行し、マルチモーダルな文脈を活用して焦点を当てるべき領域を決定する。我々のモデルは、知覚的不確実性を考慮し、視覚的に曖昧な領域をカバーするために切り取る領域を拡張することで、質問に答えることができる。この目的のために、我々は強化学習フレームワークにおいて、粗から細への知覚のためのシンプルでありながら効果的な報酬コンポーネントを開発した。複数のデータセットにおいて、我々のアプローチは、元のモデルや競合手法よりも高い精度を達成し、かつ効率性も向上させた。例えば、ERGOはV*ベンチマークにおいてQwen2.5-VL-7Bを4.7ポイント上回り、視覚トークンの23%のみを使用して3倍の推論速度向上を実現した。コードとモデルは以下で公開されている:https://github.com/nota-github/ERGO。
既存の参照セグメンテーション手法の多くは、ファインチューニングや複数の事前学習済みモデルの組み合わせによってのみ高い性能を達成しており、その際に追加のトレーニングやアーキテクチャの変更を必要とすることが多い。一方で、大規模な生成拡散モデルは豊富な意味情報を符号化しており、汎用の特徴抽出器として魅力的である。本研究では、拡散トランスフォーマーから得られる特徴量とアテンションスコアを直接下流タスクに活用する新たな手法を提案する。この手法は、アーキテクチャの変更や追加のトレーニングを必要としない。これらの特徴量を体系的に評価するため、画像とビデオにまたがる視覚言語グラウンディングタスクを用いてベンチマークを拡張した。我々の重要な洞察は、ストップワードがアテンションの磁石として機能し、余剰のアテンションを蓄積し、ノイズを低減するためにフィルタリングできることである。さらに、深い層で現れるグローバルアテンションシンク(GAS)を特定し、それらを安全に抑制または補助トークンにリダイレクトすることで、より鮮明で正確なグラウンディングマップが得られることを示した。また、追加されたストップワードが背景活性化をより小さなクラスタに分割することで、より鮮明で局所化されたヒートマップが得られるアテンション再分配戦略を提案した。これらの知見に基づいて、クロスアテンションマップ、GAS処理、再分配を組み合わせたシンプルなトレーニング不要のグラウンディングフレームワークであるRefAMを開発した。ゼロショット参照画像およびビデオセグメンテーションベンチマークにおいて、我々のアプローチは従来の手法を一貫して上回り、ファインチューニングや追加のコンポーネントなしで新たな最先端を確立した。
テキストガイドによる画像編集は、拡散モデルを用いることで高い品質を達成しているが、現実世界での応用を妨げるほどの遅延が問題となっている。本論文では、高忠実度かつリアルタイムの画像編集を可能にする新しいフレームワーク「FlashEdit」を提案する。その効率性は、以下の3つの主要な革新に由来する:(1) 高コストな反復プロセスを回避する「ワンステップ逆変換・編集(OSIE)」パイプライン、(2) 編集領域内の特徴のみを選択的に変更することで背景の保存を保証する「背景保護(BG-Shield)」技術、(3) 背景への意味的な漏れを抑制することで正確で局所的な編集を実現する「疎化空間的クロスアテンション(SSCA)」メカニズムである。大規模な実験により、FlashEditは優れた背景の一貫性と構造的整合性を維持しつつ、従来の多段階手法と比較して150倍以上の高速化を実現し、0.2秒未満で編集を実行することが示された。本コードはhttps://github.com/JunyiWuCode/FlashEditで公開予定である。
複数の言語にわたって効果的に機能しつつ、文化的に根ざしたAIシステムを開発することは、特にリソースが限られた環境において、長年の課題となっています。合成データは有望なアプローチを提供しますが、多言語・多文化の文脈におけるその有効性はまだ十分に検証されていません。本研究では、大規模なオープンソースLLM(235Bパラメータ以上)を活用し、言語固有のWikipediaコンテンツに基づいてデータ生成を行うボトムアップ戦略を通じて、インドの言語向けの文化的に文脈化された合成データセットの作成とその影響を調査します。このアプローチは、英語のような高リソース言語からの合成データセットの翻訳という主流のトップダウンパラダイムを補完するものです。私たちは、13のインド言語にわたる950万のデータポイントを含む、長文脈・多ターンの能力とインドの文化的文脈との整合性を重視した多様な推論および生成タスクを網羅する、高品質な大規模合成指示追従データセット「Updesh」を紹介します。自動化された指標と人間によるアノテーションを組み合わせた1万件の評価を通じた包括的な評価は、生成されたデータが高品質であることを示していますが、人間による評価はさらなる改善の余地を指摘しています。さらに、私たちのデータセットでモデルをファインチューニングし、15の多様な多言語データセットにわたる性能を評価する下流評価を行います。Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大幅な向上を達成し、多肢選択形式のNLUタスクにおいても競争力を維持します。特に、低リソースおよび中リソース言語における相対的な改善が最も顕著であり、高リソース言語とのギャップを縮めています。これらの発見は、効果的な多言語AIには、文脈を意識し、文化的に根ざした方法論を取り入れた多面的なデータキュレーションおよび生成戦略が必要であることを実証する経験的証拠を提供します。
自己回帰型(AR)トランスフォーマーは、視覚生成において強力なパラダイムとして登場し、そのスケーラビリティ、計算効率、および言語と視覚を統合したアーキテクチャが主な理由である。その中でも、次スケール予測を基にした視覚的自己回帰生成(VAR)は、最近、顕著な性能を示し、拡散ベースのモデルを凌駕する結果を達成している。本研究では、VARを再検討し、理論的洞察を明らかにする:マルコフ的アテンションマスクを備えた場合、VARは数学的に離散拡散と等価である。この再解釈を「離散拡散を用いたスケーラブルな視覚精緻化(SRDD)」と名付け、ARトランスフォーマーと拡散モデルの間に原理的な橋渡しを確立する。この新たな視点を活用し、反復的精緻化やアーキテクチャの非効率性の削減といった拡散の利点を直接VARに導入することで、収束の高速化、推論コストの低減、ゼロショット再構成の改善を実現する。複数のデータセットにおいて、VARの拡散ベースの視点が効率と生成の一貫した向上をもたらすことを示す。
マルチモーダル大規模言語モデル(MLLMs)は、視覚的入力と自然言語出力を整合させる際に顕著な能力を示している。しかし、生成されたトークンが視覚モダリティにどの程度依存しているかは十分に理解されておらず、解釈可能性と信頼性が制限されている。本研究では、MLLMsにおける自己回帰的トークン生成を説明するための軽量なブラックボックスフレームワークであるEAGLEを提案する。EAGLEは、選択されたトークンをコンパクトな知覚領域に帰属させると同時に、言語事前情報と知覚的証拠の相対的な影響を定量化する。このフレームワークは、十分性(洞察スコア)と不可欠性(必要性スコア)を統合する目的関数を導入し、スパース化された画像領域に対する貪欲探索を通じて最適化することで、忠実かつ効率的な帰属を実現する。空間的帰属を超えて、EAGLEはモダリティを意識した分析を行い、トークンが何に依存しているかを解き明かし、モデルの決定に対する細かな解釈可能性を提供する。オープンソースのMLLMsを対象とした広範な実験により、EAGLEが忠実性、局所化、および幻覚診断において既存の手法を一貫して上回り、GPUメモリの使用量を大幅に削減することが示された。これらの結果は、MLLMsの解釈可能性を向上させるためのEAGLEの有効性と実用性を強調している。コードはhttps://github.com/RuoyuChen10/EAGLEで公開されている。
拡散モデルは画像生成において目覚ましい進歩を遂げているものの、その出力は特にニューラル関数評価(NFE)の回数が少ない場合やガイダンススケールが低い場合に、非現実的で細部が欠けることがあります。この問題に対処するため、我々は新しいモーメンタムベースのサンプリング技術、History-Guided Sampling(HiGS)を提案します。HiGSは、最近のモデル予測を各推論ステップに統合することで、拡散サンプリングの品質と効率を向上させます。具体的には、HiGSは現在の予測と過去の予測の加重平均との差を利用して、より現実的で細部と構造が優れた出力に向けてサンプリングプロセスを導きます。我々のアプローチは、実質的に追加の計算を必要とせず、既存の拡散フレームワークにシームレスに統合され、追加のトレーニングやファインチューニングも不要です。広範な実験により、HiGSが多様なモデルやアーキテクチャにおいて、さまざまなサンプリング予算やガイダンススケールの下で、一貫して画像品質を向上させることが示されています。さらに、事前学習済みのSiTモデルを使用して、HiGSは256×256の非ガイド付きImageNet生成において、わずか30サンプリングステップ(標準の250ステップではなく)で1.61という新しい最先端のFIDを達成しました。したがって、我々はHiGSを、標準の拡散サンプリングに対するプラグアンドプレイの拡張として提示し、より高速で高忠実度の生成を可能にします。
歴史文書の正確なテキスト認識は、文化遺産の研究と保存を大きく進展させることができる。しかし、既存の視覚言語モデル(VLM)は、現代の標準化されたテキスト向けに設計されており、歴史資料に見られる多様な言語や文字、不規則なレイアウト、頻繁な劣化に対応するようには作られていない。 本論文では、歴史的テキスト認識に特化した3BパラメータのオープンウェイトVLMであるCHURROを紹介する。このモデルは、これまでで最大の歴史的テキスト認識データセットであるCHURRO-DSで訓練されている。CHURRO-DSは、22世紀にわたる46の言語クラスター(歴史的変種や死語を含む)にまたがる99,491ページの155の歴史的コーパスを統合している。 我々は、CHURRO-DS上で複数のオープンウェイトおよびクローズドVLM、および光学文字認識(OCR)システムを評価し、CHURROが他のすべてのVLMを上回ることを確認した。CHURRO-DSのテストセットにおいて、CHURROは82.3%(印刷)および70.1%(手書き)の正規化レーベンシュタイン類似度を達成し、2番目に優れたモデルであるGemini 2.5 Proをそれぞれ1.4%および6.5%上回りながら、15.5倍のコスト効率を実現した。 モデルとデータセットを公開することで、歴史的テキストの可読性を向上させ、学術研究を加速するためのコミュニティ主導の研究を可能にすることを目指している。
Transformerベースのモデルは、言語モデリングにおいて顕著な性能を発揮しているが、その高い複雑性により、長いコンテキストを処理する際に高コストが発生する。一方、線形アテンションや状態空間モデルなどのリカレントニューラルネットワーク(RNN)は、トークンごとの計算量が一定であることから人気を集めている。しかし、これらのリカレントモデルは、長いコンテキストから正確に情報を想起する必要があるタスクにおいて苦戦する。なぜなら、すべてのコンテキスト情報が一定サイズのリカレント状態に圧縮されるためである。これまでの研究では、想起能力はリカレント状態のサイズと正の相関があることが示されているが、リカレント状態を大きくしてRNNを直接訓練すると、高い訓練コストが発生する。本論文では、事前訓練済みRNNの状態を効率的に拡張するための訓練パイプラインであるStateXを提案する。線形アテンションと状態空間モデルという2つの人気のあるRNNクラスに対して、モデルパラメータの増加を最小限またはゼロに抑えつつ、状態サイズを拡大するためのアーキテクチャ変更を設計する。最大1.3Bパラメータのモデルを用いた実験により、StateXが高い事後訓練コストを発生させることなく、RNNの想起能力とコンテキスト内学習能力を効率的に向上させ、他の能力を損なわないことが実証された。
主流のテキスト-ビデオ検索システムは、主に特徴抽出のための埋め込みモデルを採用し、ランキングのためにコサイン類似度を計算しています。しかし、この設計には2つの制限があります。低品質のテキスト-ビデオデータペアが検索を損なう可能性があるものの、それらを特定し検証することは困難です。また、コサイン類似度だけではランキング結果の説明がなく、解釈可能性が制限されます。我々は、ランキング結果を解釈し、検索モデルを評価し、テキスト-ビデオデータを検証することができるかどうかを問います。本論文では、埋め込みモデルベースの類似度ランキングの代わりに、LLM CoT推論に基づく説明可能な検索フレームワークであるX-CoTを提案します。まず、既存のベンチマークに追加のビデオアノテーションを拡張し、セマンティック理解をサポートし、データバイアスを軽減します。また、ペアワイズ比較ステップからなる検索CoTを考案し、詳細な推論と完全なランキングを生成します。X-CoTは、検索性能を実証的に向上させ、詳細な根拠を生成します。さらに、モデルの挙動とデータ品質の分析を容易にします。コードとデータは以下で利用可能です: https://github.com/PrasannaPulakurthi/X-CoT。
人間フィードバックを用いた強化学習(RLHF)と検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)のポストトレーニングにおいて主要な強化学習パラダイムであり、それぞれ異なる利点を提供する。しかし、RLHFは人間の判断に依存するため、通常は明示的な基準を欠いており、解釈可能性と報酬ハッキングの問題に直面する。一方、RLVRは正確性に基づく検証器に焦点を当てているため、その適用範囲が限定される。本論文では、人間主導の選好の汎用性とルールベースの検証の精度を組み合わせた二値柔軟フィードバックを用いた強化学習(RLBFF)を提案する。RLBFFは、自然言語フィードバックから二値で回答可能な原則(例:情報の正確性:はい、またはコードの可読性:いいえ)を抽出し、その原則を用いて報酬モデルのトレーニングをエンタイトルメントタスク(応答が任意の原則を満たすか否か)として基礎付ける。この方法でトレーニングされた報酬モデルは、データ量が同等の場合にBradley-Terryモデルを上回り、RM-Bench(86.2%)およびJudgeBench(81.4%、2025年9月24日時点でリーダーボード1位)で最高の性能を達成することを示す。さらに、推論時にユーザーが関心のある原則を指定することで、報酬モデルの焦点をカスタマイズできる点がBradley-Terryモデルとの違いである。最後に、RLBFFと我々の報酬モデルを用いてQwen3-32Bを調整し、MT-Bench、WildBench、およびArena Hard v2の一般的なアライメントベンチマークにおいてo3-miniおよびDeepSeek R1の性能に匹敵またはそれを上回る性能を達成するための完全なオープンソースレシピ(データを含む)を提示する(推論コストの5%未満で)。
コンピュータ支援設計(CAD)は、工業用プロトタイピングの基盤となる要素であり、モデルは生の座標ではなく、スケッチや押し出しなどの構築シーケンスによって定義されます。このシーケンシャルな構造は、効率的なプロトタイプの初期化とその後の編集を可能にします。テキストガイド型CADプロトタイピングは、テキストからCADへの生成とCAD編集を統合し、設計プロセス全体を合理化する可能性を秘めています。しかし、これまでの研究ではこの設定が探求されておらず、その主な理由は、標準的な大規模言語モデル(LLM)のトークナイザーがCADシーケンスを自然言語の単語片に分解し、プリミティブレベルのCADセマンティクスを捉えられず、幾何学的構造をモデル化するためのアテンションモジュールを妨げるためです。我々は、CADのプリミティブおよび構造的な性質に沿ったマルチモーダルトークン化戦略が、より効果的な表現を提供できると推測します。この目的のために、我々はCAD-Tokenizerを提案します。これは、プリミティブレベルのプーリングと制約付きデコーディングを備えたシーケンスベースのVQ-VAEを使用して、モダリティ固有のトークンでCADデータを表現するフレームワークです。この設計は、CADの構造的な性質に沿ったコンパクトでプリミティブを意識した表現を生成します。統合されたテキストガイド型CADプロトタイピングに適用すると、CAD-Tokenizerは指示の追従と生成品質を大幅に改善し、汎用LLMやタスク固有のベースラインを上回る定量的および定性的なパフォーマンスを達成します。
カメラ測定のシーケンスに基づく3D物体の位置推定は、ドローンを用いた山火事監視などの安全上重要な監視タスクにおいて不可欠である。カメラで検出された物体の位置推定は、一般的に高密度深度推定または3Dシーン再構成によって解決できる。しかし、遠方の物体や利用可能な計算リソースが限られたタスクの文脈では、どちらの解決策も実現可能ではない。本論文では、単一および複数のターゲットシナリオにおいて、パーティクルフィルタを使用してこのタスクを解決できることを示す。この手法は、3Dシミュレーションと、全球測位衛星システム(GNSS)に基づくカメラ姿勢推定を伴うドローン画像セグメンテーションシーケンスを用いて検証された。結果は、他の解決策が失敗する状況においても、カメラ姿勢と画像セグメントに基づく実用的な位置推定タスクをパーティクルフィルタで解決できることを示した。パーティクルフィルタは検出方法に依存しないため、新しいタスクに対して柔軟に対応できる。また、本研究は、既存の画像セグメンテーションモデルと組み合わせることで、提案手法を用いてドローンによる山火事監視を実施できることを実証している。
関数呼び出しは大規模言語モデルのコア機能であり、AIエージェントにとって不可欠です。既存のベンチマークであるBerkeley Function Calling Leaderboard(BFCL)、tau^2-Bench(arXiv:2506.07982)、およびACEBench(arXiv:2501.12851)は、引数の正確性を評価しますが、パラメータの説明に埋め込まれたフォーマット指示(例えば、値を二重引用符で囲むことやISO日付形式を使用すること)の遵守をテストしません。 私たちはIFEval(arXiv:2311.07911)にインスパイアされたIFEval-FCというベンチマークを導入し、関数呼び出しにおける正確な指示遵守を評価します。IFEval-FCは、検証可能なフォーマットをJSONスキーマの説明に直接エンコードします。例えば、値に句読点を含んではならないことを指定します。750のテストケースを含み、各ケースは、入力パラメータの1つに埋め込まれたフォーマットと対応するユーザークエリで構成されます。評価は完全にアルゴリズム化されており、客観性、再現性、およびスケーラビリティを確保します。 私たちの結果は、GPT-5やClaude 4.1 Opusを含む最先端のプロプライエタリモデルでさえ、基本的なフォーマットルールに従わないことが頻繁にあることを示しており、実世界のエージェントシステムにおける実用的な制限を浮き彫りにしています。完全なコードベースとデータはhttps://github.com/Skripkon/IFEval-FCで公開されています。