翻訳付きの日次キュレーションされたAI研究論文
本論文では、大規模言語モデル(LLM)が真の並列推論能力を自己進化させることを可能にする、教師不要のフレームワーク「Native Parallel Reasoner (NPR)」を提案する。NPRは、以下の3つの核心的イノベーションを通じて、モデルを逐次的な模倣から本来の並列認知へと転換する:1) 外部の監督を必要とせず、「コールドスタート」の形式発見から厳密な位相的制約への移行を実現する、自己蒸留による段階的訓練パラダイム。2) 実行グラフ内で分岐ポリシーを直接最適化する新規アルゴリズム「Parallel-Aware Policy Optimization (PAPO)」により、試行錯誤を通じて適応的な分解を学習させる。3) SGLangのメモリ管理とフロー制御を再構築し、安定した大規模並列強化学習訓練を可能とする堅牢なNPRエンジン。8つの推論ベンチマークにおける評価では、Qwen3-4Bで訓練したNPRが最大24.5%の性能向上と最大4.6倍の推論高速化を達成した。従来のベースラインが自己回帰デコーディングに後退しがちであったのに対し、NPRは100%真の並列実行を実証し、自己進化的で効率的かつスケーラブルなエージェント推論の新たな標準を確立する。
回転位置埋め込み(RoPE)は、複素平面におけるクエリベクトルとキーベクトルへの回転適用により、大規模言語モデル(LLM)の系列順序を符号化する標準的手法となっている。しかし、標準的な実装では、注意スコア計算に複素数値ドット積の実数成分のみを利用している。この単純化により、重要な位相情報を含む虚数成分が破棄され、長文脈依存性のモデル化に不可欠な関係的詳細の損失が生じる可能性がある。本論文では、この破棄された虚数成分を再統合する拡張手法を提案する。本手法は完全な複素数値表現を活用し、二成分からなる注意スコアを生成する。理論的・実証的に、このアプローチがより多くの位置情報を保持することで長文脈依存性のモデル化を強化することを示す。さらに、一連の長文脈言語モデリングベンチマークによる評価では、本手法が標準RoPEを一貫して上回る性能向上をもたらし、文脈長が増すほどその利点が顕著になることを確認した。コードはhttps://github.com/OpenMOSS/rope_pp で公開されている。
既存の動画編集手法は重大なジレンマに直面している。専門特化モデルは高精度を実現するが、マスクなどのタスク固有の事前情報に依存するため統一が困難である。一方、統一的な時間的文脈内学習モデルはマスク不要だが、明示的な空間的手がかりを欠くため、指示と編集領域の対応関係が弱く、位置特定が不正確になる。この問題を解決するため、我々はChain-of-Thought推論に着想を得た新しいChain-of-Framesアプローチ「VideoCoF」を提案する。VideoCoFは「認識、推論、編集」という手順を強制し、動画拡散モデルが目標動画トークンを生成する前に、まず推論トークン(編集領域潜在変数)を予測するよう促す。この明示的推論ステップにより、ユーザー提供のマスクが不要になりながら、指示と領域の正確な対応関係と細粒度な動画編集を実現する。さらに、我々はRoPE調整戦略を導入し、これらの推論トークンを活用して動きの整合性を保証し、学習時を超える長さへの外挿を可能にする。わずか5万組の動画ペアという最小限のデータコストで、VideoCoFがVideoCoF-Benchにおいて最先端の性能を達成することを実証し、本手法の効率性と有効性を検証する。コード、重み、データはhttps://github.com/knightyxp/VideoCoFで公開している。
ボクセルアートはゲームやデジタルメディアで広く用いられる特徴的なスタイル表現であるが、3Dメッシュからの自動生成は、幾何学的抽象化、意味的保存、離散色の一貫性という相反する要件から依然として困難な課題である。既存手法は幾何学的に過度に単純化するか、ボクセルアート特有のピクセル精度でパレット制約のある美的表現を達成できていない。本論文では、3Dメッシュ最適化と2Dピクセルアートの監督信号を橋渡しする微分可能な二段階フレームワーク「Voxify3D」を提案する。中核となる革新は、以下の3要素の協調的統合にある:(1)透視歪みを排除しボクセル-ピクセル対応を精密化する正射投影ピクセルアート監督、(2)離散化レベル間で意味的一貫性を保持するパッチベースCLIP整合、(3)制御可能なパレット戦略による離散色空間の微分可能最適化を実現するパレット制約付きGンベル-ソフトマックス量子化。この統合により、極端な離散化下での意味保存、体積レンダリングによるピクセルアートの美観、エンドツーエンドの離散最適化という根本的課題を解決する。実験では、多様なキャラクターと制御可能な抽象化(2-8色、20x-50x解像度)において優れた性能(CLIP-IQA 37.12、ユーザ嗜好率77.90%)を実証した。プロジェクトページ:https://yichuanh.github.io/Voxify-3D/
参照画像からの映像生成(R2V)は、テキストプロンプトに沿った映像を合成しつつ、参照画像の被写体の同一性を保持することを目的としています。しかし、既存のR2V手法は、参照画像・映像・テキストの明示的三つ組データへの依存に阻まれており、この種のデータ構築には莫大なコストがかかり、スケーリングが極めて困難です。本研究ではこのボトルネックを回避するため、明示的なR2Vデータを一切必要としないスケーラブルなゼロショットフレームワーク「Saber」を提案します。映像とテキストのペアデータのみで学習されたSaberは、マスク化訓練戦略と独自設計の注意機構ベースのモデル構造により、同一性を一貫させかつ参照を意識した表現を学習します。さらにマスク拡張技術を統合することで、参照画像からの映像生成で頻発するコピー&ペースト的な不自然な描写を軽減します。加えて、Saberは参照画像数が変動する状況でも優れた汎化性能を示し、R2Vデータで学習した手法を超える性能をOpenS2V-Evalベンチマークで達成しました。
大規模言語モデル(LLM)ベースのマルチエージェントシステムは、障害が長く分岐した相互作用トレースから生じることが多いため、デバッグが困難です。現在の主流は、LLMを活用したログベースの障害局所化であり、特定のエージェントとステップにエラーを帰属させます。しかし、このパラダイムには2つの重大な限界があります:(i)ログのみに依存するデバッグは検証を欠き、未検証の仮説を生成する、(ii)単一ステップまたは単一エージェントへの帰属は不適切な場合が多く、複数の異なる介入がそれぞれ独立して失敗したタスクを修復し得ることを私たちは発見しました。最初の限界に対処するため、私たちは介入駆動型デバッグフレームワーク「DoVer」を提案します。これは仮説生成を、ターゲットを絞った介入(例:メッセージの編集、計画の変更)による能動的検証で強化します。第二の限界については、帰属の正確性を評価する代わりに、システムが障害を解決するか、タスク成功に向けた定量可能な進展を達成するかに焦点を当て、より結果指向のデバッグ視点を反映します。Magnetic-Oneエージェントフレームワークにおいて、GAIAとAssistantBenchに基づくデータセットで、DoVerは失敗した試行の18-28%を成功に転換し、最大16%のマイルストーン進捗を達成し、障害仮説の30-60%を検証または否定しました。DoVerは異なるデータセット(GSMPlus)とエージェントフレームワーク(AG2)でも効果的に機能し、失敗した試行の49%を回復しました。これらの結果は、介入がエージェントシステムの信頼性向上における実用的なメカニズムであることを示し、LLMベースのマルチエージェントシステム向けのより堅牢でスケーラブルなデバッグ手法の可能性を拓くものです。プロジェクトウェブサイトとコードはhttps://aka.ms/DoVerで公開予定です。
我々は、インタラクティブARアプリケーションのためのエゴセントリック動画の指示文誘導型編集を研究する。近年のAI動画編集技術は第三者視点の映像では良好な性能を示すが、エゴセントリック視点には急激な自己運動や頻繁な手-物体インタラクションといった特有の課題があり、大きな領域差が生じている。さらに、既存のオフライン編集パイプラインは高遅延が課題であり、実時間インタラクションを制限している。これらの問題に対処するため、我々はエゴセントリック動画編集のための包括的エコシステムを提案する。第一に、手-物体インタラクションが豊富で手の存在を明示的に保持する、エゴセントリック編集シナリオに特化して入念に設計・手作業で整備されたデータセットEgoEditDataを構築した。第二に、単一GPU上で実時間ストリーミング推論を可能にする指示文追従型エゴセントリック動画エディタEgoEditを開発した。最後に、自己運動下での指示忠実性、手およびインタラクションの保持、時間的安定性に焦点を当てた評価スイートEgoEditBenchを導入する。EgoEditは、エゴセントリックおよび一般編集タスクの両方において、時間的に安定した指示忠実な結果をインタラクティブな遅延で生成する。既存手法が苦手とするエゴセントリック編集ベンチマークで明確な性能向上を達成すると同時に、一般編集タスクでは最強のベースラインと同等の性能を維持する。EgoEditDataとEgoEditBenchは研究コミュニティに公開予定である。詳細は当プロジェクトサイト(https://snap-research.github.io/EgoEdit)を参照されたい。
最近の強化学習(RL)技術は言語モデルの推論能力に目覚ましい改善をもたらしているが、ポストトレーニングが事前学習で獲得した能力を真に拡張するのかは不明確である。中心的な課題は、現代のトレーニングパイプラインにおける制御の欠如にある。大規模な事前学習コーパスは不透明であり、中間トレーニングは十分に検証されず、RL目標は未知の事前知識と複雑に相互作用する。この曖昧さを解決するため、我々は事前学習・中間トレーニング・RLベースのポストトレーニングの因果的寄与を分離する完全に制御された実験フレームワークを開発した。本手法では、明示的な原子操作、構文解析可能な段階的推論トレース、トレーニング分布の系統的操作を備えた合成推論タスクを採用する。モデルを2軸で評価する:より複雑な構成への外挿的汎化と、表面的文脈を跨ぐ文脈的汎化である。このフレームワークを用いて、RLの有効性に関する対立する見解を統合する。以下のことを示す:1)RLが真の能力向上(pass@128)を生むのは、事前学習に十分な余白があり、RLデータがモデルの能力限界(手の届く困難な境界タスク)を標的とする場合のみである。2)文脈的汎化には最小限かつ十分な事前学習曝露が必要で、その後RLは確実に転移できる。3)中間トレーニングはRLのみと比較し、固定計算量下で性能を大幅に向上させ、トレーニングパイプラインにおける中心的な役割(未開拓であるが)を実証する。4)プロセスレベル報酬は報酬ハッキングを減らし推論の忠実性を改善する。これらの結果は、事前学習・中間トレーニング・RLの相互作用を明確にし、推論LMトレーニング戦略の理解と改善の基盤を提供する。
視覚生成モデルの多くは、拡散や自己回帰モデリングを適用する前に画像を潜在空間に圧縮する。しかし、VAEや基盤モデルに連携したエンコーダーなどの既存手法は、潜在分布の構造を明示的に形成せずに潜在空間を暗黙的に制約するため、どのような分布がモデリングに最適かが不明確である。本研究では、分布マッチング制約を介してエンコーダーの潜在分布を任意の参照分布と明示的に整合させるDistribution-Matching VAE(DMVAE)を提案する。これは従来のVAEのガウス事前分布を超えて一般化し、自己教師あり特徴や拡散ノイズ、その他の事前分布から導出された分布との整合を可能にする。DMVAEを用いることで、どの潜在分布がモデリングに適しているかを系統的に調査でき、自己教師あり学習から導出された分布が再構成忠実度とモデリング効率の優れたバランスを提供することを発見した(ImageNetにおいて学習エポック数64のみでgFID 3.2を達成)。我々の結果は、固定された事前分布に依存するのではなく、適切な潜在分布構造を選択すること(分布レベルでの整合を通じて実現)が、モデリング容易な潜在表現と高忠実度画像合成の間のギャップを埋める鍵であることを示唆する。コードはhttps://github.com/sen-ye/dmvaeで公開されている。
人間は単に属性的な類似性を認識するだけではありません。我々は関係的類似性も見出します。リンゴがモモに似ているのは、両者が赤みがかった果物だからですが、地球もまたモモに似ています:地殻・マントル・核は、モモの皮・果肉・核に対応するからです。この関係的類似性を認識する能力は、認知科学者によって、人類を他の種から区別する特徴であると論じられています。しかし、現在広く使われている視覚的類似性指標(LPIPS、CLIP、DINOなど)はすべて、知覚的属性的類似性にのみ焦点を当てており、人間が知覚する豊かでしばしば驚くべき関係的類似性を捉えることに失敗しています。どのようにすれば、画像の可視的な内容を超えて、その関係的性質を捉えることができるのでしょうか?同じ関係的論理を持つ画像を、表現空間において互いに近づけるにはどうすればよいのでしょうか?これらの問いに答えるため、我々はまず関係的画像類似性を測定可能な問題として定式化します:二つの画像は、視覚的属性が異なっていても、それらの視覚要素間の内的関係や機能が対応するときに、関係的に類似しているとします。次に、キャプションが匿名化された(場面の表面的な内容ではなく、根底にある関係的論理を記述する)114kの画像キャプションデータセットを構築しました。このデータセットを用いて、Vision-Languageモデルをファインチューニングし、画像間の関係的類似性を測定します。このモデルは、可視的な外見ではなく、根底にある関係的構造によって画像を結びつけるための第一歩となります。我々の研究は、関係的類似性が多くの実世界応用を持つ一方で、既存の画像類似性モデルはそれを捉えられないことを示しており、視覚コンピューティングにおける重大なギャップを明らかにしています。
我々は、Multi-view Pyramid Transformer (MVP)を提案する。これは数十から数百枚の画像から大規模3Dシーンを単一のフォワードパスで直接再構築するスケーラブルなマルチビュートランスフォーマーアーキテクチャである。「全体を見るには広く、細部を見るには緻密に」という考え方に基づき、MVPは二つの核心的な設計原理で構築されている:1) ローカルビューからグループ、最終的にシーン全体へとモデルの視野を段階的に拡大する「ローカルからグローバルへのビュー間階層」、2) 詳細な空間表現から始め、それらを段階的にコンパクトで情報密度の高いトークンへ集約する「細密から粗密へのビュー内階層」。この二重階層構造は計算効率と表現力の豊かさを両立し、大規模で複雑なシーンの高速再構築を可能にする。我々は多様なデータセットでMVPを検証し、基盤の3D表現として3D Gaussian Splattingと組み合わせることで、幅広いビュー設定において高い効率性とスケーラビリティを維持しつつ、汎用的な再構築品質で最先端の性能を達成することを示す。
我々は、LongCat-Imageを紹介する。これは革新的なオープンソースかつ二言語(中国語・英語)対応の画像生成基盤モデルであり、現在の主要モデルに広く見られる多言語テキスト描画、写実性、展開効率、開発者アクセシビリティにおける核心的課題に対処するように設計されている。1) これを実現するため、事前学習、中間学習、SFT段階にわたる厳密なデータキュレーション戦略と、RL段階での精選された報酬モデルの協調的使用を組み合わせた。この戦略により、本モデルは新たなState-of-the-Art(SOTA)を確立し、優れたテキスト描画能力と卓越した写実性を実現、美的品質を大幅に向上させている。2) 特に、中国語文字描画において新たな業界標準を打ち立てた。複雑かつレアな文字までサポートすることで、主要なオープンソース及び商用ソリューション両方をカバレッジで凌駕し、さらに優れた正確性を達成している。3) 本モデルはコンパクトな設計により顕著な効率性を実現している。コアとなる拡散モデルのパラメータ数はわずか6Bであり、この分野で一般的な約20B以上のMoE(Mixture-of-Experts)アーキテクチャより大幅に小規模である。これによりVRAM使用量を最小限に抑え、高速な推論を実現し、展開コストを大幅に削減する。生成機能に加え、LongCat-Imageは画像編集にも優れ、標準ベンチマークでSOTA結果を達成し、他のオープンソース作品と比較して優れた編集一貫性を実現している。4) コミュニティを完全にエンパワーするため、我々は現在までで最も包括的なオープンソースエコシステムを構築した。テキストから画像への変換及び画像編集のための複数のモデルバージョン(中間学習後及び学習後段階のチェックポイントを含む)だけでなく、トレーニング手順の全ツールチェーンも公開する。LongCat-Imageのオープン性が、開発者や研究者に強力な支援を提供し、ビジュアルコンテンツ創作のフロンティアを推進すると確信している。
近年の映像生成モデルは印象的な合成能力を示す一方、単一モダリティ条件付けに制限され、世界全体の理解が不十分である。これは、クロスモーダル相互作用の不足と、包括的な世界知識表現のためのモダリティ多様性の限界に起因する。これらの課題を解決するため、我々は複数モダリティ(セグメンテーションマスク、人体骨格、DensePose、オプティカルフロー、深度マップ)と訓練パラダイムを横断的に学習する世界認識型映像生成の統一フレームワーク「UnityVideo」を提案する。本手法は二つの核心コンポーネントを特徴とする:(1)異種訓練パラダイムを統合する動的ノイズ付加、(2)モジュール化パラメータと文脈学習による統一処理を実現するモダリティ切替器と文脈内学習器。130万サンプルからなる大規模統一データセットを構築した。共同最適化により、UnityVideoは収束を加速し、未見データへのゼロショット一般化性能を大幅に向上させる。本手法が、物理世界の制約に合致した優れた映像品質、一貫性を達成することを実証する。コードとデータは以下で公開されている:https://github.com/dvlab-research/UnityVideo
大規模視覚言語モデル(VLM)は、大規模な事前学習を通じてモダリティ間のギャップを効果的に橋渡しし、言語と整合した高度な視覚表現を獲得する。しかし、マルチモーダル理解タスク向けに最適化されたこれらの表現が、視覚生成の内在的潜在能力を秘めているかどうかは未解明のままである。本論文では、任意の視覚言語モデル内に潜む視覚生成能力を喚起する新しいパラダイム「VGT(Visual Generation Tuning)」を提案する。十分に事前学習されたVLMに対して効率的な視覚生成チューニングを実施することで、アライメントコストを大幅に軽減し、連続空間における自己回帰モデリングの収束を加速させる(20倍の高速化)。具体的には、拡散Transformer向けに設計された複雑なピクセルレベルのVAEを排除し、事前学習済みVLMの意味エンコーダとピクセルデコーダの潜在表現を整合させることでVGT-AEを構築する。画像再構成タスクでは28倍の圧縮率でPSNR 26.67、rFID 0.50を達成し、専門的なVAEを上回る性能を示す。視覚生成タスクでは、自己回帰モデルの中で最先端の結果(GenEvalで0.77、DPG-Benchで78.73)を達成する。さらに、提案するVGTは顕著なスケーリング可能性を示し、マルチモーダル理解向けに訓練された任意のVLMに視覚生成能力を付与する汎用性を有する。これは次世代統合マルチモーダル基盤モデル探索への新たな道筋を拓くものである。モデルとコードはhttps://github.com/hustvl/VGT で公開されている。
プロセス報酬モデル(PRM)は、密なステップ単位のフィードバックを提供することで強化学習に有望な成果を示しているが、高コストなステップ単位の注釈や正解データへの依存が普及の障壁となっている。本研究ではSPARKを提案する:第一段階では生成モデルが多様な解を生成し、検証モデルが並列スケーリング(自己整合性)と逐次スケーリング(メタ批評)を用いて評価を行う。第二段階では、これらの検証出力を合成訓練データとして活用し、生成型プロセス報酬モデルをファインチューニングする。これらは後段の訓練で報酬信号として機能する。ステップ単位で複数の独立した検証を集約することで、正解データによる教師あり学習を上回るプロセス報酬モデルの訓練データが生成可能であることを実証し、ProcessBench(数学的推論の誤りステップを特定するベンチマーク)において67.5 F1を達成した。これは正解データ参照型訓練の66.4、GPT-4oの61.9を上回る。最終段階では、生成型PRMに思考連鎖検証(PRM-CoT)を組み合わせた報酬モデルを数学的推論のRL実験に適用し、報酬ハッキングを防ぐための形式制約を導入する。Qwen2.5-Math-7Bを用いた実験では、6つの数学的推論ベンチマークで平均47.4%の精度を達成し、正解データベースのRLVR(43.9%)を上回った。本手法は正解データを必要とせずに正解データベース手法を超えるRL訓練を可能にし、検証可能な答えやアクセス可能な正解データが不足する領域への新たな可能性を開くものである。
ツール統合型視覚推論(TiVR)は、マルチモーダル問題解決の強化において大きな可能性を示している。しかし、既存のTiVRパラダイムは主に強化学習を通じて様々な視覚ツールを統合することに焦点を当てており、信頼性の低いまたは誤ったツール出力を処理する効果的な応答メカニズムの設計が軽視されてきた。この制限は参照接地タスクにおいて特に顕著で、不正確な検出ツールの予測がTiVRモデルを幻覚的な推論生成に誤導することが多い。この問題に対処するため、我々はツール精緻化を目指した初の参照接地推論フレームワークであるVG-Refinerを提案する。技術的には、モデルがツールのフィードバックを明示的に分析・応答することを可能にする二段階の思考・再思考メカニズムと、不適切なツール結果に対して効果的な修正を促進する精緻化報酬を導入する。さらに、2つの新規指標を提案し、現在のモデルの精緻化能力を体系的に測定する公平な評価プロトコルを確立した。少量のタスク特化データを用いてVG-Refinerの精緻化能力を強化し、事前学習モデルの汎用能力を維持しながら、参照推論接地ベンチマークにおいて精度と修正能力の大幅な向上を達成した。
我々はReCamDrivingを提案する。これは純粋に視覚ベースの、カメラ制御による新規軌道のビデオ生成フレームワークである。修復ベースの手法は複雑なアーティファクトの復元に失敗し、LiDARベースの手法は疎で不完全な手がかりに依存するのに対し、ReCamDrivingは密でシーン全体を網羅する3DGSレンダリングを活用し、明示的な幾何学的ガイダンスを実現することで、精密なカメラ制御可能な生成を実現する。3DGSレンダリングを条件とした際の修復行動への過適合を緩和するため、ReCamDrivingは2段階の訓練パラダイムを採用する。第1段階ではカメラポーズを用いた大まかな制御を行い、第2段階では3DGSレンダリングを組み込んで細粒度の視点と幾何学的ガイダンスを実現する。さらに我々は、カメラ変換パターンにおける訓練-テスト間のギャップを解消するため、3DGSに基づく軌道横断的データキュレーション戦略を提示する。これにより、単眼ビデオからのスケーラブルな多軌道監督が可能となる。この戦略に基づき、11万以上の並列軌道ビデオペアを含むParaDriveデータセットを構築した。大規模な実験により、ReCamDrivingが最先端のカメラ制御性と構造的一貫性を達成することが実証された。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩により、知覚と推論を統合した能力が実現されているものの、これらのシステムは依然として安全性調整を回避し有害な振る舞いを誘発するジェイルブレイク攻撃に対して極めて脆弱である。既存のベンチマークであるJailBreakV-28K、MM-SafetyBench、HADESはマルチモーダル脆弱性に関する貴重な知見を提供するが、典型的には限定的な攻撃シナリオに焦点を当て、標準化された防御評価を欠き、統一された再現可能なツールボックスを提供していない。これらの課題を解決するため、我々はマルチモーダルジェイルブレイク攻防評価のための包括的ツールボックス「OmniSafeBench-MM」を提案する。OmniSafeBench-MMは、13の代表的な攻撃手法、15の防御戦略、および現実的なユーザー意図を反映するため協議型・命令型・宣言型の問い合わせ類型で構造化された9大リスク領域・50細粒度カテゴリにわたる多様なデータセットを統合する。データ網羅性に加え、(1)低影響な個人危害から壊滅的社会脅威まで段階的に区別した詳細な危害度尺度、(2)応答と問い合わせの意図整合性、(3)応答詳細度の3次元評価プロトコルを確立し、繊細な安全性と有用性の分析を可能とする。10のオープンソースおよび8のクローズドソースMLLMに対し広範な実験を実施し、マルチモーダルジェイルブレイクに対する脆弱性を明らかにした。データ・手法・評価をオープンソースの再現可能プラットフォームに統合することで、OmniSafeBench-MMは将来研究のための標準化基盤を提供する。コードはhttps://github.com/jiaxiaojunQAQ/OmniSafeBench-MM で公開されている。
主題駆動型画像生成における有望な進展にもかかわらず、既存モデルは参照アイデンティティから逸脱しがちで、複数の被写体が存在する複雑なシーンでは困難に直面している。この課題に対処するため、我々は主題駆動型生成・操作のための動画由来大規模コーパス「OpenSubject」を提案する。本データセットは250万サンプル、435万画像から構成され、フレーム間アイデンティティ事前情報を活用した4段階パイプラインで構築されている。(i) 動画収集:解像度と美的選別を適用し高品質クリップを取得。(ii) フレーム間主題マイニングとペアリング:視覚言語モデル(VLM)に基づくカテゴリ合意、局部接地、多様性考慮ペアリングにより画像ペアを選定。(iii) アイデンティティ保存参照画像合成:セグメンテーションマップ指導的外挿により主題駆動生成用入力画像を、ボックス指導的内挿により主題駆動操作用入力画像を合成。さらに幾何学的認識データ拡張と不規則境界侵食を適用。(iv) 検証とキャプション生成:VLMで合成サンプルを検証し、不合格サンプルは段階(iii)に基づき再合成。その後短・長キャプションを構築。加えて、主題駆動生成・操作を網羅するベンチマークを導入し、VLM審査員によりアイデンティティ忠実度、プロンプト遵守度、操作一貫性、背景一貫性を評価。大規模実験により、OpenSubjectによる学習が特に複雑シーンにおける生成・操作性能を向上させることを実証した。
デコードベース回帰は、回帰問題を系列生成タスクとして再定義する手法であり、大規模言語モデルを数値予測に応用する有望なパラダイムとして登場しました。しかし、離散的なトークンレベルの目的関数(例えば交差エントロピー)と連続的な数値の間の不一致が、その進展を妨げています。既存のトークンレベル制約に依存する手法は、目標値の全体的な大きさを捉えることができず、精度と汎化性能が制限されています。本論文では、強化学習(RL)を通じてデコードベース回帰の可能性を解放することを提案します。生成プロセスをマルコフ決定過程として定式化し、系列レベルの報酬を用いて全体的な数値的一貫性を強化します。表形式データ回帰とコードメトリック回帰における大規模な実験により、我々の手法(特にReMaxとGRPOを採用した場合)が、最先端のトークンレベルベースライン手法と従来の回帰ヘッドの両方を一貫して上回ることを実証し、系列レベル信号の導入の優位性を示しました。さらに分析により、強化学習がサンプリング効率と予測精度を大幅に向上させ、デコードベース回帰が汎用数値予測における堅牢で正確なパラダイムであることを確立しました。
視覚生成モデル(例えば拡散モデル)は通常、学習効率と生成品質のバランスを取るために圧縮された潜在空間で動作する。並行して、高品質な事前学習済み視覚表現を活用する関心が高まっており、VAE内で整合させるか、生成モデル内に直接組み込む方法が探られている。しかし、理解指向の特徴量と生成向きの潜在空間の根本的な不一致により、このような表現の適応は依然として困難である。表現エンコーダはマスク領域に対する多様な仮説を捉える高次元潜在空間から恩恵を受ける一方、生成モデルは注入されたノイズを忠実に保持しなければならない低次元潜在空間を好む。この不一致により、従来研究は複雑な目的関数とアーキテクチャに依存せざるを得なかった。本研究では、FAE(Feature Auto-Encoder)を提案する。これは事前学習済み視覚表現を、単一のアテンション層のみを使用して生成に適した低次元潜在表現に適応させる、簡潔かつ効果的なフレームワークでありながら、再構成と理解の両方に十分な情報を保持する。鍵となるのは、2つの独立した深層デコーダを結合する手法である:一方は元の特徴空間を再構成するように訓練され、もう一方は再構成された特徴量を入力として画像生成を行う。FAEは汎用的であり、様々な自己教師ありエンコーダ(DINO、SigLIPなど)で実体化でき、拡散モデルと正規化フローという2つの異なる生成モデルファミリーに組み込むことができる。クラス条件付きおよびテキストから画像へのベンチマークにおいて、FAEは強力な性能を発揮する。例えばImageNet 256x256では、CFGを適用した拡散モデルが1.29(800エポック)および1.70(80エポック)というほぼ最先端のFID値を達成した。CFGなしでは、FAEは1.48(800エポック)および2.08(80エポック)という最先端のFID値を達成し、高品質かつ高速な学習能力を実証した。
我々は、群作用に基づく位置符号化の統一フレームワークであるGRAPE(Group RepresentAtional Position Encoding)を提案する。GRAPEは二つのメカニズム群を統合する:(i) SO(d)における乗法的回転(乗法的GRAPE)と、(ii) 一般線形群GLにおける冪単作用から生じる加算的对数オフセット(加算的GRAPE)である。乗法的GRAPEでは、Z内の位置n(またはR内のt)がG(n)=exp(n,ω,L)として作用し、ランク2の歪対称生成子L ∈ R^{d×d}を用いて、閉形式の行列指数関数による相対的・合成的・ノルム保存的写像を生成する。d/2個の平面が対数一様スペクトルを持つ標準座標対である場合、RoPEは正確に再現される。学習可能な可換部分空間とコンパクトな非可換混合は、この幾何学を厳密に拡張し、ヘッドあたりそれぞれO(d)およびO(r d)のコストで部分空間間の特徴量結合を捕捉する。加算的GRAPEでは、ランク1(または低ランク)の冪単作用として加算的对数オフセットが生じ、ALiBiとForgetting Transformer(FoX)を正確な特殊ケースとして再現するとともに、厳密な相対性法則とストリーミングキャッシュ可能性を保持する。総じてGRAPEは、長文脈モデルにおける位置幾何学の原理的な設計空間を提供し、RoPEとALiBiを特殊ケースとして包含する。プロジェクトページ:https://github.com/model-architectures/GRAPE。
自己回帰(AR)生成モデルの最近の進歩により、メディア合成のための高性能システムが次々と登場している。中でも、モデルが粗い解像度から細かい解像度へと画像を生成する「次スケール予測」が一般的なパラダイムとして確立されつつある。しかし、スケール単位のARモデルは公開バイアス(exposure bias)に悩まされており、生成品質を損なう要因となっている。本研究ではこの問題の根本原因を、(1) 推論時にモデルが自身の不完全な予測に依存せざるを得ない「学習-テストミスマッチ」と、(2) 特定のスケールで最適化の複雑性が不均衡に高くなる「スケール間学習難易度の偏り」の二点に特定する。訓練ダイナミクスの包括的分析を通じて、これらの課題を解決するため自己回帰的改良(Self-Autoregressive Refinement: SAR)を提案する。SARは、(a) 軽量な自己回帰的ロールアウトによりモデルを自身の中間予測に曝露することで学習-テストパターンを整合させる「段階的スケールロールアウト(Stagger-Scale Rollout: SSR)」機構と、(b) 自己生成文脈に対する適切な監督信号を提供し訓練の安定性を確保する「対照的教師強制損失(Contrastive Student-Forcing Loss: CSFL)」を補完的に導入する。実験結果では、事前学習済みARモデルにSARを適用することで、最小限の計算コストで生成品質が一貫して向上することを示す。例えば、ImageNet 256で学習したFlexVAR-d16において、10エポック(32xA100 GPUで5時間)の適用でFIDが5.2%改善された。効率性・拡張性・有効性の観点から、SARは視覚的自己回帰生成における信頼性の高い学習後処理手法として貢献することが期待される。
近年、視覚言語モデル(VLM)は強化学習(RL)を通じて顕著な推論能力を達成し、経験の時代における持続的な自己進化型大規模視覚言語モデル(LVLM)の実現に向けた実行可能な解決策を提供している。しかし、VLMに対するRLは大量の高品質なマルチモーダルデータを必要とし、特に化学、地球科学、マルチモーダル数学などの専門領域ではその取得が困難である。合成データや自己報酬機構といった既存の戦略は、分布の限界や整合性の難しさに悩まされ、最終的には報酬ハッキング(モデルが高報酬パターンを悪用し、方策エントロピーの崩壊と訓練の不安定化を引き起こす)を生じさせる。本研究ではDoGe(Decouple to Generalize)を提案する。これは二重分離フレームワークであり、合成データ手法が見落としてきた問題文脈シナリオに再度注目することで、モデルがまず問題解決ではなく文脈から学ぶよう導く。学習プロセスを二つの構成要素(思考器と解決器)に分離することにより、このプロセスの報酬信号を合理的に定量化し、文脈の自由な探索から実践的な課題解決へ至る二段階のRL事後訓練アプローチを提案する。第二に、訓練データの多様性を高めるため、DoGeは進化するカリキュラム学習パイプラインを構築する:拡張された固有領域知識コーパスと、反復的に進化するシード問題プールである。実験結果から、本手法が様々なベンチマークで一貫してベースラインを上回り、自己進化型LVLMを実現するスケーラブルな経路を提供することが示された。
ロボットマニピュレーションにおける一般化は、オープンワールド環境へのロボット導入と人工汎用知能の実現に向けて不可欠である。近年のVLA(Vision-Language-Action)モデルは大規模事前学習済み理解モデルを知覚と指示追従に活用するが、新規タスク・物体・環境への一般化能力は依然限定的である。本研究では、大規模ビデオ生成モデルをロボットVLAマニピュレーターへ変換する可能性を探る簡便な手法「VideoVLA」を提案する。言語指示と画像を入力としたVideoVLAは、行動系列と将来の視覚的結果を予測する。マルチモーダルDiffusion Transformerを基盤とし、事前学習済みビデオ生成モデルを用いて視覚と行動の統合的予測を実現する。実験では、高品質な未来想像が信頼性の高い行動予測とタスク成功に相関することを示し、マニピュレーションにおける視覚的想像力の重要性を明らかにした。VideoVLAは他エンボディメントの技能模倣や新規物体操作を含む強力な一般化能力を発揮する。行動とその視覚的結果の双方を予測するこの二重予測戦略は、ロボット学習におけるパラダイム転換を探求し、マニピュレーションシステムの一般化能力を解放するものである。
長文脈対話システムは、静的な制約によってモデルが変化するユーザー意図と確立された履歴コンテキスト間の矛盾を解決できなくなる「状態慣性(State Inertia)」に悩まされている。この問題に対処するため、我々は非破壊的アライメントフレームワークであるDZ-TDPOを提案する。これは、矛盾を意識した動的KL制約と較正された時間的注意バイアスを統合的に活用する。Multi-Session Chat(MSC)データセットを用いた実験により、DZ-TDPOがPhi-3.5で55.4%の最先端の勝率を達成し、堅牢なゼロショット汎化性能を維持することを実証した。スケーリング分析からは「容量-安定性トレードオフ」が明らかとなった:小規模モデルは履歴慣性を克服するために「アライメント税」(パープレキシティ急増)を支払うが、大規模なQwen2.5-7Bモデルはパープレキシティオーバーヘッドを無視できるレベルに抑えつつ50.8%の勝率を達成する。これは、TAIが破壊的な重み更新ではなく、精密な注意制御によって緩和可能であり、モデル規模を跨いだ一般的な能力(MMLU)を保持できることを示唆する。コードとデータは以下で公開されている:https://github.com/lyj20071013/DZ-TDPO
ロボットが人間の作業空間に進出するにつれ、彼らが身体化された人間の指示を理解し、直感的で流暢な人間-ロボット相互作用(HRI)を実現することが極めて重要となっている。しかし、多様なHRI環境における自然な身体化インタラクションを捉えた大規模データセットの不足により、正確な理解は困難な課題である。既存のデータセットは、視点バイアス、単一視点での収集、非言語的ジェスチャーの不十分なカバレッジ、屋内環境への偏重といった問題を抱えている。これらの問題を解決するため、本論文ではRefer360データセットを提案する。これは屋内・屋外の両設定で多様な視点から収集された、身体化された言語的・非言語的インタラクションの大規模データセットである。さらに、身体化参照表現理解を改善するために設計されたマルチモーダル誘導残差モジュール「MuRes」を導入する。MuResは情報ボトルネックとして機能し、注目すべきモダリティ固有の信号を抽出し、事前学習済み表現に強化して統合し、下流タスクのための相補的特徴を形成する。Refer360データセットを含む4つのHRIデータセットで大規模な実験を行い、現在のマルチモーダルモデルは身体化インタラクションを包括的に捉えることに失敗しているものの、MuResで拡張することで性能が一貫して向上することを実証する。これらの知見は、Refer360が貴重なベンチマークであることを示すとともに、人間環境で動作するロボットの身体化参照表現理解を進歩させる誘導残差学習の可能性を示している。
勾配ベースのゲーム学習における古典的な収束保証は、Rosen(1965)によって示されたように、疑似勾配がユークリッド幾何において(強)単調であることを要求するが、この条件は強いプレイヤー間結合を持つ単純なゲームでさえもしばしば成立しない。本論文では、カスタムなブロック重み付き幾何におけるブロック小ゲイン条件であるSmall-Gain Nash(SGN)を提案する。SGNは、局所的な曲率とプレイヤー間のリプシッツ結合のバウンドを、収縮性の扱いやすい証明書に変換する。この条件は、ユークリッド意味では非単調であっても、これらのバウンドが成立する任意の領域において疑似勾配が強単調となるような重み付きブロック計量を構築する。連続フローはこの設計された幾何において指数収縮し、射影オイラー法およびRK4離散化は、SGNマージンと局所リプシッツ定数から導出された明示的なステップサイズのバウンドの下で収束する。我々の分析は、認証された「タイムスケール帯」を明らかにする。これは非漸近的で計量ベースの証明書であり、TTURと同様の役割を果たす。すなわち、非等質で消失するステップサイズによる漸近的なタイムスケール分離を強制するのではなく、SGNは、単一ステップサイズのダイナミクスが証明可能に収縮する相対的な計量重みの有限の帯域を特定する。本フレームワークを、ユークリッド単調性解析では収束を予測できずともSGNがその収束を首尾よく認証する二次ゲームにおいて検証し、さらに構成をマルコフゲームにおけるエントロピー正則化方策勾配のためのミラー/フィッシャー幾何に拡張する。その結果は、コンパクト領域上で曲率、結合、リプシッツパラメータを推定し、SGNマージンを最大化するためにブロック重みを最適化し、非単調ゲームに対する計量、収縮率、安全なステップサイズからなる構造的で計算可能な収束証明書を返す、オフラインの認証パイプラインである。
ベクトル量子化変分オートエンコーダ(VQ-VAE)は、画像を離散トークンに圧縮する離散型オートエンコーダである。離散化のため学習が困難という課題がある。本論文では、特定の制約を課したガウシアンVAEを学習なしでVQ-VAEに変換する、Gaussian Quant(GQ)と名付けた簡潔かつ効果的な手法を提案する。GQはランダムなガウシアンノイズをコードブックとして生成し、事後平均に最も近いノイズを選択する。理論的には、コードブックサイズの対数がガウシアンVAEのビットバック符号化レートを超える場合、小さな量子化誤差が保証されることを示す。実用的には、GQを効果的に機能させるためのヒューリスティックなガウシアンVAE学習法として、目標発散制約(TDC)を提案する。実験では、GQがUNetとViTの両アーキテクチャにおいて、VQGAN、FSQ、LFQ、BSQなどの従来VQ-VAEを凌駕することを示す。さらに、TDCはTokenBridgeなどの従来のガウシアンVAE離散化手法も改善する。ソースコードはhttps://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAEで公開している。
構造化テキスト翻訳に関する最近の研究は、複雑な文書レベルのXMLやHTML構造を効果的に扱うことに課題があるため、依然として文レベルに限定されている。この問題に対処するため、我々はFormat Reinforcement Learning (FormatRL)を提案する。この手法は、教師ありファインチューニングモデルにGroup Relative Policy Optimizationを適用し、新たな構造認識報酬を直接最適化する:1) 予測XMLツリーと参照XMLツリーの構造的類似性を測定するTreeSim、2) XMLノードレベルでの翻訳品質を測定するNode-chrFである。さらに、軽微な誤りと重大な構造的失敗を区別する詳細な評価指標StrucAUCを適用する。SAPソフトウェアドキュメンテーションのベンチマークによる実験では、6つの評価指標全てで改善が確認され、異なる報酬関数が構造的品質と翻訳品質の両方の向上にどのように寄与するかを詳細に分析する。
我々は、Joint-Embedding Predictive Architecture (JEPA) と Density Adaptive Attention Mechanism (DAAM) を組み合わせた、2段階の自己教師型フレームワークを提案する。これはロバストな音声表現を学習するためのものである。第1段階では、JEPAにDAAMを組み合わせて潜在空間におけるマスク予測を通じて意味的な音声特徴を学習し、波形再構成から完全に分離する。第2段階では、これらの表現を活用し、Finite Scalar Quantization (FSQ) と混合基数パッキング方式を用いた効率的なトークン化を行い、続いてHiFi-GANデコーダによる高忠実度の波形再構成を実現する。ガウス混合モデルに基づく密度適応型ゲーティングをJEPAエンコーダに統合することで、モデルは適応的時間的特徴選択を実行し、2.5 Hzという低いフレームレートで階層的な音声構造を発見する。生成されるトークン(47.5トークン/秒)は、可逆的で高圧縮かつ言語モデルに適した表現を提供し、既存の神経音声コーデックと同等あるいはそれを上回る効率性を実現する。
本論文は、最新の2つのSegment Anything Model(SAM2とSAM3)の間にある根本的な非連続性を調査する。我々は、プロンプトベースセグメンテーションに関するSAM2の専門知が、なぜSAM3のマルチモーダル概念駆動パラダイムに転移しないのかを説明する。SAM2は空間プロンプト(点、ボックス、マスク)を介して動作し、純粋に幾何学的・時間的なセグメンテーションを生成する。対照的に、SAM3はオープン語彙推論、意味的グラウンディング、対比アラインメント、事例ベース概念理解を可能にする統一された視覚言語アーキテクチャを導入する。本分析は以下の5つの核心的構成要素に沿って構造化する:(1) プロンプトベースと概念ベースのセグメンテーション間の概念的断絶:SAM2の空間プロンプト意味論と、SAM3のマルチモーダル融合およびテキスト条件付きマスク生成を対比。(2) アーキテクチャの相違:SAM2の純粋視覚-時間設計と、SAM3における視覚言語エンコーダ、幾何学・事例エンコーダ、融合モジュール、DETRスタイルデコーダ、オブジェクトクエリ、Mixture-of-Expertsによる曖昧性処理の統合を詳細化。(3) データセットとアノテーションの差異:SAM2のSA-Vビデオマスクと、SAM3のマルチモーダル概念注釈付きコーパスを対比。(4) 訓練とハイパーパラメータの区別:SAM2の最適化知識がSAM3に適用できない理由を提示。(5) 評価、指標、失敗モード:幾何学的IoU指標から意味的・オープン語彙評価への移行を概説。これらの分析を総合し、SAM3を新たなクラスのセグメンテーション基盤モデルとして位置付け、新興する概念駆動セグメンテーション時代の将来方向を図示する。