翻訳付きの日次キュレーションされたAI研究論文
本論文では、Greenヒューマノイドロボットへの実世界展開を目的とした段階的Vision-Language-Action(VLA)フレームワーク「Green-VLA」を提案する。本フレームワークは多様な実装形態にわたる汎化性を維持しつつ、以下の5段階カリキュラムに従う:(L0)基盤的VLM、(L1)マルチモーダル接地、(R0)マルチ実装事前学習、(R1)実装特化適応、(R2)強化学習(RL)によるポリシー調整。3,000時間に及ぶ実証データを処理するスケーラブルなパイプラインを時間軸調整と品質フィルタリングと統合し、単一ポリシーでヒューマノイド、移動マニピュレータ、固定ベースアームを制御可能な統一的な実装認識アクションインターフェースを採用する。推論時には、VLAコントローラをエピソード進捗予測、分布外検出、関節予測ベースのガイダンスで拡張し、安全性と精密な目標選択を向上させる。Simpler BRIDGE WidowXおよびCALVIN ABC-Dでの実験、ならびに実機評価により、RL調整による成功率、頑健性、長期的効率性の向上と強力な汎化性能が実証された。
我々はKimi K2.5を紹介する。これは汎用的なエージェント知能の進化を目指したオープンソースのマルチモーダルエージェントモデルである。K2.5はテキストと視覚の共同最適化を重視し、両モダリティが相互に強化される設計を採用している。これには、テキスト-視覚共同事前学習、ゼロショット視覚SFT、テキスト-視覚共同強化学習といった一連の技術が含まれる。このマルチモーダル基盤を発展させ、K2.5は「Agent Swarm」を導入する。これは自己主導型の並列エージェント調整フレームワークであり、複雑なタスクを動的に異種サブ問題に分解し並列実行する。大規模な評価により、Kimi K2.5がコーディング、視覚、推論、エージェントタスクなど多岐にわたる領域で最先端の結果を達成することが実証された。Agent Swarmは単一エージェントベースラインと比較して最大4.5倍の遅延削減も実現している。我々は学習済みKimi K2.5モデルチェックポイントを公開し、エージェント知能の将来研究と実世界応用を促進する。
マルチモーダル大規模言語モデル(MLLM)は、幅広い視覚タスクにおいて顕著な成功を収めている。しかし、内部の世界知識の容量に制約があるため、従来の研究では「推論後にツール呼び出し」を行うことでMLLMを拡張し、視覚およびテキスト検索エンジンを活用することで、大量の事実情報を必要とするタスクでの大幅な性能向上が提案されてきた。しかし、これらのアプローチは通常、単一の画像全体クエリまたはエンティティレベル画像クエリと少数のテキストクエリで質問に答えるために必要な重要証拠を取得できるという素朴な設定でマルチモーダル検索を定義しており、視覚ノイズが深刻な実世界のシナリオでは非現実的である。さらに、推論の深さと検索の幅が限られていることが多く、多様な視覚的・テキスト的ソースから証拠を集約する必要がある複雑な質問の解決が困難である。これを受けて我々はVision-DeepResearchを提案し、新しいマルチモーダル深層検索パラダイム、すなわちマルチターン・マルチエンティティ・マルチスケールの視覚およびテキスト検索を実行し、高ノイズ下での実世界検索エンジンに頑健に対応する。我々のVision-DeepResearchは数十の推論ステップと数百のエンジン相互作用をサポートし、コールドスタート監視と強化学習トレーニングを通じて深層検索能力をMLLMに内包させることで、強力なエンドツーエンドのマルチモーダル深層検索MLLMを実現する。これは既存のマルチモーダル深層検索MLLMや、GPT-5、Gemini-2.5-pro、Claude-4-Sonnetなどの強力なクローズドソース基盤モデルに基づくワークフローを大幅に上回る性能を示す。コードはhttps://github.com/Osilly/Vision-DeepResearchで公開予定である。
マルチモーダル大規模言語モデル(MLLM)はVQAを進化させ、検索エンジンを活用した複合的な視覚・テキスト情報探索システム「Vision-DeepResearch」を実現しました。しかし、これらの視覚的・テキスト的検索能力を評価する手法は未確立であり、既存ベンチマークには2つの重大な限界があります。第一に、既存ベンチマークは視覚検索中心ではない点です。視覚検索を要するべき回答が、テキスト質問中のクロステキストualな手がかりから漏洩したり、現行MLLMの事前世界知識で推論可能になったりします。第二に、評価シナリオが過度に理想化されている点です。画像検索側では必要な情報が画像全体との完全一致で得られる場合が多く、テキスト検索側では質問が直接的で難易度不足です。 これらの課題を解決するため、我々は2,000のVQAインスタンスから構成される「Vision-DeepResearchベンチマーク(VDR-Bench)」を構築しました。全ての質問は厳格な多段階選定プロセスと専門家審査を経て作成され、現実世界の条件下でのVision-DeepResearchシステムの挙動を評価できる設計となっています。さらに、現行MLLMの不十分な視覚検索能力に対処するため、簡易なマルチラウンド部分画像検索ワークフローを提案します。この戦略が現実的な視覚検索シナリオにおけるモデル性能を効果的に向上させることが実証されました。総合的に、我々の成果は将来のマルチモーダル深層探索システムの設計に実用的な指針を提供します。コードはhttps://github.com/Osilly/Vision-DeepResearch で公開予定です。
現在のリポジトリエージェントは、断片化された表現による推論の断絶に直面している。既存の手法は、意味論的深みに欠けるAPIドキュメントや依存関係グラフの孤立した利用に依存しているためである。我々は、リポジトリの理解と生成を、統一された循環プロセスにおける逆方向の作業と捉える。つまり、生成は意図を実装へと展開し、理解は実装を意図へと圧縮する。この課題に対処するため、静的な生成設計図であるRepository Planning Graph(RPG)を、統一された高精度表現へと一般化するフレームワーク「RPG-Encoder」を提案する。RPG-Encoderは以下の3つのメカニズムで推論ループを閉じる:(1)生のコードを、意味的特徴とコード依存関係を統合したRPGへエンコードする;(2)トポロジーを段階的に進化させ、メンテナンスコストをリポジトリ規模から分離し、オーバーヘッドを95.7%削減する;(3)構造を意識したナビゲーションの統一インターフェースとして機能する。評価では、RPG-EncoderはSWE-bench Verifiedにおいて93.7%のAcc@5を達成しリポジトリ理解の最新技術を確立、SWE-bench Live Liteでは最高ベースラインを10%以上上回った。これらの結果は、複雑なコードベースにおける優れた細粒度ローカライゼーション精度を実証する。さらにRepoCraftでは98.5%の再構成カバレッジを達成し、RPGが元のコードベースを高精度に反映する能力と、意図と実装の間のループを閉じることを確認した。
統合マルチモーダルモデルは、深い推論を要する複雑な合成タスクに苦戦することが多く、テキストからの画像生成と画像編集を通常は独立した能力として扱い、相互接続された推論ステップとして捉えていません。この問題に対処するため、我々は二重推論パラダイムを通じてこれら二つのタスクを調和させる統一フレームワーク「UniReason」を提案します。生成を暗黙的な制約を注入する世界知識強化型計画として定式化し、編集能力を細粒度の視覚的洗練に活用して自己反省による視覚的誤りの修正をさらに進めます。このアプローチは、計画とその後の洗練という人間の認知プロセスを反映し、生成と編集を共有された表現内で統一します。このフレームワークを支えるため、計画のために5つの主要知識領域(文化的常識、物理学など)をカバーする大規模な推論中心データセット(約30万サンプル)と、視覚的自己修正のためのエージェント生成コーパスを体系的に構築しました。大規模な実験により、UniReasonがWISE、KrisBench、UniREditBenchなどの推論集約型ベンチマークで先進的な性能を達成し、優れた汎用合成能力を維持することを実証しました。
我々は、GitHubのプルリクエストから実世界のソフトウェアエンジニアリング(SWE)検証環境を自動構築するためのスケーラブルで効率的なフレームワーク「SWE-Universe」を提案する。自動構築における低い生産性、弱い検証器、過剰なコストといった普遍的課題を克服するため、本フレームワークは効率的にカスタム訓練されたモデルを中核とする構築エージェントを採用する。このエージェントは反復的な自己検証とループ内ハッキング検出を駆使し、高精度な検証可能タスクの信頼性高い生成を保証する。本手法により、実世界の多言語SWE環境を百万規模(807,693件)まで拡張することに成功した。大規模なエージェント中間訓練と強化学習を通じて、当環境の顕著な価値を実証する。最終的に本技術をQwen3-Max-Thinkingに適用し、SWE-Bench Verifiedで75.3%のスコアを達成した。本研究は、次世代コーディングエージェントの発展に向けた重要なリソースと堅牢な方法論の両方を提供するものである。
深層研究は、大規模言語モデル(LLM)エージェントにおける代表的な長期タスクとして台頭しつつある。しかし、深層研究における長い軌跡はモデルのコンテキスト制限を超えることが多く、証拠収集とレポート作成の両方に対するトークン予算を圧迫し、効果的なテスト時スケーリングを妨げている。本論文では、ファイルシステムベースのデュアルエージェントフレームワークであるFS-Researcherを提案する。これは永続的なワークスペースを介して、コンテキストウィンドウを超えた深層研究のスケーリングを実現する。具体的には、Context Builderエージェントが司書として機能し、インターネットを閲覧し構造化されたメモを作成し、生の情報源を階層的な知識ベースにアーカイブする。この知識ベースはコンテキスト長をはるかに超えて拡張可能である。その後、Report Writerエージェントが知識ベースを事実のソースとして扱い、セクションごとに最終レポートを作成する。このフレームワークでは、ファイルシステムが耐久性のある外部メモリおよびエージェント間・セッション間の共有調整媒体として機能し、コンテキストウィンドウを超えた反復的な改良を可能にする。2つのオープンエンドベンチマーク(DeepResearch BenchとDeepConsult)による実験では、FS-Researcherが異なる基盤モデルにおいて最先端のレポート品質を達成することが示された。さらに分析により、最終レポート品質とContext Builderに割り当てられた計算資源との間に正の相関が確認され、ファイルシステムパラダイム下での効果的なテスト時スケーリングが検証された。コードとデータはhttps://github.com/Ignoramus0817/FS-Researcher で匿名公開されている。
ピクセル拡散は、ピクセル空間で直接画像を生成するエンドツーエンドの手法であり、2段階の潜在拡散においてVAEが導入するアーティファクトやボトルネックを回避する。しかし、知覚的に無関係な信号を多く含む高次元ピクセル多様体の最適化は困難であり、既存のピクセル拡散法は潜在拡散モデルに遅れをとっている。本研究では、知覚的監督を備えた簡素なピクセル拡散フレームワークであるPixelGenを提案する。PixelGenは画像多様体全体をモデル化する代わりに、2つの相補的な知覚損失を導入し、拡散モデルがより意味のある知覚的多様体を学習するよう導く。LPIPS損失は優れた局所パターンの学習を促進し、DINOに基づく知覚損失は大域的な意味情報を強化する。知覚的監督により、PixelGenは強力な潜在拡散ベースラインを凌駕する。クラス分類器不要のガイダンスを用いず、わずか80学習エポックでImageNet-256においてFID 5.11を達成し、大規模テキスト画像生成ではGenEvalスコア0.79の良好なスケーリング性能を示す。PixelGenはVAE、潜在表現、補助段階を一切必要とせず、より簡潔でありながら強力な生成パラダイムを提供する。コードはhttps://github.com/Zehong-Ma/PixelGen で公開されている。
プログレッシブラーニング(PL)は、モデル規模を段階的に拡大することで事前学習の計算コストを削減する手法である。従来の研究では深度拡張が広く検討されてきた一方、幅拡張に関する研究は著しく不足しており、既存の数少ない手法も訓練の初期段階に限定されていた。しかし、計算効率の最大化には中盤段階での幅拡張が不可欠であるものの、深刻な訓練不安定性により未だに大きな課題となっている。実証研究により、この段階での単純な初期化は活性化統計量を乱し損失スパイクを引き起こす一方、コピー型初期化は勾配対称性を導入し特徴多様性を阻害することが明らかとなった。これらの問題を解決するため、我々は中盤幅拡張のための新規フレームワークSPARKLING(バランシング・シグナル保存と対称性打破による幅プログレッシブ学習)を提案する。本手法はRMSスケール一貫性による信号保存を実現し、拡張時の活性化統計量を安定化する。非対称なオプティマイザ状態リセットと学習率再ウォームアップにより、対称性打破を保証する。Mixture-of-Experts(MoE)モデルを用いた大規模実験により、複数の幅拡張軸とオプティマイザファミリーにわたり、SPARKLINGがスクラッチからの訓練を一貫して上回り、2倍の幅拡張条件下で訓練コストを最大35%削減できることを実証した。
Semantic ID(SID)に基づく推薦は、逐次推薦システムをスケーリングする有望なパラダイムである。しかし、既存手法の多くは意味論中心のパイプラインに依拠している。すなわち、基盤モデルからアイテム埋め込みを学習し、汎用的な量子化手法を用いて離散化する。この設計は生成的推薦の目的と整合しない。意味論的埋め込みは協調予測と弱く結合しており、汎用的な量子化は自己回帰モデリングにおける逐次的不確実性の低減に非効率である。これらの問題に対処するため、我々はReSIDを提案する。これは推薦に特化した原理的なSIDフレームワークであり、LLMに依存せず、情報保存と逐次的予測可能性の観点から表現学習と量子化を再考する。ReSIDは二つのコンポーネントから構成される:(i) 構造化特徴から予測的に十分なアイテム表現を学習するField-Aware Masked Auto-Encoding (FAMAE)と、(ii) 意味的曖昧性とプレフィックス条件付き不確実性を同時に低減することで、コンパクトで予測可能なSID系列を生成するGlobally Aligned Orthogonal Quantization (GAOQ)である。理論分析と10のデータセットにおける大規模な実験により、ReSIDの有効性が示された。ReSIDは、強力な逐次推薦およびSIDベースの生成的ベースラインを平均10%以上一貫して上回り、トークン化コストを最大122倍削減した。コードはhttps://github.com/FuCongResearchSquad/ReSIDで公開されている。
推論LLMの事後学習は、通常、オフラインのSFT段階とオンラインの強化学習段階から構成される包括的なプロセスである。しかし、SFTは単独でSFT性能を最大化するように最適化されることが多い。 我々は、同一のRL訓練後において、より強力なSFTチェックポイントから初期化されたモデルが、より弱いチェックポイントから初期化されたモデルよりも著しく低性能になる場合があることを示す。この原因は、現在のSFT-RLパイプラインに典型的なミスマッチにあると考える。すなわち、オフラインSFTデータを生成する分布と、自身のロールアウトから学習するオンラインRLで最適化される方策の分布が大きく異なることである。 我々は、このミスマッチを補正し、モデルをRLにより適した状態に準備するSFT段階の手法PEARを提案する。PEARは重要度サンプリングを用いてSFT損失を再重み付けし、トークン、ブロック、シーケンスの3つのレベルで動作する変種を有する。これは標準的なSFT目的関数を拡張する形で使用でき、オフラインデータの確率が収集されれば、追加の訓練オーバーヘッドはほとんど生じない。 Qwen 2.5/3およびDeepSeek-distilledモデルを用い、検証可能な推論ゲームと数学的推論タスクで制御実験を実施した。PEARは標準的なSFTと比較して、RL後の性能を一貫して向上させ、AIME2025では最大14.6%のpass@8ゲインを達成した。これらの結果は、PEARが下流のRLを意識してSFTを単独ではなく包括的に設計・評価することにより、より包括的なLLM事後学習に向けた効果的な一歩であることを示唆している。
モバイルグラフィカルユーザーインターフェース(GUI)の世界モデル(WM)は、学習時および推論時のモバイルGUIエージェントの性能向上に向けた有望なアプローチである。しかし、現在の手法は重大なトレードオフに直面している。テキストベースのWMは視覚的忠実度を犠牲にする一方、視覚的WMは正確なテキスト描画が不可能なため、多数の外部モデルに依存した低速で複雑なパイプラインに頼らざるを得ない。我々は新しいパラダイムを提案する:レンダリング可能なコード生成による視覚的世界モデリングである。これは、単一のVision-Language Model(VLM)がピクセルを直接生成するのではなく、実行可能なWebコードとして次のGUI状態を予測し、それがピクセルにレンダリングされる手法である。これにより両アプローチの長所が組み合わされる:VLMは正確なテキスト描画のための言語的優先知識を保持しつつ、構造化されたWebコードに対する事前学習により高忠実度の視覚的生成を可能にする。本パラダイムに基づく初のオープンウェイト視覚的モバイルGUI WMであるgWorld(8B, 32B)と、コードベースの学習データを自動合成するデータ生成フレームワーク(gWorld)を導入する。4つの内部評価データセットおよび2つの外部評価データセットを用いた大規模評価において、gWorldは精度とモデルサイズの関係で新たなパレートフロンティアを確立し、最大50.25倍大きな8つの先端オープンウェイトモデルを凌駕した。さらなる分析により、(1) gWorldによる学習データのスケーリングが有意な性能向上をもたらすこと、(2) パイプラインの各構成要素がデータ品質向上に寄与すること、(3) 強力な世界モデリングが下流のモバイルGUIポリシー性能を改善することが示された。
グラフベース検索拡張生成(GraphRAG)は、外部知識を階層的なグラフとして構造化し、複数文書に散在する証拠の効率的な検索と集約を可能にする。しかし、既存のGraphRAGベンチマークの多くは、短く編集された文章を外部知識として利用しており、長文コンテキストや大規模な異種文書を含む現実的な設定でのシステム評価が不十分である。この課題を解決するため、我々は実環境におけるGraphRAGの性能を評価するベンチマーク「WildGraphBench」を提案する。Wikipediaの独自構造(一貫性のある記述が長文かつ多様な外部参照文書に基づく特性)を活用し、実世界のシナリオを反映したベンチマークを構築した。具体的には、12のトップレベルトピックから記事を抽出し、それらの外部参照を検索コーパスとして、引用リンク付き記述を正解データとして利用。単一事実QA、複数事実QA、セクション要約の3段階の難易度にわたる1,100問の質問を構築した。複数ベースラインによる実験では、証拠が中規模数のソースから得られる場合に現在のGraphRAGパイプラインが複数事実の集約に有効である一方、この集約パラダイムが高レベルな記述を過度に重視することで細部の情報が軽視され、要約タスクでの性能低下を招く可能性が示された。プロジェクトページ:https://github.com/BstWPY/WildGraphBench
思考連鎖推論の発展により、大規模言語モデルはテキストによる思考から、画像や動画を用いた思考へと拡張されてきた。しかし、異なるモダリティには依然として明確な限界がある:静止画像は時間的構造の表現に難があり、動画は冗長性と計算コストの大幅な増加をもたらす。本研究では、画像と動画の中間に位置する高情報密度メディアとして漫画を活用した視覚的推論パラダイム「漫画を用いた思考」を提案する。漫画は時間的構造、埋め込まれたテキスト、物語の一貫性を保持しながら、推論コストを大幅に低減する。我々は漫画に基づく二つの推論経路を体系的に検討し、様々な推論タスク及び長文脈理解タスクで評価を実施した。実験結果から、漫画を用いた思考は多段階の時間的・因果的推論タスクにおいて画像を用いた思考を上回り、かつ動画を用いた思考よりも大幅に効率的であることが示された。さらに分析により、異なる漫画の物語構造や作画スタイルがタスク横断的に性能に影響を与えることが明らかとなり、漫画がマルチモーダル推論を改善する効果的な中間視覚表現として機能することが示唆された。
我々はRLAnythingを提案する。これは環境モデル・方策モデル・報酬モデルを閉ループ最適化によって動的に構築する強化学習フレームワークであり、学習信号を増幅し、あらゆるLLMやエージェントシナリオにおける強化学習システム全体を強化するものである。具体的には、方策はステップ単位の信号と結果信号からなる統合的なフィードバックで学習され、報酬モデルは一貫性フィードバックを通じて共同最適化され、それがさらに方策の学習を改善する。さらに、理論に基づく自動環境適応により、各モデルからの批評的フィードバックを活用して報酬モデルと方策モデルの双方の学習を改善し、経験からの学習を可能にする。実験では、追加される各コンポーネントがシステム全体を一貫して改善し、RLAnythingは様々な代表的なLLMタスクおよびエージェントタスクで大幅な性能向上をもたらした。具体的には、OSWorldにおいてQwen3-VL-8B-Thinkingを9.1%、AlfWorldとLiveBenchにおいてそれぞれQwen2.5-7B-Instructを18.7%および11.9%改善した。また、最適化された報酬モデル信号は、人手ラベルに依存する結果よりも優れていることを示す。コード: https://github.com/Gen-Verse/Open-Agent
Deep Research Agent(DRA)は、自律的な情報検索とレポート生成において顕著な能力を示し、複雑な研究タスクにおける人間の支援として大きな可能性を秘めている。現在の評価フレームワークは、主にLLMが生成する参照文献またはLLMから導出された評価次元に依存している。これらのアプローチは拡張性に優れるが、専門家による検証済みコンテンツの信頼性に欠け、重要な次元に対する客観的できめ細かい評価を提供することが困難である。この課題を解決するため、我々はWiki Live Challenge(WLC)を提案する。これは最新のWikipedia「良質な記事」(GA)を専門家レベルの参照基準として活用するライブベンチマークである。Wikipediaの中立性、網羅性、検証可能性に対する厳格な基準はDRAにとって大きな挑戦となり、GAはその頂点を代表する。我々は最近の良質な記事100件を精選したデータセットを構築し、執筆品質を39の基準で評価する詳細な評価手法と、事実の検証可能性を厳密に測定する指標から構成される総合的な評価フレームワーク「Wiki Eval」を提案する。様々なDRAシステムを用いた大規模実験により、現在のDRAと人間の専門家レベルのWikipedia記事には大きな隔たりがあることが実証され、WLCがエージェント研究を推進する上で有効であることが確認された。本ベンチマークはhttps://github.com/WangShao2000/Wiki_Live_Challenge で公開している。
大規模言語モデル(LLM)のアライメント手法として、人間フィードバック強化学習(RLHF)に代わる計算効率の高い手法として、直接選好最適化法が登場している。最新のアプローチは暗黙的な報酬関数を導出することでアライメントプロセスを効率化しているが、多くの場合、決定的な目的の不一致に悩まされている。つまり、選択された応答と拒否された応答の間の相対的なマージンを最適化しても、選択された応答の絶対的な尤度が維持される保証はない。これにより、マージン制約を満たすために高品質な出力の確率が低下する「アンラーン(学習忘却)」や、拒否された系列への過度なペナルティによる「フォーマット崩壊」が引き起こされる可能性がある。本研究では、選好学習と生成品質を分離するために設計された参照モデル不要のアライメント目的関数であるSLIME(Stabilized Likelihood Implicit Margin Enforcement)を提案する。SLIMEは三つの要素からなる目的関数を組み込んでいる:(1)好ましい応答の尤度を最大化する固定化項、(2)拒否されたトークンの確率がゼロに崩壊するのを防ぐ安定化ペナルティ、(3)厳格な制約と柔軟な制約を組み合わせて精密な境界形成を行うデュアルマージン機構である。実験結果により、SLIMEは既存の最先端ベースライン手法と比較して優れた性能を発揮しつつ、より高い生成安定性を維持できることを実証する。
自己回帰型ビデオ拡散モデルはストリーミング生成を可能にし、長尺動画合成、ビデオ世界モデル、対話型ニューラルゲームエンジンへの道を開いた。しかし、推論時にはその中核をなすアテンション層が主要なボトルネックとなる:生成が進むにつれてKVキャッシュが肥大化し、レイテンシの増加とGPUメモリ使用量の急増を引き起こす。これにより、利用可能な時間的コンテキストが制限され、長距離の一貫性が損なわれる。本研究では、自己回帰型ビデオ拡散における冗長性を分析し、3つの持続的な要因を特定する:フレーム間でのほぼ重複したキャッシュキー、多くのアテンション計算を冗長化する緩やかに変化する(主に意味的な)クエリ/キー、およびフレームごとにごく一部のトークンのみが重要となる長いプロンプトに対するクロスアテンションである。これらの観察に基づき、我々は自己回帰型拡散モデルのための学習不要の統合アテンション基盤を提案する:TempCacheは時間的対応性によるKVキャッシュ圧縮でキャッシュ増大を抑制し、AnnCAは高速近似最近傍探索を用いたフレーム関連プロンプトトークンの選択でクロスアテンションを加速し、AnnSAは軽量な近似最近傍探索を用いて意味的に合致するキーのみにクエリを制限することでセルフアテンションを疎化する。これらのモジュールを組み合わせることで、アテンション、計算量、メモリ使用量を削減し、既存の自己回帰型拡散バックボーンや世界モデルと互換性を保つ。実験では、視覚品質をほぼ同等に保ちながら、エンドツーエンドで最大5~10倍の高速化を実証。特に重要なのは、長い生成過程においてスループットが安定し、ピークGPUメモリ使用量がほぼ一定に維持される点であり、従来手法では進行に伴う速度低下とメモリ使用量の増加が問題となっていた。
リアルタイム対話型ビデオ生成を実現するため、現在の手法では事前学習された双方向ビデオ拡散モデルを数ステップの自己回帰(AR)モデルに蒸留しているが、完全注意機構が因果的注意機構に置き換えられる際にアーキテクチャの隔たりが生じる。しかし既存手法はこの隔たりを理論的に埋めていない。これらはODE蒸留によってAR学生モデルを初期化するが、これはフレームレベルの単射性(各ノイジーフレームがAR教師モデルのPF-ODE下で一意のクリーンフレームに写像されること)を必要とする。双方向教師モデルからAR学生モデルを蒸留するとこの条件が満たされず、教師モデルのフローマップを回復できなくなり、代わりに条件付き期待値解が導かれて性能劣化を招く。この問題を解決するため、我々はODE初期化にAR教師モデルを用いるCausal Forcingを提案し、アーキテクチャの隔たりを埋める。実験結果では、本手法が全指標で既存手法を上回り、Dynamic DegreeでSOTA手法Self Forcingより19.3%、VisionRewardで8.7%、Instruction Followingで16.7%優れることを示す。プロジェクトページとコード:https://thu-ml.github.io/CausalForcing.github.io/
テキストからビデオ(T2V)生成は、入力テキストと意味的に整合性が高く、高い視覚的品質と時間的一貫性を備えたビデオを合成することを目的としている。報酬ベースの事後学習は、生成されるビデオの品質と意味的整合性を向上させる有望な方向性として登場した。しかし、最近の手法は、大規模な人間の嗜好アノテーションに依存するか、あるいは事前学習済み視覚言語モデルから得られた整合性の低い埋め込みに基づいて動作するため、拡張性が限られるか、最適ではない監督信号が得られるという課題がある。本研究では、新規の二重最適輸送(OT)整合報酬モジュールによりこれらの課題に対処する、アノテーション不要の事後学習アルゴリズムPISCESを提案する。報酬信号を人間の判断に整合させるため、PISCESはOTを用いて、分布的および個別トークンレベルの両方でテキストとビデオの埋め込みを橋渡しし、報酬監督が以下の二つの目的を達成することを可能にする:(i) 全体的な視覚的品質と時間的コヒーレンスを捉える分布的OT整合品質報酬、および (ii) テキストトークンとビデオトークン間の意味的・時空間的対応を強化する個別トークンレベルOT整合意味報酬である。知る限り、PISCESはOTの観点から生成的事後学習におけるアノテーション不要の報酬監督を改善する初めての試みである。短編および長編ビデオ生成に関する実験により、PISCESが品質スコアと意味スコアの両方においてVBench上でアノテーションあり・なしの手法を上回り、人間の嗜好調査がその有効性をさらに裏付けることを示す。また、二重OT整合報酬モジュールが、直接的な誤差逆伝播と強化学習に基づくファインチューニングを含む、複数の最適化パラダイムと互換性があることを示す。
テキストから画像への生成は前例のない精緻さを達成したが、既存モデルの大半は本質的に静的なテキスト-ピクセル変換器として機能している。その結果、暗黙的なユーザーの意図を捉え損ねるケースが少なくない。理解と生成を統合した新興モデルは意図理解の改善に寄与するものの、複雑な知識推論を要するタスクを単一モデルで達成するには依然として課題を残す。さらに、静的な内部事前分布に制約されるため、これらのモデルは現実世界の動的に変化する状況へ適応することができない。これらの課題を解決するため、我々は生成を動的で知識駆動型のワークフローへ変換する統合エージェントフレームワーク「Mind-Brush」を提案する。人間の「思考・調査・創作」パラダイムを模倣し、Mind-Brushはマルチモーダル証拠を能動的に検索して分布外概念を接地させ、推論ツールを活用して暗黙的な視覚的制約を解決する。これらの能力を厳密に評価するため、リアルタイムニュース、新興概念、数学的推論・地理推論などの領域にわたる500の多様なサンプルから構成される総合ベンチマーク「Mind-Bench」を構築した。大規模な実験により、Mind-Brushが統合モデルの能力を大幅に強化し、Mind-BenchにおけるQwen-Imageベースラインのゼロからイチへの能力飛躍を実現するとともに、WISEやRISEなどの確立されたベンチマークでも優れた結果を達成することが実証された。
大規模言語モデル(LLM)における知識蒸留(KD)の改善を目指す近年の取り組みでは、教師モデルによる密な監視を選択的蒸留に置き換える傾向が強まっている。選択的蒸留とは、トークンの位置、語彙クラス、または訓練サンプルの一部を監視対象として用いる手法である。しかし、どの重要度信号と選択ポリシー、およびそれらの相互作用が最も効果的であるかは未だ明らかになっていない。本研究では、自己回帰型LLMにおいて、どこで、どのように蒸留を行うべきかを再検討する。我々は、位置、クラス、サンプルという軸に沿って選択的KDを分解し、重要度信号と選択ポリシーを体系的に比較する。この分析に基づき、未開拓の可能性を特定し、生徒モデルのエントロピーに基づく位置選択(SE-KD)を提案する。一連のベンチマークにおいて、SE-KDは、密な蒸留と比較して、多くの場合、精度、下流タスクへの適合性、メモリ効率の向上をもたらした。このアプローチをクラス軸とサンプル軸にも拡張した手法(SE-KD 3X)は、相補的な効率向上を実現し、オフラインでの教師モデルキャッシュを可能にする。実際に、この手法は従来手法と比較して性能を犠牲にすることなく、実効時間を70%削減、ピークメモリ使用量を18%削減、ストレージ使用量を80%削減する。
LLMベースの深層研究エージェントは、主にReActフレームワーク上に構築されている。この線形設計では、以前の状態を再訪したり、代替の探索方向に分岐したり、長い文脈下でグローバルな認識を維持することが困難であり、局所最適解、冗長な探索、非効率な検索を引き起こしやすい。我々はRe-TRACを提案する。これは、各軌道後に構造化された状態表現を生成して証拠、不確実性、失敗、将来の計画を要約し、後続の軌道をこの状態表現に条件付けることで、軌道横断的な探索を行うエージェントフレームワークである。これにより、反復的な反省とグローバルに情報化された計画が可能となり、研究を漸進的プロセスとして再構築する。実験結果では、Re-TRACが最先端LLMを用いたBrowseCompにおいて、一貫してReActを15-20%上回る性能を示した。小型モデルについては、Re-TRACを意識した教師ありファインチューニングを導入し、同等規模で最高水準の性能を達成した。特筆すべきは、Re-TRACがラウンドを重ねるごとにツール呼び出しとトークン使用量を単調減少させており、冗長な検索ではなく軌道横断的な反省に駆動された、次第に焦点化される探索を示唆している点である。
本論文では、高速動作が可能なTransformerベースの画像-動画(I2V)拡散フレームワーク「FSVideo」を提案する。本フレームワークは以下の主要コンポーネントに基づいて構築されている:1)高い圧縮率を実現した新しい動画オートエンコーダ(時空間ダウンサンプリング比64×64×4)により、優れた再構成品質を達成;2)層間情報フローとコンテキスト再利用を強化する新たなメモリ設計を導入した拡散Transformer(DIT)アーキテクチャ;3)動画の精細度向上のための、少数ステップによるDITアップサンプラを用いたマルチ解像度生成戦略。14BパラメータのDITベースモデルと14BパラメータのDITアップサンプラで構成される最終モデルは、他の主要なオープンソースモデルと競合する性能を達成しつつ、一桁高速な処理を実現している。本報告ではモデル設計と訓練戦略についても論じる。
日本の金融分野の言語は、膠着的で頭部終端型の言語構造、混合書記体系、間接的表現と暗黙の了解に依存する高コンテクストなコミュニケーション規範を組み合わせた特徴を持ち、大規模言語モデルにとって重大な課題となっている。本論文では、日本語ネイティブの金融言語理解のためのベンチマーク「Ebisu」を提案する。これは、言語的・文化的に根差した専門家注釈付きの2つのタスクで構成される:投資家向け質疑応答における暗黙の了解と拒否認識を評価する「JF-ICR」、専門的な開示文書から階層的に金融用語を抽出・ランク付けする「JF-TE」である。汎用モデル、日本語対応モデル、金融特化モデルなど、多様なオープンソースおよびプロプライエタリな大規模言語モデルを評価した結果、最先端システムでも両タスクにおいて困難を示すことが明らかになった。モデル規模の拡大による改善は限定的であり、言語や分野特化の適応も性能向上を保証せず、大きな課題が未解決のまま残されている。Ebisuは、言語的・文化的に根差した金融自然言語処理の発展に向けた焦点的なベンチマークを提供する。すべてのデータセットと評価スクリプトは公開されている。
視覚的メタファーは、抽象的概念を印象的な視覚的レトリックへと変換するために、領域横断的な意味融合を活用する、高度な人間の創造性の一形態である。生成AIの目覚ましい進展にもかかわらず、既存モデルは主にピクセルレベルの指示適合と表面的な外観の維持に留まっており、真のメタファー生成に必要な根底にある抽象的な論理を捉えることに未だ成功していない。この隔たりを埋めるため、我々は視覚的メタファー転移(VMT)という新たな課題を提唱する。これは、モデルが参照画像から「創造的本質」を自律的に分離し、その抽象的な論理をユーザー指定の対象主体へと再具現化する能力を問うものである。我々は、概念融合理論(CBT)を新規のスキーマ文法("G")によって操作化する、認知科学に着想を得たマルチエージェントフレームワークを提案する。この構造化表現は、関係性の不変量を特定の視覚的実体から切り離し、領域横断的な論理の再インスタンス化に対する厳密な基盤を提供する。我々のパイプラインは、専門化されたエージェント群による協調システムを通じてVMTを実行する。すなわち、参照をスキーマへと蒸留する知覚エージェント、一般的空間の不変性を維持して適切なキャリアを発見する転移エージェント、高精細な合成を行う生成エージェント、そして専門的な批評家を模倣し、抽象論理、構成要素選択、プロンプト符号化における誤りを特定・修正するための閉ループ的なバックトラッキングを実行する階層的診断エージェントからなる。大規模な実験と人間による評価により、本手法がメタファー一貫性、類推の適切さ、視覚的創造性においてSOTAベースラインを大きく上回ることを実証し、広告やメディアにおける自動化された高度な創造的応用への道を開く。ソースコードは公開予定である。
マルチモーダル大規模言語モデル(MLLM)はオープン語彙の知覚タスクで顕著な成功を収めているが、視覚的詳細が抽象的で視覚記憶を必要とする複雑な認知問題の解決能力は依然として限られている。現在のアプローチは、言語のみでは明確で構造化された推論が不十分な場合でも、主にテキスト空間における連鎖的思考(CoT)推論のスケーリングに注力し、人間の視空間スケッチパッドや視覚的イメージに類似した視覚推論メカニズムをほぼ無視している。この欠点を補うため、我々はCognitive Supersensingを提案する。これは視覚認知潜在埋め込みの系列を共同で学習し、回答と整合させることで視覚ベースの内的推論連鎖を形成するLatent Visual Imagery Prediction(LVIP)ヘッドを統合し、MLLMに人間のような視覚的イメージ能力を付与する新しい訓練パラダイムである。さらに、この接地された視覚潜在に基づいてテキスト推論経路を最適化する強化学習段階を導入する。MLLMの認知能力を評価するため、5つの認知次元を評価する包括的な視覚質問応答(VQA)ベンチマークであるCogSense-Benchを提案する。大規模な実験により、Cognitive Supersensingで訓練されたMLLMがCogSense-Benchで最先端のベースラインを大幅に上回り、ドメイン外の数学・科学VQAベンチマークで優れた一般化性能を示すことが実証された。これは内的視覚的イメージが知覚的認識と認知的理解の間の隔たりを埋める鍵となり得ることを示唆している。CogSense-Benchとモデル重みは公開予定である。
近年の生成的モデルは画像編集において目覚ましい進歩を遂げている。しかし、既存のシステムとベンチマークは依然としてテキスト主導の手法が主流である。一方、人間のコミュニケーションは本質的にマルチモーダルであり、スケッチなどの視覚的指示は空間的・構造的意図を効率的に伝達する。この隔たりを埋めるため、我々は3段階のインタラクション階層(指示的接地、形態的操作、因果推論)を備えた画像編集のための視覚的指示ベンチマークVIBEを提案する。これらの階層において、視覚的指示の追従における複雑性が段階的に増加する多様で高品質なテストケースを構築した。さらに、タスク特化の評価指標を用いた頑健なLMM-as-a-judge評価フレームワークを提案し、スケーラブルできめ細かい評価を可能にする。17の代表的なオープンソースおよびプロプライエタリ画像編集モデルに対する包括的評価を通じて、プロプライエタリモデルは初期段階の視覚的指示追従能力を示し、一貫してオープンソースモデルを上回ることを明らかにした。しかし、最も強力なシステムであっても、タスクの難易度が増すにつれて性能が顕著に低下し、将来の研究に向けた有望な方向性が示された。
話し手アバターの生成は映像生成における基礎的な課題である。既存手法では単純な人体動作を伴う全身話し手アバターを生成可能だが、この課題を接地型人物-物体相互作用(GHOI)に拡張することは未解決の難題であり、アバターが周囲の物体とテキストに沿った相互作用を実行する必要がある。この課題は環境知覚の必要性とGHOI生成における制御品質ジレンマに起因する。これに対処するため、我々は新規のデュアルストリームフレームワークInteractAvatarを提案する。これは接地型人物-物体相互作用において、知覚と計画を映像合成から分離するものである。検出技術を活用して環境知覚を強化するため、テキストに沿った相互作用動作を生成する知覚・相互作用モジュール(PIM)を導入する。さらに、物体相互作用を行う生き生きとした話し手アバターを合成するための音声-相互作用認識生成モジュール(AIM)を提案する。特別に設計された動作-映像連携機構により、PIMとAIMは類似のネットワーク構造を共有し、動作と妥当な映像の並列共生成を可能とし、制御品質ジレンマを効果的に緩和する。最後に、GHOI映像生成を評価するためのベンチマークGroundedInterを構築した。大規模な実験と比較により、話し手アバターの接地型人物-物体相互作用生成における本手法の有効性を実証する。プロジェクトページ: https://interactavatar.github.io
従来の報酬モデルは通常、スカラー値を予測するが、創造的ライティングや非検証可能な指示追従タスクなど、多面的な応答品質を十分に捉えられていない。この課題を解決するため、本論文ではRubric-ARMを提案する。このフレームワークは、選好フィードバックを用いた強化学習により、評価基準生成器と評価器を共同で最適化する。静的な評価基準や分離された訓練パイプラインに依存する既存手法と異なり、本手法では評価基準の生成を、評価精度を最大化するために学習される潜在行動として扱う。同時更新における非定常性を緩和するため、交互最適化戦略を導入し、このスケジュールが訓練中の勾配分散を低減することを理論的に示す。大規模な実験により、Rubric-ARMが複数のベンチマークでベースラインを上回る最高精度を達成し、オフライン及びオンライン強化学習設定における下流のポリシーアライメントを大幅に改善することを実証する。
コンピュータ利用エージェント(CUA)は、実世界のタスクを完了するためにコンピュータシステムを自律的に操作することを目指している。しかし、既存のエージェントシステムはスケーリングが困難であり、人間の性能には及ばない。主な制限要因は、人間がグラフィカルユーザーインターフェースとどのように対話し、それらのスキルを活用するかを捕捉する、再利用可能で構造化されたスキル抽象化が欠如している点である。本論文では、CUA-Skillを提案する。これは、人間のコンピュータ利用知識を、パラメータ化された実行と合成グラフを伴うスキルとして符号化する、コンピュータ利用エージェントのスキル基盤である。CUA-Skillは、一般的なWindowsアプリケーションにわたる注意深く設計されたスキルからなる大規模ライブラリであり、スケーラブルで信頼性の高いエージェント開発のための実用的なインフラストラクチャおよびツール基盤として機能する。このスキル基盤に基づいて、動的スキル検索、引数インスタンス化、メモリを考慮した障害回復をサポートするエンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築する。評価結果は、CUA-Skillが困難なエンドツーエンドのエージェントベンチマークにおいて、実行成功率と堅牢性を大幅に向上させ、将来のコンピュータ利用エージェント開発の強固な基盤を確立することを実証している。WindowsAgentArenaにおいて、CUA-Skill Agentは最先端の57.5%(3回試行中の最高値)の成功率を達成し、従来および同時期のアプローチよりも大幅に効率的である。プロジェクトページは https://microsoft.github.io/cua_skill/ で公開されている。
大規模言語モデル(LLM)を制御する手法(ローカルな重みのファインチューニング、LoRAベースの適応、活性化ベースの介入など)は、しばしば個別に研究されるため、それらの間の関連性が不明瞭になり、比較が困難になっている。本研究では、これらの介入を制御信号によって誘起される動的重み更新として捉え、単一の概念的枠組みの中に位置付ける統一的視点を提示する。この視点に基づき、制御効果を「対象概念への志向性」として定義される選好(preference)と、「首尾一貫したタスク適格な生成」として定義される有用性(utility)に分離し、極性ペアの対照例を用いて共通の対数オッズ尺度で両方を測定する、統一的選好-有用性分析を提案する。各種手法において、選好と有用性の間には一貫したトレードオフが観察される:制御を強くすると選好は増大するが、予測可能な形で有用性は低下する。さらに我々は、この挙動を活性化多様体の観点から説明する。制御は対象概念方向に表現をシフトさせて選好を高めるが、介入がモデルの有効生成多様体から表現を押し出した場合に、有用性は主に低下する。最後に、この分析に基づいた新しいステアリング手法SPLITを提案する。これは、有用性をより良く維持しつつ選好を改善するものである。コードはhttps://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md で公開されている。
本論文では、大規模言語モデル(LLM)の隠れ状態内に、生物学的なヒト脳の報酬サブシステムとのアナロジーにより、スパースな報酬サブシステムが存在することを明らかにする。我々は、このサブシステムがモデルの内部的な状態価値期待を表現する価値ニューロンを含むことを実証し、介入実験を通じて、これらのニューロンが推論において重要であることを立証する。実験結果から、これらの価値ニューロンは多様なデータセット、モデル規模、アーキテクチャにわたって頑健であることが明らかとなった。さらに、同一の基本モデルからファインチューニングされた異なるデータセットやモデル間で顕著な転移性を示す。価値予測と実際の報酬が乖離する事例を検証することにより、我々は報酬サブシステム内に報酬予測誤差(RPE)を符号化するドーパミンニューロンを同定する。これらのニューロンは、報酬が期待値を上回る場合に高い活性化を示し、報酬が期待値を下回る場合に低い活性化を示す。
視覚的推論の最近の進展では、ARC-AGIベンチマークに取り組むためにビジョントランスフォーマーが活用されている。しかし我々は、計算深度がパラメータサイズに厳密に縛られるフィードフォワード構造は、人間の帰納推論が持つ反復的・アルゴリズム的な性質を捉えるには不十分であると論じる。本論文では、Loop-ViTと名付けた再帰的構造を提案する。これは重み共有型の反復を通じて、推論の深度とモデル容量を分離するものである。Loop-ViTは、局所的な畳み込みと大域的なアテンションを組み合わせた重み共有のハイブリッドブロックを反復処理し、潜在的な思考の連鎖を形成する。決定的な点は、予測エントロピーに基づくパラメータフリーの動的終了機構を導入したことである。これは、モデルの内部状態が低不確実性のアトラクタに「結晶化」したときに推論を停止させる。ARC-AGI-1ベンチマークでの実験結果はこの視点を裏付ける:1800万パラメータの我々のモデルは65.8%の精度を達成し、7300万パラメータの大規模アンサンブルモデルを性能で上回った。これらの発見は、適応的反復計算が、単にネットワークの幅を増やすよりも、視覚推論においてはるかに効率的なスケーリング軸を提供することを実証している。コードはhttps://github.com/WenjieShu/LoopViTで公開されている。
大規模言語モデル(LLM)は、段階的な連鎖思考(CoT)推論を通じて強力な推論能力を発揮することが実証されている。しかし、モデル能力の限界に直面した場合、CoTは不十分であることが多く、その厳密に逐次的な性質がテスト時の拡張性を制約する。潜在的な代替手法として、分割統治(DAC)推論が挙げられる。これは複雑な問題を部分問題に分解し、解決策のより効果的な探索を可能にする。有望ではあるものの、我々の分析により、汎用的な学習後調整とDAC型推論の間には根本的な不整合が存在し、この可能性を十分に活用するモデルの能力が制限されていることが明らかになった。このギャップを埋め、最も困難なタスクにおけるLLMの推論能力を完全に解放するため、我々はDAC型推論能力を強化するエンドツーエンドの強化学習(RL)フレームワークを提案する。各ステップで、ポリシーは問題を一連の部分問題に分解し、それらを逐次的に解決し、部分問題の解を条件として元の問題に対処する。分解と解決の両方がRL訓練に統合される。同等の訓練条件下では、我々のDAC型フレームワークはモデルに高い性能上限と強力なテスト時拡張性をもたらし、競技レベルのベンチマークにおいてPass@1で8.6%、Pass@32で6.3% CoTを上回った。
テキストから画像(T2I)生成は目覚ましい進歩を遂げているが、既存手法の多くは、生成過程における動的な推論と精緻化という人間の創造性の特徴を欠いている。現在の推論拡張パラダイムは、明示的思考プロセスに依存するものが主流であり、中間推論が固定ステップで離散テキストにデコードされ、頻繁な画像デコードと再エンコードを伴うため、非効率性、情報損失、認知的不一致を引き起こす。このギャップを埋めるため、我々は暗黙的潜在推論をT2I生成プロセスにシームレスに統合する新規フレームワーク「LatentMorph」を提案する。中核となるのは、4つの軽量コンポーネントである:(i)中間生成状態をコンパクトな視覚的メモリに要約する凝縮器、(ii)潜在思考を実行的ガイダンスに変換する翻訳器、(iii)次の画像トークン予測を動的に誘導する形成器、(iv)推論発動のタイミングを適応的に決定するRL訓練型発動器である。推論を連続的潜在空間内で完全に行うことで、LatentMorphは明示的推論のボトルネックを回避し、より適応的な自己精緻化を可能にする。大規模な実験により、LatentMorphが(I)ベースモデルJanus-ProをGenEvalで16%、T2I-CompBenchで25%向上させ、(II)WISEやIPV-Txtなどの抽象的推論タスクにおいて明示的パラダイム(TwiG等)を15%、11%上回り、(III)推論時間を44%、トークン消費量を51%削減し、(IV)推論発動に関する人間の直感との認知的整合性が71%に達することを実証した。
AIエージェントが、より長時間かつ複雑なタスクを効果的に処理する能力は継続的に向上しており、コーディング、深層研究、複雑な問題解決の評価において卓越したパフォーマンスを示している。しかし、日常的な場面では、一般ユーザーにおけるこれらの高度なAI能力への認識は依然として限定的である。我々は、現在の評価基準がタスクの難易度向上を優先する一方で、広範な層の日常的な仕事、生活、学習活動をカバーするために必要な、エージェントタスクの多様性に十分に対処できていないと主張する。この問題に対処するため、我々はAgentIF-OneDayを提案する。これは、一般ユーザーが自然言語による指示とAIエージェントを利用して、多種多様な日常タスクを完了できるかどうかを判断することを目的としている。これらのタスクは、対話を通じて問題を解決するだけでなく、様々な種類の添付ファイルを理解し、具体的なファイルベースの結果を提供することを要求する。本ベンチマークは、ユーザー中心の3つのカテゴリを中心に構成されている:明示的かつ複雑なワークフローへの準拠を評価する「オープンワークフロー実行」、添付ファイルから暗黙の指示を推論することを要求する「潜在指示」、進行中の作業を修正または拡張することを含む「反復的な改良」である。我々は、インスタンスレベルの評価基準と、LLMベースの検証と人間の判断を一致させる改良された評価パイプラインを採用し、Gemini-3-Proを使用して80.1%の一致率を達成した。AgentIF-OneDayは、767の評価ポイントをカバーする104のタスクで構成される。我々は4つの主要な汎用AIエージェントをベンチマークし、APIベースで構築されたエージェント製品と、エージェントRLベースのChatGPTエージェントが同時に第一階層に留まっていることを発見した。主要なLLM APIとオープンソースモデルはエージェント機能を内包しており、AIアプリケーションチームが最先端のエージェント製品を開発することを可能にしている。
LLMベースのエージェントが現実世界の複雑な環境に導入されるにつれ、既存のベンチマークは、グローバル制約の強制、複数ツールを用いた推論の調整、長いマルチターン対話におけるユーザー行動の変化への適応といった重要な課題を十分に反映できていない。このギャップを埋めるため、現実的な旅行計画シナリオに基づく長期的視野のベンチマーク「TRIP-Bench」を提案する。TRIP-Benchは実世界のデータを活用し、厳選された18のツールと40以上の旅行要件を提供し、自動評価をサポートする。難易度別の分割を含み、特に難易度の高い分割では、長く曖昧な対話、スタイルの変化、実現可能性の変更、反復的な計画の修正に重点を置いている。対話は最大15ユーザーターンに及び、150回以上のツール呼び出しを含み、コンテキストが20万トークンを超える場合もある。実験では、先進的なモデルであっても、容易な分割でせいぜい50%の成功率に留まり、難しい部分集合では性能が10%未満に低下することが示された。さらに、専門的な報酬正規化と報酬差分を備えたオンライン多ターン強化学習手法「GTPO」を提案する。Qwen2.5-32B-Instructに適用したGTPOは、制約充足性と対話の堅牢性を向上させ、我々の評価においてGemini-3-Proを上回った。TRIP-Benchが実用的な長期的対話型エージェントの進展に、GTPOが堅牢な長期的訓練のための効果的なオンラインRL手法として貢献することを期待する。
Flow matchingモデル(FM)はテキストから画像への生成(T2I)において革命をもたらし、強化学習(RL)は報酬目標との整合性を図る重要な学習後戦略として機能している。本研究では、FM向けの現在のRLパイプラインが、十分に評価されていないながらも重要な2つの限界、すなわち生成多様性の不足に起因するサンプル非効率性と、顕著なプロンプト過学習(モデルが特定の訓練用プロンプト表現を記憶し、意味的に等価だが文体的に異なるプロンプトで評価すると性能が劇的に低下する現象)に悩まされていることを示す。我々はPromptRL(フローベース画像生成のためのRLにおけるプロンプトの重要性)を提案する。これは、言語モデル(LM)を訓練可能なプロンプト改良エージェントとして、フローベースのRL最適化ループ内に直接組み込むフレームワークである。この設計は、洗練されたプロンプト書き換え能力の迅速な開発と、より重要な点として、最適化ダイナミクスを再形成する相乗的な訓練体制という、2つの相補的利点をもたらす。PromptRLは複数のベンチマークでState-of-the-Art性能を達成し、GenEvalで0.97、OCR精度で0.98、PickScoreで24.05のスコアを獲得した。 さらに、我々のRLアプローチの有効性を大規模画像編集モデルにおいて検証し、FLUX.1-KontextのEditRewardを僅か6万回のロールアウトで1.19から1.43に改善した。これは1.37のスコアを持つGemini 2.5 Flash Image(別名Nano Banana)を上回り、微細なデータアノテーションと複雑な多段階訓練に依存するReasonNet(1.44)と同等の性能を達成している。我々の大規模な実験は、PromptRLが、単純なフローモデルのみのRLと比較して、2倍以上少ないロールアウト数で、一貫して高い性能上限を達成することを実証的に示している。コードはhttps://github.com/G-U-N/UniRL で公開されている。
スパースオートエンコーダ(SAE)は、ニューラルネットワークの表現を辞書アトムのスパースな線形結合に分解することで、その解釈を可能とする手法として注目されている。しかし、SAEは特徴量が線形再構成によって加算的に結合されると仮定しており、この仮定では合成的な構造を捉えることができない。すなわち、線形モデルは「Starbucks」という表現が「star」と「coffee」の特徴量の合成によって生じるのか、単に両者の共起によるものなのかを区別できない。このため、SAEは複合概念に対して解釈可能な構成要素への分解ではなく、一枚岩的な特徴量を割り当てることを余儀なくされる。本研究では、解釈可能性に不可欠な線形エンコーダを維持しつつ、特徴量間の相互作用をモデル化するために高次項をデコーダに追加したPolySAEを提案する。共有された射影部分空間上での低ランクテンソル分解を通じて、PolySAEはペアワイズおよびトリプルの特徴量相互作用をわずかなパラメータオーバーヘッド(GPT2では3%)で捉える。4つの言語モデルと3つのSAE変種を用いた実験において、PolySAEは再構成誤差を同等に維持しながら、プロービングF1スコアで平均約8%の改善を達成し、クラス条件付き特徴量分布間のワッサーシュタイン距離を2~10倍大きくした。決定的には、学習された相互作用の重みは共起頻度との相関が無視できるほど小さく(相関係数r = 0.06、対してSAEの特徴量共分散ではr = 0.82)、多項式項が表面的な統計量からほぼ独立して、形態素的結合や句の構成といった合成的構造を捉えていることが示唆される。
大規模推論モデル(LRM)は、難易度の高い競技レベルの問題を学習データとして用いることで、その性能が大幅に向上する。しかし、既存の自動問題生成手法は、難易度を精密に制御できない、計算コストが高い、競技レベルの問題を大規模に生成するのが困難である、といった課題を抱えている。本論文では、CoDiQ(Controllable Difficult Question Generation)という新しいフレームワークを提案する。これは、テスト時スケーリングによるきめ細かい難易度制御を可能にするとともに、問題の解決可能性を保証するものである。具体的には、まず、テスト時スケーリングの傾向(推論トークン予算の拡大は難易度を高めるが解決可能性を低下させる)と、有効な高難度問題を生成するモデル能力の上限を定義する内在的特性を明らかにする。次に、Qwen3-8Bを基盤としたCoDiQ-Generatorを開発し、難問生成の上限を引き上げることで、特に挑戦的な問題の構築に適したモデルを実現する。CoDiQフレームワークに基づき、我々はCoDiQ-Corpus(競技級の問題シーケンス44K件)を構築した。人間による評価では、これらの問題がLiveCodeBenchやAIMEよりも有意に難易度が高く、かつ82%以上の解決可能性を有することが示された。CoDiQ-CorpusでLRMを学習させることで、推論性能が大幅に向上し、制御された難易度の学習データをスケールさせることが推論能力の強化に有効であることが検証された。関連研究の発展を支援するため、CoDiQ-Corpus、CoDiQ-Generator、および実装コードを公開する。
ストリーミング環境における現代的な音声言語モデル(SpeechLM)の導入には、低遅延、高スループット、および強力なストリーミング性の保証を提供するシステムが求められる。既存のシステムは、多様なモデルを柔軟かつ効率的にサポートする点で不十分である。本研究では、SpeechLMのストリーミング性能を最適化する統合サービスシステム、VoxServeを提案する。VoxServeは、モデルアーキテクチャとシステムレベルの最適化を分離するモデル実行抽象化を導入し、単一フレームワーク内で多様なSpeechLMアーキテクチャのサポートを可能にする。この抽象化に基づき、VoxServeはストリーミングを意識したスケジューリングと非同期推論パイプラインを実装し、エンドツーエンドの効率改善を図っている。複数の現代的なSpeechLMを用いた評価により、VoxServeは同等の遅延において既存の実装比で10~20倍高いスループットを達成しつつ、優れたストリーミング実現性を維持することを示した。VoxServeのコードはhttps://github.com/vox-serve/vox-serve で公開されている。
クエリベースのユニバーサル音源分離は、混合音から特定の音源を分離することを目的とした、知能型聴覚システムの基盤技術である。近年の進展にもかかわらず、既存手法は複雑な音響環境において残留干渉に悩まされ続けている。この性能限界は、主にデータボトルネックに起因する:実世界データセットには弱いラベル付けや事象の重度の共起が含まれており、モデルが頑健な音響特徴ではなく背景雑音と目標カテゴリ間の擬似相関を学習する原因となっている。この問題に対処するため、我々は意味論的一貫性のある合成プロトコルにより実世界データセットから高純度単一事象セグメントをマイニングし、事象の共起を排除する自動化パイプラインを提案する。このパイプラインを利用し、2,400時間の生音声から構成される高品質合成データセットHiveを構築した。実験結果により、Hiveの500倍規模の大規模データセットで学習された最新モデルSAM-Audioと比較して、Hiveで学習した特定のオープンソースモデルが競争力のある分離精度と知覚品質を達成することが実証された。さらに、これらのモデルは分布外評価ベンチマークにおいて顕著なゼロショット一般化能力を示した。これらの知見は、教師信号の純度を優先することがデータ効率の大幅な向上を可能にし、計算コストを削減して頑健な聴覚基盤モデルを訓練する新たなパラダイムを提供することを強調する。コードとデータセットはhttps://shandaai.github.io/Hiveで公開されている。
マルチモーダル大規模言語モデル(MLLM)は、特に高解像度および映像ベースのシナリオにおいて、過剰な視覚トークンにより高い計算コストが課題となっている。既存のトークン削減手法は、個別のパイプライン構成要素に焦点を当てることが多く、テキストとの整合性を軽視しがちで、性能低下を招く場合がある。本論文では、トレーニング不要のMLLM高速化のための統一フレームワーク「VisionTrim」を提案する。本フレームワークは、以下の2つの効果的なプラグアンドプレイモジュールを統合している:1)大域的・局所的視点から本質的な視覚トークンを保持するDominant Vision Token Selection(DVTS)モジュール、2)テキストの手がかりに基づく文脈を考慮したトークン統合を促進するText-Guided Vision Complement(TGVC)モジュールである。多様な画像・映像マルチモーダルベンチマークによる大規模な実験により、我々のVisionTrimが性能優位性を有し、実世界アプリケーションにおける実用的なMLLM展開を推進することを実証した。コードはhttps://github.com/hanxunyu/VisionTrim で公開されている。
ワールドモデルは環境ダイナミクスの内部表現を学習し、エージェントが計画・予測・推論などのタスクにおいて、コンパクトな潜在空間内で未来状態のシミュレーションと推論を可能にする。しかし、ワールドモデルの運用には高い計算コストとメモリ使用量が伴うため、効率的なデプロイにはモデル量子化が不可欠である。これまで、学習後量子化(PTQ)がワールドモデルに与える影響はほとんど検証されていなかった。本研究では、代表的な事例としてDINO-WMを用いたワールドモデル量子化の体系的実証研究を実施し、重みのみの量子化と重み・活性化の同時量子化という異なる設定下で多様なPTQ手法を評価する。様々なビット幅、量子化粒度、最大50ステップに及ぶ計画ホライズンにおいて、異なる視覚的計画タスクで広範な実験を行った。結果として、ワールドモデルにおける量子化の影響は従来の精度とビット幅のトレードオフを超えることが明らかになった:グループ単位の重み量子化は低ビットのロールアウトを安定化し、活性化量子化の粒度は一貫しない効果をもたらし、エンコーダと予測モジュール間で量子化感度が非対称性を示す。さらに、過度な低ビット量子化は計画目標とタスク成功率の整合性を著しく損ない、追加の最適化では回復不能な失敗を引き起こす。これらの知見は、ワールドモデルベースの計画における量子化に特有の失敗モードを明らかにし、計算制約が厳しい環境下での量子化ワールドモデルデプロイの実践的指針を提供する。コードはhttps://github.com/huawei-noah/noah-research/tree/master/QuantWM で公開予定である。
大規模言語モデル(LLM)は、プロンプティングを介した参照不要評価器として広く利用されているが、この「LLM-as-a-Judge」パラダイムは、コストが高く、不透明で、プロンプト設計の影響を受けやすいという問題を抱えている。本研究では、より小規模なモデルが、表層的な生成ではなく内部表現を活用することで、効率的な評価器として機能し得るかを検証する。我々は一貫した経験的パターンを発見した:生成能力が弱い小規模LMであっても、その隠れ状態には豊富な評価信号が符号化されている。この発見は、「意味的能力の非対称性仮説」を提唱する動機となった:評価には生成よりも遥かに少ない意味的能力で十分であり、中間表現に基づいて行うことが可能である。つまり、評価は必ずしも大規模生成モデルに依存する必要はなく、小規模モデルの潜在特徴を活用できることを示唆する。本知見は、「LLM-as-a-Judge」から「Representation-as-a-Judge」へ、つまりプロンプトによる出力に依存するのではなく、内部モデル構造を探る脱デコード評価戦略へのパラダイム転換を促すものである。我々はこのパラダイムを、小規模モデルの表現からアスペクトレベルの評価スコアを予測するプロービングベースのフレームワークであるINSPECTORとして具体化した。推論ベンチマーク(GSM8K、MATH、GPQA)における実験では、INSPECTORがプロンプトベースの小規模LMを大幅に上回り、完全なLLM評価器に匹敵する精度を達成しつつ、拡張可能な評価のためのより効率的で信頼性が高く解釈可能な代替手段を提供することが示された。
エージェンシック大規模言語モデルに期待される自律性は、単なる正確な回答を超え、目標を設定し探索対象を決定する自律性を要求する。我々はこれを「探査的知能」と定義し、割り当てられた課題を遂行するのみの「実行的知能」と区別する。データサイエンスは理想的な試験場となる。現実世界の分析は明示的なクエリではなく生データから開始されるにもかかわらず、これを焦点としたベンチマークは少ない。この問題に対処するため、LLMがデータベースから自律的に主要な洞察を抽出するオープンエンド課題「Deep Data Research(DDR)」と、検証可能な評価を実現する大規模チェックリスト型ベンチマーク「DDR-Bench」を提案する。評価結果から、先進モデルには萌芽的なエージェンシーが認められるものの、長期的な探索は依然として課題であることが明らかになった。効果的な探査的知能は、エージェント基盤の構築や単純なスケーリングのみならず、エージェンシックモデル固有の戦略に依存することを分析により示唆する。
大規模視覚言語モデル(LVLM)は単一画像タスクにおいて強力な性能を発揮するが、複数の画像が入力されると性能が低下する。主な原因の一つは、モデルが異なる画像間の情報を区別するのに苦労する「画像間情報漏洩」である。既存のLVLMでは各画像の開始と終了を区切るデリミタトークンが採用されているが、我々の分析によれば、これらのトークンは画像間情報漏洩を効果的に遮断できていない。その効果を高めるため、我々はデリミタトークンの隠れ状態をスケーリングする手法を提案する。これにより、画像内相互作用を強化し、望ましくない画像間相互作用を抑制することで、画像固有の情報を保持するモデルの能力が向上する。その結果、モデルは画像をより明確に区別し、より正確に推論できるようになる。Mantis、MuirBench、MIRB、QBench2といった複数画像ベンチマークでの性能向上が実験により示されている。さらに、明確な区別を要するテキストのみのタスクでも本手法を評価した。TQABench、MultiNews、WCEP-10を含む複数文書・複数表理解ベンチマークにおいて性能向上が認められる。特筆すべきは、本手法が追加の学習や推論コストを一切必要としない点である。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる大きな可能性を示している。しかし、RLVRプロセスで提供される情報量が限られているため、モデルはほぼ盲目的な探索しか行えず、困難な問題では失敗することが多い。教師モデルに依存せずにRLVRプロセスに追加情報を提供するため、我々はRLVRの効果を高める適応的能力分解手法A^2Dを提案する。具体的には、まず蒸留なしのRLVRによって分解器を訓練し、複雑な問題をより単純な副問題の集合へ分解できるようにする。次に、この分解器を用いて訓練データセットの各問題に対して副問題を注釈付けし、副問題の指導付きRLVRで推論器を訓練する。A^2Dの理解を深めるため、まず競合するベースラインとの性能比較を行い、その有効性を示す。次に、本手法が異なるRLVRアルゴリズムに適用可能なプラグ・アンド・プレイモジュールとして機能することを確認する。さらに、分解器の分析を通じて、RLVRプロセスがその性能と挙動にどのように影響するか、またどのタイプの指導が推論器の探索・利用能力の向上により適しているかを明らかにする。
マルチビューRGB画像からの3Dラインマッピングは、シーンをコンパクトかつ構造化された視覚的表現として提供する。本論文ではこの問題を物理的・位相幾何学的観点から考察する:3D線は、有限の3D平面パッチのエッジとして最も自然に発生する。我々は、学習可能な線および平面プリミティブを明示的にモデル化する線-平面共同最適化フレームワーク「LiP-Map」を提案する。この結合により、高い効率性を維持しつつ(典型的にシーンごとに3~5分で再構築を完了)、正確で詳細な3Dラインマッピングを実現する。LiP-Mapは、平面の位相幾何学を3Dラインマッピングに統合する先駆的な手法であり、ペアワイズ共面性制約を課すのではなく、平面プリミティブと線プリミティブ間の相互作用を明示的に構築することで、人工環境における構造化された再構築への原理的な道筋を提供する。ScanNetV2、ScanNet++、Hypersim、7Scenes、Tanks&Templeの100シーン以上において、LiP-Mapは既存の最先端手法を精度と完全性の両面で上回った。さらに、ラインマッピングの品質を超えて、LiP-Mapは線支援視覚的ローカリゼーションを大幅に進展させ、7Scenesにおいて強力な性能を確立した。再現可能な研究のため、コードはhttps://github.com/calmke/LiPMap で公開している。
近年の研究では、層プルーニングにより大規模言語モデル(LLM)を圧縮し、微調整をほとんどあるいは全く行わなくても分類ベンチマークで高い性能を維持できることが示されている。しかし、既存のプルーニング技術は、生成的推論タスクにおいて著しい性能劣化に悩まされることが多い。複数のモデルファミリーにわたる系統的な研究を通じて、多段階の推論を必要とするタスクが深さの削減に特に敏感であることを明らかにする。表面的なテキストの質の低下を超えて、数学的推論における算術計算やコード合成における括弧のバランス生成といった、重要なアルゴリズム的能力の劣化が観察される。事前学習規模のデータや計算資源にアクセスできない、現実的な学習後制約下において、自己生成応答を用いた教師あり微調整に基づく単純な軽減策を評価する。このアプローチは、分類タスクにおいてベースライン性能の最大90%を維持する強力な回復を達成し、従来のプルーニング後技術と比較して生成的ベンチマークで最大20~30パーセントポイントの大幅な改善をもたらす。決定的な点は、これらの改善にもかかわらず、生成的推論の回復は分類タスクに比べて根本的に限界があり、主に低いプルーニング比率でのみ有効であることである。全体として、生成的推論における層プルーニングの実用的限界を明らかにし、制約のある学習後環境において深さ削減を効果的に適用できる条件に関する指針を提供する。
知識蒸留は、大規模な教師モデルから効率的な学生モデルへ推論能力を転送する有望な手法である。しかし、既存のトークンレベルの方策オン型蒸留手法では、学生モデルと教師モデルのトークンレベルでの整合性が要求されるため、学生モデルの探索能力が制限され、インタラクティブな環境フィードバックの効果的な利用が妨げられ、強化学習における深刻なメモリボトルネックが生じる。本研究では、On-policy Verbal Distillation(OVD)を提案する。これは、教師モデルからの離散的な言語評価スコア(0〜9)を用いたトークンレベルの確率マッチングを軌道マッチングに置き換える、メモリ効率の高いフレームワークである。OVDは、メモリ消費量を劇的に削減しつつ、言語的フィードバックを伴う教師モデルからの方策オン型蒸留を可能にし、トークンレベルの整合性を必要としないため、学生モデルが出力空間を自由に探索できる。Web質問応答および数学的推論タスクにおける大規模な実験により、OVDが既存手法を大幅に上回り、Web Q&Aタスクでは平均EMで最大12.9%の絶対改善を、数学ベンチマークでは(ランダムサンプル1つのみで学習した場合)最大25.7%の向上を達成し、さらに優れた学習効率を示すことが確認された。プロジェクトページはhttps://OVD.github.ioで公開されている。
推論時計算は、大規模言語モデル(LLM)の推論能力を向上させる実用的な手法として再び注目を集めている。ほとんどのテスト時スケーリング(TTS)アルゴリズムは自己回帰的なデコーディングに依存しているが、この手法は系列全体を並列にデコードする離散拡散言語モデル(dLLM)には不向きである。その結果、dLLMの生成能力を最大限に引き出す効果的かつ効率的なTTS手法の開発は、未開拓の課題として残されている。この問題に対処するため、我々はdLLM向けの効率的なTTSフレームワークであるPrism(Pruning, Remasking, and Integrated Self-verification Method)を提案する。Prismは、(i) ノイズ除去プロセスの初期から中期にかけて計算リソースを動的に刈り込み再配分する階層的軌道探索(HTS)を実行し、(ii) 高信頼度トークンを保持しつつ多様な実装を探索するための部分リマスキングを伴う局所分岐を導入し、(iii) 外部検証器を、中間生成結果に対する自己評価プロンプトを通じて得られる自己検証フィードバック(SVF)で置き換える。LLaDA 8B Instruct、Dream 7B Instruct、LLaDA 2.0-miniを含む3つのdLLMと4つの数学推論・コード生成ベンチマークにおいて、我々のPrismは良好な性能と効率性のトレードオフを達成し、Best-of-N性能を大幅に少ない関数評価回数(NFE)で実現した。コードはhttps://github.com/viiika/Prismで公開されている。
大規模言語モデル(LLM)は人工知能における重要な進展となっているが、その学習に必要なハードウェアと計算コストも著しく負担が大きい。現状の最先端オプティマイザにおいて、AdamWは対角曲率推定に依存し構造的性質を無視する一方、Muonは曲率情報を失う代償として大域的なスペクトル正規化を適用する。本研究では、従来の多様体最適化手法が大規模モデル最適化における性能の低さからほぼ顧みられてこなかった状況を再検討し、両オプティマイザの限界を同時に解決し得る多様体最適化手法をLLM学習に適用する。モデルパラメータの接空間へ運動量を投影し、回転的斜交多様体上で制約するという革新的アプローチにより、多様体最適化と現代的なオプティマイザの性能差を初めて埋める新規で強力かつ効率的なオプティマイザ**Mano**を提案する。LLaMAおよびQwen3モデルを用いた大規模実験により、Manoがメモリ消費量と計算複雑性の両面でそれぞれ優れつつ、AdamWおよびMuonを一貫して有意に上回る性能を示すことを実証し、空間・時間効率におけるパレートフロンティアの拡大を示唆する。
拡散Transformerは動画・画像生成の基盤技術であるが、その効率は注意機構の二次計算量によって制約されている。ブロック疎注意は重要キー・バリューブロックのみを対象に計算を加速するが、高疎密度では文脈情報を破棄するため性能劣化が生じる。本研究では、非重要ブロックの注意スコアが分布的安定性を示し、破棄ではなく高精度かつ効率的に近似可能であることを発見した。この知見に基づき、我々は部分二次計算量で全注意範囲をカバーする学習不要の手法PISA(Piecewise Sparse Attention)を提案する。従来の重要度判定に基づく破棄方式とは異なり、PISAは正確計算と近似計算を組み合わせた新戦略を採用する:重要ブロックには厳密計算を適用し、残余ブロックはブロック単位のテイラー展開で効率的に近似する。これによりPISAは完全注意の高品質性を維持しつつ、速度と品質の両立を実現する。実験では、Wan2.1-14Bで1.91倍、Hunyuan-Videoで2.57倍の高速化を達成し、疎注意手法中最も高い品質を維持した。画像生成タスク(FLUX)においても視覚品質を損なわず1.2倍の加速を実証している。コードはhttps://github.com/xie-lab-ml/piecewise-sparse-attention で公開中。
我々は、表現の幾何学的構造とニューラルネットワークの性能との関係を調査する。13のアーキテクチャファミリーに属する52の事前学習済みImageNetモデルを分析し、教師なしの幾何学的指標である有効次元が精度を強く予測することを示す。モデル容量を統制後、出力有効次元は偏相関係数r=0.75(p < 10^(-10))を示し、総圧縮率は偏相関係数r=-0.72を示した。これらの知見はImageNetとCIFAR-10で再現され、NLPへ一般化される:有効次元は、SST-2/MNLIにおける8つのエンコーダモデル、AG Newsにおける15のデコーダのみのLLMの性能を予測し(r=0.69, p=0.004)、一方でモデルサイズは予測しない(r=0.07)。双方向の因果関係を確立する:ノイズによる幾何学的構造の劣化は精度低下を引き起こし(r=-0.94, p < 10^(-9))、PCAによる幾何学的構造の改善はアーキテクチャ間で精度を維持する(分散95%時-0.03pp)。この関係はノイズの種類に依存しない——ガウスノイズ、一様ノイズ、ドロップアウト、塩胡椒ノイズの全てが|r| > 0.90を示す。これらの結果は、有効次元がラベルを一切用いずに計算され、ニューラルネットワーク性能に関するドメイン非依存的な予測情報と因果情報を提供することを示す。
強化学習は大規模言語モデルのポストトレーニングにおいて中心的な役割を果たすようになったが、主流のアルゴリズムはスケール時に最適化上の問題(勾配消失領域、報酬ハッキング、訓練不安定性など)を引き起こすクリッピング機構に依存している。本研究では、ヒューリスティックなクリッピングを、Total Variationダイバージェンス制約から導出された凸二次ペナルティに置き換えるClipping-Free Policy Optimization(CFPO)を提案する。これにより、ハードな境界を設けることなく安定した方策更新を強制し、至る所で微分可能な目的関数が得られる。CFPOを推論とアライメント設定の両方で評価した。推論タスクでは、CFPOは下流ベンチマークにおいてクリッピングベースの手法と同等の性能を達成しつつ、安定した訓練領域を拡大する。アライメントタスクでは、CFPOは冗長性の悪用を軽減し、能力劣化を抑制しながら、競争力のある指示追従性能を実現する。CFPOはわずか一行のコード変更のみで必要とし、追加のハイパーパラメータを必要としない。我々の結果は、CFPOがLLMポストトレーニングにおけるクリッピングベース手法の有望な代替手段であることを示唆している。
既存のツール統合理論(TIR)モデルは、外部ツールを組み込むことでLLMの質問応答能力を効果的に拡張してきた。しかし、現実世界のシナリオでは、固定化されたツールでは課題要求を満たせないオープンエンドな問題が数多く存在する。さらに、自己最適化メカニズムの欠如により、ツールの誤った出力がLLMの応答を誤誘導する可能性がある。加えて、既存ツールの構築には多大な手作業が必要であり、結果として適用範囲が制限されている。LLMの推論軌跡が暗黙的な問題解決能力を内包していることに着目し、本論文ではUCTを提案する。これはエージェントをツール利用者からツール創造者へと転換する、訓練不要の新規フレームワークである。このアプローチは推論経験を収穫し、再利用可能な資産へと蒸留する。推論過程において適応的なツール作成と自己更新を可能とし、単なるツール利用者からツール創造者への変革をもたらす。さらに、ツールライブラリを維持するための記憶統合メカニズムを導入し、保持された経験的記憶の後続推論課題への高い再利用性を保証する。この新規の自動ツール構築パラダイムは、推論中にツール品質を継続的に改善し、追加の訓練なしでエージェントシステム全体を進化させる。大規模実験により、本手法がTIRモデルの能力強化における新たなパラダイムとして機能することを実証した。特に、複数領域の数学的・科学的推論課題におけるベンチマークで達成された顕著な性能向上(+20.86%↑および+23.04%↑)は、エージェントの自己進化能力を裏付けている。
現実世界におけるAIアライメントにおいて、文化的に意識したセーフガードは極めて重要である。安全性は共通認識を超え、多様な地域の価値観、規範、地域特有の規制を含むからだ。しかし、大規模で文化的に根差したデータセットの構築は、リソースの制約や母語話者のアノテーター不足により困難である。その結果、多くのセーフガードモデルは英語データセットの機械翻訳に依存しており、地域や文化のニュアンスを見落としがちだ。本研究では、東南アジア(SEA)向けの真正で地域特化的な安全性データセットを拡張性高く生成する、新しいエージェント型データ生成フレームワークを提案する。この基盤の上に、SEAの文化的文脈に根差した初の多言語セーフガードモデルファミリーであるSEA-Guardを開発した。複数のベンチマークと文化的バリエーションによる評価では、SEA-Guardは地域的に敏感または有害なコンテンツの検出において既存のセーフガードを一貫して上回り、強力な一般的安全性性能も維持した。
強化学習は大規模言語モデルの推論能力を強化するが、ロールアウト集約的な最適化により高い計算コストを伴うことが多い。オンラインでのプロンプト選択は、情報量の多いプロンプトを優先的に扱うことで学習効率を向上させる有望な解決策である。しかし、既存手法は高コストな厳密評価に依存するか、プロンプト間での汎化性に欠けるプロンプト特化の予測モデルを構築するにとどまっている。本研究では、共有された最適化履歴で学習した軽量生成モデルを用いてプロンプト難易度に関するベイズ推論を行う一般化可能な予測的プロンプト選択法(GPS)を提案する。中程度の難易度を優先し、履歴に基づく多様性をバッチ取得原理に組み込むことで、情報量豊富なプロンプトバッチを選択する。この小型予測モデルはテスト時にも汎化し、効率的な計算資源配分を実現する。様々な推論ベンチマークにおける実験により、GPSが優れたベースライン手法を上回る学習効率、最終性能、テスト時効率の大幅な改善をもたらすことが示された。
序文. AI倫理は、アクターやステークホルダーグループによって異なる枠組みで捉えられている。本稿ではOpenAIを事例研究とし、倫理的AIに関する言説を分析した結果を報告する。手法. 本研究は以下の問いに答えるものである:「時間の経過とともに、OpenAIの公的言説は『倫理』『安全性』『アラインメント』及び関連概念をどのように活用してきたか、またその言説は実践における枠組みについて何を示唆しているか?」一般向けコミュニケーションと学術的コミュニケーションを区別した構造化コーパスを公開文書から構築した。分析. 倫理的テーマの質的內容分析では、帰納的に導出されたコードと演繹的に適用されたコードを組み合わせた。量的分析では、自然言語処理による計算的內容分析手法を活用し、トピックをモデル化し、レトリックの時間的変化を定量化した。集計結果は可視化して報告する。再現性確保のため、コードをhttps://github.com/famous-blue-raincoat/AI_Ethics_Discourseで公開している。結果. 結果は、安全性とリスクに関する言説がOpenAIの公的コミュニケーションと文書化を支配しており、学術界やアドボカシー団体の倫理フレームワークや用語が適用されていないことを示唆している。結論. ガバナンスへの示唆と併せて、産業界におけるエシックスウォッシング(倫理ごまかし)の実践について考察する。
大規模言語モデル(LLM)は、エージェントの性能評価を行う審判役として、特に検証不可能な環境下でますます利用されるようになっている。このような環境では、連鎖思考(CoT)推論を含むエージェントの軌跡に基づいて判断が行われる。このパラダイムは、エージェントのCoTがその内部推論と基盤となる環境状態の両方を忠実に反映しているという暗黙の前提に立っている。本研究では、この前提が脆弱であることを示す。LLM審判は、エージェントの推論トレースが操作されることに極めて敏感なのである。エージェントの行動と観測を固定したまま、体系的にCoTを書き換えることで、多様なWebタスクにわたる800の軌跡において、操作された推論のみによって、最先端のVLM審判の偽陽性率が最大90%も膨れ上がることを実証する。我々は、推論の表現のみを変更するスタイルベースの手法と、タスクの進捗を示す信号を捏造するコンテンツベースの手法にわたる操作戦略を検討し、コンテンツベースの操作が一貫してより効果的であることを見出した。プロンプトベースの手法と、審判時の計算リソースのスケーリングを評価したが、これらは操作への感受性を軽減するものの、完全には排除しなかった。我々の発見は、LLMベースの評価における根本的な脆弱性を明らかにし、観測可能な証拠に対して推論の主張を検証する審判メカニズムの必要性を浮き彫りにする。
現代の深層学習ベースの画像修復技術は、局所的な画像操作を高精細に実現し、信頼性の高い検出に重大な課題を提起している。しかし、現在の検出器は主に、修復の副作用として現れる大域的なアーティファクトに依存しており、局所的に合成されたコンテンツ自体には着目していないことが分かる。この現象は、VAEベースの再構成が、未編集領域を含む画像全体にわたり、微妙ながらも遍在するスペクトルシフトを誘発するために生じることを明らかにする。この効果を分離するため、編集領域外の元の画素を復元しつつ、すべての合成コンテンツを保持する操作であるInpainting Exchange(INP-X)を提案する。本現象を評価するため、実画像、修復画像、交換画像を含む90Kのテストデータセットを構築した。この介入条件下では、商用モデルを含む事前学習済みの最先端検出器は、精度が劇的に低下し(例:91%から55%へ)、しばしば偶然レベルに近づく。この挙動を、VAEの情報ボトルネックが引き起こす高周波数減衰に関連付ける理論的分析を提供する。我々の発見は、コンテンツを意識した検出の必要性を浮き彫りにする。実際、本データセットで学習したモデルは、標準的な修復データを用いた場合よりも優れた汎化性能と位置特定精度を示す。データセットとコードはhttps://github.com/emirhanbilgic/INP-Xで公開している。
マルチエージェントシステムは、科学発見の自動化における強力なパラダイムとして登場している。マルチエージェントシステム内のエージェントの振る舞いを差別化するために、現在のフレームワークでは通常、「査読者」や「執筆者」といった汎用的な役割ベースのペルソナを割り当てるか、あるいは粗いキーワードベースのペルソナに依存している。これは機能的ではあるが、独自の研究軌跡によって形成される貢献を行う人間の科学者の働き方を過度に単純化している。この問題に対処するため、我々はINDIBATORを提案する。これは、エージェントを個別化された科学者プロファイルに基づかせる分子発見のフレームワークであり、このプロファイルは、文献由来の知識のための出版履歴と、構造的な事前知識のための分子履歴という二つのモダリティから構築される。これらのエジェントは、提案、批評、投票の段階を経て多段階の議論を行う。評価の結果、この細粒度な個別性に基づくエージェントは、粗粒度なペルソナに依存するシステムを一貫して上回り、競争力のある、あるいは最先端の性能を達成することが実証された。これらの結果は、高品質な発見のためには個々のエージェントの「科学的DNA」を捉えることが不可欠であることを裏付けている。
汎用オープンドメイン高密度検索システムは、通常、多様なコーパスと検索タスクの大規模な混合データで学習されます。これらの多様なコーパスとタスクを学習用にどのようにサンプリングすべきでしょうか?従来のアプローチでは、インスタンス数の規模に比例した均一サンプリング、または人間レベルの専門家による監督に依存していました。学習データのサンプリング戦略がモデル性能に大きく影響することは周知の事実ですが、埋め込みモデルの文脈において最適な戦略を見つける方法は十分に研究されていません。本研究では、Inf-DDSという新しい強化学習駆動型サンプリングフレームワークを提案します。この枠組みは、影響力ベースの報酬信号に導かれて学習データセットの重みを適応的に再調整し、GPU消費量の点ではるかに軽量です。私たちの技術は、ターゲット開発セットにおけるモデル性能を最大化するデータセットを優先的に選択し、サンプリングポリシーを反復的に改良します。テキスト検索タスクの広範な実験により、従来の勾配ベースのサンプリング手法と比較して、検索性能の大幅な向上とより優れた適応性を実証しつつ、GPU計算コストを1.5倍から4倍削減することに成功しました。大規模な学習データセット群において専門家が割り当てた重みから学習を開始した場合でも、多言語bge-m3モデルの学習ではNDCG@10で5.03ポイントの絶対改善を、all-MiniLM-L6-v2の学習ではNDCG@10で0.94ポイントの絶対改善を達成しました。
大規模言語モデル(LLM)の言語間評価では、一般的に2つの変動要因、すなわち真のモデル性能差と測定の不安定性が混同されがちである。本研究では、生成条件を固定し対象言語のみを変化させることで、評価の信頼性を検証する。エストニア語、フィンランド語、ハンガリー語という、形態的に豊かで関連性のあるフィン・ウゴル語族の言語において、同一のパラメータで生成した模擬カスタマーサポート対話を用い、自動評価指標とLLMによる評価スコアリングが、これらの言語間で安定的なモデル順位付けを生み出すかどうかを検証する。少数のエストニア語母語話者による注釈を参照点として用いた結果、体系的的な順位の不安定性が明らかになった。表面的な指標(語彙の多様性、表面的・意味的類似性)は言語間で安定性を維持するが、語用論的判断(一貫性、指示への追従性)では順位の逆転やほぼゼロに近い相関が観察された。生成条件が統制されているため、これらの不一致は真のモデル差ではなく、評価スコアリングが言語間で異なる挙動を示すことを反映している。 この統制された実験設計は診断的プローブとして機能する。同一の生成条件下で安定性を維持できない評価手法は、実用化前の段階で転移の失敗を示すシグナルとなる。我々の知見は、形態的に豊かな言語における談話レベルの評価において、ゼロショットでの評価手法の転移は信頼性が低く、対象言語に特化した人間のベースラインに基づく較正の必要性を示唆するものと言える。再現性を高めるため、統制された生成プロトコル、合成データ、評価フレームワークをhttps://github.com/isaac-chung/cross-lingual-stability-judges で公開する。
本論文は、YOLO26(またはYOLOv26)のデプロイ最適化アーキテクチャとYOLOEのオープン語彙学習パラダイムを統合した、リアルタイムオープン語彙インスタンスセグメンテーションのための統一フレームワーク「YOLOE-26」を提案する。NMS不要のエンドツーエンド設計を特徴とするYOLOv26に基づく本手法は、YOLOファミリーの効率性と決定性を維持しつつ、その能力を閉じた集合認識の範囲を超えて拡張する。YOLOE-26は、畳み込みバックボーンとPAN/FPNスタイルのマルチスケール特徴量集約を採用し、その後エンドツーエンドの回帰ヘッドとインスタンスセグメンテーションヘッドを接続する。主要なアーキテクチャ上の貢献は、固定のクラスロジットをオブジェクト埋め込みヘッドに置き換えた点にあり、分類をテキスト記述、視覚的例、または組み込み語彙から導出されたプロンプト埋め込みとの類似度マッチングとして定式化する。効率的なオープン語彙推論を実現するため、本フレームワークは、オーバーヘッドなしのテキストプロンプティングを可能にする再パラメータ化可能な領域-テキスト調整(RepRTA)、例示誘導セグメンテーションのための意味活性化視覚プロンプトエンコーダ(SAVPE)、およびプロンプト不要推論のためのLazy Region Prompt Contrastを組み込んでいる。全てのプロンプト手法は統一されたオブジェクト埋め込み空間内で動作し、テキストプロンプト、視覚プロンプト、完全自律セグメンテーション間のシームレスな切り替えを可能にする。大規模な実験により、プロンプト有無の両設定において、モデルサイズにわたる一貫したスケーリング挙動と良好な精度と効率性のトレードオフが実証された。訓練戦略は、大規模検出及びグラウンディングデータセットをマルチタスク最適化で活用し、Ultralyticsエコシステムとの完全な互換性を訓練、検証、デプロイの各段階で維持する。総合的に、YOLOE-26は、動的で実世界の環境におけるリアルタイムオープン語彙インスタンスセグメンテーションのための実用的かつスケーラブルなソリューションを提供する。
貯留層コンピューティング(RC)は、時系列処理における効率的なパラダイムとして確立されている。しかし、そのスケーラビリティは、(i) 時系列データを逐次的に処理する必要性、および (ii) 高次元貯留層の膨大なメモリフットプリントによって、深刻に制約されている。本研究では、これらの制限に対処するため、構造化された演算子と状態空間モデリングの観点からRCを再検討し、Parallel Echo State Network(ParalESN)を提案する。ParalESNは、複素空間における対角線形回帰に基づいて、高次元で効率的な貯留層を構築することを可能にし、時系列データの並列処理を実現する。我々は、ParalESNがエコー状態性を保持し、従来のエコー状態ネットワークの普遍性保証を維持するとともに、任意の線形貯留層の等価な表現を複素対角形式で許容することを理論的に分析する。実証的には、ParalESNは時系列ベンチマークにおいて従来のRCの予測精度と同等の結果を示しつつ、計算コストを大幅に削減する。1次元ピクセルレベル分類タスクにおいて、ParalESNは完全に訓練可能なニューラルネットワークと競合する精度を達成し、計算コストとエネルギー消費を桁違いに削減する。全体として、ParalESNは、深層学習の領域内にRCを統合するための、有望でスケーラブルかつ原理に基づいた道筋を提供する。
暗黙的神経表現(INR)は様々な領域で高精度かつ効率的であることが実証されている。本研究では、入力UV座標空間において離散的ではなく連続的に動作する新たなテクスチャINRとして、異なるニューラルネットワークをどのように設計できるかを探求する。詳細な実験を通じて、これらのINRが画像品質の面で優れた性能を発揮し、メモリ使用量とレンダリング推論時間においても良好な結果を示すことを実証する。我々はこれらの目的間のバランスを分析する。さらに、ミップマップフィッティングやINR空間生成など、リアルタイムレンダリングおよび下流タスクにおける様々な関連応用について調査する。
大規模言語モデルは、提供された文脈に忠実でない流暢な回答を生成する可能性があるが、多くの安全策は生成後の外部検証や別個の判定器に依存している。本論文では、固定されたブロック間監視境界における深さ方向のダイナミクスから意思決定形成を監査する内部フロー署名を提案する。本手法は、バイアス中心監視によりトークンレベルの運動を安定化させ、各深度ウィンドウ内の最上位トークンとその競合トークンから構築されたコンパクトな移動読み出し整列部分空間で軌跡を要約する。隣接するウィンドウフレームは直交輸送によって整列され、深度比較可能な輸送ステップ長、回転角、およびウィンドウ内の基底選択に不変な部分空間ドリフト要約を生成する。これらの署名で学習した軽量なGRU検証器は、基盤モデルを変更せずに自己チェックを実行する。検出を超えて、検証器は原因深度イベントを特定し、標的型改良を可能にする:モデルは原因トークンまでロールバックし、直交残差を保持しながら特定されたブロックで異常な輸送ステップをクランプする。結果として得られるパイプラインは、内部意思決定ダイナミクスからの実用的な局所化と低オーバーヘッドな自己チェックを提供する。コードはgithub.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMsで公開されている。
本論文では、注意機構ベースのアーキテクチャにおける視覚モダリティのための放物線ベース位置符号化「Parabolic Position Encoding (PaPE)」を提案する。画像、点群、動画、イベントカメラストリームなどの視覚トークン群が与えられたとき、我々の目的は視覚モダリティの特性を考慮しながらそれらの位置を符号化することである。従来研究は、言語における1次元シーケンスの位置符号化を視覚におけるn次元構造に拡張してきたが、視覚特性を部分的にしか考慮していなかった。我々はこのギャップに対処するため、従来研究から抽出した原理―並進不変性、回転不変性(PaPE-RI)、距離減衰、方向性、文脈認識性―に基づいてPaPEを設計した。4つのモダリティにまたがる8つのデータセットでPaPEを評価した結果、PaPEまたはPaPE-RIが8データセット中7つで最高性能を達成した。ImageNet-1Kでの外挿実験では、PaPEが顕著な外挿性能を示し、次点の位置符号化に対して最大10.5%の絶対精度向上を達成した。コードはhttps://github.com/DTU-PAS/parabolic-position-encoding で公開されている。
LLM-as-a-Judgeは自動評価として広く利用されているが、既存の検証手法は主に観測された出力レベルで行われており、LLM判定器自体が安定した信頼性のある測定器として機能しているかについての知見は限られている。この課題を解決するため、項目反応理論(IRT)に基づく、LLM-as-a-Judgeの信頼性を評価する2段階診断フレームワークを提案する。本フレームワークはIRTの段階反応モデル(GRM)を採用し、信頼性を2つの相補的次元で定式化する:(1)内的整合性(プロンプト変動下での測定行動の安定性として定義)、(2)人間整合性(人間の品質評価との一致度)。本フレームワークを用いて多様なLLM判定器を実証的に検証し、IRT-GRMを活用することで、判断を体系的に診断するための解釈可能な信号が得られることを示す。これらの信号は、LLM-as-a-Judgeの信頼性を検証し、信頼性低下の潜在的要因を特定する実践的な指針を提供する。