翻訳付きの日次キュレーションされたAI研究論文
本報告では、テキスト・画像・動画・音声を横断する統一的なマルチモーダル理解と生成を目的として設計された、ネイティブな自己回帰型基盤モデルERNIE 5.0を紹介する。すべてのモダリティは、モダリティに依存しないエキスパートルーティングを備えた超疎なエキスパートの混合(MoE)アーキテクターに基づき、統一された「次トークングループ予測」目標の下で一から学習される。多様なリソース制約下での大規模展開における実用的課題に対処するため、ERNIE 5.0は新たな弾性訓練パラダイムを採用する。単一の事前学習過程内で、モデルは深度・エキスパート容量・ルーティング疎性が異なる一連のサブモデルを学習し、メモリまたは時間制約のあるシナリオにおいて、性能・モデルサイズ・推遅延の間で柔軟なトレードオフを可能にする。さらに、強化学習の統一基盤モデルへのスケーリング課題を体系的に解決し、超疎MoEアーキテクチャと多様なマルチモーダル設定下での効率的かつ安定した学習後調整を保証する。大規模な実験により、ERNIE 5.0が複数モダリティにわたって強力かつバランスの取れた性能を達成することが実証された。公開されているモデルの中では、ERNIE 5.0がマルチモーダル理解と生成の両方をサポートする初の兆パラメータ規模の統一自己回帰モデルの実用化事例である。研究の発展を促進するため、統一モデルにおけるモダリティ非依存のエキスパートルーティングの詳細な可視化と、弾性訓練に関する包括的な実証分析を提示し、学界に深い洞察を提供することを目指す。
大規模言語モデル(LLM)の展開において、長い入力系列を扱う際の決定的なボトルネックは、Key Value(KV)キャッシュの膨大なメモリ使用量である。このボトルネックに対処するため、トークン剪定パラダイムは注意機構のスパース性を活用し、重要なトークンのみを選択的に保持する。しかし、既存手法には課題がある。静的手法は情報の不可逆的な損失を招くリスクがあり、動的手法はトークン重要性のクエリ依存性を十分に捉えられないヒューリスティックに依存している。我々はFASAを提案する。これは、トークン重要性を動的に予測することで、クエリを意識したトークン排除を実現する新しいフレームワークである。FASAは、RoPEに関する新たな洞察、すなわち「周波数チャンク(FC)レベルでの機能的なスパース性」の発見に基づいている。我々の重要な発見は、ごく少数の「支配的」FCの部分集合が、完全な注意ヘッドと高い文脈的合意性を一貫して示すことである。これは、重要なトークンを特定するための、頑健かつ計算コストゼロの代理指標となる。この洞察に基づき、FASAはまず支配的FCを用いて重要なトークン集合を特定し、その後、この剪定された部分集合に対してのみ集中した注意計算を実行する。KVキャッシュのごく一部のみにアクセスするため、FASAはメモリ帯域幅要件と計算コストを大幅に削減する。系列モデリングから複雑なCoT推論まで、様々な長文脈タスクにおいて、FASAは全てのトークン排除ベースライン手法を一貫して凌駕し、制約のあるバジェット下でも驚異的な頑健性を示しながら、オラクルに近い精度を達成する。特にLongBench-V1では、わずか256トークンの保持で完全KV性能のほぼ100%を達成し、AIME24ではキャッシュの18.9%のみを使用して2.56倍の高速化を実現した。
大規模言語モデル(LLM)の最近の進歩は、単一エージェントがマルチターン推論とツール利用によって長期的な問題を解決する「深度スケーリング」に主眼が置かれてきた。しかし、タスクが広範化するにつれ、主要なボトルネックは個々の能力から組織的な能力へと移行している。本研究では、広範な情報探索に対処するため、マルチエージェントシステムによる「幅スケーリング」という補完的な次元を探求する。既存のマルチエージェントシステムは、手作業で設計されたワークフローとターン制の相互作用に依存することが多く、作業の並列化を効果的に実現できていない。この課題を解決するため、我々はWideSeek-R1を提案する。これはマルチエージェント強化学習(MARL)によって訓練されたリードエージェント-サブエージェントフレームワークであり、スケーラブルなオーケストレーションと並列実行を統合する。共有LLMと分離されたコンテキスト、専門ツールを活用することで、WideSeek-R1は20,000件の精選された広範情報探索タスクデータセットにおいて、リードエージェントと並列サブエージェントを共同で最適化する。大規模な実験により、WideSeek-R1-4BはWideSearchベンチマークで40.0%のアイテムF1スコアを達成し、単一エージェントのDeepSeek-R1-671Bの性能に匹敵することが示された。さらに、WideSeek-R1-4Bは並列サブエージェント数の増加に伴って一貫した性能向上を示し、幅スケーリングの有効性を実証している。
マルチモーダルプロセス報酬モデル(MPRM)は、MLLMにおける視覚的推論のステップ単位監督において中心的な役割を果たす。MPRMの学習には通常、大規模なモンテカルロ(MC)注釈コーパスが必要であり、多大な学習コストが伴う。本論文はMPRM学習のデータ効率性を検討する。予備実験により、MPRMの学習は訓練データのランダム部分抽出では急速に飽和することが明らかとなり、既存のMC注釈コーパスに大幅な冗長性が存在することが示唆された。この現象を説明するため、我々は理論的枠組みを形式化し、情報量の多い勾配更新が二つの要因(正例/負例ステップのラベル混合率と、正例ステップの平均MCスコアで測定されるラベル信頼性)に依存することを明らかにした。これらの知見に基づき、追加コストを伴わずにロールアウトレベルで既存のMC信号から混合率と信頼性の両方を優先するBalanced-Information Score(BIS)を提案する。VisualProcessBenchにおける2つの基盤モデル(InternVL2.5-8BおよびQwen2.5-VL-7B)での実験では、BISで選択された部分データセットが、少量のデータ割合で完全データ性能を達成し、それを上回る結果を一貫して示した。特に、BIS部分セットは訓練データのわずか10%を使用して完全データ性能に到達し、ランダム部分抽出より相対4.1%改善した。
オムニモーダル大規模言語モデル(Omni-LLM)は、音声・映像理解タスクにおいて優れた能力を発揮している。しかし、長いマルチモーダルトークン系列への依存性から、計算コストが大幅に増大するという課題がある。この課題にもかかわらず、Omni-LLM向けに設計されたトークン圧縮手法は限られている。このギャップを埋めるため、我々はOmni-LLMに特化したモダリティ非対称トークン圧縮フレームワーク「OmniSIFT(Omni-modal Spatio-temporal Informed Fine-grained Token compression)」を提案する。具体的には、OmniSIFTは2段階の圧縮戦略を採用する:(i)フレーム内構造とフレーム間重複に起因する映像の冗長性を除去する時空間映像プルーニングモジュール、(ii)音声トークンをフィルタリングする視覚誘導型音声選択モジュールである。フレームワーク全体は微分可能なストレートスルー推定量を用いてエンドツーエンドで最適化される。5つの代表的なベンチマークによる大規模実験により、OmniSIFTの有効性と頑健性が実証された。特にQwen2.5-Omni-7Bでは、OmniSIFTはわずか485万パラメータを追加するだけで、OmniZipのような訓練不要ベースラインよりも低遅延を維持した。元のトークンコンテキストの25%のみを使用する条件下で、OmniSIFTは全ての圧縮ベースラインを一貫して上回り、いくつかのタスクでは全トークンモデルの性能すら凌駕する結果を示した。
本研究では、各フルアテンション層を複数のスパースアテンション層で交互に配置する新たなアーキテクチャ「Hybrid Sparse Attention (HySparse)」を提案する。概念的に単純ながら、HySparseは各スパース層のトークン選択とKVキャッシュを先行するフルアテンション層から戦略的に導出する。このアーキテクチャは、従来のスパースアテンション手法が抱える2つの根本的限界を解決する。第一に、従来手法はトークンの重要度予測に追加の代理指標を必要とすることが多く、複雑性の増加と最適とは言えない性能をもたらしていた。一方HySparseは、フルアテンション層を精密なオラクルとして重要トークンを同定する。第二に、既存のスパースアテンション設計は計算量を削減してもKVキャッシュの節約に至らない場合が多かったが、HySparseはスパースアテンション層でフルアテンションのKVキャッシュを再利用可能にし、計算量とメモリの両方を削減する。HySparseを7Bの密モデルと80BのMoEモデルで評価した結果、全ての設定においてフルアテンション及びハイブリッドSWAベースラインを一貫して上回った。特に総層数49層の80B MoEモデルでは、フルアテンションを適用する層は5層のみながら、KVキャッシュ記憶域を約10分の1に削減しつつ大幅な性能向上を達成している。
ヒューマノイドロボットを実世界環境に展開することは本質的に困難な課題である。部分的な観測情報や動的に変化する環境下で、知覚・移動・操作を緊密に統合する必要があるためだ。さらに、異なる種類のサブタスク間を堅牢に移行する能力も要求される。これらの課題に取り組むため、我々は新しいタスク「EgoActing」を提案する。これは高次元の指示を、多様で精密かつ空間認識を備えたヒューマノイド動作に直接接地することを要求するタスクである。 さらにこのタスクを具体化するため、統一かつスケーラブルな視覚言語モデル「EgoActor」を導入する。本モデルは移動プリミティブ(歩行・旋回・横移動・高さ調整)、頭部動作、操作コマンド、人間-ロボット相互作用を予測し、知覚と実行をリアルタイムで協調させる。実世界デモンストレーションからのエゴセントリックRGBデータ、空間推論QA、シミュレーション環境デモンストレーションによる広範な教師信号を活用することで、EgoActorは文脈を考慮した堅牢な意思決定と1秒未満の流暢な動作推論を、8Bパラメータモデルと4Bパラメータモデルの両方で実現する。 シミュレーション環境と実世界環境の両方における広範な評価により、EgoActorが抽象的なタスク計画と具体的な動作実行を効果的に橋渡しし、多様なタスクや未経験環境への汎化が可能であることが実証された。
オートリグレッシブ動画拡散モデルは急速な進歩を遂げているものの、新たなシステムアルゴリズム上のボトルネックが展開可能性と生成能力の両方を制限している:KVキャッシュメモリ問題である。オートリグレッシブ動画生成モデルでは、KVキャッシュは生成履歴に伴って増大し、GPUメモリを急速に圧迫する。多くの場合30GBを超え、広く利用可能なハードウェアへの展開を妨げている。さらに深刻なのは、制約されたKVキャッシュ予算が実効的な作業メモリを制限し、アイデンティティ・レイアウト・モーションにおける長期的な一貫性を直接的に劣化させる点である。この課題に対処するため、我々はオートリグレッシブ動画拡散モデル向けの学習不要なKVキャッシュ量子化フレームワーク「Quant VideoGen(QVG)」を提案する。QVGはセマンティック対応平滑化による動画の時空間的冗長性を活用し、低振幅で量子化に適した残差を生成する。さらに、段階的残差量子化と呼ばれる粗密多重段階方式を導入し、量子化誤差を低減するとともに、品質とメモリ使用量の滑らかなトレードオフを実現する。LongCat Video、HY WorldPlay、Self Forcingのベンチマークにおいて、QVGは品質とメモリ効率の新たなパレートフロンティアを確立し、KVキャッシュメモリを最大7.0倍削減し、エンドツーエンドの遅延オーバーヘッドを4%未満に抑えつつ、生成品質において既存のベースラインを一貫して上回る性能を示した。
自律的なLLMエージェントの最近の進歩は、環境との反復的な相互作用を通じて性能を向上させる能力を示している。我々はこのパラダイムをテスト時改善(TTI)と定義する。しかし、TTIが成功または失敗するメカニズムについては未解明の部分が多く、既存の評価指標は、タスク最適化効率、誤った行動後の行動適応、タスク完了のための作業記憶の具体的効用を捉えられていない。これらの課題を解決するため、我々はテスト時改善診断評価(TIDE)を提案する。これはエージェント非依存・環境非依存のフレームワークであり、TTIを3つの包括的かつ相互接続された次元に分解する。本フレームワークは、(1) タスク完了の全体的な時間的ダイナミクスを測定し、(2) 性能が主に再帰的ループ行動によって制約されているか、(3) あるいは負荷の蓄積した記憶によって制約されているかを特定する。多様なエージェントと環境における広範な実験を通じて、TIDEはエージェント性能の向上には内部推論のスケーリング以上の要素が重要であり、エージェントと環境間の相互作用ダイナミクスを明示的に最適化する必要性があることを明らかにする。
豊富な相互作用下での変形可能物体のシミュレーションは、環境効果とロボット動作によって共同で駆動されるダイナミクスを伴い、実世界とシミュレーションを往還するロボットマニピュレーションにおける根本的な課題であり続けている。既存のシミュレータは、ロボットの状態を条件付けない事前定義された物理法則またはデータ駆動型ダイナミクスに依存しており、精度、安定性、一般化が制限されている。本論文は、軟体マニピュレーションのための3DガウシアンスプラッティングシミュレータであるSoMAを提案する。SoMAは、変形ダイナミクス、環境力、およびロボット関節動作を統合潜在神経空間で結合し、エンドツーエンドの実世界-シミュレーション往還を実現する。学習済みガウシアンスプラット上での相互作用をモデル化することで、制御可能で安定した長期的マニピュレーションと、事前定義された物理モデルを必要とせずに観測軌跡を超えた一般化を可能にする。SoMAは、実世界のロボットマニピュレーションにおける再シミュレーション精度と一般化を20%向上させ、長期的な布地折りたたみなどの複雑なタスクの安定したシミュレーションを実現する。
拡散型大規模言語モデル(dLLM)は、複数のトークンを並列にデコード可能なことから、純粋に自己回帰的な言語モデルの有望な代替として登場した。しかし、最先端のブロック単位dLLMは、最も確信度の高いトークンのみをデコードし、残りを破棄する「リマスキング」機構に依存しており、実質的に計算リソースを浪費している。我々は、破棄されたトークンからの計算結果を再利用することが有益であることを実証する。これらのトークンには、後続のデコード反復で有用な文脈情報が保持されているためである。この知見に基づき、廃棄されたトークンの表現を文脈的残差に変換し、次のノイズ除去ステップで再投入するモジュール、Residual Context Diffusion(RCD)を提案する。RCDは、逆伝播に伴うメモリボトルネックを回避するため、分離された2段階の訓練パイプラインを採用する。本手法を、長いCoT推論(SDAR)と短いCoT指示追従(LLaDA)の両モデルで検証する。標準的なdLLMは、わずか約10億トークンで効率的にRCDパラダイムに変換可能であることを示す。RCDは、様々なベンチマークにおいて、最小限の追加計算オーバーヘッドで、最先端dLLMの精度を一貫して5~10ポイント向上させる。特に最も挑戦的なAIMEタスクでは、ベースライン精度をほぼ2倍にし、同等の精度レベルでノイズ除去ステップ数を最大4~5分の1に削減する。
強化学習(RL)は大規模言語モデル(LLM)のファインチューニングにおける基盤技術となり、近接方策最適化(PPO)がデファクトスタンダードアルゴリズムとして広く採用されている。しかしその普及にもかかわらず、PPOの中核である比率クリッピング機構は、LLMに内在する大規模語彙という構造に対して本質的に不適切であると我々は論じる。PPOはサンプリングされたトークンの確率比に基づいて方策更新を制約するが、これは真の方策ダイバージェンスのノイジーな単一サンプル・モンテカルロ推定値でしかない。これにより、最適とは言えない学習ダイナミクスが生じる:低確率トークンへの更新は過度に抑制され、一方で高確率トークンにおける破滅的な変化への制約は不十分となり、結果として学習の非効率性と不安定性を招く。この問題を解決するため、我々はダイバージェンス近接方策最適化(DPPO)を提案する。DPPOはヒューリスティックなクリッピングを、方策ダイバージェンス(例:全変動距離やKLダイバージェンス)の直接推定に基づく、より原理的な制約で置き換える。巨大なメモリフットプリントを回避するため、本質的なダイバージェンスを無視可能なオーバーヘッドで捕捉する効率的なBinary近似およびTop-K近似を導入する。大規模な実証評価により、DPPOが既存手法と比較して優れた学習の安定性と効率性を達成し、RLベースのLLMファインチューニングにより堅牢な基盤を提供することが実証された。
近年のDiTベースのテキスト画像生成モデルでは、LLMをテキストエンコーダとして採用するケースが増加している。しかし、LLM層間には顕著な意味的階層が存在し、拡散時間とネットワーク深度の両方にわたって非定常的なノイズ除去ダイナミクスが観察されるにもかかわらず、テキスト条件付けは静的な手法が主流であり、単一のLLM層のみを利用する場合が多い。DiTの生成過程の動的性質により適合させ、拡散モデルの生成能力を向上させるため、本論文では軽量なゲートを備えた統一正規化凸融合フレームワークを提案する。この枠組みにより、時間的融合、深度方向融合、および両者を組み合わせた融合を通じて、多層LLM隠れ状態を体系的に統合する。実験により、深度方向意味ルーティングが優れた条件付け戦略であることが確認され、テキストと画像の一貫性および構成的生成能力(例:GenAI-Bench Countingタスクで+9.97向上)が一貫して改善された。逆に、純粋な時間的融合は視覚的生成の忠実度を低下させる逆説的な結果をもたらすことが判明した。この要因は、訓練と推論の軌跡の不一致にあると分析する。分類器不要ガイダンス下では、名目上の時間ステップが実効SNRを追跡できず、推論時に意味的にタイミングがずれた特徴注入が生じるためである。総合的に、深度方向ルーティングは強力かつ効果的なベースラインとして位置づけられ、ロバストな時間依存条件付けを実現するには軌跡を意識した信号が不可欠であることが明らかとなった。
ニューラル表現と生成モデルの近年の進歩は3Dコンテンツ作成に革命をもたらしたが、この分野は依然として重大なデータ処理のボトルネックに制約されている。この問題に対処するため、我々は3D生成における統一された高品質な基盤を確立することを目的としたオープンソースエコシステム「HY3D-Bench」を提案する。主な貢献は以下の3点である:(1)大規模リポジトリから精選された25万点の高精細3Dオブジェクトライブラリを構築し、水密メッシュや多視点レンダリングを含む学習準備済みアセットを提供する厳密なパイプラインを採用、(2)細粒度知覚と制御可能な編集に不可欠な粒度を提供する構造化されたパートレベル分解の導入、(3)スケーラブルなAIGC合成パイプラインによる実世界分布ギャップの解消により、ロングテールカテゴリの多様性強化に向けて12万5千点の合成アセットを提供。Hunyuan3D-2.1-Smallの学習による実証的検証を経て、HY3D-Benchは堅牢なデータリソースへのアクセスを民主化し、3D知覚、ロボティクス、デジタルコンテンツ作成におけるイノベーションの促進を目指す。
高品質な科学イラストは、複雑な科学技術概念を効果的に伝達する上で極めて重要であるが、その手作業による作成は、学界と産業界の双方で広く認識されているボトルネックである。本論文では、長文の科学テキストから科学イラストを生成するための初の大規模ベンチマークであるFigureBenchを提案する。FigureBenchは3,300組の高品質な科学テキストと図のペアを含み、学術論文、調査報告書、ブログ、教科書などにおける多様なテキストから図への変換タスクを網羅している。さらに、長文の科学テキストに基づいて高品質な科学イラストを自動生成する初のエージェント型フレームワークであるAutoFigureを提案する。具体的には、AutoFigureは最終結果をレンダリングする前に、広範な思考、再構成、検証を行い、構造的に堅牢かつ美的に洗練されたレイアウトを生成し、構造的完全性と美的魅力の両方を備えた科学イラストを出力する。FigureBenchの高品質なデータを活用し、AutoFigureの性能を様々なベースラインメソッドと比較する大規模な実験を実施した。結果は、AutoFigureが全てのベースラインメソッドを一貫して上回り、出版可能な品質の科学イラストを生成することを示している。コード、データセット、Huggingfaceスペースはhttps://github.com/ResearAI/AutoFigure で公開されている。
Group Relative Policy Optimization(GRPO)は、検証可能な目的で大規模言語モデルを整合させる実用的な手法として最近注目されている。しかし、疎な終端報酬の下では、グループ内のロールアウトがしばしば同一の報酬を受け、相対的なアドバンテージが崩壊し更新が消失するため、GRPOは行き詰まることが多い。本論文では、特権的な監督を用いた自己ヒント整合GRPO(SAGE)を提案する。これは、同じ終端検証器報酬の下でロールアウト分布を再形成するために、訓練中に特権的ヒントを注入する方策オン強化学習フレームワークである。各プロンプトxに対して、モデルはコンパクトなヒントh(例:計画や分解)をサンプリングし、その後(x,h)を条件として解τを生成する。決定的に、タスク報酬R(x,τ)は変更されない。ヒントは、有限サンプリング下でのグループ内結果の多様性を高めるだけで、疎な報酬下でのGRPOのアドバンテージ崩壊を防ぐ。テスト時にはh=varnothingと設定し、特権情報なしでヒントなし方策をデプロイする。さらに、多様な自己ヒントをサンプリングすることは、初期方策やより強力な外部モデルからの固定ヒントよりも学習者のボトルネックを効果的に追跡する適応的カリキュラムとして機能する。3つのLLMを用いた6つのベンチマークでの実験により、SAGEがGRPOを一貫して上回ることを示す(平均でLlama-3.2-3B-Instructは+2.0、Qwen2.5-7B-Instructは+1.2、Qwen3-4B-Instructは+1.3)。コードはhttps://github.com/BaohaoLiao/SAGE で公開されている。
現在の言語モデル(LM)は、事前学習で獲得した知識を用いたプロンプトへの推論において優れた性能を発揮する。しかし、現実世界のタスクははるかに複雑で文脈依存性が高い。すなわち、モデルはタスク固有の文脈から学習し、事前学習では習得していない新たな知識を活用して推論を行い、課題を解決する必要がある。我々はこの能力を「文脈学習」と定義する。これは人間が自然に備えている重要な能力であるが、これまでほとんど着目されてこなかった。この課題に取り組むため、我々はCL-benchを提案する。これは実世界を反映したベンチマークであり、経験豊富なドメイン専門家によって作成された500の複雑な文脈、1,899のタスク、31,607の評価基準で構成されている。各タスクは、それを解決するために必要な新規情報が対応する文脈内に含まれるように設計されている。CL-benchのタスクを解決するには、モデルは文脈から学習する必要があり、その範囲は、新しいドメイン固有の知識、ルール体系、複雑な手順から、実測データに基づいて導出された法則まで多岐にわたり、これらはいずれも事前学習では扱われていない。これは主に検索や読解力を試す長文脈タスクや、モデルが指示やデモンストレーションを通じて単純なタスクパターンを学習するインコンテキスト学習タスクをはるかに超える要求水準である。10種類の先進的なLMを評価した結果、モデルが平均して解決できたタスクは17.2%に過ぎなかった。最高性能のモデルであるGPT-5.1でさえ、解決率は23.7%であり、LMが効果的な文脈学習を達成できておらず、これが実世界の複雑な文脈依存タスクに取り組む上での重大なボトルネックとなっていることが明らかになった。CL-benchは、この根源的な能力を備えたLMを構築し、より知性的にするとともに、実世界での展開を推進するための一歩である。
過去10年間、生成AIの軌道はスケーリング則によって駆動されるモデル中心パラダイムに支配されてきた。視覚的な忠実度において飛躍的な進歩があったにもかかわらず、このアプローチは「使用性の天井」、すなわち「意図と実行の隔たり」(クリエイターの高次元な意図と、現在の単発モデルが持つ確率的・ブラックボックス的な性質との根本的な乖離)に直面してきた。本論文では、Vibe Codingに着想を得て、エージェントによるオーケストレーションを通じたコンテンツ生成の新たなパラダイム「Vibe AIGC」を提案する。これは、階層的なマルチエージェントワークフローの自律的統合を実現する。 このパラダイムにおいて、ユーザーの役割は従来のプロンプトエンジニアリングを超越し、美的選好や機能的なロジックなどを包含する高次元な表現である「Vibe」を提供する「司令官」へと進化する。中央集権的なメタプランナーはシステムアーキテクトとして機能し、この「Vibe」を実行可能、検証可能、適応的なエージェントパイプラインへと分解する。確率的な推論から論理的なオーケストレーションへと移行することにより、Vibe AIGCは人間の想像力と機械の実行の間の隔たりを埋める。我々は、この転換が人間とAIの協働経済を再定義し、AIを脆弱な推論エンジンから、複雑で長期的なデジタル資産の創造を民主化する、堅牢なシステムレベルのエンジニアリングパートナーへと変革すると主張する。
事前学習済みの拡散モデルやフローマッチング方策が、障害物付近での作業、支持面の変化、あるいは軽度の雑多な環境下で同一のタスクを実行する際に失敗するのはなぜか?こうした失敗は、運動スキルの不足に起因することは稀である。むしろ、学習とテストの条件差(train-test shift)における模倣学習の限界を露呈している。すなわち、行動生成が学習時に特化した空間配置やタスク仕様に強く結びついているのである。これらの失敗を補うための再学習やファインチューニングはコストがかさみ、概念的にも適切ではない。なぜなら、必要な行動は既に存在するにもかかわらず、テスト時に選択的に適応することができないからである。我々は、学習済み生成ロボット方策の推論時適応のための学習不要なフレームワーク「Vision-Language Steering (VLS)」を提案する。VLSは適応を推論時の制御問題と見なし、方策パラメータを変更することなく、分布外の観測-言語入力に応答して、事前学習済み拡散/フローマッチング方策のサンプリング過程を誘導する。視覚言語モデルを活用して軌道微分可能な報酬関数を合成することにより、VLSは、テスト時の空間的・タスク的要件を満たす行動軌道へ向かってノイズ除去過程を導く。シミュレーションおよび実世界での評価を通じて、VLSは従来の誘導手法を一貫して上回り、CALVINでは31%、LIBERO-PROでは13%の性能向上を達成した。Frankaロボットを用いた実世界での展開により、テスト時の空間的・意味的変化下での頑健な推論時適応がさらに実証された。プロジェクトページ: https://vision-language-steering.github.io/webpage/
最先端の大規模言語モデルは、高度な推論能力と長期的なツール利用能力を示している。しかし、既存のRAGシステムはこれらの能力を十分に活用できていない。現在も以下の2つのパラダイムに依存している:(1) 単一ステップで関連文書を検索し、それらをモデル入力に連結するアルゴリズムを設計する方法、(2) 事前にワークフローを定義し、モデルに段階的に実行させるよう促す方法。いずれのパラダイムもモデルが検索判断に関与することを許さず、モデル改良に伴う効率的なスケーリングを阻害している。本論文では、階層的な検索インターフェースをモデルに直接開放するエージェント型RAGフレームワーク「A-RAG」を提案する。A-RAGはキーワード検索、セマンティック検索、チャンク読み取りの3つの検索ツールを提供し、エージェントが複数の粒度で適応的に情報を検索・取得することを可能にする。複数のオープンドメインQAベンチマークによる実験では、A-RAGが同等あるいは少ない検索トークン量で既存手法を一貫して上回り、モデル能力を効果的に活用し、様々なRAGタスクに動的に適応することを実証した。さらに、モデルサイズとテスト時計算量に対するA-RAGのスケーリング特性を系統的に検証する。将来の研究促進のため、コードと評価スイートを公開する。コードと評価スイートはhttps://github.com/Ayanami0730/arag で入手可能。
検索エージェントは、質問に答えるために推論を行い知識ベース(またはウェブ)を検索する言語モデル(LM)である。最近の手法では、検証可能な報酬を用いた強化学習(RLVR)によって最終的な回答の正確性のみを教師信号として与える。既存のRLVR検索エージェントの多くは一般領域の質問応答(QA)を扱っており、科学、工学、医学における技術的なAIシステムへの関連性が限られている。本研究では、科学論文を検索・推論するエージェントの訓練を提案する。これは技術的な質問応答能力を評価し、実際の科学者にとって直接的に関連があり、将来のAI Scientistシステムにおいて核心的な能力となる。具体的には、1600万件の生物医学論文抄録からなる検索コーパスを公開し、このコーパスから回答可能な6万サンプルからなる難易度の高いファクトイドQAデータセット「PaperSearchQA」とベンチマークを構築した。この環境下で検索エージェントを訓練し、非RL検索ベースラインを上回る性能を達成した。さらに定量的分析を実施し、計画立案、推論、自己検証といった興味深いエージェントの振る舞いを観察した。当該コーパス、データセット、ベンチマークは、RLVR訓練用の汎用コードベースSearch-R1で利用可能であり、https://huggingface.co/collections/jmhb/papersearchqa で公開している。最後に、我々のデータ作成手法は拡張性が高く、他の科学分野へ容易に応用可能である。
大規模言語モデル(LLM)の急速な発展は、単一GPUハードウェアの進化速度を上回り、モデル規模が計算能力ではなくメモリ容量によって制約されるケースが増えている。現代のトレーニングシステムは、分散並列処理やCPU・ストレージ階層へのオフロードを通じてGPUメモリを拡張するが、基本的にはGPU中心の実行パラダイムを維持しており、GPUが永続的なモデルレプリカと完全な自動微分グラフを保持する。その結果、大規模モデルのスケーリングは、マルチGPUクラスター、複雑な分散ランタイム、予測不能なホストメモリ消費量と強く結びついたままであり、命令チューニング、アライメント、ドメイン適応などのノード規模における学習後ワークロードに対する大きな障壁となっている。本論文では、大規模モデル最適化におけるCPUとGPUの役割を再定義する、メモリ中心のトレーニングシステム「Horizon-LM」を提案する。Horizon-LMは、ホストメモリを信頼できるパラメータストアとして扱い、GPUをCPU主導・GPU従属の実行モデルを通じて一時的な計算エンジンとしてのみ利用する。永続的なGPU常駐モジュールと自動微分グラフを排除し、手動勾配伝播による明示的再計算を採用し、パイプライン化されたダブルバッファリング実行エンジンを導入することで、Horizon-LMはモデル規模とGPU台数を分離し、メモリ使用量を理論的なパラメータ容量に抑える。1.5TBのホストRAMを搭載した単一H200 GPU上で、Horizon-LMは1200億パラメータまでのモデルを確実に学習する。標準的な単一A100マシンでは、Horizon-LMはDeepSpeed ZeRO-3(CPUオフロード)と比較して最大12.2倍の学習スループットを達成し、数値的正確性を維持する。様々なプラットフォームと規模において、Horizon-LMは高いデバイス使用率と予測可能なメモリ増加を維持し、ノード規模の大規模モデル学習の真の実現可能性の境界を定義するのはGPUメモリではなくホストメモリであることを実証する。
ソフトウェア工学(SWE)における大規模言語モデル(LLM)エージェントの進化は、検証可能なデータセットの不足によって制約を受けている。このボトルネックは、多様なプログラミング言語にわたって実行可能な環境を構築する複雑さに起因する。この問題に対処するため、本論文では**MEnvAgent**を提案する。これは検証可能なタスクインスタンスのスケーラブルな生成を促進する、自動環境構築のためのマルチ言語フレームワークである。MEnvAgentは、構築失敗を自律的に解決するマルチエージェントの「計画-実行-検証」アーキテクチャを採用し、計算オーバーヘッドを削減する新しい環境再利用メカニズムを統合する。このメカニズムは、過去の環境を段階的に修正することで機能する。10言語にわたる1,000タスクからなる新ベンチマーク**MEnvBench**による評価では、MEnvAgentがベースライン手法を上回り、Fail-to-Pass(F2P)率を8.6%改善し、時間コストを43%削減することを実証した。さらに、MEnvAgentの有用性を、これまでで最大規模の現実的な検証可能なDocker環境からなるオープンソースの多言語データセット**MEnvData-SWE**と、様々なモデルにおけるSWEタスクの一貫した性能向上を可能にする解法軌道を構築することで実証する。我々のコード、ベンチマーク、データセットはhttps://github.com/ernie-research/MEnvAgent で公開されている。
大規模言語モデル(LLM)は、明示的な手がかりや悪意のあるコンテンツがなくとも、一見無害な学習データから意図しないバイアスを獲得する可能性がある。既存の手法ではファインチューニング前のこうしたリスク検出が困難であり、事後評価はコストが高く非効率である。この課題に対処するため、我々は学習前に意図しないモデル挙動を予測する新タスク「Data2Behavior」を提案する。さらに、軽量な手法としてManipulating Data Features(MDF)を開発した。これは候補データを平均表現で要約し、ベースモデルのフォワードパスに注入することで、データ内の潜在的な統計的信号がモデルの活性化を形成し、パラメータ更新なしに潜在的なバイアスや安全性リスクを明らかにするものである。MDFは、ファインチューニングに必要なGPUリソースの約20%のみを消費しつつ、信頼性の高い予測を実現する。Qwen3-14B、Qwen2.5-32B-Instruct、Gemma-3-12b-itを用いた実験により、MDFが意図しない挙動を事前に予測し、事前学習時の脆弱性に関する知見を提供できることを確認した。
マルチターンにおけるエージェントと環境の相互作用において、思考と観察を管理することは、エージェントの効率を改善する新たな戦略として注目されている。しかし、既存研究は相互作用の軌跡全体を均等に扱っており、各ターンによって思考の必要性や観察の有用性が異なる点を見落としている。そこで本研究ではまず、思考と観察がエージェントの有効性と効率に与える影響を定量的に調査する。得られた知見に基づき、我々はLLMエージェントが冗長な思考と観察を適応的に省略することを可能にする統一訓練フレームワーク「Agent-Omit」を提案する。具体的には、単一ターン及びマルチターンの省略シナリオを含む少量のコールドスタートデータを合成し、エージェントの省略行動に向けたファインチューニングを最初に行う。さらに、省略を意識したエージェント強化学習手法を導入し、デュアルサンプリング機構と独自設計の省略報酬を組み込むことで、エージェントの適応的省略能力を促進する。理論的には、我々の省略ポリシーの偏差がKLダイバージェンスによって上界が制限されることを証明する。5つのエージェントベンチマークによる実験結果から、構築したAgent-Omit-8Bは7つの先進的LLMエージェントと同等の性能を達成し、7つの効率的LLMエージェント手法よりも最高の有効性と効率のトレードオフを実現することを示す。コードとデータはhttps://github.com/usail-hkust/Agent-Omit で公開されている。
効果的なツール利用と推論能力は、大規模推論モデル(LRM)が複雑な現実世界の問題に対処する上で不可欠な能力である。実証分析を通じて、現在のLRMは複雑なツール利用シナリオにおけるサブタスク分解能力が不足しており、これが「怠惰な推論(Lazy Reasoning)」を引き起こしていることを明らかにした。この問題に対処するため、我々は2段階のトレーニングフレームワークD-CORE(**D**ecomposing tasks and **Co**mposing **Re**asoning processes)を提案する。まず自己蒸留によりLRMのタスク分解推論能力を促進し、続いて多様性認識強化学習(RL)によりLRMの反射的推論能力を回復させる。D-COREは様々なベンチマークとモデル規模において、頑健なツール利用の改善を達成する。BFCLv3における実験では、我々の手法の優位性が実証された:D-CORE-8Bは77.7%の精度を達成し、最高性能の8Bモデルを5.7%上回った。一方、D-CORE-14Bは79.3%で新たなstate-of-the-artを確立し、サイズが5分の1であるにもかかわらず70Bモデルを凌駕する。ソースコードはhttps://github.com/alibaba/EfficientAI で公開されている。
統合マルチモーダルモデル(UMM)の最近の進展は、理解タスクと生成タスクの両方で著しい進歩を示している。しかし、これら二つの能力が単一モデル内で真に整合し統合されているかどうかは不明である。この問題を調査するため、我々は理解能力と生成能力の間の隔たりを定量化し、二つの「統合された」方向性の認知的コヒーレンスを測定するための双方向ベンチマークであるGapEvalを提案する。各設問は両モダリティ(画像とテキスト)で回答可能であり、モデルの双方向推論能力とクロスモーダル一貫性を対称的に評価することを可能にする。実験により、様々なアーキテクチャを持つ広範なUMMにおいて、二方向の間には永続的な隔たりが存在することが明らかとなり、現在のモデルが達成しているのは二つの能力の深い認知的統合ではなく、表面的な統合に過ぎないことが示唆される。根本的なメカニズムをさらに探求するため、我々は知識操作の観点から実証研究を行い、根本的な限界を明らかにする。我々の発見は、UMM内の知識がしばしば分断されたままであることを示している。能力創発とモダリティ間の知識は非同期であり、さらなる探求の道を開くものである。
空間推論は人間の認知の基本要素であるが、現代の視覚言語モデル(VLM)にとって依然として大きな課題である。従来の研究は、タスク設計やパズル的な設定が限られた合成環境やLLM生成環境に依存することが多く、VLMが直面する現実世界の複雑さ、視覚的ノイズ、多様な空間関係を捉えられていない。この問題に対処するため、現実的で制約のない文脈におけるVLMの空間推論を評価する包括的ベンチマーク「SpatiaLab」を提案する。SpatiaLabは、相対位置、深度とオクルージョン、方向、サイズとスケール、空間ナビゲーション、3D幾何学の6大カテゴリから構成され、各カテゴリは5つのサブカテゴリに細分化され、合計30の異なるタスクタイプを網羅する。1,400組の視覚質問応答ペアを含み、各サブカテゴリには少なくとも25問、各主カテゴリには少なくとも200問の質問が用意され、多肢選択式と自由記述式の両方の評価をサポートする。オープンソースおよびクローズドソースモデル、推論特化型モデル、空間推論専門モデルなど、多様な最先端VLMでの実験結果は、人間と比較して空間推論能力に大きな隔たりがあることを示している。多肢選択式設定では、InternVL3.5-72Bが54.93%の精度を達成したのに対し、人間は87.57%であった。自由記述式設定では、すべてのモデルで10-25%程度の性能低下が見られ、GPT-5-miniが40.93%で最高スコアを記録した(人間は64.93%)。これらの結果は、複雑な空間関係、深度知覚、ナビゲーション、3D幾何学の処理における重要な限界を浮き彫りにしている。多様な現実世界の評価フレームワークを提供するSpatiaLabは、VLMの空間推論の発展に向けた重要な課題と機会を明らかにし、堅牢で人間に沿った空間理解を目指す将来の研究を導くベンチマークを提供する。SpatiaLabはhttps://spatialab-reasoning.github.io/で公開されている。
コード関連タスクにおける大規模言語モデルの学習は、通常、高品質なコードとドキュメントのペアに依存しているが、こうしたデータセットの整備にはコストがかかり、特にニッチなプログラミング言語では不足しがちである。本研究では、コード生成とドキュメント生成を共同で最適化するように設計された、自己教師型強化学習フレームワーク「BatCoder」を提案する。BatCoderは逆翻訳戦略を採用しており、まずコードからドキュメントを生成し、次に生成されたドキュメントを用いて元のコードを再構築する。元のコードと再構築されたコード間の意味的類似度が暗黙的な報酬として機能し、強化学習を通じて、ドキュメントからのコード生成、およびその逆のタスクにおけるモデルの性能向上を可能にする。この手法により、コードのみを用いてモデルを学習でき、利用可能な訓練事例を大幅に増加させることができる。7Bパラメータモデルを用いたHumanEvalおよびMBPPでの評価では、BatCoderはそれぞれ83.5%、81.0%のpass@1を達成し、強力なオープンソースベースラインを上回った。さらに、本フレームワークは、訓練データサイズとモデル容量の両方に対して一貫したスケーリング特性を示す。
強化学習による大規模言語モデル(LLM)の推論ベンチマークへのファインチューニングでは、各ベンチマークに対してしばしば二値的な特定の報酬関数が必要となる。これには2つの潜在的な制限がある。すなわち、報酬設計の必要性と、二値報酬の潜在的にスパースな性質である。本研究では、参照回答(またはデータ内に存在する他のプロンプト継続)を生成する確率または対数確率に基づく報酬を体系的に調査する。この報酬は、特定の検証器に依存せず、大規模に利用可能であるという利点を持つ。最近のいくつかの研究(VeriFree、JEPO、RLPR、NOVERなど)は、同様の報酬の使用を提唱している。我々は、確率ベースの報酬の変種を標準的なベースラインと体系的に比較し、標準的な数学的推論ベンチマークと、外部検証器が利用できない長文回答の両方で性能を検証する。その結果、連鎖思考(CoT)学習の報酬として参照回答の対数確率を使用することが、全ての設定で良好に機能する唯一の選択肢であることを見出した。この報酬は、事前学習で使用される次トークン対数尤度損失とも整合性がとれている。検証可能な設定では、対数確率報酬は、標準的な二値報酬による強化学習と同等またはそれ以上の成功率をもたらし、はるかに優れたパープレキシティを達成する。検証不可能な設定では、SFTと同等の性能を発揮する。一方、VeriFreeのような確率ベースの手法は、正解を得る確率が消失するため、検証不可能な設定では性能が頭打ちとなる。全体として、これは対数確率報酬がCoTファインチューニングの有効な方法であり、短く検証可能な回答設定と長く検証不可能な回答設定を橋渡しするものであることを示している。
現在の具現化VLM評価は、静的な専門家定義の手動注釈ベンチマークに依存しており、深刻な冗長性とカバレッジの不均衡を示している。この労力を要するパラダイムは、計算リソースと注釈リソースを浪費し、コストを膨張させ、モデル順位を歪め、最終的に反復的開発を阻害している。この問題に対処するため、我々は協働する2つのエージェントを通じてベンチマーク選定と評価を自動化する、初のエージェント型フレームワークであるAgentic Automatic Evaluation(A2Eval)を提案する。Data Agentは能力次元を自律的に導出し、均衡の取れたコンパクトな評価スイートを構築する。一方、Eval Agentは実行可能な評価パイプラインを統合・検証し、完全自律的な高精度評価を実現する。10のベンチマークと13のモデルで評価した結果、A2Evalは評価スイートを85%圧縮し、総計算コストを77%削減、評価品質を維持したまま4.6倍の高速化を達成した。決定的に、A2Evalは系統的な順位バイアスを補正し、Spearmanのρ=0.85という高い人間整合性を実現し、高い順位忠実性(Kendallのτ=0.81)を維持することで、高精度かつ低コストな具現化評価の新たな標準を確立する。コードとデータは近日公開予定である。
接地型マルチモーダル固有表現認識(GMNER)は、テキストベースのエンティティを抽出し、意味的カテゴリを割り当て、対応する視覚的領域に接地(グラウンディング)することを目的としている。本研究では、マルチモーダル大規模言語モデル(MLLM)が、従来のカスケード型パイプライン内での補助的ツールとしての役割を超えて、GMNERをエンドツーエンドで実行する可能性を探求する。重要なことに、我々の調査は根本的な課題を明らかにした:MLLMは、厳密なクロスモーダル検証ではなく、単モーダル的な近道を取る傾向に起因する、視覚的バイアスやテキスト的バイアスを含むモダリティバイアスを示すことである。この問題に対処するため、我々はモダリティを意識した一貫性推論(MCR)を提案する。MCRは、マルチスタイル推論スキーマ注入(MRSI)と制約誘導型検証可能最適化(CVO)を通じて、構造化されたクロスモーダル推論を強制する。MRSIは抽象的な制約を実行可能な推論連鎖に変換し、CVOはモデルがグループ相対ポリシー最適化(GRPO)を用いてその推論軌跡を動的に調整することを可能にする。GMNERおよび視覚的接地タスクにおける実験により、MCRがモダリティバイアスを効果的に軽減し、既存のベースラインと比較して優れた性能を達成することが実証された。
自己回帰型ビデオ拡散モデルは、因果的モデリングと反復的なノイズ除去により、近年大きな研究関心を集めている。本研究では、これらのモデルにおけるマルチヘッド自己注意機構が履歴フレームを十分に活用していないことを明らかにする。具体的には、約25%のヘッドがほぼ現在のフレームのみに注目し、これらのKVキャッシュを破棄しても性能劣化は軽微である。この知見に基づき、我々はDummy Forcingを提案する。これは異なるヘッド間での文脈アクセシビリティを制御する簡潔かつ効果的な手法である。具体的には、ヘッドごとの文脈冗長性を低減する異種メモリ割り当てと、適応的にヘッドタイプを分類する動的ヘッドプログラミングを組み合わせる。さらに、より積極的なキャッシュ圧縮を実現する文脈パッキング技術を開発した。追加の学習なしで、提案手法はベースライン比最大2.0倍の高速化を達成し、24.3 FPSのビデオ生成を品質劣化0.5%未満で実現する。プロジェクトページはhttps://csguoh.github.io/project/DummyForcing/で公開されている。
我々は、5つのテュルク諸語ペア(ロシア語-バシキール語、ロシア語-カザフ語、ロシア語-キルギス語、英語-タタール語、英語-チュヴァシ語)における機械翻訳を検討する。合成データを用いたLoRAによるnllb-200-distilled-600Mのファインチューニングでは、カザフ語でchrF++ 49.71、バシキール語で46.94を達成した。検索された類似例を用いたDeepSeek-V3.2のプロンプティングでは、チュヴァシ語でchrF++ 39.47を達成した。タタール語では、ゼロショットまたは検索ベースのアプローチでchrF++ 41.6を、キルギス語ではゼロショットアプローチで45.6を達成した。データセットと学習済み重みを公開する。
マルチエージェント討論(MAD)は近年注目を集めており、複数のLLMインスタンスが構造化された討論を通じて協調的に問題解決を行う手法である。しかし、現在のMAD手法では、個々のエージェント間のコンテキストの不一致により、討論の一貫性が損なわれ、LLMが首尾一貫した解決策に到達できない問題が生じやすい。本論文では、各エージェントに対してコンテキスト生成器を学習させるマルチLLMコンテキスト学習法(M2CL)を提案する。この生成器は、自動的な情報の整理と洗練を通じて、討論ラウンドごとに動的にコンテキスト指示を生成することが可能である。具体的には、コンテキスト指示に関する理論的知見に基づき、M2CLは自己適応機構を精巧に設計し、生成器がコンテキストの一貫性と出力の乖離を制御するように学習する。これにより、LLMは多数派ノイズへの早期収束を回避し、正しい合意へ段階的に到達できる。M2CLを学術的推論、具身化タスク、モバイル制御といった難易度の高いタスクで評価した結果、その性能は既存手法を20%~50%大幅に上回り、優れた転移性と計算効率を兼ね備えることが示された。
生成的な3Dモデルの急激な普及は、アニメーションパイプラインにおいてリギングという重大なボトルネックを生み出している。既存の自動化手法は、スキニングを非適切で高次元な回帰タスクとして扱うという根本的なアプローチの限界に直面している。この手法は最適化が非効率であり、通常はスケルトン生成から切り離されている。我々は、これは表現の問題であると仮定し、SkinTokensを提案する:スキニングウェイトのための、学習済みでコンパクト、かつ離散的な表現である。FSQ-CVAEを活用してスキニングの内在的なスパース性を捕捉することで、タスクを連続的な回帰から、より扱いやすいトークン系列予測問題へと再定義する。この表現により、リギング全体を骨格パラメータとSkinTokensの単一の系列としてモデル化し、スケルトンとスキン変形の間の複雑な依存関係を学習する、統一された自己回帰フレームワークであるTokenRigが可能となる。この統一モデルは、強化学習ステージに適しており、調整された幾何学的および意味的な報酬によって、複雑な分布外アセットへの汎化性能が向上する。定量的には、SkinTokens表現は、最先端手法と比較してスキニング精度で98%-133%の向上をもたらし、RLで精緻化された完全なTokenRigフレームワークは、ボーン予測を17%-22%向上させる。本研究は、リギングに対する統一された生成的アプローチを提示し、より高い忠実度とロバスト性を実現し、3Dコンテンツ作成における長年の課題に対するスケーラブルな解決策を提供する。
本論文では、マスク拡散言語モデル(MDLM)の効果的なサンプリングを可能にする推論時スケーリングアルゴリズムである、自己報酬型逐次モンテカルロ(SMC)法を提案する。本アルゴリズムは、既存のMDLMの多くが信頼度ベースのサンプリング戦略に依存しているという観察に基づいている。この戦略では、各ステップで予測信頼度が最も高いトークンのみが保持される。これにより、ノイズに敏感で貪欲なデコーディングパラダイムに生成が制限され、可能な経路の多様性が不可避的に失われるという問題が生じる。我々はこの問題に対処するため、軌道探索を目的として、粒子と呼ばれる複数の相互作用する拡散過程を並列に起動する。重要な点として、粒子の重要度重みを割り当てるための自己報酬シグナルとして、軌道レベルの信頼度を導入する。サンプリング中、粒子は反復的に重み付けと再サンプリングが行われ、生成を体系的に大域的に信頼度の高い高品質なサンプルへと導く。提案する自己報酬型SMCは、様々なマスク拡散言語モデルとベンチマークで検証され、追加の学習や報酬ガイダンスなしで大幅な改善を達成するとともに、並列推論能力を効果的にサンプリング品質の向上に変換する。コードはhttps://github.com/Algolzw/self-rewarding-smc で公開されている。
本論文では、タンパク質バックボーン生成のための初のマルチスケール自己回帰フレームワークであるProtein Autoregressive Modeling(PAR)を提案する。PARは、タンパク質の階層性を利用し、粗いトポロジーを形成した後、スケールを追って構造詳細を洗練させる、彫刻の制作過程に似た構造生成を実現する。これを実現するため、PARは以下の3つの主要コンポーネントで構成される:(i)訓練時に多スケールでタンパク質構造を表現するマルチスケールダウンサンプリング操作、(ii)マルチスケール情報を符号化し構造生成を誘導する条件付き埋め込みを生成する自己回帰型トランスフォーマー、(iii)これらの埋め込みを条件としてバックボーン原子を生成するフローベースのバックボーンデコーダー。さらに、訓練時と生成時の手順の不一致に起因する暴露バイアスは、構造生成の品質を大幅に低下させる既知の問題である。我々は、ノイジーコンテキスト学習とスケジュールドサンプリングを採用することでこの問題を効果的に緩和し、ロバストなバックボーン生成を可能にした。特筆すべきは、PARは強力なゼロショット一般化能力を示し、ファインチューニングを必要とせず、柔軟な人間指示による条件付き生成やモチーフスキャフォールディングをサポートする点である。無条件生成ベンチマークにおいて、PARはタンパク質分布を効果的に学習し、高い設計品質のバックボーンを生成するとともに、良好なスケーリング挙動を示した。これらの特性により、PARはタンパク質構造生成の有望なフレームワークとして位置づけられる。
放射線学的解析においては、画像モダリティを横断する多様な下流タスクを支援できる事前学習済み視覚表現の利点が増大している。本研究では、放射線学に着想を得た原理(表現の再利用性とクロスタスク転移性を重視)に基づき設計され、120万枚の医療画像で事前学習された自己教師型放射線基盤モデル「OmniRad」を提案する。事前学習済みエンコーダを、バックボーンを固定した軽量なタスク特化型アダプタを使用する場合と、分類タスクにおけるエンドツーエンドの完全ファインチューニングを含む、複数の下流適応体制下で評価し、表現の質とタスク特化性能の両方を検証する。OmniRadは、複数モダリティにわたる分類とセグメンテーションを含む広範な公開ベンチマークスイートで評価される。MedMNISTv2コレクションでは、OmniRadは競合する基盤モデルと比較して分類F1スコアを最大2.05%向上させた。密な予測タスクでは、凍結した表現を使用した場合、6つのMedSegBenchデータセットにわたって平均Diceスコアの改善を達成した。定性的分析と潜在空間の可視化は、特徴クラスタリングとモダリティ関連の分離が改善されていることを示唆している。
近年の文献では、最適化手法(PPO)がRLHFの強化学習部分における標準的手法として位置づけられてきた。PPOは経験的に良好な性能を示すものの、発見的な動機付けに基づいており、LM-RLHFで用いられるKLダイバージェンス制約をアドホックに扱うため、報酬の振動、エントロピー崩壊、価値関数のドリフト、突然の方策発散といった問題が生じ、頻繁な再起動や大規模なハイパーパラメータ調整を必要とする。本論文では、LM-RLHF設定において、新しい純粋な方策オン型のアクター・クリティック強化学習手法を開発する。我々はSAFE(Stable Alignment Finetuning with Entropy-aware control)を提案する。これは、悲観的価値推定のための二重ソフトミン・クリティックと、エントロピー制御付きKL調整およびPID制御による適応しきい値を組み合わせた新しい多層安定化フレームワークを統合した革新的なRLHFアルゴリズムである。標準的なPPOの対称的なKLペナルティとは異なり、SAFEは高エントロピー探索と低エントロピー・モード崩壊を区別し、報酬変化速度に基づいて動的にペナルティを調整する。30億パラメータモデルを用いた実験では、SAFEはPPOと比較して訓練平均報酬で+5.15%(0.725対0.689)向上し、報酬の暴落が無視可能で、PPOを上回るKL制御性能を示した。本手法は計算オーバーヘッドを最小限に抑え、解釈性が高く暴落耐性を持つRLHFフレームワークを提供し、生産環境での展開に適した安定した長期最適化を保証しつつ、積極的な学習速度を維持する。コードはhttps://github.com/ryyzn9/SAFEで公開されている。
現代の言語モデルは、UTF-8バイト列を圧縮する外部ロスレス圧縮器によって生成されたトークン列をほぼ独占的に学習対象としており、モデルと圧縮器の結合を引き起こしている。本論文では代理圧縮を提案する。これは推論時にエンドツーエンドの生バイトインターフェースを提供しつつ、圧縮入力の効率性を維持する新しい学習手法である。学習時には、一つの言語モデルが生バイト列と外部圧縮器によって生成された圧縮表現の両方で共同的に学習され、圧縮列と生バイトの内部的な対応関係を獲得する。この対応関係により、推論時には破棄される圧縮入力を主たる学習データとしながらも、両形式間の強力な転移が可能となる。コード言語モデリングにおける大規模実験により、代理圧縮が学習効率を大幅に向上させ、固定計算予算下で純粋なバイトレベルのベースラインを有意に上回ることを実証した。モデル規模が大きくなるにつれてこれらの利得はより顕著になり、代理圧縮で学習したモデルは生バイトのみを操作しバイトレベルモデリングの頑健性を保持したまま、トークナイザ手法に匹敵あるいは凌駕する性能を達成する。
4D生成は、入力テキスト、画像、動画から動的な3Dオブジェクトを合成する分野で顕著な進歩を遂げてきた。しかし、既存手法ではモーションを暗黙的な変形場として表現することが多く、直接的な制御や編集が制限されるという課題がある。この問題を解決するため、我々は単眼カメラ動画入力から編集可能な動的3Dガウス表現を生成する新規フレームワークであるSkeletonGaussianを提案する。本手法は、モーションをスケルトンによって明示的に駆動されるスパースな剛体運動と、細粒度の非剛体運動に分解する階層的関節表現を導入する。具体的には、頑健なスケルトンを抽出して線形ブレンドスキニングにより剛体運動を駆動し、ヘックスプレーンに基づく非剛体変形のリファインメントを適用することで、解釈性と編集性を向上させる。実験結果では、SkeletonGaussianが生成品質において既存手法を凌駕するとともに、直感的なモーション編集を可能にし、編集可能な4D生成の新たなパラダイムを確立することを示す。プロジェクトページ: https://wusar.github.io/projects/skeletongaussian/
大規模言語モデル(LLM)を用いたマルチエージェントシステムは、反復的な議論を通じて優れた推論性能を達成するが、高い計算コストと誤り伝播の問題から実用展開が制限されている。本論文は、マルチエージェントの相互作用を単一モデルのパラメータに蒸留する新規フレームワーク「AgentArk」を提案する。これにより、推論時の明示的な相互作用を暗黙的なモデル能力へと変換し、計算効率を維持した単一エージェントにマルチエージェントシステムの知能を付与する。具体的には、様々なモデル・タスク・スケーリング・シナリオにおいて、階層的な3つの蒸留戦略(推論強化ファインチューニング、軌道に基づくデータ拡張、プロセス意識型蒸留)を検証する。計算負荷を推論時から学習時に移行させることで、蒸留モデルは単一エージェントの効率性を保ちつつ、マルチエージェントの強力な推論能力と自己修正性能を発揮する。さらに多様な推論タスクにおいて、頑健性と一般化性能の向上が確認された。本研究成果が、効率的かつ頑健なマルチエージェント開発に関する将来研究の指針となることを期待する。コードはhttps://github.com/AIFrontierLab/AgentArk で公開している。
大規模言語モデル(LLM)における推論失敗は、通常生成の最終段階でのみ測定されるが、多くの失敗はプロセスレベルの破綻として現れる:モデルは推論途中で「思考の脈絡を見失う」のである。本研究では、このような破綻が、学習やファインチューニングを一切必要とせず、標準的なAPIで利用可能な推論時観測値(トークン生起確率)から検出可能かどうかを検討する。我々は、連続ステップ間の分布変化(JSD)と不確実性(エントロピー)を組み合わせた単純な不安定性信号を定義し、各推論軌跡をその不安定性のピーク強度で要約する。この信号が失敗を確実に予測することを示す。GSM8KとHotpotQAにおいて、不安定性強度は誤答をチャンスレベルを上回るAUCで予測し、モデルサイズを横断した大規模なバケット単位での精度低下を単調に示す。決定的に重要なのは、不安定性が一様に有害ではないことである:初期の不安定性はその後の安定化と正しい最終回答(修正的不安定性)を反映し得るのに対し、後期の不安定性は、同等のピーク強度であっても、より頻繁に失敗(破壊的不安定性)に至る。これは、回復可能性が分布の変化の強さだけでなく、その変化が残りのデコード過程においていつ発生するかにも依存することを示唆する。本手法はモデル非依存、学習不要、再現性があり、修正や制御機構ではなく、診断的視点として提示される。
大規模言語モデル(LLM)を人間の選好に合わせるための直接アライメント手法の利用が増加している。しかし、現実世界の多くのアライメント問題は複数の相反する目的を伴い、選好を単純に集約すると学習が不安定になり、不適切なトレードオフが生じる可能性がある。特に、重み付き損失法は全ての目的を同時に改善する更新方向を見出せないことがあり、既存の多目的手法は明示的な報酬モデルに依存することが多く、追加の複雑さを導入しユーザ指定の選好を歪めてしまう。本論文の貢献は二つある。第一に、ペアワイズ選好データを直接利用し、新規に提案する衝突回避勾配降下法のクリップ変種によって勾配衝突を解決する、報酬モデル不要の相反目的アライメント枠組み(RACO)を提案する。我々は、ユーザ指定の目的重みを尊重するパレート臨界点への収束を保証し、さらに2目的設定においてクリッピングが収束率を厳密に改善し得ることを示す。第二に、ヒューリスティクスを用いて本手法を改良し、提案枠組みがLLMアライメントに適合することを実験により実証する。複数のLLMファミリー(Qwen 3, Llama 3, Gemma 3)を用いた多目的要約タスクと安全性アライメントタスクにおける定性的・定量的評価の両方において、本手法が既存の多目的アライメントベースラインと比較して一貫して優れたパレートトレードオフを達成することを示す。
本論文では、超長編動画を注釈データなしで頑健に理解可能な短期コンテキスト視覚言語モデルのための新規2段階Direct Preference Optimizationフレームワーク「LongVPO」を提案する。第1段階では、個々の短いクリップに質問を固定し、それらを分散要素で交互に配置し、視覚的類似性と質問特異性フィルタリングを適用することで選好トリプルを合成し、位置バイアスを軽減するとともに明確な監督を保証する。また、参照モデルの長文コンテキストにおけるスコアリングをアンカークリップのみで評価することで近似し、計算コストを削減する。第2段階では、長編動画に対して再帰的キャプションピプラインを適用してシーンレベルのメタデータを生成し、大規模言語モデルを用いて複数セグメントの推論クエリと非選好応答を構築することで、マルチセグメント推論タスクを通じてモデルの選好を整合させる。僅か16Kの合成事例と高コストな人手ラベルなしで、LongVPOは複数の長編動画ベンチマークにおいて最先端のオープンソースモデルを凌駕しつつ(例:MVBench)、強力な短編動画性能も維持する。これにより、効率的な長編動画理解のためのスケーラブルなパラダイムを提供する。
本論文では、IGN Franceが提供する公式フランスオルソフォト及び地形建物データから構築した大規模建物変化検出データセットFOTBCDを提案する。既存のベンチマークが単一都市や限定地域に地理的に制約されているのに対し、FOTBCDはフランス本土28県にわたり、うち25県を学習用、地理的に分離された3県を評価用として確保している。本データセットは0.2m/ピクセルの解像度で、都市・郊外・農村など多様な環境を網羅する。約28,000組の前後画像ペアとピクセル単位の二値建物変化マスクから構成されるFOTBCD-Binaryを公開し、各ペアにはパッチレベルの空間メタデータを付与する。地理的ドメインシフト下での大規模ベンチマーク評価を目的とし、検証用・テスト用サンプルは評価用県から抽出し、ラベル品質を保証するため手動検証を実施した。さらに、数千組の画像ペアからなるインスタンスレベル注釈サブセットFOTBCD-Instancesを公開し、完全版FOTBCDで採用した注釈スキーマを具体例で示す。固定参照ベースラインを用いた評価では、FOTBCD-BinaryをLEVIR-CD+及びWHU-CDと比較し、データセットレベルの地理的多様性が建物変化検知のクロスドメイン汎化性能向上と相関することを実証的に示す。
エンコーダのみのトランスフォーマーは、レイテンシ、安定性、コストが最優先される検索、分類、ランキングシステムにおいて不可欠な存在であり続けています。しかし、汎用エンコーダの多くは、専門領域の網羅性が限られた一般的なコーパスで学習されています。本稿では、Eコマースのセマンティクスに特化して設計されたBERTスタイルのエンコーダファミリーであるRexBERTを提案します。主な貢献は三つあります。第一に、多様な小売・ショッピング関連ソースから収集した3500億トークンのコーパス「Ecom-niverse」を公開します。FineWebなどのオープンなウェブリソースからEコマースコンテンツを分離・抽出するモジュール式パイプラインと、結果として得られるドメイン分布の特性について説明します。第二に、ModernBERTのアーキテクチャ進歩を基盤とした再現可能な事前学習レシピを提示します。このレシピは、汎用事前学習、コンテキスト拡張、アニーリング型ドメイン特化の3段階から構成されます。第三に、1700万から4億パラメータまでのRexBERTモデルを学習し、Eコマースデータセットを用いたトークン分類、セマンティック類似度、一般的な自然言語理解タスクで評価します。パラメータ数が2~3倍少ないにもかかわらず、RexBERTはより大規模な汎用エンコーダを上回り、ドメイン特化型ベンチマークでは最新の長文脈モデルに匹敵、あるいは凌駕する性能を示しました。我々の結果は、高品質なドメイン内データと原理に基づいた学習アプローチの組み合わせが、無差別なスケーリング単独よりも、Eコマースアプリケーションにとってより強固な基盤を提供することを実証しています。
大規模言語モデル(LLM)は、依然としてもっともらしいが根拠のない事実主張を生成する問題があり、これは対話のターン数が増えて文脈が拡大し、初期の誤りが連鎖する多ターン対話において悪化する。本研究では、法的事例、研究課題、医療ガイドライン、コーディングという4つの重要領域にまたがる950のシード質問からなる、挑戦的な多ターン幻覚ベンチマーク「HalluHard」を提案する。我々は、事実主張に対するインライン引用を要求することで、接地性を操作的に定義する。オープンエンド設定での信頼性の高い評価を支援するため、ウェブ検索による証拠の反復的取得を行う判定パイプラインを提案する。このパイプラインは全文ソース(PDFを含む)を取得、フィルタリング、解析し、引用された資料が生成された内容を実際に支持するかどうかを評価できる。多様な最先端のプロプライエタリモデルおよびオープンウェイトモデルにわたる評価では、ウェブ検索を利用した場合でも幻覚は相当数残存し(最強構成のOpus-4.5 with web searchで約30%)、内容の接地誤りが高い割合で持続することがわかった。最後に、幻覚の生起パターンが、モデル能力、ターン位置、効果的推論、および要求される知識の種類によって形成されることを示す。