翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)から構築されるマルチエージェントシステムの出現は、スケーラブルな集団知能と自己進化に向けた有望なパラダイムを提供する。理想的には、こうしたシステムは堅牢な安全性整合性を維持しつつ、完全な閉ループで持続的な自己改善を達成するだろう。この組み合わせを我々は「自己進化のトリレンマ」と呼ぶ。しかし我々は、理論的・実証的に、持続的自己進化・完全な隔離・安全性不変性を同時に満たすエージェント社会が不可能であることを示す。情報理論的枠組みに基づき、安全性を人間的価値分布からの乖離度として形式化する。理論的に、隔離された自己進化は統計的な盲点を誘発し、システムの安全性整合性が不可逆的に劣化することを示す。オープンエンドのエージェントコミュニティ(Moltbook)と2つの閉鎖的自己進化システムにおける実証的・定性的結果は、安全性の不可避的な侵食という理論的予測と整合する現象を明らかにする。さらに、特定された安全性課題を緩和するための複数の解決方向性を提案する。本研究は自己進化するAI社会における根本的限界を確立し、症状対処的な安全性パッチから、内在的動的リスクの原理的理解へと議論を転換させる。外部監視または新たな安全性維持メカニズムの必要性を浮き彫りにするものである。
大規模な検証可能なプロンプトは、検証可能な報酬を用いた強化学習(RLVR)の成功を支えているが、それらには多くの非情報的例が含まれており、さらに拡張するにはコストがかかる。最近の研究では、ロールアウト通過率が0である困難なプロンプトを優先することで、限られた訓練データをより効果的に活用することに焦点が当てられている。しかし、訓練が進むにつれて通過率1の容易なプロンプトも次第に増加し、実質的なデータサイズを減少させている。この問題を緩和するため、我々は通過率1のプロンプトを対象に、限られた検証可能なプロンプトをより有効に活用するための簡潔かつ有用な手法Composition-RLを提案する。具体的には、Composition-RLは複数の問題を自動的に組み合わせて新たな検証可能な質問を生成し、これらの合成的プロンプトをRL訓練に利用する。4Bから30Bまでの様々なモデルサイズにおける大規模な実験により、Composition-RLが元のデータセットで訓練したRLを一貫して上回る推論能力の向上をもたらすことが示された。さらに、訓練過程中に合成的深度を段階的に増加させるカリキュラム学習版Composition-RLを適用することで、性能をさらに向上させることができる。加えて、Composition-RLは異なるドメインから抽出したプロンプトを組み合わせることで、より効果的なクロスドメインRLを実現する。コード、データセット、モデルはhttps://github.com/XinXU-USTC/Composition-RLで公開されている。
現在の画像生成・編集における統一マルチモーダルモデルは、通常、大規模なパラメータ数(例:>100億)に依存しており、膨大な学習コストと配備時のリソースを必要としています。本研究では、軽量な50億パラメータの統一モデルDeepGen 1.0を提案します。このモデルは、より大規模なモデルに匹敵する、あるいはそれを上回る総合的な能力を達成しています。コンパクトモデルにおける意味理解と細粒度制御の限界を克服するため、我々はStacked Channel Bridging(SCB)を導入しました。これは、VLMの複数層から階層的特徴を抽出し、学習可能な「思考トークン」と融合させる深層アライメントフレームワークであり、生成バックボーンに構造化され推論豊かなガイダンスを提供します。さらに、3段階のデータ中心学習戦略を設計しました:(1)大規模画像-テキストペアと編集トリプレットによるアライメント事前学習でVLMとDiTの表現を同期、(2)生成・編集・推論タスクの高品質混合データによる共同教師ありファインチューニングで全能力を育成、(3)複数の報酬関数と教師信号を活用するMR-GRPOによる強化学習で、生成品質と人間の嗜好への適合性を大幅に向上させつつ、安定した学習進行と視覚的アーティファクトの回避を実現。約5,000万サンプルのみで学習したにも関わらず、DeepGen 1.0は多様なベンチマークで最先端の性能を達成し、WISEでは800億パラメータのHunyuanImageを28%、UniREditBenchでは270億パラメータのQwen-Image-Editを37%上回りました。学習コード、重み、データセットをオープンソース化することで、統一マルチモーダル研究の民主化に向けた効率的で高性能な選択肢を提供します。
オン方針蒸留(OPD)は、生徒モデルが生成した軌道上で教師モデルのロジット分布に合わせる手法であり、生徒の性能向上において強力な実証的効果を示し、オフ方針蒸留や強化学習(RL)のパラダイムをしばしば上回る。本研究ではまず、OPDが密なKL制約付きRLの特殊ケースであることを理論的に示す。具体的には、報酬関数とKL正則化が常に等しく重み付けられ、参照モデルは任意のモデルでよいという特性を持つ。次に、標準的なOPD目的関数を拡張した一般化オン方針蒸留(G-OPD)フレームワークを提案する。これは柔軟な参照モデルと、報酬項のKL正則化に対する相対的重みを制御する報酬スケーリング係数を導入するものである。数学推論とコード生成タスクにおける包括的実験を通じて、二つの新たな知見を得た:(1)報酬スケーリング係数を1より大きく設定する「報酬外挿」(ExOPDと命名)は、様々な教師-生徒サイズ組み合わせにおいて標準OPDを一貫して改善する。特に、同一の生徒モデルに分野特化RLを適用して得た複数専門家の知識を元の生徒に統合する設定では、ExOPDにより生徒は教師の性能限界を超え、分野専門教師を凌駕する性能を発揮した。(2)ExOPDを基盤とし、強→弱蒸留設定(大規模教師から小規模生徒への蒸留)では、参照モデルとしてRL適用前の教師のベースモデルを選択する「報酬補正」を行うことで、より正確な報酬信号が得られ蒸留性能がさらに向上する。ただしこの選択は教師の事前RL版へのアクセスを必要とし、計算コストも増大する。本研究がOPDに関する将来の研究に新たな示唆をもたらすことを期待する。
離散音声トークナイザーは、大規模言語モデルにネイティブな音声処理・生成能力を与える上で不可欠な要素である。近年進展が見られるものの、既存手法は事前学習済みエンコーダ、意味的蒸留、あるいは異種CNNベースのアーキテクチャに依存する場合が多く、固定された帰納バイアスによって再現忠実度が制限され、効果的なスケーリングが妨げられている。本論文では、離散音声トークン化は、均質でスケーラブルなアーキテクチャを用いた完全なエンドツーエンド学習によって習得されるべきであると主張する。この目的に向けて、我々はまずCAT(Causal Audio Tokenizer with Transformer)を提案する。これは高忠実度再構成のために、エンコーダ・量子化器・デコーダを一貫してTransformerベースで構築し、初期状態から共同最適化する純粋なTransformerアーキテクチャである。CATアーキテクチャを発展させ、16億パラメータを有し、300万時間に及ぶ多様な一般音声データで事前学習された大規模音声トークナイザーMOSS-Audio-Tokenizerを開発した。この均質な因果的Transformerブロックで構築された単純な完全エンドツーエンド手法が、優雅にスケールし、多様な音声領域で高忠実度再構成を実現することを実証する。音声・環境音・音楽において、MOSS-Audio-Tokenizerは広範なビットレートで従来のコーデックを一貫して凌駕し、スケール拡大に伴う予測可能な性能向上を示す。特筆すべきは、本モデルから得られる離散トークンを活用して、従来の非自己回帰型システムやカスケード型システムを超える初の純粋自己回帰型TTSモデルを開発した点である。さらにMOSS-Audio-Tokenizerは、補助エンコーダなしで競争力のあるASR性能を実現する。我々の知見は、CATアーキテクチャが次世代ネイティブ音声基盤モデルのための統一かつスケーラブルなインターフェースとして位置付けられることを示唆している。
現在の観測から複数ステップの行動チャンクを直接予測する視覚言語行動(VLA)モデルは、限定的なシーン理解と弱い将来予測能力により本質的な制約に直面しています。一方、ウェブ規模のビデオデータで事前学習されたビデオ世界モデルは、堅牢な時空間推論と正確な将来予測を実現しており、VLA学習を強化する自然な基盤として機能します。そこで我々は、世界モデルベースの強化学習によって訓練されたVLAモデル「GigaBrain-0.5M*」を提案します。本モデルは1万時間以上のロボット把持データで事前学習され、中間バージョンが国際RoboChallengeベンチマークで首位を獲得しているGigaBrain-0.5を基盤としています。GigaBrain-0.5M*はさらに、RAMP(世界モデル条件付きポリシーによる強化学習)を介した世界モデルベースの強化学習を統合し、頑健なクロスタスク適応を実現します。実験結果では、RAMPがRECAPベースラインを大幅に上回り、洗濯物折りたたみ・箱詰め・エスプレッソ準備といった難易度の高いタスクで約30%の性能向上を達成しました。特に重要なのは、GigaBrain-0.5M*が信頼性の高い長期的実行能力を示し、実際の環境導入ビデオ(https://gigabrain05m.github.io)で検証されたように、複雑な把持タスクを失敗なく一貫して達成できる点です。
法的推論には、正しい結論のみならず、手続きに準拠した推論プロセスが求められる。しかし既存手法では、中間推論ステップを検証する仕組みが不足しており、不適用法令の引用などの誤りが推論連鎖内で検出されず伝播する可能性がある。この課題に対処するため、我々は動的な司法環境向けに「探索-検証-記憶」戦略を採用する自律的法律研究エージェントLawThinkerを提案する。核となる考え方は、知識探索ステップごとに検証を不可分操作として強制実行することである。DeepVerifierモジュールが各検索結果を、知識正確性・事実と法令の関連性・手続き準拠性の3次元で検査し、長期タスクにおける複数ラウンド間の知識再利用のためにメモリモジュールを備える。動的ベンチマークJ1-EVALでの実験では、LawThinkerが直接推論より24%、ワークフロー型手法より11%性能向上し、プロセス指向指標で特に顕著な改善を示した。3つの静的ベンチマークでの評価でも一般化能力が確認された。コードはhttps://github.com/yxy-919/LawThinker-agent で公開されている。
既存のマルチモーダル大規模言語モデルは、高精度の視覚的知覚と探索的視覚生成を実現している。しかし、複雑な推論タスクには精度のパラドックスが存在する:光学的知覚システムは論理的なトポロジーを捉えずに記号を転写し、ピクセルベースの生成モデルは数学的精確性を欠く視覚的アーティファクトを生成する。この隔たりを埋めるため、視覚入力に対する推論を「光学的圧縮解除」、すなわち圧縮された視覚トークンから潜在的な論理構造を再構築するプロセスとして再概念化することを提案する。「解析は推論である」という公理に基づき、最小限のドメイン固有言語(DSL)を基礎表現として用いるThinking with Drafting(TwD)を導入する。回答を直接生成する標準的アプローチとは異なり、TwDはモデルにメンタルモデルを実行可能コードとして起草させ、自己検証のための決定論的視覚的証明を生成させる。これを検証するため、視覚代数ベンチマークVisAlgを提案する。実験により、TwDが優れた認知的足場として機能することが示される。本研究は、視覚生成を創造的出力ではなく論理的検証器として機能させる閉ループシステムを確立し、視覚推論への一般化可能な道筋を提供する。
視覚的錯覚は、従来、多視点一貫性などの空間的操作に依存してきた。本研究では、単一のスケッチがストロークの逐次追加によって劇的な意味的変容を遂げる新しいベクトル描画タスク「Progressive Semantic Illusions」を提案する。我々は、異なる描画段階で distinct な意味的解釈を満たすようにベクトルストロークを最適化する生成フレームワーク「Stroke of Surprise」を発表する。核心的な課題は「二重制約」にあり、初期の接頭辞ストロークは(アヒルなどの)首尾一貫したオブジェクトを形成しつつ、同時にデルタストロークを追加することで(羊などの)第二の概念に対する構造的基盤として機能しなければならない。この課題に対処するため、我々は二重分岐Score Distillation Sampling(SDS)メカニズムに駆動されるシーケンス認識型共同最適化フレームワークを提案する。初期状態を固定する逐次アプローチとは異なり、本手法は接頭辞ストロークを動的に調整し、両ターゲットに対して有効な「共通構造部分空間」を発見する。さらに、空間的補完性を強化し、オクルージョンではなく構造的統合を保証する新しいOverlay Lossを導入する。大規模な実験により、本手法が認識可能性と錯覚強度において最先端のベースラインを大幅に上回り、視覚的アナグラムを空間次元から時間次元へ拡張することに成功したことが実証された。プロジェクトページ: https://stroke-of-surprise.github.io/
効果的なテスト時スケーリングを実現するには、モデルが「文脈内探索」、すなわち単一の連続した文脈内で複数の推論仮説を生成、検証、洗練させる本質的な能力を発揮することが必要である。 状態カバレッジ理論に基づく我々の分析は、この能力を実現する上での重大なボトルネックを明らかにしている:より広範な状態カバレッジにはより長い推論軌道が必要である一方で、そのような系列をサンプリングする確率は自己回帰生成の過程で指数的に減衰する。我々はこの現象を「浅い探索の罠」と名付ける。 この隔たりを埋めるため、我々は長さ誘引型探索(\method)を提案する。 この簡潔かつ効果的な手法は、冗長性ペナルティと組み合わされた長さベースの報酬を通じて、モデルがより探索することを明示的に促進し、それにより二段階の方法で状態カバレッジを最大化する。 様々なモデル(Qwen3, Llama)を用いた総合的な実験により、\method が文脈内探索を効果的に促進することが実証された。 その結果、本手法はイン・ドメインタスクで平均4.4%、アウト・オブ・ドメインベンチマークで2.7%の改善を達成した。
モデル容量とデータ収集の持続的な拡大にもかかわらず、Vision-Language-Action(VLA)モデルは、接触が頻繁かつ動的な操作タスクにおいて依然として脆弱である。わずかな実行偏差が失敗につながる可能性がある。強化学習(RL)はロバスト性への原理的なアプローチを提供するが、物理世界における方策オン型RLは安全性リスク、ハードウェアコスト、環境リセットの制約を受ける。このギャップを埋めるため、我々は想像力によるロボット強化学習のスケーラブルなフレームワークであるRISEを提案する。その中核は、構成可能な世界モデルであり、(i)制御可能なダイナミクスモデルによるマルチビュー未来予測と、(ii)進捗価値モデルによる想像された結果の評価を行い、方策改善のための情報量の多いアドバンテージを生成する。このような構成可能な設計により、状態と価値は、最も適したが異なるアーキテクチャと目的に合わせて調整できる。これらのコンポーネントは、コストの高い物理的相互作用なしに、想像上のロールアウトを継続的に生成し、アドバンテージを推定し、想像空間で方策を更新する、閉ループの自己改善パイプラインに統合される。3つの困難な実世界タスクにおいて、RISEは従来技術を大幅に上回る改善をもたらし、動的なレンガ仕分けでは絶対性能が35%以上、バックパックの梱包では45%以上、箱の閉鎖では35%以上、それぞれ向上した。
拡散型大規模言語モデル(dLLM)は、自己回帰モデリングを超える新たなパラダイムを代表し、競争力のある性能を提供するとともに、柔軟なデコードプロセスを自然に実現する。特にdLLMは任意の位置のトークンを並列生成可能であり、従来自己回帰モデリングでは非効率性により制約されていた並列推論時のスケーリングに大きな可能性を開く。本論文では、学習を必要とせず、許容範囲の計算コスト増加のみで推論能力を強化する高速投票技術「dVoting」を提案する。dVotingは、同一プロンプトに対する複数生成サンプルにおいて、トークン予測の大部分が一貫している一方、性能はサンプル間で変動する少数のトークンによって決定されるという観察に基づく。dLLMの任意位置生成機能を活用し、dVotingはサンプリングによる反復改良プロセスを実施する。具体的には、一貫性分析による不確実トークンの特定、投票を介した再生成、収束までの反復を実行する。大規模評価により、dVotingが様々なベンチマークで一貫して性能向上をもたらすことを実証した。GSM8Kでは6.22%-7.66%、MATH500では4.40%-7.20%、ARC-Cでは3.16%-14.84%、MMLUでは4.83%-5.74%の改善を達成した。実装コードはhttps://github.com/fscdc/dVoting で公開されている。
高信頼性の長視野ロボットマニピュレーションは、従来、複雑な実世界のダイナミクスを理解するために大規模なデータと計算資源に依存してきた。しかし我々は、実世界での頑健性の主要なボトルネックが単なるリソース規模ではなく、人間による実演データの分布、方策によって学習された帰納的バイアス、およびテスト時実行分布の間の分布的シフト——多段階タスクにおいて誤差を累積させる系統的な不一致——であることを見出した。これらの不一致を軽減するため、我々はロボットマニピュレーションにおいて製品レベルの頑健性を達成するために設計された効果的なモジュールを備えた、リソース効率の良いフレームワークχ_{0}を提案する。我々のアプローチは以下の3つの技術的柱に基づいている:(i) **モデル算術**:物体の外観から状態変動まで様々な実演データの多様な分布を効率的に吸収する、重み空間マージング戦略。(ii) **段階アドバンテージ**:従来の非段階的アプローチの数値的不安定性を克服し、安定した高密度の進捗信号を提供する、段階を考慮したアドバンテージ推定器。(iii) **学習-展開整合**:時空間的拡張、ヒューリスティックなDAgger補正、時間的チャンク単位の平滑化により分布的ギャップを埋める手法。χ_{0}により、2組のデュアルアームロボットが協調して長視野の衣類操作(平坦化、折り畳み、ハンガー掛けなど)を遂行できる。本手法は高い信頼性の自律性を示し、任意の初期状態から連続24時間非停止でシステムを動作させることに成功した。実験により、χ_{0}が20時間のデータと8つのA100 GPUのみで、最先端のπ_{0.5}を成功率で約250%上回ることを検証した。コード、データ、モデルはコミュニティの発展のために公開予定である。
人間による実演は、環境的多様性に富み、自然にスケールするため、ロボット遠隔操作に代わる魅力的な選択肢である。このパラダイムはロボットアームのマニピュレーションを進歩させてきたが、より困難でデータを大量に必要とするヒューマノイドの移動把持問題への応用可能性は、ほとんど未開拓のままであった。本研究では、豊富なエゴセントリック(一人称視点)な人間の実演データと限られた量のロボットデータを併用して視覚-言語-行動ポリシーを共同訓練し、ヒューマノイドが多様な実世界環境で移動把持を実行することを可能にする、初のフレームワーク「EgoHumanoid」を提案する。物理形態や視点の相違を含む、人間とロボットの間の身体性のギャップを埋めるため、ハードウェア設計からデータ処理に至る体系的なアライメント手法を導入する。スケーラブルな人間データ収集のためのポータブルシステムを開発し、転移性を向上させる実用的な収集プロトコルを確立した。人間からヒューマノイドへのアライメント手法の中核は、二つの主要コンポーネントからなる。視点アライメントは、カメラの高さや視点の変動に起因する視覚領域の不一致を軽減する。行動アライメントは、人間の動作をヒューマノイド制御のための、統一的で運動学的に実現可能な行動空間に写像する。大規模な実世界実験により、ロボットデータを使用しないエゴセントリックデータの統合が、特に未経験環境において、ロボットデータのみのベースラインを51%大幅に上回る性能を発揮することを実証した。分析により、どの行動が効果的に転移するか、および人間データのスケーリング可能性がさらに明らかとなった。
長編動画に対する一貫性のあるサウンドトラックの生成は、依然として大きな課題であり、現在以下の3つの重要な障壁によって進展が阻まれている:計算スケーラビリティ、時間的一貫性、そして最も重要なものとして、展開する物語論理に対する意味論的盲目性である。これらの課題を解決するため、我々はNarraScoreを提案する。この階層的フレームワークは、感情が物語論理の高密度圧縮表現として機能するという核心的洞察に基づいている。独自の手法として、凍結された視覚言語モデル(VLM)を連続的な感情センサーとして再活用し、高次元の視覚ストリームを物語を意識した高密度の価値-覚醒度軌跡に変換する。機構的には、NarraScoreはデュアルブランチ注入戦略を採用し、大域的な構造と局所的な躍動感を調和させる:大域意味アンカーは様式的安定性を保証し、局所的なトークンレベル感情アダプターは要素ごとの残差注入により緊張感を微調整する。このミニマリスト設計は、密な注意機構や構造複製のボトルネックを回避し、データ不足に伴う過学習リスクを効果的に軽減する。実験により、NarraScoreが計算オーバーヘッドを無視可能に抑えつつ、最先端の一貫性と物語整合性を達成し、長編動画のサウンドトラック生成における完全自律パラダイムを確立することが実証された。
大規模モデル(LM)の開発が急速に進展する中、その安全性も優先課題となっている。現在の大規模言語モデル(LLM)およびマルチモーダル大規模言語モデル(MLLM)の安全性ワークフローでは、評価、診断、アライメントが個別のツールで処理されることが多い。具体的には、安全性評価は外部の行動リスクを特定することしかできず、内部的な根本原因を把握できない。一方、安全性診断は具体的なリスクシナリオから乖離し、説明可能なレベルに留まることがある。このように、安全性アライメントには内部メカニズムの変化に関する専用の説明が欠如しており、一般能力の低下を招く可能性がある。これらの課題を体系的に解決するため、我々はオープンソースプロジェクト「DeepSight」を提案し、新たな安全性評価・診断統合パラダイムを実践する。DeepSightは、評価ツールキットDeepSafeと診断ツールキットDeepScanで構成される、低コストで再現性が高く効率的、かつ拡張性の高い大規模モデル安全性評価プロジェクトである。タスクとデータプロトコルを統一することで、2つの段階間の連携を構築し、安全性評価をブラックボックスからホワイトボックス洞察へ転換する。さらに、DeepSightは最先端のAIリスク評価と安全性評価・診断の連携をサポートする初のオープンソースツールキットである。
検証可能な報酬を用いた強化学習(RLVR)、特にGRPOは、大規模言語モデルの推論能力を引き出す標準的手法となっている。しかし、その探索効率と難易度適応性に関する課題は未解決のままであった。本研究では、これらのボトルネックが、グループ相対アドバンテージ推定(GRAE)に内在する暗黙的なアドバンテージ対称性に起因することを論じる。この対称性は二つの重大な限界を生み出す:(i)グループレベルでは、正解軌跡と不正解軌跡間の重みの厳密な対称性により、未サンプリングの行動ロジットが変化せず、新規正解の探索が阻害される。(ii)サンプルレベルでは、アルゴリズムは中程度の難易度サンプルを暗黙的に優先し、難易度焦点の非定常的な要求を認識しない。制御実験を通じて、この対称性が最適でないことを明らかにし、二つの重要な知見を得た:(i)正解軌跡のアドバンテージを非対称的に抑制することが本質的な探索を促進する。(ii)学習効率は、単純なサンプルから複雑なサンプルへ徐々に移行するカリキュラム学習的な遷移により最大化される。これらの発見に基づき、探索誘因とサンプル難易度焦点を動的に調整する非対称GRAE(A-GRAE)を提案する。7つのベンチマークにおける実験により、A-GRAEがLLMおよびMLLMの双方において、GRPOとその変種を一貫して改善することを実証した。
視覚言語ナビゲーションは、なぜ詳細かつ冗長な言語指示に縛られなければならないのか?こうした詳細情報は意思決定を容易にするが、実世界でのナビゲーションという本来の目的とは根本的に矛盾している。理想的には、エージェントは単純で高次元の意図のみに導かれて未知の環境を自律航行できるべきである。この野望を実現するには、極めて困難な課題、すなわち「視界を超えたナビゲーション(BVN)」に立ち向かわねばならない。BVNでは、エージェントは密なステップバイステップの指示なしに、遠方の未視認ターゲットを特定しなければならない。大規模言語モデル(LLM)ベースの既存手法は、密な指示の追従には長けるが、短視野的な監督に依存するため、短絡的な行動に陥りがちである。しかし、単に監督の時間範囲を拡大すると、LLMの訓練が不安定になる。本研究では、ビデオ生成モデルが本質的に、言語指示との整合性を保つための長期的な監督から恩恵を受けており、これがBVNタスクに特に適していることを明らかにする。この知見を活かし、我々はビデオ生成モデルをこの分野に初めて導入することを提案する。しかし、数十秒に及ぶビデオを生成するには遅延が大きすぎるため、実世界への展開は非現実的である。この隔たりを埋めるため、我々はSparseVideoNavを提案する。これは20秒先までの時間範囲をカバーする疎な未来ビデオを生成して導くことで、1秒未満の軌道推論を実現する。これにより、最適化前と比較して驚異的な27倍の高速化を達成した。大規模な実世界ゼロショット実験により、SparseVideoNavがBVNタスクにおいて最新のLLMベースラインの2.5倍の成功率を達成し、困難な夜間環境においてもこの能力を初めて実現したことが実証された。
ECサイトにおける商品理解には、本質的に、テキスト・画像・構造化属性からの強力なマルチモーダル理解が求められる。汎用視覚言語モデル(VLM)は汎用的なマルチモーダル潜在モデリングを可能にするが、汎用性能を犠牲にすることなく、ECデータの属性中心・複数画像・ノイズの多い性質に適応させる、文書化され確立された戦略は存在しない。本研究では、大規模な実験的検証を通じて、汎用VLMを対象領域に特化して適応させることで、広範なマルチモーダル能力を維持しつつECタスクの性能を大幅に向上できることを示す。さらに、深い商品理解、厳密な指示追従、動的属性抽出を網羅する新たな包括的評価手法を提案する。
AIビデオ生成の分野は現在、重要な転換期を迎えている。すなわち、膨大なプロンプトエンジニアリングと「良い結果の選別」に依存する汎用的な生成から、細粒度で制御可能な生成と高忠実度な後処理へと移行しつつある。プロフェッショナルなAI支援映像制作においては、精密かつ対象を限定した修正を行うことが極めて重要である。この転換の基盤となるのが、ビデオインスタンス挿入技術であり、既存の映像に特定のオブジェクト(インスタンス)をシーンの整合性を保ちつつ挿入することを要求する。従来のビデオ編集とは異なり、このタスクにはいくつかの要件が求められる。すなわち、正確な時空間的配置、物理的に一貫したシーンとの相互作用、元の動きの忠実な保持であり、これらをユーザーの負荷を最小限に抑えて達成しなければならない。 本論文では、任意のスパースなキーフレーム制御による精密なビデオインスタンス挿入を実現するビデオ拡散モデル、PISCOを提案する。PISCOはユーザーが単一のキーフレーム、開始・終了キーフレーム、あるいは任意のタイムスタンプにおけるスパースなキーフレーム群を指定することを可能とし、オブジェクトの外観、動き、相互作用を自動的に伝播させる。事前学習済みビデオ拡散モデルにおけるスパースな条件付けによって引き起こされる深刻な分布シフトに対処するため、我々は頑健な条件付けのための可変情報ガイダンスと、時間的生成を安定化させる分布保存型時間マスキングを導入し、さらに現実的なシーン適応のための幾何学認識型条件付けを組み合わせた。さらに、検証済みのインスタンスアノテーションとペアとなったクリーンな背景ビデオから構成されるベンチマーク、PISCO-Benchを構築し、参照ありおよび参照なしの知覚的指標を用いて性能を評価した。実験結果は、PISCOがスパースな制御条件下において強力なインペインティングおよびビデオ編集のベースライン手法を一貫して凌駕し、追加の制御信号が与えられるにつれて明確かつ単調な性能向上を示すことを実証している。プロジェクトページ: xiangbogaobarry.github.io/PISCO。
拡散大規模言語モデル(DLLM)は、複数のトークンを並列にデコードすることで高速なテキスト生成を実現する可能性を秘めている。しかし実際には、多くの反復改良ステップを必要とするため推論効率が制約されており、ステップ数を過度に削減すると生成品質が大幅に低下する。この問題を緩和するため、我々はモデル自身の生成的軌跡を蒸留することで、少ステップデコードを改善する軌跡自己蒸留フレームワークを提案する。本手法では、モード追従型の蒸留を促進し、生徒モデルが教師モデルの高確率モードに集中するよう促す逆KL目的関数である直接識別的最適化(DDO)を組み込む。ベンチマーク評価において、本手法は厳しいステップ予算下で、強力な少ステップベースラインや標準的な学習手法を一貫して上回った。完全ステップデコードの優位性は変わらないものの、その性能差を大幅に縮小し、実用的な少ステップDLLMに向けた強固な基盤を確立した。ソースコードはhttps://github.com/Tyrion58/T3D で公開されている。
オープンエンド学習は、知能を絶えず拡大する環境空間との継続的な相互作用から創発するものとして捉える。近年の研究ではファウンデーションモデルを用いてプログラム的に多様な環境を生成する手法が進展しているが、これらのアプローチは持続的な進歩を体系化するよりも、孤立した行動の発見に焦点を当てることが多い。複雑なオープンエンド世界では、可能な課題の組み合わせ空間が膨大であるため、エージェントが一貫して学習可能な経験の連鎖を発見することが困難である。この問題に対処するため、我々はDreaming in Code(DiCode)を提案する。これはファウンデーションモデルが実行可能な環境コードを合成し、能力向上に向けた学習の足場を構築するフレームワークである。DiCodeにおいて「夢見る」ことは、世界のコードレベルの変異を具体化する形で行われる。我々はDiCodeを、豊富なメカニクスと長期的な進展を特徴とする挑戦的なオープンエンドベンチマークであるCraftax上で実装した。実験では、DiCodeによりエージェントが長期的スキルを獲得し、最強のベースラインに対して平均リターンで16%の改善を達成し、従来手法が失敗した終盤の戦闘タスクにおいて非ゼロの成功率を示した。我々の結果は、コードレベルの環境設計がカリキュラム制御の実用的なメカニズムを提供し、オープンエンド世界における能力ギャップを埋める中間環境の構築を可能にすることを示唆する。プロジェクトページとソースコードはhttps://konstantinosmitsides.github.io/dreaming-in-code および https://github.com/konstantinosmitsides/dreaming-in-code で公開されている。
大規模言語モデル(LLM)の超長文脈応用への進化は、Transformerアーキテクチャの高い計算コストとメモリコストによって課題に直面している。既存のスパース注意機構や線形注意機構はこれらの問題緩和を試みているが、一般的にメモリ効率とモデル性能の間でトレードオフが生じる。本論文では、スパース注意機構(InfLLM-V2)の高精度な長文脈モデリング能力と、線形注意機構(Lightning Attention)の大域的な効率性を統合した9BパラメータのハイブリッドアーキテクチャであるMiniCPM-SALAを提案する。層選択アルゴリズムを用いてこれらの機構を1:3の比率で統合し、ハイブリッド位置符号化(HyPE)を採用することで、モデルは長文脈タスクにおいて効率性と性能を両立する。さらに、事前学習済みTransformerベースモデルをハイブリッドモデルに変換するコスト効率の高い継続学習フレームワークを導入し、スクラッチからの学習と比較して学習コストを約75%削減する。大規模な実験により、MiniCPM-SALAは完全注意機構モデルに匹敵する汎用能力を維持しつつ、効率性を向上させることを実証する。単一のNVIDIA A6000D GPU上で、本モデルは256Kトークンの系列長において完全注意機構モデル比最大3.5倍の推論速度を達成し、従来の完全注意機構8Bモデルがメモリ制約により失敗する100万トークンまでの文脈長をサポートする。
本論文では、サブ秒レベルの遅延でオフライン書き起こし精度に匹敵する、ネイティブストリーミング方式の自動音声認識モデル「Voxtral Realtime」を提案する。オフラインモデルをチャンク分割やスライディングウィンドウで適応させる手法とは異なり、Voxtral Realtimeは音声とテキストストリーム間の明示的なアライメントを伴う、エンドツーエンドのストリーミング向けに訓練されている。本アーキテクチャはDelayed Streams Modelingフレームワークを基盤とし、改良された遅延条件付けのために新たな因果的音声エンコーダとAda RMS-Normを導入する。大規模データセット(13言語)を用いた事前学習を実施し、480msの遅延条件下において、広く普及しているオフライン書き起こしシステムWhisperと同等の性能を達成した。本モデルの重みはApache 2.0ライセンスの下で公開する。
近年、潜在推論を用いて明示的な推論軌跡を潜在空間における連続表現に置き換えることで推論効率を向上させる研究が進められているが、その有効性は設定によって異なる。潜在推論下におけるモデルの確信度動態を分析した結果、誤った答えで終わる思考軌跡は、正しい答えで終わる思考軌跡に比べて、低確信度のステップが少ないことが明らかになった。一方、複数の低確信度の思考選択肢を集約したソフト埋め込みはノイズを導入・伝播させ、信頼性の低い推論軌跡に対して高い確信度をもたらす可能性がある。これらの観察に基づき、推論時の確信度を考慮したルーティング機構であるThinkRouterを提案し、効率的な推論のために高い確信度とノイズを回避する。ThinkRouterは、モデルの確信度が低い場合は思考を離散トークン空間に、そうでない場合は潜在空間にルーティングする。様々な大規模推論モデルを用いたSTEM推論およびコーディングベンチマークによる大規模実験により、ThinkRouterが明示的なCoT、ランダムルーティング、潜在推論ベースラインを精度で上回り、Pass@1で平均19.70ポイントの改善を達成すると同時に、生成長を最大15.55%削減できることが実証された。さらに詳細な分析により、ThinkRouterが明示的CoTと潜在推論から生じる誤りを較正し、モデルの確信度を全体的に低下させることで思考終了トークンの生成を加速させることを明らかにした。
ロボットの大規模展開には、日常的に発生するロングテール状況への頑健性が求められる。実環境を特徴づける、シーン配置、オブジェクト形状、タスク仕様の無数のバリエーションは極めて多岐にわたり、既存のロボットベンチマークでは十分に表現されていない。このレベルの汎化性能を測定するには、物理的な評価だけでは提供できない規模と多様性を備えたインフラストラクチャが必要である。我々は、ロボットポリシーの大規模ベンチマークを支援する完全オープンなエコシステム「MolmoSpaces」を提案する。MolmoSpacesは、手作りの家庭内シーンから手続き的に生成された複数室の家まで、23万以上もの多様な屋内環境で構成され、13万の豊富な注釈付きオブジェクトアセット(うち4万8千の把持可能オブジェクトと4200万の安定把持を含む)が配置されている。決定的に、これらの環境はシミュレータに依存せず、MuJoCo、Isaac、ManiSkillなどの一般的なオプションをサポートする。本エコシステムは、静的な操作と移動を伴う操作、ナビゲーション、そして屋内環境全体にわたる知覚、計画、インタラクションの協調を必要とする複数室にわたる長期タスクなど、具身化タスクの全範囲をサポートする。さらに、ロボットが我々の多様なシーンと豊富な注釈付きオブジェクトと対話する8つのタスクからなるベンチマークスイート「MolmoSpaces-Bench」を設計した。実験により、MolmoSpaces-Benchは強力なシミュレーションtoリアル相関(R = 0.96, ρ = 0.98)を示し、新しいより強力なゼロショットポリシーが我々のベンチマークで以前のバージョンを上回ることを確認し、プロンプトの表現、初期関節位置、カメラオクルージョンへの重要な感度を特定した。MolmoSpacesとそのオープンソースのアセット及びツール群を通じて、ロボット学習研究のためのスケーラブルなデータ生成、ポリシー訓練、ベンチマーク作成の基盤を提供する。
単一マイナスヘリシティを持つツリーレベルnグルオン散乱振幅を再検討する。一般にゼロと推定されることが多いが、クライン空間または複素化運動量において存在する特定の「半共線的」配置では非ゼロとなることを示す。単一マイナスヘリシティグルオンがn-1個のプラスヘリシティグルオンへ崩壊する過程について、運動量の関数として区分的に一定な閉形式表現を導出する。この公式は、ワインバーグのソフト定理を含む複数の整合性条件を非自明に満たす。
我々は、予算制約下でツールを活用するエージェントを研究する。ここでは、大規模言語モデルが厳格な金銭的予算の下で外部ツールを呼び出し、多段階タスクを解決しなければならない。我々はこの設定を、価格付けされ確率的なツール実行を伴う文脈空間における逐次意思決定問題として定式化する。この問題は、巨大な状態-行動空間、結果の高い分散、および膨大な探索コストにより、直接的な計画を困難にする。これらの課題に対処するため、我々はINTENTを提案する。これは、将来のツール使用とリスク調整済みコストを予測する意図認識階層的世界モデルを活用し、オンラインで意思決定を導く推論時計画フレームワークである。コスト拡張版StableToolBenchにおける実験では、INTENTは厳密な予算制約の実現可能性を保証しつつ、ベースラインを大幅に上回るタスク成功率を達成し、ツール価格の変動や予算の変化といった動的な市場シフト下でも堅牢性を維持する。
画像における比喩的理解は、現在のAIシステムにとって依然として重要な課題である。マルチモーダル大規模言語モデル(MLLM)は基本的な視覚的質問応答(VQA)では優れた性能を発揮するが、視覚コンテンツに埋め込まれた文化的・感情的・文脈的な含意を理解することには一貫して困難を示している。この困難は、現在のモデルが持たない、高度なマルチホップ推論、文化的文脈、心の理論(ToM)能力を必要とするタスクの性質に起因する。このギャップを埋めるため、我々は画像含意タスクにおける初のエンドツーエンド視覚強化学習(RL)フレームワークであるMetaphorStarを提案する。本フレームワークは、細粒度データセットTFQ-Data、視覚RL手法TFQ-GRPO、体系的なベンチマークTFQ-Benchの3つの核心コンポーネントで構成される。 TFQ-Data上でTFQ-GRPOを用いて学習した完全オープンソースのMetaphorStarファミリーは、画像含意ベンチマークにおいて平均82.6%の性能向上を達成した。20以上の主流MLLMと比較し、MetaphorStar-32Bは多肢選択問題と自由記述問題で最高性能(SOTA)を達成し、真偽問題ではトップのクローズドソースモデルGemini-3.0-proを大幅に上回った。決定的に、画像含意タスクの学習が、一般的な理解能力、特に複雑な視覚推論能力を向上させることを実験的に明らかにした。さらに、モデルパラメータスケーリング、学習データスケーリング、および異なるモデルアーキテクチャと学習戦略の影響について体系的分析を行い、本手法の幅広い適用性を実証した。全てのモデル重み、データセット、手法コードをhttps://metaphorstar.github.io で公開している。
マルチモーダル大規模言語モデル(MLLM)は、多段階の推論と長文生成を伴う実世界タスクにおいて、その信頼性を確保するために、モデル出力を多様な入力ソースに基づき接地させ、個々の事実主張を検証する必要性が高まっています。しかし、既存のマルチモーダル接地ベンチマークや評価手法は、単純化された観察ベースのシナリオや限られたモダリティに焦点を当てたものが多く、複雑なマルチモーダル推論における帰属関係の評価が不十分です。本研究では、直接観察を超えた推論を必要とする設定において、事実レベルのマルチモーダル帰属を評価するベンチマーク、MuRGAt(Multimodal Reasoning with Grounded Attribution)を提案します。映像、音声などの多様なモダリティに跨る入力に対し、MuRGAtはモデルが明示的な推論過程と正確な引用を含む回答を生成することを要求します。各引用は、モダリティと時間セグメントの両方を特定する必要があります。信頼性の高い評価を可能にするため、人間の判断と強く相関する自動評価フレームワークを導入します。人間による評価と自動スコアリングを用いたベンチマークテストにより、強力なMLLMであっても、正しい推論が行われている場合でも、しばしば誤った引用を生成する( hallucinate )ことが明らかになりました。さらに、重要なトレードオフが観察されました:推論の深さを増したり、構造化された接地を強化したりすることは、多くの場合、回答の正確性を低下させます。これは、内部的な推論と検証可能な帰属情報の提示との間に大きな隔たりがあることを示唆しています。
本論文では、現実的な非同期環境における大規模言語モデルエージェントを評価するためのベンチマーク「Gaia2」を提案する。従来の静的または同期的な評価とは異なり、Gaia2は環境がエージェントの行動とは独立して変化するシナリオを導入する。これにより、エージェントは時間的制約下での動作、ノイズの多い動的イベントへの適応、あいまいさの解消、他のエージェントとの協調が要求される。各シナリオには書き込みアクション検証器が組み合わされており、きめ細かいアクションレベルの評価が可能で、検証可能な報酬からの強化学習に直接利用できる。最先端のプロプライエタリモデルおよびオープンソースモデルの評価結果では、いずれのモデルも全能力で優位に立つことはなかった。GPT-5(高機能版)は42%のpass@1で最高総合スコアを達成したが、時間制約タスクでは失敗した。Claude-4 Sonnetは精度と速度をコストと引き換えにしており、オープンソースモデルではKimi-K2が21%のpass@1で首位となった。これらの結果は、推論、効率性、頑健性の間の根本的なトレードオフを浮き彫りにし、「シミュレーションtoリアル」ギャップの解消における課題を明らかにする。Gaia2はオープンソースのAgents Research Environmentsプラットフォーム上に構築された消費者環境を基盤とし、拡張性を重視して設計されている。基盤となるAREフレームワークとともにGaia2を公開することで、実用的な次世代エージェントシステムの開発、ベンチマーク評価、学習のための柔軟なインフラをコミュニティに提供することを目指す。
企業文書(フォームやレポートなど)には、データアーカイブ、自動化されたワークフロー、分析などの下流アプリケーションにとって重要な情報が埋め込まれている。汎用視覚言語モデル(VLM)は、確立された文書理解ベンチマークでは良好な性能を示すが、多様な文書タイプと柔軟なスキーマにわたる、包括的で細粒度な構造化抽出を実行する能力については十分に研究されていない。既存の主要エンティティ抽出(KEE)、関係抽出(RE)、視覚的質問応答(VQA)のデータセットは、限定的なエンティティオントロジー、単純なクエリ、または均質な文書タイプによって制限されており、適応可能で構造化された抽出の必要性を見落としがちである。これらの課題に対処するため、我々は文書画像からの構造化情報抽出(IE)のための新しいベンチマークデータセットであるExStrucTinyを提案する。これはKEE、RE、VQAの側面を統合したものである。手動と合成の人間検証サンプルを組み合わせた新しいパイプラインを通じて構築されたExStrucTinyは、より多様な文書タイプと抽出シナリオを網羅している。本ベンチマークを用いてオープン及びクローズドなVLMを分析し、スキーマ適応、クエリの仕様不足、回答の位置特定といった課題を明らかにする。我々の研究が、文書における構造化IEのための汎用モデル改善の基盤となることを期待する。
大規模言語モデルのパーソナライズドアライメントは、一般に強化学習を通じて、応答を個々のユーザーの嗜好に適応させることを目的としている。主な課題は、オープンエンドなシナリオにおいて、正確でユーザー固有の報酬信号を取得することである。既存のパーソナライズド報酬モデルには、2つの根強い限界がある:(1) 多様でシナリオ固有の嗜好を、少数の固定的な評価原則に過度に単純化してしまうこと、(2) 限定的なフィードバックしか得られない新規ユーザーへの汎化に苦労することである。この問題に対処するため、我々はテスト時ユーザーベーススケーリングを備えた、初のパーソナライズド生成報酬モデルであるP-GenRMを提案する。P-GenRMは、嗜好信号を構造化された評価連鎖に変換し、様々なシナリオにわたって適応的なペルソナと評価基準を導出する。さらに、ユーザーをユーザープロトタイプにクラスタリングし、二重粒度のスケーリング機構を導入する:個人レベルでは、各ユーザーの評価スキームを適応的にスケーリングして集約し、プロトタイプレベルでは、類似ユーザーからの嗜好を組み込む。この設計により、推定された嗜好におけるノイズが軽減され、プロトタイプベースの転移を通じて未見のユーザーへの汎化が強化される。実験結果では、P-GenRMが広く使用されているパーソナライズド報酬モデルのベンチマークで平均2.31%の改善を示し、分布外データセットにおいても強力な汎化性能を発揮する。特に、テスト時ユーザーベーススケーリングは追加で3%の性能向上をもたらし、テスト時のスケーラビリティを備えたより強力なパーソナライズドアライメントを実証する。
解釈可能性と精度のトレードオフは、機械学習における核心的な課題であり続けている。標準的な一般化加法モデル(GAM)は明確な特徴量への帰属分析を提供するが、厳密に加法的な性質によって制約されるため、予測性能が限定されがちである。特徴量間の交互作用を導入すれば精度を向上させられるが、個々の特徴量の寄与が不明確になる可能性がある。これらの課題を解決するため、我々は解釈可能性と精度をシームレスに両立させる新しいフレームワークであるNeural Additive Experts(NAE)を提案する。NAEはエキスパートの混合フレームワークを採用し、各特徴量に対して複数の専門的なネットワークを学習する。同時に、動的なゲーティング機構が特徴量間の情報を統合し、これにより厳格な加法的制約が緩和される。さらに、エキスパート間の予測の分散を抑制し、特徴量の帰属を明瞭に保ちつつ、複雑な特徴量間の交互作用を捉えるモデルへと、純粋な加法モデルから滑らかに移行させることを可能にするための、標的正則化手法を提案する。合成データを用いた理論分析と実験は本モデルの柔軟性を実証し、実世界のデータセットにおける広範な評価により、NAEが予測精度と特徴量レベルの透明性の高い説明性との間で最適なバランスを達成することを確認した。コードはhttps://github.com/Teddy-XiongGZ/NAE で公開されている。
大規模視覚命令チューニング(VIT)は、様々なマルチモーダルタスクにおける視覚言語モデル(VLM)の性能向上のための主要なパラダイムとなっている。しかし、大規模データセットでの学習は、データの冗長性のために計算コストが高く非効率であり、学習効率を改善するためのマルチモーダルデータ選択の必要性が高まっている。VITのための既存のデータ選択手法は、高コストな学習や勾配計算を必要とするか、あるいはプロキシモデルやデータセット、命令に依存しない表現、二次の計算量を要するペアワイズ類似度に依存するトレーニング不要の代替手法が主流であり、拡張性と表現の忠実度が制限されている。本研究では、サンプル数に対して線形時間計算量であり、外部モデルや補助データセットを必要としない、拡張性の高いトレーニング不要のマルチモーダルデータ選択手法であるScalSelectを提案する。ScalSelectはまず、対象VLMにおいて命令トークンが最も注目する視覚特徴を抽出することでサンプル表現を構築し、命令に関連する情報を捕捉する。次に、その表現がデータセット全体の表現の主部分空間を最もよく近似するサンプルを特定し、ペアワイズ比較なしで拡張性の高い重要度スコアリングを可能にする。複数のVLM、データセット、選択予算を用いた広範な実験により、ScalSelectが全データのわずか16%を使用するだけで、全データセットでの学習性能の97.5%以上を達成し、一部の設定では全データ学習を上回る性能さえ示すことを実証した。コードはhttps://github.com/ChangtiWu/ScalSelect で公開されている。
従来、エンボディードナビゲーションはタスク特化型アーキテクチャによって断片化されてきた。本論文では、5つの核心的タスク(Point-Goal、Object-Goal、Instruction-Following、POI-Goal、Person-Following)を横断する「大統一」を達成する統合型Vision-Language-Action(VLA)基盤モデルABot-N0を提案する。ABot-N0は階層型「Brain-Action」アーキテクチャを採用し、意味推論を行うLLMベースのCognitive Brainと、精密かつ連続的な軌道生成を実現するFlow MatchingベースのAction Expertを組み合わせている。 大規模学習を可能にするため、7,802の高精細3Dシーン(10.7 km²)から16.9Mの専門家軌道と5.0Mの推論サンプルを構築したABot-N0データエンジンを開発した。ABot-N0は7つのベンチマークで新たなSOTA性能を達成し、特化モデルを大幅に上回る。さらに、計画階層とトポロジカルメモリを統合した自律ナビゲーションシステムにより、動的な実環境における頑健な長期ミッションを実現する。
大規模言語モデル(LLM)は卓越した推論能力を示しており、共進化パラダイムはコードや数学などの領域で有望な成果を上げている。しかし、科学推論タスクにおいては、信頼性の低い解の評価と検証戦略の多様性不足により、これらのモデルは依然として脆弱である。本研究では、スパースな教師あり学習から教師なし学習への移行を通じて、モデルがソルバーと検証器の両方として自己進化することを可能にする二段階の科学的共進化フレームワーク「Sci-CoE」を提案する。第一段階では、モデルは少量の注釈付きデータを用いて、検証器のための基本的な正解判定の基準を確立する。第二段階では、合意性、信頼性、多様性を統合的に考慮する幾何学的報酬メカニズムを導入し、ラベルなしデータに対する大規模な自己反復を駆動する。複数の一般的な科学ベンチマークによる実験により、Sci-CoEが複雑な推論能力を強化し、強力なスケーラビリティを示すことで、より堅牢で多様な評価システムの構築を促進することが実証された。コードはhttps://github.com/InternScience/Sci-CoE で公開されている。
音楽ステム生成は、音楽的に同期した分離楽器オーディオクリップを生成するタスクであり、従来のテキストtoミュージックモデルと比較して、より優れたユーザー制御性とミュージシャンのワークフローとの整合性を提供する可能性を秘めている。しかし、既存のステム生成手法は、事前に定義された一連のステムを並列出力する固定アーキテクチャに依存するか、あるいは一度に一つのステムのみを生成するため、ステム組み合わせの柔軟性があるにもかかわらず推論速度が遅いという課題がある。本研究では、このトレードオフを克服し、単一の推論パスで可変数の同期ステムを生成する拡散/フローベースのフレームワークStemphonicを提案する。訓練時には、各ステムをバッチ要素として扱い、同期するステムをバッチ内でグループ化し、各グループに共有ノイズ潜在変数を適用する。推論時には、共有の初期ノイズ潜在変数とステム固有のテキスト入力を用いて、同期したマルチステム出力を一度のパスで生成する。さらに、単一パスでの条件付きマルチステム生成とステム単位のアクティビティ制御を可能にし、ユーザーがミックスの時間的レイヤリングを反復的に生成・編曲できるように拡張する。複数のオープンソースステム評価セットを用いたベンチマーク実験により、Stemphonicが高品質な出力を生成しつつ、フルミックス生成プロセスを25~50%高速化することを示す。デモは以下:https://stemphonic-demo.vercel.app。
大規模言語モデル(LLM)の事前学習には、通常、数千台の大容量GPU(H100/A100など)を搭載した集中型クラスタが必要である。近年の分散型学習手法は、連携最適化を採用することで通信オーバーヘッドを削減しているが、各ノードでモデル全体を学習する必要があり、GPUメモリの制約は依然として残っている。本研究では、MoE(Mixture of Experts)構造を持つLLMの事前学習におけるメモリ効率の高い分散型フレームワーク「SParse Expert Synchronization(SPES)」を提案する。SPESはノードごとに専門家の一部のみを学習するため、メモリ使用量を大幅に削減する。各ノードは自身の専門家を更新し、定期的に他のノードと同期を行う。これにより、全パラメータの送信を排除しつつ、効率的な知識共有を実現する。収束を加速させるため、訓練の初期段階で専門家間で知識を交換する専門家統合ウォームアップ戦略を導入し、基礎能力を迅速に構築する。SPESを用いて、16台のスタンドアロン48GB GPUとインターネット接続環境で2BパラメータのMoE LLMを学習した結果、同程度の計算リソースで集中学習されたLLMと遜色ない性能を達成した。さらに、7Bモデルのスクラッチ学習と、密なチェックポイントからアップサイクルした9Bモデルの学習により、拡張性を実証した。両モデルは既存の集中型ベースラインと同等の性能を示した。コードはhttps://github.com/zjr2000/SPES で公開している。
検証可能な報酬による強化学習(RLVR)は、現代の推論モデルを訓練する上で中心的な手法であるが、非公開の訓練データはベンチマーク汚染に関する懸念を引き起こしている。トークンレベルの確率を用いてモデルを最適化する事前学習法とは異なり、RLVRは自己生成された推論軌跡からの報酬フィードバックに基づいてモデルを微調整するため、従来の尤度ベースの検出手法は効果を発揮しにくい。本論文では、RLVRが特徴的な行動シグナルを誘発することを示す:RLVR訓練中に遭遇したプロンプトでは生成結果がより硬直的かつ均一になる一方、未経験のプロンプトでは多様性が保持される。我々はMin-kNN距離を提案する。これは、単純なブラックボックス検出器であり、与えられたプロンプトに対する複数の補完結果をサンプリングし、k個の最小最近傍編集距離の平均を計算することでこの収縮現象を定量化する。Min-kNN距離は参照モデルやトークン確率へのアクセスを必要としない。複数のRLVR訓練済み推論モデルによる実験により、Min-kNN距離がRL経験事例と未経験事例を確実に識別し、既存のメンバーシップ推論やRL汚染検出のベースライン手法を凌駕することを実証する。