翻訳付きの日次キュレーションされたAI研究論文
すべてのエージェント相互作用は、次の状態シグナル(ユーザーの返信、ツール出力、各アクション後に生じるターミナルやGUIの状態変化)を生成します。しかし、既存のエージェント強化学習システムは、これをオンラインのライブ学習ソースとして活用していません。我々はOpenClaw-RLを提案します。このフレームワークは、次の単純な観察に基づいています:次の状態シグナルは普遍的であり、ポリシーはそれらすべてから同時に学習できます。個人的な会話、ターミナル実行、GUI操作、ソフトウェアエンジニアリングタスク、ツール呼び出しの痕跡は、それぞれ別々の学習問題ではありません。これらはすべて、同じループ内で同一のポリシーを訓練するために利用可能な相互作用なのです。 次の状態シグナルは、2種類の情報を符号化しています。第一に、**評価的シグナル**(アクションの良し悪しを示し、PRM judgeによってスカラー報酬として抽出される)と、第二に、**指示的シグナル**(アクションがどのように異なるべきであったかを示し、Hindsight-Guided On-Policy Distillation (OPD) を通じて回収される)です。我々は次の状態からテキストによるヒントを抽出し、強化された教師コンテキストを構築し、あらゆるスカラー報酬よりも豊富な、トークンレベルの方向性のあるアドバンテージ監督を提供します。 非同期設計により、モデルはライブリクエストを処理し、PRM judgeは進行中の相互作用を評価し、トレーナーはポリシーを同時に更新します。これら3つの間の調整オーバーヘッドは完全にゼロです。個人向けエージェントに適用すると、OpenClaw-RLはエージェントが単に使用されるだけで改善することを可能にし、ユーザーの再クエリ、修正、明示的フィードバックから会話シグナルを回収します。汎用エージェントに適用すると、同じインフラストラクチャが、ターミナル、GUI、ソフトウェアエンジニアリング、ツール呼び出しの設定にわたるスケーラブルな強化学習をサポートし、そこで我々はプロセス報酬の有用性も実証します。 コード: https://github.com/Gen-Verse/OpenClaw-RL
k-meansは歴史的に、主にオフライン処理のプリミティブとして位置づけられており、オンラインシステムの第一級コンポーネントというよりも、データセットの整理や埋め込み前処理に使用されることが一般的でした。本研究では、現代のAIシステム設計の観点からこの古典的アルゴリズムを再検討し、k-meansをオンラインプリミティブとして実現します。既存のGPU実装では、理論的なアルゴリズムの複雑さよりも、低レベルのシステム制約が根本的なボトルネックとなっていることを指摘します。具体的には、割り当て段階では、N×Kの距離行列が高帯域幅メモリ(HBM)に大規模かつ明示的に実体化されるため、深刻なI/Oボトルネックが発生します。同時に、重心更新段階では、不規則な散在型トークン集約によるハードウェアレベルのアトミック書き込み競合によって、大幅な性能低下が生じます。この性能差を埋めるため、我々は現代のGPUワークロード向けのI/Oを考慮した競合のないk-means実装であるflash-kmeansを提案します。Flash-kmeansは、2つのコアとなるカーネルレベルの革新を導入します:(1)距離計算とオンラインargminを融合し、中間メモリへの実体化を完全に回避するFlashAssign、(2)高競合のアトミック散在操作を、高帯域幅のセグメント単位局所縮約に変換するために逆写像を明示的に構築するsort-inverse更新法です。さらに、実用的な展開性を確保するため、チャンク化ストリームオーバーラップやキャッシュを考慮したコンパイルヒューリスティックなど、アルゴリズムとシステムの協調設計を統合しています。NVIDIA H200 GPUでの広範な評価により、flash-kmeansが既存の最良ベースラインに対して最大17.9倍のエンドツーエンド高速化を達成し、cuMLやFAISSのような業界標準ライブラリをそれぞれ33倍、200倍以上上回る性能を示すことを実証しました。
具体化されたAIモデルが高度化するにつれ、将来的には職場や家庭において人間が複数の具体化AIエージェントと協働するようになる。人間ユーザーとマルチエージェントシステム間の円滑なコミュニケーションを確保するためには、エージェントから並行して送信される情報を解釈し、各クエリに適切な文脈を参照することが極めて重要である。現状の課題としては、ビデオ形式の個別の感覚入力を効果的に圧縮・伝達すること、および複数のエゴセントリックビデオを適切に統合してシステムレベルのメモリを構築することが挙げられる。本研究ではまず、具体化エージェントから同時収集された複数の長尺エゴセントリックビデオを理解する新規問題を正式に定義する。この方向性の研究を促進するため、当該シナリオにおける既存モデルを体系的に評価するベンチマークMultiAgent-EgoQA(MA-EgoQA)を提案する。MA-EgoQAは、社会的相互作用、タスク調整、心の理論、時間推論、環境相互作用の5カテゴリにわたる、複数エゴセントリックストリームに特有の1.7kの質問を提供する。さらに、エージェント間の共有メモリとエージェント単位の動的検索を活用するEgoMASというシンプルなベースラインモデルを提案する。MA-EgoQAにおける多様なベースラインとEgoMASの包括的評価を通じて、現在のアプローチでは複数のエゴセントリックストリームを効果的に処理できないことが明らかとなり、エージェント横断的なシステムレベルの理解における今後の進展の必要性が浮き彫りとなった。コードとベンチマークはhttps://ma-egoqa.github.ioで公開されている。
LLMベースのテキスト埋め込みモデルは、通常、入力の意味内容を符号化します。しかし、埋め込みタスクでは、多様な入力を類似した出力にマッピングする必要があります。この入出力関係は、典型的には対照学習を用いたペアデータによる埋め込みモデルの学習によって扱われてきました。本研究では、新たな自己教師ありアプローチであるLLM2Vec-Genを提案します。これは異なるパラダイムを採用するものです:入力の符号化ではなく、モデルが生成し得る応答を表現することを学習します。具体的には、LLMの語彙に学習可能な特殊トークンを追加し、それを入力に付加し、それらがLLMの応答を固定長の系列で表現するように最適化します。学習は、クエリに対するLLM自身の生成結果と、蒸留ターゲットを提供する教師なし埋め込みモデルの指導によって進められます。この定式化は、入出力間のギャップを埋める助けとなり、安全性の調整や推論といったLLMの能力を埋め込みタスクに転移させます。重要な点は、LLMのバックボーンは凍結されたままであり、学習にはラベル付けされていないクエリのみが必要であることです。LLM2Vec-Genは、Massive Text Embedding Benchmark (MTEB) において、教師なしの状態で最先端の性能を達成し、最高の教師なし埋め込みモデルを9.3%上回りました。さらに、埋め込みタスクにおいて、有害なコンテンツの検索が最大43.2%減少し、推論能力が29.3%向上することを確認しました。最後に、学習された埋め込み表現は解釈可能であり、テキストにデコードしてその意味内容を明らかにすることができます。
低ランクアダプタ(LoRA)は、事前学習済みモデルに学習可能な低ランク行列を注入し、新たなタスクに適応させるパラメータ効率の良いファインチューニング技術である。LoRA混合モデルは、各層の入力をその層の専門化されたLoRAの小さなサブセットに振り分けることで、ニューラルネットワークを効率的に拡張する。既存のLoRA混合ルータは、各LoRAに学習されたルーティング重みを割り当てることで、ルータのエンドツーエンド学習を可能にしている。実証的な有望さにもかかわらず、実際にはルーティング重みがLoRA間で極端に不均衡になることが観察され、しばしば1つまたは2つのLoRAのみがルーティング重みを支配している。これにより、実質的に有効なLoRAの数が制限され、既存のLoRA混合モデルの表現力が大きく阻害されている。本研究では、この弱点を学習可能なルーティング重みの性質に帰因させ、ルータの根本的な設計を再考する。この重要な課題に対処するため、我々はReMix(Reinforcement Routing for Mixture-of-LoRAs)と呼ぶ新しいルータ設計を提案する。核心となるアイデアは、非学習型のルーティング重みを使用し、いずれのLoRAもルーティング重みを支配することなく、全てのアクティブなLoRAが同等に効果的であることを保証することである。しかし、非学習型のルーティング重みにより、我々のルータは勾配降下法で直接学習することができない。そこで我々は、強化学習において監督損失を報酬、ルータを方策と見なし、Reinforce Leave-One-Out(RLOO)技術を適用した、ルータのための不偏勾配推定器をさらに提案する。我々の勾配推定器は、訓練計算量をスケールアップしてReMixの予測性能を向上させることも可能にする。大規模な実験により、提案するReMixが、同程度の活性化パラメータ数において、既存の最先端パラメータ効率型ファインチューニング手法を大幅に上回ることを実証する。
大規模言語モデル(LLM)は強力な推論能力を示す一方で、複雑なタスクにおける性能は内部知識の限界によって制約されることが多い。この課題を克服する有望なアプローチとして、外部ツールによるモデルの拡張が挙げられる。例えば数学計算のためのPythonインタプリタや、事実情報を取得するための検索エンジンなどがこれに該当する。しかし、モデルにこれらのツールを効果的に利用させることは依然として大きな課題である。既存手法では、教師ありファインチューニング(SFT)から開始し、強化学習(RL)を適用するコールドスタート型パイプラインが一般的だが、これらの手法ではSFTのために大量のラベル付きデータが必要となり、そのアノテーションや合成には多大なコストが伴う。本研究では、強化学習のみに依存する新フレームワーク「In-Context強化学習(ICRL)」を提案する。ICRLはRLのロールアウト段階において少数ショットプロンプティングを活用することでSFTを不要とする。具体的には、ロールアウトプロンプト内にインコンテキスト例を導入し、モデルに外部ツールの呼び出し方法を学習させる。さらに訓練の進行に伴いインコンテキスト例の数を段階的に削減し、最終的にはモデルが自律的にツールを呼び出すゼロショット設定を実現する。様々な推論及びツール利用ベンチマークで広範な実験を行った結果、ICRLは従来のSFTベースのパイプラインに代わる、スケーラブルでデータ効率の高い手法として有効であり、State-of-the-Artの性能を達成することを示した。
Diffusion Transformer(DiT)は映像生成における主要なバックボーンとなっているが、その二次関数的な注意力コストが大きなボトルネックとなっている。疎な注意力は、注意力ブロックの一部のみを計算することでこのコストを削減する。しかし、従来の手法では、残りのブロックを単純に除外して情報損失が生じるか、学習済みの予測器を用いて近似することで、訓練オーバーヘッドや出力分布のずれが生じていた。本論文では、欠落した寄与を訓練なしで回復できることを示す。意味的クラスタリング後、各ブロック内のキーと値は強い類似性を示し、少数のクラスタ重心で十分に要約できる。この観察に基づき、重心を用いてスキップされたブロックを近似し、その寄与を回復するパラメータフリーの線形補償ブランチであるSVG-EARを提案する。重心補償はほとんどのブロックで正確であるが、一部のブロックでは失敗する可能性がある。標準的な疎化では通常、注意力スコアに基づいてブロックを選択するが、これはモデルが注意力を集中させる場所を示すものであり、近似誤差が最大となる場所を示すものではない。そこでSVG-EARは、軽量なプローブが各ブロックの補償誤差を推定し、誤差対コスト比が最も高いブロックを正確に計算するとともに、スキップされたブロックを補償する、誤差を考慮したルーティングを行う。注意力再構成誤差とクラスタリング品質を関連付ける理論的保証を提供し、SVG-EARが品質と効率のトレードオフを改善し、映像拡散タスクにおいて同じ生成忠実度でスループットを向上させることを実証的に示す。全体として、SVG-EARは従来手法を明確にパレート改善し、Wan2.2およびHunyuanVideoにおいて、それぞれPSNR 29.759および31.043を維持しながら、最大1.77倍および1.93倍の高速化を達成する。
動的な実世界環境で動作するLLMは、継続的に進化する知識や段階的に出現する知識に頻繁に遭遇します。モデルが正確かつ効果的に機能し続けるためには、新しく到着する情報にその場で適応する必要があります。本研究では、この能力を評価するために「継続的知識ストリームへのオンライン適応(OAKS)」を提案し、ストリーミングされ継続的に更新される知識に対するオンライン適応のベンチマークを確立します。具体的には、ベンチマークは、時間間隔ごとに事実が動的に変化する、細粒度のコンテキストチャンクのシーケンスとして構成されています。OAKSはOAKS-BABIとOAKS-Novelの2つのデータセットで構成され、個々の事実がコンテキストチャンクを跨いで複数回変化します。これらのデータセットには、モデルが変化を正確に追跡しているかを測定するための密な注釈が含まれています。様々な推論手法を用いた14のモデルを評価した結果、現在の手法には重大な限界があることが観察されました。最先端のモデルとエージェント的なメモリシステムの両方が、OAKSにおいて堅牢に適応できず、状態追跡の遅延や、ストリーミング環境内での注意散漫への脆弱性を示しました。
プロンプトハイライティングは、大規模言語モデルが生成時にユーザー指定のテキストスパンを優先するよう導く手法である。重要な課題は、関連コンテキストと非関連コンテキストの両方に共通する構造パターンではなく、それらの差を捉える導出方向を抽出することである。我々はPRISM-Δ(Projection-based Relevance-Informed Steering Method)を提案する。これは、正のクロス共分散行列と負のクロス共分散行列の差を分解し、共通方向を除去しながら識別エネルギーを最大化する。各アテンションヘッドには連続的なsoftplus重要度重みが割り当てられ、弱いが有用なヘッドも低減された強度で貢献できる。本フレームワークはValue表現に自然に拡張され、Keyのみの手法が活用しないコンテンツチャネル信号を捉える。4つのベンチマークと5つのモデルにわたる評価では、PRISM-Δは20設定中19において既存最良手法を匹敵または上回り、最大+10.6%の相対改善を示しながら、ステアリングによる流暢性コストを半減した。PRISM-Δは長文コンテキスト検索にもスケーラブルであり、既存最良手法を最大+4.8%上回った。PRISM-ΔはFlashAttentionと互換性があり、無視できるメモリオーバーヘッドしか追加しない。
既存の動画パーソナライゼーション手法は視覚的類似性を保持するが、映像と音声を別々に扱う。視覚シーンへのアクセスがないため、音声モデルは音と画面上の動作を同期できない。また、従来の音声クローニングモデルは参照録音のみを条件付けるため、テキストプロンプトで話し方や音響環境を変更できない。本研究ではID-LoRA(Identity-Driven In-Context LoRA)を提案する。これは被写体の外見と声を単一モデルで共同生成し、テキストプロンプト、参照画像、短い音声クリップが両モダリティを同時に制御する。ID-LoRAはLTX-2共同音声-映像拡散基盤をパラメータ効率の良いIn-Context LoRAで適応し、知る限りでは単一の生成パスで視覚的外観と声をパーソナライズする初の手法である。2つの課題が生じる。参照トークンと生成トークンが同一の位置符号化空間を共有するため区別が困難であることに対し、負の時間位置を用いて、参照トークンを内部の時間構造を保ちつつ互いに素なRoPE領域に配置する。また話者特性が脱ノイズ過程で希薄化しがちな問題には、アイデンティティガイダンス(参照信号の有無による予測を対比させ話者特有の特徴を増幅するClassifier-Free Guidanceの変種)を導入する。人間による選好評価では、音声類似性で73%、話し方で65%の評価者がKling 2.6 ProよりID-LoRAを選好した。クロス環境設定では、Klingより話者類似性が24%向上し、条件が異なるほど差が拡大した。予備的用户調査は、共同生成が物理に基づいた音響合成に有用な帰納バイアスを提供することを示唆する。ID-LoRAは単一GPUで約3,000訓練ペアのみでこれらの結果を達成する。コード、モデル、データを公開予定である。
強化学習(RL)により訓練された大規模言語モデル(LLM)ベースのエージェントは、複雑な対話型タスクにおいて高い可能性を示している。しかし、標準的なRLのパラダイムは継続的な適応よりも静的な問題解決を重視する傾向があり、探索不足によりエージェントはしばしば最適ではない戦略に収束してしまう。さらに、獲得した知識はパラメータ内に暗黙的に埋め込まれたままで明示的に取り出すことができず、効果的な経験学習が制限されている。これらの課題を解決するため、我々は問題を解決するだけでなく、進化を通じて複雑な対話環境を習得することをエージェントに可能にするオンラインRLフレームワーク、RetroAgentを提案する。具体的には、RetroAgentは後知恵的自省メカニズムを備え、二重の内発的フィードバックを生成する。(1) 過去の試行との比較で段階的なサブタスクの達成度を追跡し、有望な探索を報酬とする内発的数値フィードバック、および(2) 再利用可能な教訓をメモリバッファに抽出し、関連性、有用性、探索のバランスを取り過去の経験を効果的に活用するために提案されたSimilarity & Utility-Aware Upper Confidence Bound(SimUtil-UCB)戦略により検索される内発的言語フィードバックである。4つの困難なエージェントタスクにおける2つのモデルファミリーを用いた大規模な実験により、RetroAgentが既存手法を大幅に上回り、例えばALFWorldではGroup Relative Policy Optimization(GRPO)で訓練されたエージェントを+18.3%、WebShopで+15.4%、Sokobanで+27.1%、MineSweeperで+8.9%上回る、状態-of-the-artの結果を達成することを実証した。さらに、テスト時の適応性および分布外シナリオへの強い一般化能力を示した。
MLLMが科学・技術・工学・数学(STEM)分野の視覚的推論に失敗する際、根本的な疑問が生じる:それは知覚の欠陥によるものか、それとも推論能力の限界によるものか?本論文では、知覚と推論の構成要素を独立にスケーリングする体系的な分析を通じて、重要な知見を得た:知覚のスケーリングは、一貫して推論のスケーリングを上回る性能を示す。これは、現在のSTEM視覚推論を制限している真の要因が知覚であることを明らかにしている。この知見に動機づけられ、我々の研究はコードを強力な知覚媒体として確立することで、MLLMの知覚能力を体系的に強化することに焦点を当てる。実行可能なコードは、STEMビジュアルの構造化された性質と自然に整合する精密な意味論を提供する。具体的には、大規模データセットICC-1Mを構築した。これは100万の画像-キャプション-コードの三つ組からなり、以下の2つの相補的アプローチを通じてこの「コードとしての知覚」パラダイムを具体化する:(1) コード接地型キャプション生成は、実行可能なコードを画像キャプションのグランドトゥルースとして扱い、既存の知識蒸留手法に内在する虚構を排除する;(2) STEM画像からコードへの変換は、モデルに再構成コードの生成を促し、知覚強化のための自然言語の曖昧さを軽減する。このパラダイムを検証するため、STEM分野における視覚知覚を直接評価する新しいベンチマークSTEM2Code-Evalをさらに導入する。問題解決の正答率を代理指標とし問題関連の理解のみを測る既存研究とは異なり、我々のベンチマークは画像再現のための実行可能コード生成を通じて包括的な視覚的理解を要求し、決定的かつ検証可能な評価を提供する。コードはhttps://github.com/TongkunGuan/Qwen-CodePercept で公開されている。
検証可能な報酬を用いた強化学習(RLVR)において、強固なアドバンテージベースラインの構築は方策勾配法において重要であり、方策モデルが望ましい行動を強化するよう効果的に導く。近年の研究では、Generalist Value Model(V_0など)が提案されている。これは、モデルの能力を文脈内で明示的に符号化することにより、事前学習された価値推定を実現し、価値モデルを方策モデルと同期して更新する必要をなくすものである。本論文では、このような価値モデル(事前分布として機能)が予測するベースラインと、スパースなロールアウトから得られる経験的平均を適応的に融合するV_{0.5}を提案する。これにより、計算効率と極めて低い分散を両立した強固なベースラインが構築される。具体的には、リアルタイム統計検定と動的バジェット割り当てを導入する。これにより、スパースサンプリングによる高分散と、価値モデルの事前分布に内在する系統的バイアス(または幻覚)のバランスを取る。事前分布の信頼性をリアルタイムで評価する仮説検定を構築することで、システムは必要に応じて追加のロールアウトバジェットを動的に割り当てる。このメカニズムは、ベースライン推定量の平均二乗誤差(MSE)を最小化し、グループサイズ4という極度のスパース性条件下でも安定した方策勾配を保証する。6つの数学的推論ベンチマークによる広範な評価により、V_{0.5}がGRPOおよびDAPOを大幅に上回り、より速い収束と約10%以上の性能向上を達成することが実証された。
大規模言語モデル(LLM)は、査読レポートの起草を含む科学ワークフロー全体でますます利用されている。しかし、AI生成の査読コメントの多くは表面的で実践的な助言に乏しく、著者に具体的で実装可能な指針を提供できていない。この課題を解決するため、本論文は実践的な査読フィードバック生成を目的としたRbtActを提案する。本手法は、既存の査読反論を学習の中心に据える。反論内容を分析することで、どの査読コメントが具体的な修正や計画に結びつき、どのコメントが単に反論されただけかを明らかにする。この知見に基づき、反論を暗黙的な監督信号として利用し、実践性を直接最適化するフィードバック生成器を構築する。この目的を支援するため、新たなタスク「視点条件付きセグメントレベル査読フィードバック生成」を提案する。このタスクでは、モデルが論文全文と「実験」や「文章表現」などの特定視点に基づき、単一の焦点化されたコメントを生成する必要がある。さらに、査読セグメントとそれに対応する反論セグメントを対応付け、視点ラベルと著者の対応状況を示す影響度カテゴリを付与した大規模データセットRMR-75Kを構築した。Llama-3.1-8B-Instructモデルに対し、査読セグメントを用いた教師ありファインチューニングを実施後、反論データから導出したペアを用いた選好最適化を適用した。専門家による評価とLLMを審判とする評価の双方で、根拠の明確さと関連性を維持しつつ、実践性と具体性において強力なベースラインを一貫して上回る結果を得た。
大規模言語モデル(LLM)は通常、環境との相互作用を通じて多様な自然言語フィードバックを受け取る。しかし、現在の強化学習(RL)アルゴリズムはスカラー報酬のみに依存しており、自然言語フィードバックに含まれる豊富な情報が十分に活用されず、探索効率の低下を招いている。本研究では、グループレベルの言語フィードバックを明示的に活用し、実践的な改良を通じて標的型探索を導出するRLフレームワークGOLFを提案する。GOLFは二つの相補的フィードバック源を統合する:(i)誤りを特定し標的型修正を提案する外部批評、(ii)代替的部分アイデアと多様な失敗パターンを提供するグループ内試行。これらのグループレベルフィードバックを集約して高品質な改良案を生成し、スパース報酬領域において標的型ガイダンスを提供するオフポリシー足場として適応的に訓練に注入する。一方、GOLFは生成と改良を統一RLループ内で共同最適化し、両能力を継続的に改善する好循環を創出する。検証可能ベンチマークと非検証可能ベンチマーク双方での実験により、GOLFが優れた性能と探索効率を達成し、スカラー報酬のみで訓練したRL手法と比較してサンプル効率で2.2倍の改善を実現することを示す。コードはhttps://github.com/LuckyyySTA/GOLFで公開されている。
拡散トランスフォーマーは画像合成において新たな最先端技術を確立したが、反復的なサンプリングに伴う高い計算コストが実用化の大きな障壁となっている。既存の高速化手法は時間領域に焦点を当てることが多いが、生成プロセスに内在する空間的な冗長性を見落としている。すなわち、大域的な構造は細部が形成されるずっと前に出現するという特性である。すべての空間領域を均一に計算する現行の手法は非効率性の本質的要因である。本論文では、この課題を空間領域での高速化によって解決する、学習不要の新規フレームワークJust-in-Time(JiT)を提案する。JiTは、動的に選択された疎なアンカートークン群の計算に基づいて潜在状態の完全な進化を駆動する、空間近似された生成常微分方程式(ODE)を定式化する。新たなトークンが組み込まれて潜在状態の次元が拡張される際のシームレスな遷移を保証するため、構造的一貫性と統計的正しさの両方を維持するシンプルで効果的な有限時間ODEである決定論的マイクロフローを提案する。最先端モデルFLUX.1-devを用いた大規模実験により、JiTが最大7倍の高速化をほぼロスなく達成し、既存の高速化手法を大幅に上回る、推論速度と生成精度の間の新たで優れたトレードオフを確立することを実証する。
我々は、『サタデー・ナイト・ライブ』のようなショートコメディ番組に類似した短編コメディ動画を生成する完全自動化AIシステムを提案する。キャラクター設定を出発点として、本システムは実在の制作スタジオの役割を緩やかに模したエージェント群を採用し、反復的な競争、評価、改善を通じて、アイデアと出力の質および多様性を最適化するように構成されている。重要な貢献として、YouTube上のコメディ動画コーパスを分析することで実視聴者の嗜好に合わせたLLM批評家を導入し、ユーモアを自動評価する。実験により、本フレームワークがプロが制作したスケッチに迫る品質の結果を生成しつつ、動画生成において最先端の性能を示すことを確認した。
現在の統一マルチモーダルモデルは、モダリティ間のギャップを埋めるために離散的な視覚トークナイザーに依存するのが一般的です。しかし、離散化は必然的に細かな意味情報を捨て去ってしまうため、視覚理解タスクにおいて最適とは言えない性能に留まっています。一方、連続的な意味表現(CLIPやSigLIPなど)を直接モデル化することは、高次元の生成モデリングにおいて重大な課題をもたらし、収束が遅く、訓練が不安定になる結果を招きます。 このジレンマを解決するため、我々は圧縮された連続的表現によるマルチモーダル理解と生成を調和させる統一フレームワーク、UniComを提案します。実験により、チャネル次元の削減が、空間的なダウンサンプリングよりも再構成と生成の両方においてはるかに効果的であることを実証しました。これに基づき、我々は密な特徴をコンパクトな統一表現に蒸留するための、注意機構に基づく意味圧縮器を設計しました。さらに、transfusionアーキテクチャが、クエリベースの設計よりも収束性と一貫性において優れていることを検証しました。 実験結果は、UniComが統一モデルの中で最先端の生成性能を達成することを示しています。特に、豊富な意味的プライアを保持することにより、画像編集において卓越した制御性を発揮し、VAEに依存しなくても画像の一貫性を維持することができます。
大規模言語モデル(LLM)エージェントは、報酬が疎な長期多段階タスクにおいて、重大な信用割り当て問題に直面することが多い。既存の価値関数非依存手法、例えばGroup Relative Policy Optimization(GRPO)は、不正確なステップレベルのQ値推定と、中間状態に対する不適切な価値ベースラインという2つの根本的ボトルネックに遭遇する。これらの制限を解決するため、我々はLLMエージェントに後顧的な信用割り当てを統合した初のフレームワークであるHCAPOを提案する。HCAPOはLLM自体を事後批評家として利用し、後顧的推論を通じてステップレベルのQ値を洗練させる。さらに、HCAPOのマルチスケール利得機制は、重要な意思決定状態における不正確な価値ベースラインを効果的に補完する。WebShopやALFWorldを含む3つの難易度の高いベンチマークでの評価により、HCAPOが常に最先端の強化学習手法を上回る性能を示すことが実証された。特に、Qwen2.5-7B-Instructモデル使用時、HCAPOはWebShopでGRPOに対し7.7%、ALFWorldで13.8%の成功率向上を達成した。これらの結果は、HCAPOが探索効率を大幅に向上させ、簡潔な意思決定を促進し、複雑な長期タスクにおけるスケーラビリティを保証することを示唆している。
スパースオートエンコーダは言語モデル内における概念の位置を特定できるが、多段階推論における概念間の相互作用は捉えられない。本研究ではCausal Concept Graph(CCG)を提案する。これはスパースで解釈可能な潜在特徴上の有向非巡回グラフであり、エッジが学習された概念間の因果依存関係を捕捉する。概念発見のためのタスク条件付きスパースオートエンコーダと、グラフ復元のためのDAGMAスタイルの微分可能構造学習を組み合わせ、グラフ誘導型介入がランダム介入よりも大きな下流効果を誘発するかを評価するCausal Fidelity Score(CFS)を導入する。GPT-2 Mediumを用いたARC-Challenge、StrategyQA、LogiQAにおいて、5シード(n=15のペア実行)にわたる評価では、CCGはCFS=5.654±0.625を達成し、ROMEスタイルのトレーシング(3.382±0.233)、SAEのみのランキング(2.479±0.196)、ランダムベースライン(1.032±0.034)を有意に上回った(Bonferroni補正後p<0.0001)。学習されたグラフはスパース性(エッジ密度5-6%)、ドメイン特異性、シード間での安定性を備えている。
ニューラル言語モデル(LM)の最終層は、次元Dの出力特徴を語彙サイズVに対応するロジットに写像するが、通常DはVよりもはるかに小さい(D ≪ V)。この次元の不一致は、ニューラルLMの表現力が制限されるリスクを高め、いわゆるsoftmaxボトルネックを生じることが知られている。本論文では、softmaxボトルネックが表現力のボトルネックであるだけでなく、最適化のボトルネックでもあることを示す。V次元の勾配をランクDの線形層を通して逆伝播させることは、不可避的な圧縮を引き起こし、パラメータの大部分に提供される訓練フィードバックを歪める。我々はこの現象に関する理論的分析を行い、勾配ノルムの95~99%が出力層によって抑制され、結果として大幅に最適ではない更新方向が生じることを実証的に計測した。制御された事前学習実験により、勾配ボトルネックが自明なパターンを学習不能にし、大規模言語モデル(LLM)の訓練ダイナミクスに劇的な影響を与えることを示す。我々は、この固有の欠陥がモデルアーキテクチャに依存せず、大規模な訓練における非効率性の一因となっており、新しいLMのヘッド設計の必要性を提起していると論じる。
マルチモーダル大規模言語モデル(MM-LLM)は、医療画像理解と臨床推論において優れた性能を示している。近年の医療エージェントシステムは、ツール利用とマルチエージェント協調機能を追加することで、複雑な意思決定を可能にしている。しかし、これらのシステムはほぼ完全にフロンティアモデル(GPTなど)に依存しており、APIベースの展開ではコストと遅延が高く、オンプレミス臨床要件と衝突するプライバシーリスクが生じる。本研究では、軽量な40億パラメータの医療MM-LLM「Meissa」を提案する。本モデルは静的な回答模倣ではなく、フロンティアモデルから構造化された軌跡を蒸留することで、外部連携の開始タイミング(戦略選択)と多段階連携の実行方法(戦略実行)の両方を学習し、エージェント機能をオフラインで実現する。具体的には以下を導入する:(1)統一軌跡モデリング:推論と行動の軌跡を単一の状態-行動-観測形式で表現し、異種医療環境間での汎化を可能にする。(2)三段階階層的監督:モデル自身の誤差が契機となり、直接推論→ツール拡張→マルチエージェント連携へ段階的にエスカレーションする難易度認識型戦略選択を明示的に学習する。(3)展望-回顧的監督:探索的前進軌跡と後知恵的に合理化された実行軌跡を組み合わせることで、効果的な連携ポリシーの安定学習を実現する。4万件の精選軌跡で学習したMeissaは、放射線科・病理科・臨床推論を含む13の医療ベンチマークにおける16評価設定のうち10設定で、専用フロンティアエージェントを匹敵または上回る性能を示した。Gemini-3のような典型的フロンティアモデルと比べてパラメータ数が25分の1以下であり、完全オフライン動作でAPIベース展開と比較してエンドツーエンド遅延を22分の1に低減する。データ・モデル・環境はhttps://github.com/Schuture/Meissaで公開する。
映像イベントと時間的に整合する音楽生成は、既存のテキスト音楽生成モデルにとって課題である。これらは細粒度の時間制御を欠いている。本論文では、映像に時間整合した音楽を出力するゼロペアの映像音楽生成手法V2M-Zeroを提案する。我々の手法は、時間的同期には「何が変化するか」ではなく、「いつ」「どれだけ変化が生じるか」の一致が必要であるという重要な観察に基づく。音楽的イベントと視覚的イベントは意味的には異なるが、各モダリティ内で独立に捕捉可能な共有の時間的構造を示す。我々は、事前学習済みの音楽エンコーダと映像エンコーダを用いたモダリティ内類似度から計算されるイベント曲線を通じてこの構造を捕捉する。各モダリティ内の時間的変化を独立に測定することで、これらの曲線はモダリティ間で比較可能な表現を提供する。これにより、テキスト音楽モデルを音楽イベント曲線でファインチューニングし、推論時にクロスモーダル学習やペアデータなしで映像イベント曲線に置き換えるという単純な学習戦略が可能となる。OES-Pub、MovieGenBench-Music、AIST++における評価では、V2M-Zeroはペアデータベースラインを大幅に上回り、音質5-21%向上、意味的整合性13-15%向上、時間的同期性21-52%改善、ダンス映像におけるビート整合性28%向上を達成した。大規模クラウドソーシング主観聴取試験でも同様の結果が得られた。全体として、ペアとなったクロスモーダル教師信号ではなく、モダリティ内特徴を通じた時間的整合性が映像音楽生成に有効であることを実証する。結果はhttps://genjib.github.io/v2m_zero/で公開されている。
検証可能な報酬による強化学習(RLVR)は大規模言語モデル(LLM)の推論能力を大幅に進展させてきた。しかし、RLVRは最終回答のみを結果報酬として依存しており、中間推論ステップの正当性を看過している。プロセスが誤っているにもかかわらず結果が正しいロールアウトで学習することは、虚構生成や回答の模倣を引き起こし、モデルの汎化性と頑健性を著しく損なう恐れがある。この問題に対処するため、我々はPolicy Optimizationに対比学習機構を組み込んだCLIPOを提案し、RLVRプロセスの一般化を図る。成功ロールアウトに対する対比損失を最適化することで、CLIPOはLLMが正しい推論経路に共通する不変的構造を捉えるよう誘導する。これにより、RLVRにおける従来の単一路径監督よりも頑健な経路間正則化を実現し、ステップレベルの推論不一致を効果的に緩和するとともに、虚構的産物を抑制する。実験では、多様な推論ベンチマークにおいてCLIPOが複数のRLVRベースラインを一貫して改善し、LLMの政策最適化における汎化性と頑健性の双方で均一な向上を示した。実装コード及び学習レシピはhttps://github.com/Qwen-Applications/CLIPO で公開している。
大規模なインターネットデータで事前学習されたビデオ生成モデル(VGM)は、豊富なオブジェクトダイナミクスを捉えた時間的に一貫性のあるロールアウト動画を生成でき、ゼロショットロボットマニピュレーションの魅力的な基盤を提供する。しかし、VGMは物理的に不可能なロールアウトを生成することが多く、その画素空間の動きを幾何学的リターゲティングを通じてロボット動作に変換する際には、不完全な深度推定とキーポイントトラッキングに起因する累積誤差がさらに生じる。これらの課題に対処するため、我々は推論時に視覚言語モデル(VLM)によって生成される合成的制約をVGMの出力に整合させる、データ不要のフレームワーク「」を提案する。重要な洞察は、VLMがVGMと相補的な能力、すなわちマニピュレーション実行の成功と安全性に不可欠な物理的制約を特定できる構造化された空間推論能力を提供する点である。言語指示が与えられると、はVLMを用いてタスク固有の要件を捉えた一連の合成的制約を自動抽出し、これを2つの段階で適用する:(1)制約誘導型ロールアウト選択:VGMのロールアウトのバッチをスコアリングしフィルタリングして、最も物理的に妥当な候補を保持する。(2)制約ベース軌道最適化:選択されたロールアウトを初期値として用い、同じ制約セットの下でロボット軌道を精緻化し、リターゲティング誤差を補正する。我々は、精密かつ制約に敏感な実行を必要とする6つの実ロボットマニピュレーションタスクでを評価し、タスク固有の学習データを一切用いずに、最強のベースラインと比べて成功率を43.3%ポイント向上させた。
パーソナライズドAIアシスタントは、画像、動画、メールなど複数のモダリティと情報源に自然にまたがる長期ユーザーメモリを想起し、推論する必要がある。しかし、既存の長期メモリベンチマークは主に対話履歴に焦点を当てており、実体験に基づく現実的なパーソナライズド参照を捉えられていない。本論文では、マルチモーダル・マルチソースのパーソナライズド参照メモリQAにおける初のベンチマークであるATM-Benchを提案する。ATM-Benchには、約4年分のプライバシー保護された個人メモリデータと、人間が注釈付けた質問応答ペアが含まれており、個人参照の解決、マルチソースからの複数証拠に基づく推論、矛盾する証拠の処理を必要とするクエリに対応する。また、異なる情報源に由来するメモリ項目を構造的に表現するため、スキーマ誘導メモリ(SGM)を提案する。実験では、標準的なRAGベースラインとともに5つの最先端メモリシステムを実装し、様々なメモリ取り込み、検索、応答生成技術のバリエーションを評価した。その結果、ATM-Bench-Hardセットでは低い性能(精度20%未満)が確認され、従来研究で一般的に採用されている記述的メモリよりもSGMが性能を向上させることがわかった。コードはhttps://github.com/JingbiaoMei/ATM-Bench で公開されている。
マルチエージェント強化学習、特にPolicy-Space Response Oracles(PSRO)における最近の進展により、複雑化する領域における近似的なゲーム理論的均衡の計算が可能となってきた。しかし、これらの手法は「ブラックボックス」的なニューラルネットワークポリシーを生成する深層強化学習オラクルに依存しており、解釈性や信頼性、デバッグの面で課題を抱えている。本稿では、この課題に対処する新たな枠組みとして、強化学習オラクルを大規模言語モデル(LLM)に置き換えるCode-Space Response Oracles(CSRO)を提案する。CSROは最適応答計算をコード生成タスクとして再定義し、LLMに対して人間が読解可能なコードとして直接ポリシーを生成させる。このアプローチは、本質的に解釈可能なポリシーを生成するだけでなく、LLMが事前学習した知識を活用して複雑な人間的な戦略を発見することを可能にする。我々は、ゼロショットプロンプティング、反復的な改良、そして分散型LLMベースの進化システムであるAlphaEvolveといった、LLMベースのオラクルを構築・強化する複数の手法を探求する。CSROが、多様な説明可能なポリシーを生成しつつ、ベースライン手法と遜色ない性能を達成することを実証する。本研究は、不透明なポリシーパラメータの最適化から、解釈可能なアルゴリズム的振る舞いの合成へと焦点を移すことで、マルチエージェント学習に対する新たな視点を提示する。
精密で高密度な深度推定はロボット知覚において重要であるが、市販のセンサーはハードウェアの制約により、しばしば疎あるいは不完全な計測値しか得られない。既存のRGBD融合型深度補完手法は、学習用RGB分布と特定の深度パターンに条件付けられた事前分布を共同で学習するため、ドメイン汎化性や様々な深度パターンへの頑健性が制限される。最近の研究では、単眼深度推定(MDE)モデルを活用してドメインに依存しない幾何学的事前知識を導入するが、現在の2段階統合戦略は明示的な相対値-絶対値のアラインメントに依存するため、追加の計算コストがかかり、構造的な歪みが生じる。そこで本研究では、Any2Fullを提案する。これは、事前学習済みMDEモデルのスケールプロンプティング適応として補完問題を再定式化する、一段階式、ドメイン汎用、パターン非依存のフレームワークである。様々な深度スパース性レベルと不規則な空間分布に対処するため、Scale-Aware Prompt Encoderを設計した。これは疎な入力からスケール手がかりを抽出し、統一されたスケールプロンプトに変換し、幾何学的事前知識を保持しつつMDEモデルを大域的にスケール整合性のある予測へと導く。大規模な実験により、Any2Fullが優れた頑健性と効率性を達成することを実証した。平均AbsRELにおいてOMNI-DCを32.2%上回り、同じMDEバックボーンを用いたPriorDAと比較して1.4倍の高速化を実現し、汎用深度補完の新たなパラダイムを確立する。コードとチェックポイントはhttps://github.com/zhiyuandaily/Any2Full で公開されている。
視覚言語モデル(VLM)は、視覚的知覚と言語的推論を架橋する。自動運転(AD)において、この協調はVision Language Action(VLA)モデルを可能にしてきた。VLAモデルは、高次元のマルチモーダル理解を運転行動(一般的には将来軌跡として表現される)に変換する。しかし、既存のVLAモデルは主に汎用的な衝突回避軌跡を生成するに留まる。衝突回避を超えて、多様な運転スタイル(例:スポーティ、快適)に適応することは、パーソナライズドな運転にとって不可欠である。さらに、多くの手法は軌跡生成を単純なトークン予測として扱っており、運動学的に実行不可能な行動を生み出す可能性がある。これらの限界に対処するため、我々は多様で物理的に妥当な運転行動を生成する物理情報を組み込んだVLAフレームワーク、StyleVLAを提案する。軌跡の実現可能性を改善するため、運動学的一貫性制約と連続値回帰ヘッドを組み合わせたハイブリッド損失を導入する。Qwen3-VL-4Bを基盤とするStyleVLAを訓練するため、5つの運転スタイルと自然言語指示に対する正解軌跡を含む、1,200以上のシナリオ、76,000の鳥瞰図(BEV)サンプル、42,000の一人称視点(FPV)サンプルからなる大規模な指示データセットを構築した。実験結果では、4BパラメータのStyleVLAが、プロプライエタリモデル(Gemini-3-Proなど)や最先端のVLAモデルを大きく上回ることを示す。成功率、物理的実現可能性、スタイル順守度を測定する複合運転スコアにおいて、StyleVLAはBEVで0.55、FPVで0.51を達成したのに対し、Gemini-3-Proはそれぞれ0.32および0.35であった。これらの結果は、専門化され、物理情報が組み込まれた軽量モデルが、特定分野のタスクにおいてクローズドソースモデルを凌駕し得ることを示している。