翻訳付きの日次キュレーションされたAI研究論文
ロールプレイング言語エージェント(RPLA)は、物語の進行に伴って価値観や行動が変化するキャラクターを演じるべきであり、固定されたペルソナを維持するべきではない。既存のベンチマークは、特定の章における事実の想起を測定するものであり、応答がキャラクターの心理的な軌跡と一致しているかどうか、特に原作テキストで探求されていないシナリオについては評価していない。本稿では、17の小説と80の主要キャラクターをカバーする自動構築ベンチマーク、ArcANE(Arc-Aware Narrative Evaluation)を提案する。キャラクターアークは、物語を心理的軸に沿ったフェーズに分割し、各プローブは同じシナリオをフェーズをまたいで提示する。このシナリオは、原作テキスト内の状況と、それを超えた状況の両方を含む。6つのモデルと6つのコンテキストモードにわたる評価において、キャラクターアークを条件とすることが、すべてのモデルで他のすべてのコンテキスト戦略を上回り、その差は、検索が何も見つからない原作テキスト外のシナリオで最も大きくなる。さらに、同一データ上でオープンウェイトモデルをファインチューニングし、ArcANE-8B/32Bを獲得した。これにより、原作テキスト外のシナリオにおいて、アークの優位性はさらに拡大する。
エージェントは、ドキュメント、ツール、コードに対するアシスタントとして広く活用されています。しかし、通常は明示的なユーザーの要求にのみ応じて動作するため、ユーザーが気づいた問題だけが表面化します。一方、ユーザーの広範なコンテキストの中には、他にも多くの重要な問題が「見えているのに気づかれない」状態で共存しており、その総数は事前に把握できません。本研究では、これを「コンテキストから複数の隠れた問題を発見するタスク」として位置づけます。ここでは、共存する問題を明らかにし、裏付けとなる証拠に基づいて具体化し、実行可能なアクションと結びつける必要があります。この目的のために、我々はTIDE(テンプレート誘導型反復フレームワーク)を導入します。このフレームワークは、相補的な2つのメカニズムを備えています。具体的には、単一パスの予測が最も顕著なケースに焦点を当て、汎用的な主張しか生成できないという観察に基づき、以下の2つを提案します。まず「反復的発見」:1ラウンドごとに少数の候補を、既に発見された内容を考慮しながら抽出し、以降のラウンドでカバレッジを拡張します。次に「思考テンプレート」:過去に解決した事例から抽出した再利用可能なスキーマであり、どのようなコンテキストシグナルに注目すべきか、それらをどのように結びつけるかを規定し、各予測を認識可能な問題クラスに紐づけます。我々はTIDEを、個人ワークスペースとソフトウェアリポジトリという2つの現実的な設定で、4つのモデルバックボーンを用いて検証しました。その結果、単発的な予測や並列マルチエージェントベースラインと比較して、タスクのカバレッジ、特定、解決において大幅な改善を示しました。
言語モデルによる実世界の問題に対する計画立案は、多くの場合、世界制約とユーザー制約の両方を伴い、これらは事前に完全には指定されず、相互作用を通じて段階的に明らかになる。しかし、既存のベンチマークでは、このような段階的に明らかになる二重制約下での適応的計画立案はまだ十分に探求されていない。このギャップを埋めるため、我々はAdaPlanBenchを導入する。これは、大規模言語モデル(LLM)エージェントが段階的に明らかになる世界制約とユーザー制約の下で適応的に計画を立て、再計画できるかを評価するための動的インタラクティブベンチマークである。AdaPlanBenchは307の家事タスクに基づいて構築されており、各タスクに二重制約を追加するスケーラブルな制約構築パイプラインを備えている。実行時には、エージェントはマルチターンプロトコルで環境と対話し、隠された制約はエージェントがそれに違反する計画を提案した場合にのみ明らかになり、蓄積されるフィードバックの下で計画を反復的に修正する必要がある。これにより、エージェントはフィードバックから制約を推論・追跡しながら効果的に再計画を行う必要があるため、計画立案は困難なものとなる。10の主要なLLMを用いた実験では、二重制約下での適応的計画立案は依然として困難であり、最高のモデルでも67.75%の精度にとどまった。さらに、制約が蓄積されるにつれて性能が低下し、ユーザー制約が特に大きな課題となり、失敗は多くの場合、より弱い物理的根拠と有効性の低下に起因することが観察された。これらの結果は、AdaPlanBenchを二重制約下でのインタラクティブな計画立案のためのテストベッドとして確立し、LLMエージェントにおける動的に明らかになる制約への信頼性の高い適応が困難であることを浮き彫りにしている。
我々はVideoKRを提案する。これは、知識と推論を重視したビデオ理解を強化するために特別に設計された、初の大規模訓練コーパスである。本コーパスは、新たに収集されたCCライセンス付き専門家領域の145,000本のビデオを基に、315,000件のビデオ推論事例で構成される。我々は、事例とそのCoT推論過程の難易度、多様性、信頼性を確保しつつ、段階的に深層的なビデオ推論能力を対象とする、人間参加型でスキル指向の事例生成パイプラインを開発した。また、新たな専門家注釈付きベンチマークVideoKR-Evalを整備した。このベンチマークでは、質問がテキスト上の近道ではなく、真のビデオ理解と知識集約型推論を必要とする。実験結果から、標準的なSFT→GRPOパイプラインの下で、VideoKRを用いて事後学習されたモデルは、知識集約型ビデオ推論において既存の事後学習手法を上回り、かつ一般的なビデオ推論においても競争力を維持することが示された。これは、ビデオ推論の進歩におけるデータ設計の重要な役割を浮き彫りにする。さらに、VideoKRの寄与を切り分ける包括的なアブレーション研究を実施し、今後の研究に実用的な洞察を提供する。
従来の研究では、大規模言語モデル(LLM)が継続学習や学習コンテキストへの文法書の符号化により、未見言語や低リソース言語の翻訳が可能であることが示されている。しかし、いずれの手法も特定の言語に過適合しがちであり、テスト時におけるゼロショット転移は限定的である。低リソース言語を大規模に翻訳するためには、LLMは特定の言語を記憶するのではなく、コンテキスト内の言語知識を活用するメタスキルを獲得する必要があると我々は主張する。本論文では、豊富な言語的コンテキストが与えられた状況下での未見言語翻訳に対して、表層的な翻訳指標(chrF)を報酬とする強化学習(RL)アプローチを提案する。実験的には、軽量な報酬にもかかわらず、RLで学習されたモデルは提供されたコンテキストから関連する言語情報を効果的に抽出・適用し、コンテキスト内学習や教師あり微調整と比較して、完全に未見の言語に対して優れた翻訳を実現する。我々の分析は、結果ベースのRLが数学やコーディングといった従来の推論タスクを超えて、コンテキストからの言語学習のレシピとして機能し得ることを示唆している。
家庭用ロボットはタスク完了に基づいて評価されることが多いが、日常の家庭環境では価値が衝突する状況が存在し、ロボットはタスク成功以外の価値(人間の自律性、効率性、社会的適切さなど)を優先する行動を選択することが期待される。しかしながら、そのようなシナリオにおけるロボットの価値選好を評価するベンチマークは存在しない。我々は、1万件の価値衝突シナリオにおいて家庭用ロボットのプランナーを評価するベンチマーク「RobotValues」を提案する。各インスタンスは、異なる人間の価値を優先する複数の実行可能なロボット行動を含む現実的な家庭画像から構成される。RobotValuesは、LLM支援によるシナリオ生成、ステークホルダーに基づく価値抽出、画像生成、自動品質管理を通じて構築する。RobotValuesを用いてロボット工学で使用されるVLMを評価したところ、モデルは安全性や受容性を含むデフォルトの価値選好を示し、プライバシーを優先する行動を過小選択することが判明した。モデルに自身の選好と相反する特定の価値を優先するよう指示した場合、多くの場合でデフォルトの行動を上書きできず、80%の確率で誤った行動を選択した。これらの発見は、家庭用ロボットの評価はタスク完了や安全遵守だけでなく、人間の価値が衝突した際に実行可能な行動の中から適切に選択できるかどうかを測定すべきであることを示唆している。
本研究では、個人のカメラロールにおける視覚的質問応答設定について取り組む。この設定では、対話型AIアシスタントがユーザーの個人用カメラロールにアクセスし、関連する写真を取得して質問に回答する。質問は、単純な事実確認(例:「昨日試した料理の名前は?」)から、より自由度の高いもの(例:「まだ食べたことのない料理をいくつか勧めて」)まで多岐にわたる。個人のカメラロールは膨大な性質を持つ(すなわち、複数年、数百から数千枚の写真)ため、成功するAIアシスタントは、長期的かつ高度にパーソナライズされた視覚コンテンツの流れを理解し、正確かつ関連性のある情報を検索・特定する必要がある。これを支援するため、実世界での使用を模した質問を収集し、手動でアノテーションを施した。最終的なデータセットcamrollは、50人のユーザー、31,476枚の画像、2,500のQAペアを含む。さらに、階層的メモリと大規模でパーソナライズされた視覚記憶を効率的にナビゲートするための最小限のツールセットを備えた対話型AIエージェントであるcamroll-agentを設計した。実験結果は、camroll-agentが、長文脈理解AIエージェントシステムにおける多くのベースラインおよび手法を上回る性能を示す。camrollデータセットとcamroll-agentは、AIエージェントの長文脈推論におけるギャップを浮き彫りにしている。すなわち、パーソナライズされた視覚記憶には、特に一貫性、視覚的詳細、ユーザー固有の文脈が存在する場合、標準的な長文脈テキスト記憶とは異なるアプローチが必要である。
インタリーブされたマルチモーダル入力を解釈可能な統合動画生成・編集モデルの開発は、有望でありながら困難なフロンティア分野である。既存の統合フレームワークは主に大規模モデル(典型的には130億パラメータ以上)に依存し、編集のためにシーケンストークンを連結することでソース動画の条件を組み込んでいる。この連結はシーケンス長を必然的に2倍にし、自己注意機構の計算量を4倍に増加させ、法外なオーバーヘッドをもたらす。これらのボトルネックに対処するため、我々は動画生成と編集の両方に対応する高効率な50億パラメータ統合アーキテクチャであるLoomVideoを提案する。LoomVideoは標準のテキストエンコーダをマルチモーダル大規模言語モデル(MLLM)に置き換え、DeepStack注入メカニズムを採用して多層のMLLM特徴量を拡散トランスフォーマー(DiT)と整合させる。重要なのは、動画編集のためにゼロオーバーヘッドのScale-and-Add条件付け手法を導入する点である。クリーンなソース動画の潜在表現をスケーリングしてノイズ付きターゲット潜在表現に直接加算するこのエレガントな設計は、トークン連結を不要にし、計算コストを大幅に削減しつつ、複雑で非剛体的な編集に対する堅牢な能力を維持する。さらに、複数の参照画像を処理するためにNegative Temporal RoPE戦略がシームレスに統合されている。広範な実験により、我々のコンパクトな50億パラメータモデルが包括的なベンチマークにおいて最先端または非常に競争力のある性能を達成し、eコマースやファッション生成シナリオにおいて卓越した優位性を示すことが実証された。ゼロオーバーヘッドの条件付けメカニズムの恩恵により、LoomVideoは同等の能力を持つモデルと比較して推論速度が少なくとも5.41倍向上し、非常に実用的で効率的な動画基盤モデルの道を開く。
標準的な連続時間生成モデルは、等方性ノイズから複雑なデータ分布に至るまで、大きく異なる信号領域を扱わなければならないモノリシックアーキテクチャに依存する。モデル容量をスケーリングすることで性能は向上するが、生成タイムライン全体にわたって大規模ネットワークを一様に展開することは本質的に非効率である。本研究では、複数の専門化されたサブネットワークに生成作業負荷を分散させる、時間的容量割り当てのための原理的なフレームワークであるComplexity-Balanced Splitting(CBS)を提案する。関数近似理論とde Boorの等分配原理に基づき、CBSは拡散タイムラインを等しい近似負荷のセグメントに分割し、生成ダイナミクスのモデル化がより困難な領域により多くの表現能力を割り当てる。この局所的な複雑性を推定するために、フローのディリクレエネルギーに基づく空間的測度と、サンプリング軌道の加速度に基づく幾何学的測度という、相補的で扱いやすい2つのモニター関数を導入する。軽量な補助モデルを用いてこれらの複雑性プロファイルを推定することで、我々のアプローチはヒューリスティックな時間的分割や計算コストの高い探索手順を不要にする。複数のアーキテクチャ(SiT、JiT、UNet)とデータセットにわたる広範な評価により、CBSがステップあたりの推論コストを増加させることなく、一貫して合成品質を向上させることが実証された。特に、CBSはSiT-XLにおいて、CFGを用いた場合、単純な時間的分割と比較してFIDを約35%改善する。プロジェクトページはhttps://noamissachar.github.io/CBS/で公開されている。
経験の内在化は、過去の相互作用からの文脈的経験を再利用可能なパラメトリック能力へと変換し、大規模言語モデル(LLM)における継続的学習への有望な道筋を提供する。従来の研究は主に単一イテレーションの転送に焦点を当ててきたが、我々は複数イテレーションの経験学習において、既存手法が複合的な改善ではなく、進行的な能力崩壊を被ることを発見した。本稿では、経験内在化の三つの重要な側面を通じてこの失敗を体系的に検討する。(1)経験の粒度:原理レベルの経験は軌跡固有の詳細から転送可能な戦略を効果的に抽象化するため、事例レベルの経験よりも耐久性が高いことが判明した。(2)経験注入パターン:我々の分析は、段階的注入が中間的な決定状態と経験を整合させることにより、大域的注入を有意に上回る性能を示し、この特性は長期的ツール使用において重要であることを明らかにした。(3)内在化方式:オフポリシーの文脈蒸留を高品質な教師軌跡に適用することで、オンポリシーの文脈蒸留(これは学生が誘発した欠陥状態に対する局所的修正に本質的に制限される)よりも、はるかに安定した訓練信号が得られることを実証した。これらの洞察を統合することで、安定かつ持続可能な経験内在化のための単純ながら堅牢なレシピが得られ、自己進化型かつ継続的に学習するLLMを設計するための具体的な指針を提供する。
既存の自動運転データセットは大きな進歩をもたらしてきたが、センサーの忠実度、地図の完全性、あるいは地理的多様性の点で不足がある。本稿では、高忠実度センサーと地図を基盤とした欧州のデータセット、KITScenes Multimodalを紹介する。完全に同期されたセンサースイートには、高解像度グローバルシャッターカメラ、400m超の長距離LiDAR、4Dイメージングレーダー、そして冗長化されたGNSS/INS位置推定が組み込まれている。我々の高精細地図は、既知の限りではあらゆるセンサーデータセットの中で最も完全であり、オープンソースソフトウェアを用いた自動運転走行実験により検証されている。公開データセットとして初めて、信号機など運転に関連するすべての交通要素が、完全なトポロジカル接続性を備えた再投影精度レベルで3Dマッピングされている。不規則な街路配置と複合交通モードが混在する都市で収録された本データセットは、利用可能な地理的多様性を拡大することで既存のデータセットを補完する。さらに、具現化AIの空間学習を促進する4つのベンチマーク、すなわちオンライン高精細地図構築、長距離深度推定、新規視点合成、エンドツーエンド運転を導入する。プロジェクトページ:https://kitscenes.com/
動画生成モデルは、視覚的に魅力的なコンテンツを合成する点で目覚ましい進歩を遂げてきたが、その出力は依然として仮想領域に閉じている。そこで自然と浮かぶ疑問は、こうしたモデルが生成した動画が画面を離れて現実に入り込んだとき、それらは物理世界をどの程度反映しているのかという点である。我々は、ロボット操作をこの疑問に対する具体的かつ測定可能な窓として提案する。すなわち、もしモデルが物理法則を真に内面化しているならば、その描く動作は実行可能なロボット行動に変換可能であるはずである。本論文では、この基準をビデオから実行へのパイプラインによって具体化する評価フレームワーク「Dream.exe」を提案する。シーン画像とタスク記述が与えられると、Dream.exeは操作動画を合成し、生成された動作をロボット軌道に変換し、物理シミュレータ内で実行する。これにより、純粋な視覚評価指標では提供できない接地信号(grounding signal)を得る。本パイプラインを用いて、クローズドソースの先端生成モデル、オープンソースの生成モデル、ロボット特化モデルにわたる8つのモデルを評価した。ベンチマークは、物理的複雑度が異なる3段階にわたる、101個の手作業で厳選された操作タスクをカバーし、視覚品質、軌道忠実度、実行成功率の観点から測定する。注目すべきことに、複数のモデルが測定可能な実行成功率を示し、インターネット規模のデータから学習された生成的先験知識がすでに意味のある物理的知識を符号化していることを示唆している。しかしながら、視覚品質は実行可能性の予測指標としては不十分であり、標準的な視覚評価では捉えられないモデル能力の次元が明らかになった。Dream.exeはhttps://github.com/showlab/Dream.exe でオープンソース化される予定である。
推論時のスキル拡張は、モデルパラメータを更新することなく再利用可能な手続き的知識を注入することで、データ分析エージェントを軽量に改善する方法を提供する。しかし、データ分析に有効なスキルを発見することは依然として困難であり、信頼性の高い教師信号はコストがかかり、成功基準は分析形式によって異なる。このことは、ラベルなしの探索のみから再利用可能なデータ分析スキルをいかに発見するかという重要な問いを提起する。本稿では、データ分析エージェントのための教師なし検証器誘導型スキル発見フレームワークであるDataCOPEを提案する。DataCOPEは、探索軌跡から検証器の信号を導出し、それらを用いて軌跡間の相対的な品質や一致度を特徴付ける。そして、軌跡生成を行うデータ分析エージェント、信号抽出を行う教師なし検証器、そして対照的なスキル蒸留を行うスキルマネージャーを反復的に協調させる。レポート形式分析に対しては、検証器を適応的チェックリスト検証器として具体化し、タスク固有の基準を導出し、検証可能なカバレッジによってレポートをスコアリングし、チェックリストを反復的に洗練する。推論形式分析に対しては、検証器を回答一致検証器として具体化し、回答の一致に基づいて軌跡をグループ化し、自己整合性を補助信号として利用する。我々は、Deep Data Researchによるレポート形式分析とDABStepによる推論形式分析の両方でDataCOPEを評価する。両設定において、DataCOPEはベースラインを上回る未評価データでの性能を一貫して改善する。4つのモデル設定での平均では、DataCOPEはレポート形式タスクで平均スコアを9.71%、推論形式タスクで32.30%向上させる。
大規模言語モデルは訓練データを再現することができるが、既存の記憶化評価は主にモデルが強制的にそうさせられるかどうかを測定するものであり、通常の使用においてそうするかどうかを測定するものではない。我々は、プリフィックスに基づく能力攻撃と非敵対的評価を対比する、記憶化評価のための傾向認識型フレームワークPropMeを紹介する。我々は、既存の関数に適用することで傾向指標を作成できるメトリック変換を提案する。さらに、infini-gram上に構築された軽量トレーシングパイプラインSimpleTraceを導入する。これは、モデルの生成を大規模訓練コーパスに決定論的に帰属させ、逐語的、ほぼ逐語的、および傾向変換された記憶化指標を計算する。二つの完全公開モデル(CommaとDFM Decoder)を、二つのデータセット(Common PileとDynaword)で二言語において評価したところ、能力と傾向の間に一貫したギャップがあることがわかった。プリフィックス攻撃は、汎用またはデータセット固有のプロンプトよりもかなり強い記憶化シグナルを引き出す一方、傾向スコアは全体的に低いままである。したがって、モデルは直接的に引き出された場合には訓練データを明らかにすることができるが、より一般的な非敵対的設定ではめったにそうならない。また、Commaから継続的に事前学習されたDFM Decoderは、Common Pileに対する記憶化および記憶化傾向が低減していることがわかり、後の訓練で部分的に異なるデータに重点が置かれると記憶化能力が低下し得ることが確認された。我々の結果は、記憶化監査において、この現象のより包括的な理解を得るために、最悪ケースの抽出可能性と通常の漏洩傾向の両方を報告すべきであることを示唆しており、我々はそうすることを推奨する。
方策オン蒸留(OPD)は、次のトークン確率を一致させることで、出力空間のみにおいて生徒モデルを教師モデルに監督する。この出力のみのパラダイムには二つの限界がある:(1)大語彙(例:Qwenの約15万トークン)に対するモンテカルロKL推定からのサンプリング分散が訓練を通じて持続すること、(2)教師をブラックボックスとして扱い、LMヘッド以降の中間隠れ状態をすべて破棄することである。本稿では、方策オン表現蒸留(OPRD)を提案する。これは、同一ロールアウト上の選択された層において生徒と教師の表現を整列させることで、蒸留を隠れ状態空間に拡張し、LMヘッドを完全に迂回する。理論的には、OPRDはサンプリング分散を排除し、より豊かな層ごとの構造情報を提供する。実験的には、OPRDはAIME 2024/2025およびAIMOにおいて生徒・教師間のギャップを縮小する一方、出力空間のOPDベースラインは教師以下の水準で停滞する。また、OPRDはtop-k OPDよりも1.44倍高速に訓練でき、メモリ使用量を54%削減する。コード:https://github.com/ShenzhiYang2000/OPRD。
選択は、インタラクティブな画像編集における中核的な操作である。実用的には、ユーザーはテキストまたはクリックベースのインタラクションを通じて所望の選択領域を指定し曖昧さを解消できるべきであり、システムはオブジェクトだけでなく素材などの他の基準も選択できるようにすべきである。素材ベースの選択は、表面の再テクスチャリングや特定の素材のインスタンス編集といったタスクにおいて有用である。しかし、既存の視覚言語モデル(VLM)ベースの選択手法はオブジェクト中心であり、通常は単一のインタラクションモダリティしかサポートしておらず、その適用可能性が制限されている。そこで本研究では、Mask Any Object And Material (MAOAM) を提案する。これは、テキストベースとクリックベースの両方のインタラクションにおいて、オブジェクトおよび素材レベルの正確な選択を可能にする統一的な選択フレームワークである。MAOAMは、セグメンテーションヘッドを備えたVLMを活用し、ユーザープロンプトからピクセル精度のマスクを生成する。VLMはユーザーの選択意図(オブジェクトまたは素材レベル)を解釈し、視覚的エンティティ、属性、空間関係をエンコードし、セグメンテーションヘッドは出力トークンをマスクにデコードする。主要な課題は、テキストアノテーションが付与された素材選択データセットの不足である。我々はスケーラブルなデータ生成パイプラインを提案する。素材マスクを持つ実画像と合成画像を収集し、VLMを活用して豊かな視覚意味論を持つ素材記述を生成する。我々は、クリックおよびテキストベースの選択に対するマルチタスク目的と、素材記述から派生した補助的なVQAタスクを用いてMAOAMを訓練し、より深い素材理解を促進する。単一モーダルのプロンプトで訓練されているにもかかわらず、我々のモデルは推論時にテキストとクリックを組み合わせることで選択性能の創発的な向上を示し、柔軟な画像編集ワークフローを可能にする。実験により、多様なオブジェクト、素材、インタラクションシナリオにわたって正確で一貫性のある選択が実証され、実際のロバスト性が示された。
推論時スケーリングは、大規模言語モデルの性能を向上させる重要な手段として浮上してきたが、実際の展開は厳格な計算予算によって制約されている。本研究では、推論予算の割り当てを、経済原理に基づく大域的制約付き最適化問題として定式化する。各クエリの推論効用をシフトサージ関数でモデル化することにより、資源希少性の下で限界効用を均衡させる大域的シャドープライスに基づく最適な割り当てポリシーを導出する。この理論に基づき、我々は推論のための制約付き潜在効用均衡割り当て(CLEAR)を提案する。これは合理的な放棄を実行し、資源を支払不能なクエリから、出現閾値付近の解決可能なクエリに再配分する。 異なるトラフィックストリームを用いた複数の推論タスクにおける広範な実験により、CLEARが総トークンコスト対平均精度のパレートフロンティアを大幅に改善することを示す。資源希少な状況では、CLEARは均一割り当てと比較して最大3倍の大域精度向上を達成する。
ビデオイベント予測(VEP)では、部分的な映像証拠から未観測の未来状態を推論するモデルが求められる。既存のビデオMLLMは通常、中間段階の未来推論をテキスト空間で言語化するが、視覚的証拠が言語化されると、細かい動き・幾何学・相互作用の手がかりが失われ、視覚的に根拠のないもっともらしいハルシネーションを生じる可能性がある。本稿では、自己回帰デコード中にMLLMが言語トークンと連続的な潜在視覚スパンを交互に扱うことを可能にする、インターリーブ型潜在視覚推論フレームワークFuture-L1を提案する。この能力を訓練するために、未来の視覚的手がかりが予測に役立つ事例を選択し、潜在状態を将来フレームの埋め込みに整合させるFuture-L1-50Kを構築し、さらに、結果対比的および時間的多様性報酬を持つ潜在認識型強化学習目的であるLA-DAPOを用いてサンプリングされた潜在軌跡を最適化する。Future-L1は、両ベンチマークで新たな最先端結果を達成した。FutureBenchでは、Qwen3-VL-8Bのスコアを61.0から85.4に向上させ、従来の最良手法Video-CoEを10.4ポイント上回った。TwiFF-Benchでは、平均スコアを2.44から3.04に改善した。これらの結果は、未来指向のビデオ推論において、各推論ステップをテキストに変換するよりも、中間の視覚的意味を潜在空間で保持することの有効性を示唆している。
我々は、ワールド・ランゲージ・アクション(WLA)モデルを、身体化基盤モデルの新たなクラスとして提案する。WLAは、テキスト指示、画像、ロボットの状態を入力として、テキストによるサブタスク、サブゴール画像、ロボットのアクションを共同で予測する。これにより、ワールド・アクション・モデル(WAM)と同様に広範な一人称視点動画から学習する世界モデリングインターフェースと、視覚・言語・アクション(VLA)モデルと同様に複雑な長期課題を解決する言語推論能力を結合する。 WLAの中核には、WAMのような双方向拡散Transformerではなく、自己回帰(AR)Transformerバックボーンが用いられ、次の状態を予測する。この状態は、意味レベルのテキスト意図と補完的な詳細な物理的ダイナミクスから構成される。物理的ダイナミクスは、専用のWorld Expertに基づく世界モデリング目的関数によって監視され、Action Expertのための状態・アクション相関の特性評価を容易にするために活用される。WLAはメタクエリを活用して、世界予測が暗黙的にアクション生成に影響を与えるようにし、推論中に世界予測を無効化できるようにする。世界予測は、テスト時スケーリングを有効にしてロボット制御を改善するために、アクティブ化することもできる。 我々のWLA-0プロトタイプは、2Bのアクティブパラメータを持ち、NVIDIA RTX 5090上で推論あたり40ミリ秒を達成する。シミュレーション環境と実世界環境にわたる評価により、WLA-0が最先端のマルチタスクおよび長期学習能力を達成することが実証されている。例えば、RoboTwin2.0 Cleanでは92.94%、RMBenchでは56.5%の成功率である。WLA-0はまた、アクションアノテーションなしで、異なる身体性のロボット動画から直接新しいタスクを学習する可能性を秘めている。
記憶拡張型LLMエージェントは、相互作用の軌跡を再帰的に要約してコンパクトな記憶とすることで、複雑な長期的タスクに取り組む。しかし、既存手法は通常、結果ベースの強化学習を用いてこれらの記憶ポリシーを訓練するため、中間段階の記憶品質が劣化する箇所を特定できない。相互作用が進むにつれて、曖昧な再帰的要約はタスク関連情報を徐々に喪失させ、意味的ノイズを導入する。これにより信念のずれが悪化し、エージェントによる潜在タスク状態の推定が不明瞭になり、最終的に長期的推論が頓挫する。そこで我々は、記憶最適化は軌跡レベルの成功のみならず、中間要約によって誘発される信念の明瞭性に焦点を当てるべきだと主張する。この目的のため、我々は信念エントロピー(Belief Entropy)を導入する。これは、現在の記憶に基づいてモデルが潜在タスク状態に対してどの程度不確実であるかを探る、自己教師ありプロキシである。このプロキシに基づき、我々はメタ認知記憶ポリシー最適化(MMPO)を提案する。MMPOは、疎な結果ベースの信号のみに依存するのではなく、高い認識的不確実性を誘発する要約を明示的に罰することで、細粒度で記憶特化型の監督を提供する。実験により、MMPOは多様な長期的タスクにおいて既存手法を一貫して上回り、トークン数175万のコンテキストに拡大しても97.1%の性能を維持することが示された。
時間的グラウンディング(TG)は、テキストクエリに対応する映像セグメントを特定することを目的とする。既存研究の大半は単一セグメントの検索に焦点を当ててきた。しかし、現実のシナリオでは、単一のクエリに対して複数の非連続なセグメントを特定する必要がしばしば生じる。本稿ではこの設定をOne-to-Many Temporal Grounding(OMTG)と定義する。従来の最先端MLLMは一対一の設定に最適化されているため、この文脈では性能が著しく低下し、事象の基数認識の欠如によりスコアがほぼゼロになる。このギャップを埋めるため、本稿では3つの主要な貢献からなる体系的解決策を提示する。第一に、初の包括的なOMTGベンチマークを構築し、評価指標としてCount Accuracy(C-Acc)およびEffective Temporal F1(EtF1)を導入する。第二に、洗練された構築パイプラインを通じて5万6千サンプルからなる高品質OMTGデータセットを収集する。第三に、OMTGに特化した新規の時間的報酬関数とキャプション報酬関数を開発する。特にキャプション報酬は、密な映像キャプションに対する連鎖的推論を活用し、ポリシー最適化を精度と完全性の両面で明示的に導く。広範な実験により、本モデルはOMTG Bench上で43.65%のEtF1を達成し、Gemini 2.5 ProおよびSeed-1.8をそれぞれ15.85%および15.61%上回る新たな最先端性能を示す。
大規模言語モデル(LLM)エージェントは、科学的発見や機械学習エンジニアリング(MLE)といった長期的なタスクにますます応用されており、持続的な自己進化が重要な能力となっている。しかし、既存のMLEエージェントは、分岐間情報隔離、無記憶探索、階層的制御の欠如といった問題を抱えており、これらが長期にわたる最適化を妨げている。本稿では、エンドツーエンドの機械学習アルゴリズム発見のための、LLMベースの自己進化型マルチエージェントフレームワークであるMLEvolveを提案する。MLEvolveは、ツリー探索をProgressive MCGSに拡張することで、グラフベースの参照エッジを通じて分岐間の情報の流れを可能にし、エントロピーに着想を得た漸進的スケジュールにより、探索を広範な探索から焦点を絞った活用へと徐々に移行させる。また、蓄積された経験とともにエージェントが進化できるようにするため、Retrospective Memoryを導入する。これは、コールドスタートのドメイン知識ベースと、タスク固有の経験の検索と再利用のための動的グローバルメモリを組み合わせたものである。安定した長期反復のために、戦略的プランニングとコード生成を適応的コーディングモードでさらに分離する。MLE-Benchでの評価では、MLEvolveは12時間の予算(標準実行時間の半分)において、平均メダル率や有効提出率など、複数の次元で最先端の性能を達成した。さらに、MLEvolveは数学的アルゴリズム最適化タスクにおいてAlphaEvolveを含む専門的なアルゴリズム発見手法を上回り、強力なクロスドメイン汎化を示している。我々のコードはhttps://github.com/InternScience/MLEvolveで公開されている。
動画には時間的な冗長性がある。隣接するフレームは通常、ほとんどのオブジェクト、背景、およびレイアウトを共有する。しかし、既存の動画マルチモーダル大規模言語モデル(動画MLLM)は通常、サンプリングされた各フレームを独立したRGB画像として符号化するため、以前のフレームに既に存在するコンテンツが視覚トークン内で繰り返されることになる。このことから、より直接的な動画インターフェースが示唆される。すなわち、シーンが先行コンテキストから十分に予測できない場合にのみ完全な参照フレームを送信し、それ以外の場合はフレーム間の変化のコンパクトな記述を送信するというものである。我々はこのインターフェースを予測型視覚コードと呼び、動画MLLM向けにAdaCodecとして具現化する。AdaCodecは、条件付き予測コストが高い場合にのみ、参照フレームに完全な視覚トークンを割り当てる。それ以外の場合は、動きや予測残差を含むフレーム間の変化を、コンパクトなPトークンとして符号化する。全11のベンチマークにおいて、AdaCodecはマッチした視覚トークン予算で、Qwen3-VL-8Bのフレーム単位RGBベースラインを上回る。予算が7分の1であっても、AdaCodecは32kトークンで、すべての長尺動画ベンチマークにおいて224kのベースラインを凌駕する。5つの一般動画ベンチマークでは、平均スコアを向上させつつ、初回トークン出力までの時間を9.26秒から1.62秒へと大幅に短縮する。
システムプロンプトの最適化は、基盤モデルを変更することなくエージェントの動作を改善し、人間が読みやすくモデルに依存しない指示を生成する。既存手法では、タスクエージェントのシステムプロンプトを改善するプロンプトエージェントを構築するが、プロンプトエージェント自身のシステムプロンプトは手作業で設計され固定されたままである。本稿では、自己進化的プロンプト最適化(SePO)を提案する。SePOは、プロンプトエージェント自身のシステムプロンプトを、タスクエージェントのシステムプロンプトとともに最適化対象として扱う。SePOは自己参照型の設計を採用する。単一のプロンプトエージェントが、タスクエージェントのシステムプロンプトと自身のシステムプロンプトの両方を改善する。これは、候補プロンプトのアーカイブを中間段階として保持する開かれた進化的探索に基づいて行われる。訓練は二段階で進行する。事前学習ではプロンプトエージェントをマルチタスクプール上で進化させ、その後、微調整により対象タスクに適用する。数学(AIME'25)、抽象推論(ARC-AGI-1)、大学院レベルの科学(GPQA)、コード生成(MBPP)、論理パズル(数独)の五つのベンチマークにおいて、SePOは一貫してManual-CoT、TextGrad、MetaSPOを上回り、Manual-CoTと比較して平均精度を4.49ポイント向上させた。事前学習からのプロンプト最適化スキルは、タスクごとのプロンプトを記憶するのではなく、事前学習の組み合わせを超えたタスクにも一般化する。
マルチモーダル大規模言語モデル(MLLM)は2次元の意味理解に優れているものの、本質的な3次元認識を欠いており、その結果、ビデオフレーム間で幾何学的および空間的一貫性を維持できない表現を生み出す。大規模な3次元データの不足を踏まえ、我々はGeoVRを提案する。これは純粋な2次元ビデオシーケンスのみを用いて幾何学的表現を学習する新規フレームワークである。本手法はMLLM内の意味的潜在空間を効果的に再構築し、空間知能を解放する。表面的な特徴混合に頼るのではなく、GeoVRは事前学習済みの3次元基盤モデルから幾何学知識を蒸留することでMLLMの内部表現を再形成する。これは四つの補完的な幾何学目標によって駆動される多目的学習戦略により達成される:(1)フレーム間カメラ姿勢の推定による変化する視点ダイナミクスの埋め込み、(2)密な深度マップの回帰による物理的距離の固定、(3)実世界キャリブレーションのためのメートルスケール係数の予測、(4)マルチスケール3次元特徴の蒸留による中間特徴空間の整列。これらの明示的な物理的・幾何学的制約に導かれ、モデルの内部表現は自然に強力な3次元認識を発展させる。空間推論ベンチマークにおける広範な実験により、GeoVRは最先端の性能を達成し、基盤モデルに空間知能を付与する新たなパラダイムを確立することが示される。
自動音声認識(ASR)は、人間とAIのインタラクションにおける重要な技術となっている。しかし、コードスイッチングASR(CS-ASR)は、多様な言語ペア間での多言語CS音声リソースの深刻な不足により、特に困難な課題である。既存のアプローチは主に、合成CS音声生成や限られたバイリンガルデータセットに対するペア固有の微調整によってCS-ASR性能を向上させる。しかし、これらのアプローチは本質的にスケーラビリティの制限を抱えており、CSのサポートは、サポートする言語数の増加に伴って組み合わせ的に増加する言語ペアごとに個別に開発しなければならない。本研究では、限られたセットの観測言語ペアから学習されたCS能力が、モデルマージやドメイン汎化手法を通じて未観測の言語ペアに汎化できるかどうかを調査する。実験の結果、マージされたバイリンガルCS-ASRモデルは未観測の言語ペアに対して限定的に汎化し、バイリンガルCS能力の言語ペア間での転移が限られていることが示唆された。
ビジョン・ランゲージ・アクション(VLA)モデルは、事前学習済みのビジョン・ランゲージモデル(VLM)が持つ豊富な世界知識を活用し、指示に従ったロボット操作を実現する。しかしながら、VLMの意味空間と身体化された制御方策との間の構造的不一致により、精密な知覚-行動マッピングの学習がしばしば妨げられる。この課題に対処するため、我々はAffordanceVLAを提案する。これは、構造化されたアフォーダンス予測をタスク指向の中間表現として導入し、より精密かつロバストな知覚-行動マッピングを確立する統合フレームワークである。具体的には、以下の3つの相補的構成要素を通じて、操作の事前知識を段階的にモデル化する。1)Which2Act:視覚的潜在変数の予測によるオブジェクト中心の接地を行い、外乱を抑制する。2)Where2Act:アフォーダンスマップ推定による2次元インタラクション位置特定を行う。3)How2Act:操作方策を導くための3次元幾何学的推論を行う。これらのアフォーダンス手がかりは、空間的に接地され、意味的に条件づけられ、行動と結合された中間表現を提供し、それによりビジョン、言語、行動を自然に橋渡しする。我々はこれらのモジュールを、専門家モジュールを備えたMixture-of-Transformer(MoT)アーキテクチャに統合し、段階的データカリキュラムを用いた3段階の学習戦略でモデルを訓練する。また、ロボットデータセットにおける高密度アフォーダンスラベルの不足を克服するため、堅牢な自動データ拡張パイプラインも開発する。シミュレーションおよび実世界における広範な実験により、AffordanceVLAが多様な操作シナリオにおいて優れた性能を達成することを実証する。
ワールドアクションモデル(WAM)は、反復拡散を通じて将来の動画とロボット動作を同時に生成し、操作ベンチマークで高い性能を示すが、数十のノイズ除去ステップを必要とし、そのコストがリアルタイム制御を妨げる。ステップ蒸留が自然な解決策として登場したが、既製の手法は動画と動作の共同設定では機能しない。なぜなら、動画ストリームと動作ストリームは異なるSNRシフト付きノイズスケジュールを使用し、訓練時には大幅に異なる限界ノイズ分布に達するため、単一モダリティの蒸留手法では対応できない非対称性が生じるからである。本稿ではFlash-WAMを紹介する。これは一致性蒸留に着想を得たモダリティ認識型ステップ蒸留フレームワークであり、各モダリティのノイズ状況に合わせて一致性関数を選択する。具体的には、動作ストリームの低ノイズ領域には線形勾配スケーリングパラメータ化を、動画ストリームの高ノイズ領域には分散保存パラメータ化を組み合わせる。これは、一致性境界条件の下で達成可能な勾配スケーリングを特徴付ける一致性関数ファミリーの構造解析に基づいている。Flash-WAMはLingBot-VA上で実装され、各モダリティの推論を単一ステップに圧縮する。RoboTwin 2.0では、これによりNVIDIA L40S上でチャンクあたりのレイテンシが8.1秒から348ミリ秒に短縮され、23倍の高速化によりリアルタイム推論が可能となる。Flash-WAMはシミュレーションベンチマークでのタスク成功率を維持し(RoboTwin 2.0で85.5%、LIBEROで95.7%)、実世界性能も大幅に回復させる(Unitree G1ヒューマノイドロボットで平均60%)。一方、単純な一致性蒸留では同じステップ予算で24%に低下する。
ロボティクスシステムでは、低コスト・低消費電力のハードウェアを用いて、高解像度のビジュアルデータを容易に大量に取得できる。しかし、帯域幅やオンデバイス計算リソースが限られているため、JPEG/MPEGなどの従来のコーデックで伝送する際に十分に活用することができない。AV1/AVIFのような新しいコーデックはレート歪みトレードオフを改善するが、エンコードに遥かに多くのリソースを必要とし、カスタムASICなしでは実用的でない。近年の非対称オートエンコーダは、極度の電力・帯域制約下で高品質を実現するが、デコードコストが法外であり、JPEGなどの標準規格を中心に構築された数十年にわたるインフラを無視した独自形式を使用する。これらの限界に対処するため、我々は、効率的な再構成のためのワンタイムトランスコードと組み合わされたセンサー組み込みオートエンコーダ(SEAOTTER)に基づく、クラウドロボティクス向け圧縮フレームワークを提案する。センサ、クラウド、コンシューマの各段階では、電力と帯域幅の制約が大きく異なるため、SEAOTTERは学習された潜在表現のコンパクトさと、標準JPEGファイルの広範な有用性を組み合わせる。単純なトランスコードでは性能が低下するため、我々は学習可能なJPEG色空間・量子化変換を提案し、これによりグローバル、密、および視覚言語ベースの知覚において精度を向上させる。SEAOTTERを用いて、事前学習済みで固定されたエンコーダに対して、汎用およびタスク認識のトランスコードパイプラインを訓練する。200:1の圧縮率において、AVIFと比較して、エンコード速度が7倍、デコード速度が3.5倍高速であり、ImageNet top-1精度が+8%向上し、JPEGインフラとの互換性を維持することを確認した。我々のコードは https://github.com/UT-SysML/seaotter で入手可能である。
マルチモーダル大規模言語モデル(MLLM)は、一般的な視覚的質問応答(VQA)タスクにおいて顕著な成果を示してきた。しかし、機械製図に対しては依然として脆弱であり、高い注釈密度と弱いドメイン知識に加え、厳格な投影規則と幾何学的制約の下での信頼性の低い空間関係推論が重なり、決定的な手がかりを見落としやすく、誤った回答に繋がることが多い。このギャップを埋めるため、我々は初の包括的な機械図面理解データセットであるMechVQAを導入する。これは半自動構築と品質管理パイプラインを通じて作成された。MechVQAは3.3k枚の高密度画像と21Kの質問応答ペアを含み、認識、推論、判断の3つの能力レベルにわたる10種類の異なる細粒度タスクを網羅しており、実世界の機械図面におけるMLLMの理解を評価・改善するためのテストベッドを提供する。さらにMechVQAを基に、多段階訓練パラダイムを通じてMechVLモデルを開発し、強力なドメイン特化ベースラインを構築した。広範な実験結果により、MechVLはMechVQA総合スコアにおいて最も強力なクローズドソースベースラインを7.57パーセンテージポイント上回り、機械図面理解能力を大幅に向上させ、機械設計・検査シナリオにおけるMLLM展開のための再利用可能な基盤を提供することが実証された。
大規模言語モデルは、ソーシャルメディアユーザーをシミュレートし、個人がオンライン上の議論にどのように反応するかを推測するためにますます用いられている。しかし、これらのシミュレーションがユーザー固有の正確な信念を反映しているのか、それとも会話の文脈における意味的に独立した変化に非常に敏感であるのかは依然として不明である。本研究では、LLMベースのスタンスシミュレーションを監査するための枠組みとして、反事実的文脈修正を検討する。元のオンライン会話を所与として、まず対象ユーザーの特定のトピックに対するスタンスを推測する。次に、会話の文脈に対して制御された修正戦略を適用し、修正された文脈のもとでユーザーのスタンスを再度シミュレートする。テキストのみの修正戦略と、ミームベースの文脈を取り入れたマルチモーダル戦略とを比較し、平均方向別スタンス変化量とスタンス遷移率という二つの主要な有効性指標を評価する。結果は、異なる分極化選好メカニズムにわたって、テキストのみの戦略とマルチモーダル戦略の両方において効果的でロバストなスタンス遷移を示している。本研究は、LLMベースのスタンスシミュレーションの文脈感受性を理解するための評価枠組みを提供する。より広くは、オンライン上の意見動態をシミュレートするためのLLM利用の可能性とリスクの両方を浮き彫りにする。
大規模言語モデルは、明示的な連鎖思考(CoT)を生成することで推論を改善することが多く、中間計算の重要性を示している。しかし、テキスト形式のCoTはこの計算を離散的で逐次的、かつ通信指向のトークンストリームに強制する。すなわち、基礎となる更新が意味的、不確実、または部分的にしか形成されていない場合でも、各推論ステップはモデルが先に進む前に言語化されなければならない。潜在推論は、テキストに変換する前にコンパクトな連続状態で中間計算を実行することで、より高帯域幅の代替手段を提供する。しかし、既存の潜在推論手法は、自己回帰型言語モデルにおいてCoTを効果的にする主要な利点(ネイティブな左から右への生成、確率的サンプリング、KVキャッシュデコードとの互換性、扱いやすい尤度推定など)をしばしば犠牲にしている。そこで我々は、正規化フローを用いて連続思考をモデル化することでこれらの利点を保持する潜在推論フレームワークNF-CoTを提案する。NF-CoTは、LLMバックボーン内部にTARFlowスタイルの正規化フローを実装し、明示的なCoTから抽出されたコンパクトな連続思考に対する扱いやすい確率モデルを定義する。連続思考の位置はNFヘッドによって生成され、テキストの位置は同じ因果ストリーム内の標準的なLMヘッドによって生成される。この設計により、潜在思考に対する正確な尤度が提供され、元のKVキャッシュを用いた確率的な左から右へのデコードが可能になり、潜在推論空間における直接的な方策勾配最適化がサポートされる。コード生成ベンチマークにおいて、NF-CoTは明示的CoTおよび従来の潜在推論ベースラインを上回る合格率を達成するとともに、中間推論コストを大幅に削減する。
大規模言語モデル(LLM)エージェントの最近の進展により、自動化されたデータサイエンスにおける有望な進歩が可能となった。しかし、既存のアプローチは静的アクションセットに根本的に制限されており、原理に基づいた長期依存関係のコンテキスト管理が欠如しているため、タスク間で再利用可能な経験を蓄積し、多段階・反復的なデータサイエンスパイプラインで確実に動作する能力が妨げられている。これらの課題に対処するため、我々はEvoDSを提案する。これは、エージェント強化学習を通じてスキルを拡張し、長期的なコンテキストを適応的に管理することを学習する自己進化型自律データサイエンスエージェントである。具体的には、EvoDSは以下の2つの主要戦略を導入する。(1)自律的スキル獲得(ASA)機構:エージェントが実行可能なスキルを合成、検証、再利用することを可能にする。(2)適応的コンテキスト圧縮(ACC)戦略:コンテキスト管理を受動的な切り捨てではなく学習された制御問題として扱う。これらの戦略は2段階マルチエージェント訓練スキーム内で調整され、EvoDSが時間とともに自律的に改善することを可能にする。理論的には、EvoDSの階層的設計がツール選択エラーを低減し、その最適化目標が情報ボトルネック原理と一致することで、効率的なコンテキスト利用を保証することを証明する。実証的には、EvoDSは4つの多様なベンチマークにおいて、最先端のオープンソースデータサイエンスエージェントを平均28.9%上回り、トークン超過エラーを排除する。我々のコードとデータはhttps://github.com/usail-hkust/EvoDSで公開されている。
「リンの居場所は?」のような状況依存のクエリは、多くの場合、文字通りの内容以上の情報を含んでいる。つまり、ユーザーはリンが暇かどうか、機嫌が良いかどうか、あるいは今話しかけても大丈夫かどうかを知りたい場合もある。標準的なツール使用エージェントは文字通りの質問に答えて終了する。AURAは、シーン認識とツール使用の間に推論ステップを挿入し、IntentFrame(意図フレーム)を生成する。これは暗黙的なニーズを構造化して推定したもので、スカラーのギャップスコアを持ち、これがクエリごとの探索予算とツール選択を制御する。4シーン・100クエリの暗黙的意図ベンチマークにおいて、AURAはReActスタイルの探索と比較して暗黙的ニーズのカバレッジを向上させた(差 = +0.07, p < 10^-6)。4シーン中3シーンで個別に有意であり、この改善は別のバックボーンでも再現された。また、プロンプトアブレーションにより、この向上は回答の記憶ではなくギャップ調整に起因することが示された。事実確認のルックアップにおいては、コントローラーは生の精度と引き換えに82%少ない探索回数と、プライバシーに敏感なスライスでの禁止ツール違反ゼロを達成した。適用範囲の条件は制限事項に詳述されている。コード、シミュレーター、ベンチマークはhttps://github.com/innovation64/AURAで公開されている。
自動運転では、自車の行動が周囲世界の進展をどのように形作るかについての推論が必要である。しかし、ほとんどのエンドツーエンド手法は直接的な状態から行動へのマッピングに依存し、相関を捉える一方で、行動条件付きの動的過程を明示的にモデル化していない。対照的に、連続潜在世界モデルは、反事実的未来にわたる因果推論のための構成的構造を欠くことが多い。本稿では、将来の視覚状態と自車行動を整列した離散トークンとして表現する統一的な潜在視覚・行動世界方策であるDiscrete-WAMを導入する。これにより、代替的な未来にわたる構成的因果推論が可能となる。この統一的な離散整列に基づき、Discrete-WAMは統一生成タスクを備えた共有離散拡散フレームワークを確立し、世界モデリング、世界行動方策、階層的決定可能方策を統一的に定式化し、多様な運転シナリオにわたる構成的汎化を支援する。大規模自動運転ベンチマークにおける実験は、Discrete-WAMが制御可能な生成と反事実推論を支援しつつ競争力のある性能を達成し、より信頼性の高い意思決定への原理的な道筋を提供することを示している。
基于扩散的图像编辑在自然语言指令下已实现强大的视觉保真度,但现有系统大多仍停留在表面指令跟随层面,未能推理真实用户请求中蕴含的隐式语境约束。这往往导致视觉上合理但逻辑上不一致的编辑结果。本文提出RE-Edit基准——一个面向推理感知图像编辑的基准,从五个互补的推理维度(物理、环境、文化、因果和指代)评估图像编辑系统。RE-Edit包含1000个精心筛选的样本,每个样本的设计均使得仅凭视觉合理性无法完成任务,正确编辑必须满足隐式逻辑约束。为支持细粒度分析,我们建立了维度对齐的评估标准,并对十种开源和两种商业图像编辑模型进行了全面研究。结果表明,尽管能生成高质量视觉结果,先进系统在面对隐式多维推理时仍频繁出错。我们进一步提出一种轻量级推理引导的后编辑基线作为初步探索,展示了通过注入显式推理如何以模型无关的方式缓解此类失败。
オフポリシー強化学習による事前学習済みフローポリシーの微調整は、多段階サンプリング過程に起因する最適化の不安定性から依然として困難を伴う。近年、随伴マッチングを用いたQ学習(QAM)は、学習済み批評家を用いて無記憶確率的最適制御(SOC)問題へと再定式化することでこの問題に対処した。しかしながら、QAMは批評家誘導型改善に固有の脆弱性を引き継いでいる。すなわち、批評家が不良設定である場合、小さな批評家誤差が増幅され、しばしばモデル崩壊を引き起こす。本論文では、射影二重降下法により事前学習済みフローポリシーとの経路空間KLを適応的に制御する安定なオフポリシー微調整アルゴリズムである、信頼領域Q随伴マッチング(TRQAM)を提案する。具体的には、SOCダイナミクスにおける信頼領域パラメータλを最適化し、経路空間KLがλの閉形式関数で表現できることを理論的に示す。これにより、本手法は事前学習済みフローポリシーからの正確な乖離を精密に制御し、安定なオフポリシーRLを実現する。OGBenchの50タスクにおける実験を通じて、TRQAMはオフラインRLおよびオフラインからオンラインへのRLの両方において、従来手法を一貫して上回る性能を示した。特に、TRQAMはオフラインRLにおいて全体成功率68%を達成し、最強のベースラインである46%を大幅に改善した。
本論文では、適応的でプレイの履歴に応じて応答可能な対戦相手との反復ゲームにおける後悔最小化を研究する。オンライン学習における標準的な外部後悔の指標は、このような適応性を捉えられないことが知られている。プレイヤーの反事実的推論を考慮するため、我々はゲーム理論的な指標である{\tt 反復方策後悔(RP-Regret)}を導入する。これは、すべてのプレイヤーがプレイの履歴に応答できる場合に、実現された累積効用と事後的に最適な累積効用との差を測定するものである。この設定における既存の後悔概念と比較して、我々の指標は反復ゲームのプレイに固有のものであり、より強力な比較対象とより少ない制約を持つ対戦相手を可能にしつつ、すべてのプレイヤーがそれを最小化するときにより良い均衡を見つける可能性を維持する。まず、時間に対して劣線形な{\tt RP-Regret}を得るための必要条件を、後悔定義におけるプレイヤーの比較対象戦略の変動、ならびに比較対象および対戦相手の戦略の記憶に関して特定する。次に、{\tt RP-Regret}を最小化するための追加条件と証明可能なアルゴリズムを研究する。{\tt RP-Regret}は定義上、戦略空間において非凸である。この課題に対処するため、我々は三つのアルゴリズムを提案する。(i) 従来のオンライン非凸学習研究で想定されたような最適化オラクルに基づくもの、(ii) 各反復において{\tt RP-Regret}の凸で線形化された代理を最小化するもの、(iii) 対戦相手がゆっくりと戦略を変化させる場合に{\tt RP-Regret}を直接最小化するものである。さらに、すべてのプレイヤーが{\tt RP-Regret}(またはその線形化された変種)を最小化するアルゴリズムを実行できる場合、反復ゲームのある種の部分ゲーム完全均衡を学習できる。また、Stag-Huntのようなゲームにおいて、我々の後悔概念を最小化することで、より高い効用を持つ協力的な解が得られることを示す実験も提供する。
ベンチマークは、大規模言語モデル(LLM)およびマルチモーダル大規模言語モデル(MLLM)の評価と進歩において、標準化された明確な性能指標を提供する基盤となる。しかし、その構築には多大な労力を要し、再利用が困難であるため、持続可能性とスケーラビリティに懸念が生じている。さらに、既存のベンチマークは公開後すぐに性能飽和に達することが多く、最先端モデル間の十分な識別が困難となる。これらの課題に取り組むため、本稿ではベンチマーク構築のための完全自律型エージェントシステムであるBenchmark Agentを紹介する。本フレームワークは、ユーザークエリの分析、サブタスク設計、データアノテーション、品質管理に至るまで、ベンチマーク構築パイプライン全体を統括する。Benchmark Agentを評価するため、テキスト理解、マルチモーダル理解、ドメイン特化型推論など多様な評価シナリオを網羅する15の代表的なベンチマークを生成した。人間による評価、LLM-as-a-judge評価、一貫性チェックを含む広範な実験により、Benchmark Agentが最小限の人間の関与で高品質なベンチマークサンプルを生成できることが実証された。さらに重要な点として、継続的な評価を通じて、現行モデルが特定のドメイン特化型推論タスクに困難を抱えるなど、いくつかの洞察を得た。急速に進化するベンチマークは研究コミュニティに大きく貢献すると確信する。プレビューとコードはデモページおよびコードリポジトリで公開予定である。
大規模言語モデルは基本演算において逆説的な脆弱性を示し、内部計算と離散的な出力との間の乖離を示唆する。複数オペランド加算中の残余ストリーム幾何構造を解析することで、我々は等生和軌道(Iso-Raw-Sum Trajectory, IRST)を同定した。これは、表現が意味数字によってアンカーされ、連続的な繰り上がりファイバーによって変調される幾何構造である。我々はこの幾何構造を説明するためにノイズ量子化モデルを提案し、算術誤差を幾何学的滑りとして捉える。これは内部ニューラルノイズが連続的な潜在繰り上がりポテンシャルを量子化閾値越えさせることに起因する。この幾何学的枠組みはさらに、単一の活性化ベクトルから共存する潜在信号(例えば真値と幻覚)を軽量プローブがどのように分離できるかというプローブ汎用性を解明する。最後に、これらの知見を推論中に量子化障害を効果的に検出・修正する幾何学的整合性チェック手法によって検証する。コードは https://github.com/RL-MIND/Shape-of-Addition で公開している。
エージェンティックLLMにウェブ検索機能が加わることで、テキスト匿名化の脅威モデルは変化する。すなわち、弱い文脈的手がかりが再識別のための相互参照可能な証拠となり得る一方で、それら同一の詳細はテキストの下流における分析的価値も担っている。既存の防御手法は、明示的識別子の除去、形式プライバシーのためのテキスト摂動、あるいは非ウェブ推論モデルに対する書き換えテキストのテストのいずれかに留まっており、エージェンティックなウェブ検索による再識別への耐性と有用性保持との間の動作領域は未探索のままである。本稿では、プライバシーの局所化を有用性保持再構成から分離し、敵対的プライバシーと有用性保持のチェックにより候補を選択する、LLMを活用したマスク再構成フレームワークであるAURA(Anonymization with Utility-Retention Adaptation)を導入する。我々は、実在ユーザのインタビュー書き起こしを対象に、ウェブ検索エージェントによる再識別攻撃を用いた評価とともに、被験者プロファイルの事実、コードブックの事実、および結合文脈的有用性グリッドに基づく有用性評価を実施した。結果は、AURAが適応的プライバシースコープを用いてエージェンティックな再識別への耐性を強化し、固定プライバシースコープ下でマスク再構成匿名化手法により文脈的有用性をより良好に保持することで、プライバシーと有用性のフロンティアを改善することを示している。
視覚言語モデルにおける動画処理はコストが高い。各フレームは数百のトークンを占有し、推論コストはフレーム数とクエリの繰り返しごとに増大する。本稿では、パラメトリック動画内在化手法であるVideo2LoRAを提案する。パーシーバーハイパーネットワークが、凍結されたVLMが動画をエンコードする際に層ごとに生成される中間表現を読み取り、単一のフォワードパスでLow-Rank Adaptation (LoRA)アダプタを生成する。反復的な勾配更新を必要とする標準的なLoRAファインチューニングとは異なり、Video2LoRAは動画から直接これらの重みを予測する。 SmolVLM2 500Mおよび2.2B向けに動画要約とキャプション生成で学習されたVideo2LoRAは、同じ凍結VLMがクエリ時にアダプタのみからクエリに回答することを可能にし、そのコンテキスト内に視覚トークンはゼロとなる。Video2LoRAは統計的に劣っておらず、両方のモデルスケールにおける全5つのキャプションベンチマーク、および8つの動画質問応答ベンチマーク・スケールペアリングのうち7つにおいて、直接的な動画インコンテキスト推論と同等である。 384pxで12フレームのみで学習されたにもかかわらず、1,024フレームおよび1024pxまで安定して動作し、直接的な動画インコンテキスト推論はこの領域でしばしば性能が低下する。このスイープ全体において、回答時の視覚トークン負荷を最大1,500倍、クエリTTFTを6〜80倍削減しつつ、動画に忠実な出力を維持する。また、重複しない動画セグメントに対して独立に生成されたアダプタがランク空間で合成可能であることも発見しており、これはチャンク化された長尺動画内在化への道筋を示唆する。
金融AIエージェントは、しばしば単純な理由で失敗する。それは、複雑性をユーザーに負わせているからである。ユーザーは、目標、リスク選好、ポートフォリオのコンテキスト、過去の判断、変化する市場の前提を繰り返し再表明しなければならない一方で、エージェントは応答し、取得し、行動し、そして忘れてしまう。金融において、これは単なる不便さではない。市場分析、コピートレードのレビュー、取引準備といったタスクにおいて、忘れられたコンテキストや陳腐化したメモリは、レイテンシの発生、反復エラー、監査可能性の低下、安全性に欠ける意思決定を引き起こす可能性がある。 本稿では、インタラクション・ネイティブ知識ハーネス(InKH)を提案する。これは、複雑性をシステム内部に吸収する金融LLMエージェント向けのアーキテクチャである。InKHは、ユーザー、市場、ポートフォリオ、ツールのイベントを構造化された運用知識に変換する。メインモデルステップの前に、受動的知識注入を用いて境界付き作業コンテキストバッファを構築し、低レイテンシ検索のための時間グラフメモリ、人間が読めるガバナンスのためのWiki監査面、そして成熟度、減衰、書き込み時無効化を伴うバックグラウンド抽出を実現する。 我々は、24個のランダムシード、4ラウンド、ラウンドあたり80エピソード、6つのベースラインからなる、再現可能な制御された合成ベンチマーク上でInKHを評価し、46,080件のベースライン条件付き評価を生成した。InKHは、900ミリ秒のレイテンシで平均タスク品質0.815を達成した。エージェント駆動型Wikiウォークメモリと比較して、レイテンシを82.95%、トークンコストを82.29%、陳腐化知識の使用を96.58%削減し、品質を0.108、トレーサビリティを0.461向上させた。無効化機構を持たない時間グラフシステムと比較して、品質を0.050向上させ、陳腐化メモリの使用を96.58%削減し、サービスコストは同等であった。 これらの結果は、金融AIにおける設計テーゼを裏付けている。すなわち、複雑性がユーザーに転嫁されるのではなくシステムに吸収されたときに普及が起こる、というものである。本ベンチマークは、アーキテクチャレベルの振る舞いを検証するものであり、実際の取引パフォーマンスを検証するものではない。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLMs)の優れたコーディング能力を形成するための基盤として近年浮上している。しかし、RLVRのスケーラビリティは、モデルの能力限界近くを対象とした十分に挑戦的な検証可能なコードタスクが不足していることにより、深刻に制約されている。先行研究では、データ合成のためにヒューリスティックなシード拡張に依存することが多く、これにより新規性と難易度が著しく制限される。その結果、そのようなデータの訓練価値は、合成規模に比例して拡大しない。この問題に対処するため、我々は原子分解と再結合(ADR)という新しいフレームワークを提案する。これは、コードタスクを原子要素に分解し、制御された再結合を介して検証可能なコードタスクを生成することで、真に新規で挑戦的な検証可能なコードタスクの生成を可能にする。実験と分析により、ADRは既存のベースラインと比較して優れた独創性、難易度、多様性、テスト品質を達成し、アルゴリズムプログラミング、ツール使用、データサイエンスを含む多様な下流ドメインにおいて、RLVR全体でコード能力の一貫した大きな改善をもたらすことが示された。本研究は、新しいコードタスク合成とスケーラブルなRLVR訓練のための新たなパラダイムに光を当てるものである。
音楽推薦システムは通常、楽曲を不透明なトークンとして扱い、協調的インタラクション履歴に依存することで、意味的または音響的な内容を見落としている。先行研究では、LLM拡張、マルチモーダル、テキスト強化のアプローチによるシーケンシャル推薦が探求されてきたが、一部の手法は意味的、音響的、またはエンゲージメント信号を部分的に組み合わせるものの、実際の楽曲内容に基づいて推薦を根拠づける統一的なLLMベースのシーケンシャル推論フレームワーク内で三者すべてを共同でモデル化したものは存在しない。本研究では、セッションベースの音楽推薦のためのマルチモーダルフレームワークを提案し、LastFM-1Kデータセットを以下の3つの補完的信号で拡充する:(1) 事前学習済みの音楽およびテキスト表現モデルを用いて抽出された音響および歌詞の埋め込み、(2) MGPHotアノテーションスキーマを用いたLLM生成の意味的メタデータ、(3) 聴取完了率。我々はE4SRecフレームワークを採用し、マルチモーダル特徴と、SASRec、BERT4Rec、GRU4Recを含む異なるアイテムIDエンコーダバックボーンで拡張する。さらに、LLMバックボーンのオプションとして、ゼロショットおよびファインチューニング設定の両方でLLaMa-2-13B、Qwen2.5-7B-Instruct、LLaMa-3-70Bを追加する。我々の実験は、コンテンツベースの特徴を統合することで、IDのみのベースラインと比較して、Recallで最大95%、NDCGで最大79%の改善を示す。さらに、我々の実験は、単純なマルチモーダル融合が常に相加的な改善をもたらすわけではなく、クロスモーダル統合における課題を浮き彫りにしている。我々は音楽推薦のための大規模マルチモーダルベンチマークを公開する。
大規模言語モデルはコーディングエージェントとしてますます導入されており、安全性の焦点が個々の応答から一連のアクションへと移行している。しかし既存のベンチマークは主にモデルが安全でないプロンプトを拒否するかどうかを評価しており、状態を保持するワークスペースへの影響はほとんど検討されていない。本稿では、環境を考慮した運用安全性のためのベンチマークであるSABERを提示する。SABERはモデルを現実的なエージェントスタイルのプロジェクトに配置し、一連のアクション後の最終的な環境状態から安全性を評価する。二値的な安全違反報告を超えて、SABERは違反を原因別に分類し、モデル固有の安全性プロファイルの分析を可能にする。我々の評価では、最高性能のモデルでさえ54%を超える有害な安全違反率(HSR)を示しており、現在のアライメントは現実的なプロジェクト環境には不十分であることが示唆される。SABERはさらにモデル間で明確に異なる安全性プロファイルを明らかにする。我々のベンチマークは https://github.com/sssr-lab/saber で公開されている。
AI研究では、将来の証拠が得られる前に、どのボトルネックに取り組むか、どの方向性を追求するか、プロジェクトをどのように位置づけるかといった意思決定を迫られることが多い。本稿では、LLMエージェントが過去の証拠からそのような将来的な研究判断を下せるかどうかを評価するための時間制御ベンチマーク「ForeSci」を紹介する。ForeSciは、急速に発展する4つのAI領域と4つの意思決定ファミリーにわたる500のタスクで構成される。各タスクには、カットオフに合わせたオフライン知識ベースが対応付けられており、カットオフ後の論文は生成時には非表示とされ、検証にのみ使用される。ランダムな将来事象予測を避けるため、タスクはカットオフ前の分類体系ブランチと証拠シグナルから導出され、回答生成バックボーンはタスクのカットオフよりも前のものを選択している。我々は、ネイティブLLM、ハイブリッドRAG、および3つの研究エージェント適応を4つのバックボーンにわたって評価した。結果は、明示的な証拠整理がトレーサビリティと事実的裏付けを改善するものの、その効果は意思決定ファミリーに強く依存することを示している。診断により、証拠と判断の乖離が繰り返し観察された。すなわち、エージェントは関連する証拠を引用しながらも、誤った研究対象を予測することがある。ForeSciは、将来的なAI研究判断を制御されたベンチマークへと転換し、研究エージェントを意思決定システムとして評価することを可能にする。
高精度な医用画像セグメンテーションモデルの学習には、大量の密にアノテーションされたデータが必要であり、その取得にはコストと時間がかかる。半教師あり学習(SSL)は、豊富なラベルなしデータと限られたラベル付きデータの両方から学習することで、この問題を緩和する。しかし、現代のSSL手法の大半はラベルなしデータに対して擬似ラベルに依存しており、その信頼性をモデルの信頼度や不確実性を通じて評価するのが一般的であるが、これらの尺度は自己言及的であり、セグメンテーション品質に明示的に基づいていない。そこで本研究では、画像・マスクペアからセグメンテーション品質を推定する専用のネットワークを学習する、品質誘導型SSLフレームワークを提案する。品質予測器は、合成劣化と部分学習済みセグメンテーションモデルからの不完全な出力を組み合わせて生成された、品質が変動するマスクを用いて学習され、学習中に遭遇する現実的なエラーパターンを捉える。品質予測器をSSLに統合するために、品質認識正則化損失と品質に基づく擬似ラベルサンプルの再重み付けという2つの相補的メカニズムを用いる。本手法が既存のSSLフレームワークへのドロップイン強化として機能することを示す。5つのデータセットと複数のアーキテクチャにわたる広範な実験により、競合するSSL手法に対する一貫した改善が実証され、半教師あり医用画像セグメンテーションにおける最先端を前進させる。
CADモデルの表現学習は、多くの未解決問題を抱える分野である。3D表現学習は点群やメッシュを中心に発展してきたが、CADのネイティブ形式である境界表現(BReps)は、正確なパラメトリック曲面、曲線、およびそれらの位相を符号化するにもかかわらず、表現学習の基盤としてほとんど注目されてこなかった。本稿では、対照事前学習を通じてBRep形状を言語および画像埋め込みと整合させる最初のフレームワークであるBRepCLIPを紹介する。各CADオブジェクトを、フェイスとエッジのトークン列としてモデル化し、曲面および曲線形状に対する個別の離散的語彙と、曲面タイプ(例:円筒、トーラス、NURBS)や曲線プリミティブ(例:直線、円弧、Bスプライン)を捉える空間的・意味的記述子を組み合わせる。トランスフォーマーエンコーダがこれらのトークンを集約してグローバルなBRep埋め込みを生成し、共同対照目的によってCLIPのテキストエンコーダおよび画像エンコーダと整合させる。BRepCLIPは、既存のポイントベースの代替手法よりも識別性が高く意味的に基づいた埋め込みを生成し、ABC、CADParser、AutomateデータセットにおいてOpenShapeに対するTop-1検索をそれぞれ40.4%、22.0%、23.9%向上させ、FabWaveにおけるゼロショット分類のTop-1スコアを15%改善する。さらに、テキストおよび画像条件付きCAD生成を評価するためのCAD認識類似度指標としての有用性を実証し、マルチモーダルCAD理解における構造認識事前学習の重要性を確立する。プロジェクトページはhttps://muhammadusama100.github.io/BrepClip2026/で公開されている。