翻訳付きの日次キュレーションされたAI研究論文
LLMエージェントは、検索、ブラウジングインターフェース、ターミナルツールを用いて、複数ターンにわたって行動し、ユーザーの目標を達成することが期待されている。しかし、すべての目標が明確に指定されているわけでも、利用可能な環境で達成可能であるわけでもない。そのような場合、信頼性の高いエージェントは、さらなる対話が役に立たない可能性が高いことを認識し、追加のツール呼び出しを控えるべきである。我々は、不確実性のもとでエージェントがいつ行動を停止すべきかを決定する問題として、エージェント的棄権(Agentic Abstention)を定義する。標準的なLLM棄権が通常、単一ターンの「回答か棄権か」の決定として評価されるのとは異なり、エージェント的棄権は逐次的な決定問題である。すなわち、エージェントは各ターンで回答、棄権、または追加情報収集を行うことができ、棄権の必要性は環境との対話後に初めて明らかになる場合がある。我々はこの問題を、ウェブショッピング、ターミナル環境、質問応答にわたって調査し、13のLLM-as-agentシステムと2つのエージェントスキャフォールドを28,000以上のタスクで評価した。我々の結果は、主要な課題はエージェントが棄権できるかどうかだけでなく、いつ棄権するかにもあることを示している。あるエージェントは棄権すべき時に決して棄権せず、別のエージェントは多くの不必要な対話の後に初めて棄権する。このギャップは、環境が否定するまで指示が実行可能に見えるタスク(例えば、指示に一致する有効な結果がない場合)で特に大きい。さらに、モデル規模、推論能力、エージェントスキャフォールディングが棄権に異なる影響を与えることも明らかになった。大規模または高性能なモデルが、適時な棄権においてむしろ悪い結果を示す場合もある。最後に、エージェント的棄権を改善するためのコンテクストエンジニアリング手法であるCONVOLVEを導入する。これは、完全な対話軌跡を再利用可能な停止ルールに蒸留する。WebShopにおいて、CONVOLVEはモデルパラメータを更新することなく適時な棄権を大幅に改善し、Llama-3.3-70Bの適時再現率(timely recall rate)を26.7から57.4に向上させた。データセットとコードは https://lhannnn.github.io/agentic-abstention で公開している。
ストリーミング動画編集は急速に進歩しているが、実用的な展開は依然として二つの核心的な課題に制限されている。すなわち、時間経過にわたる安定した背景と非編集領域の維持、そしてリアルタイムの対話的シナリオに求められる低遅延の実現である。一方、最近のストリーミング動画生成手法は主に合成向けに開発されており、厳格な保存要件と領域固有の制御が必要な編集に直接適用することはできない。本研究では、強力なコンテンツ保存とリアルタイム応答性を備えた、因果的でフレーム単位の編集を行う新たなストリーミング動画編集フレームワークを提案する。我々の鍵となる設計は、強力な双方向基盤モデルから効率的な単方向ストリーミング編集器へと編集能力を段階的に転移する三段階蒸留パイプラインであり、視覚的忠実度を犠牲にすることなく安定した長期的編集を可能にする。さらに、リアルタイム展開を支援するため、領域関連の計算をフレーム間で再利用するAR指向のマスクキャッシュを導入し、冗長な処理を大幅に削減して推論を高速化する。最後に、ストリーミング動画編集専用のベンチマークを確立する。広範な評価により、我々の手法はストリーミングベースライン群の中で最先端の画質を達成すると同時に、推論速度を12.66 FPSまで劇的に向上させ、インタラクティブおよび拡張現実アプリケーションに適した性能を示す。
本稿では、**Agents-A1**—エージェントの行動範囲(agent horizon)を拡大することで、兆パラメータ級の性能を達成した35BパラメータのMixture-of-Experts型エージェントモデル—を紹介する。エージェント水平線の拡大(agent-horizon scaling)について、長期的な軌跡の拡大と、多様なエージェント能力の拡大という2つの観点から検討する。この目標を支援するため、外部知識、行動、観測、検証結果を接続する長期的な知識-行動インフラを構築し、平均トークン長45Kに及ぶエージェント軌跡を生成する。これを基に、3段階のレシピでAgents-A1を学習する。第1段階では、全領域における教師ありファインチューニング(full-domain supervised fine-tuning)を実施し、ベースモデルを広範なエージェント行動に適合させる。第2段階では、各領域の専門知識を取り込むためのドメインレベルの教師モデルを学習する。第3段階では、顕著な語彙アライメントを伴うマルチティーチャー・ドメインルーティング型オンポリシー蒸留(multi-teacher domain-routed on-policy distillation)を提案し、異なるドメイン間の知識転送効率を向上させ、6つの異種ドメインを1つのデプロイ可能な生徒モデルに統合する。Agents-A1は、長期的なエージェントベンチマークにおいて、強力かつ幅広い性能を達成する。1TパラメータモデルであるKimi-K2.6やDeepSeek-V4-proと比較して、Agents-A1はSEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)、MolBench-Bind(56.8)でリーダー的結果を示し、SciCode(44.3)、HLE(47.6)、BrowseComp(75.5)でも高い競争力を維持する。本稿が、35Bのエージェントを用いて水平線を拡大し、長期的なタスクにおいて1Tモデルと同等またはそれ以上の性能を達成するための実用的な道筋をコミュニティに提供することを期待する。
大規模言語モデルとハーネスフレームワークが進歩し続けるにつれて、ターミナルで動作するエージェントは、コーディング以外のより広範な一般的なコンピュータ使用タスクを実行できるようになってきている。しかしながら、既存のベンチマークは汎用ターミナルコンピュータ使用エージェント(TUA)を適切に評価していない。すなわち、汎用コンピュータ使用ベンチマークは主にグラフィカルユーザインタフェース(GUI)を対象としているのに対し、ターミナルベースのベンチマークは歴史的にシェルに固有の技術的・プログラミング中心のワークフローに大きく重点を置いている。本稿では、ターミナル使用エージェント向けの汎用ベンチマークであるTUA-Benchを紹介する。TUA-Benchは、5つのタスクファミリーにわたる120の実世界タスクを含み、文書編集、メール管理、ライブウェブ情報検索などの日常的なデジタル活動と、博士レベルのドメイン専門家と共同設計した専門ソフトウェアを必要とする科学的・工学的ワークフローの両方をカバーする。この広範さにより、TUA-Benchは従来のシェル中心またはドメイン特化型のベンチマークとは一線を画す。各タスクは手動で設計され、決定論的セットアップスクリプトを用いて実際のターミナルで実行され、実行ベースのスコアリングプロトコルによって評価される。最先端エージェントであるClaude Code with Claude Opus 4.8 最大推論努力は、全体的なパフォーマンス65.8%を達成し、両トラック間で大きなギャップがあることが判明した。ターミナル使用能力の広範かつ現実的な評価を提供することで、TUA-Benchは、狭くタスク特化型のアシスタントから、多様なデジタル環境で信頼性高く動作可能な汎用エージェントへの移行を加速することを目指す。
LLM推論中のメモリ消費を削減するため、KVキャッシュのプルーニング手法がいくつか提案されている。これらの手法は多くのデータセットで損失のないメモリ削減を実現できるものの、多くの場合、十分に強調されていない条件に依存している。すなわち、最適なパフォーマンスを得るためには、入力やドメインに固有のKVキャッシュ予算の閾値を事前に決定する必要がある。しかし、このような入力依存型の設計は、実世界のシナリオではかなり制限される可能性がある。なぜなら、オープンドメインの入力は多様なドメイン、長さ、難易度にわたっており、閾値選択の明確な境界がないからである。その結果、このような入力依存型閾値への依存は、任意の入力に対して大きな性能劣化を引き起こす根本的な制限となり得る。本研究では、ロバストなKV圧縮のための閾値制約を取り除く新しい目的を提案し、フルキャッシュの性能を維持しながら予算配分を適応的に調整する「閾値フリー」な手法を提唱する。そして、この目的の最初の具体化として、新たな手法ReFreeKVを提案する。多様なコンテキスト長、タスクタイプ、モデルサイズを持つ13のデータセットにわたる広範な実験により、その有効性と効率性を実証する。我々のコードはhttps://github.com/Patrick-Ni/ReFreeKVで公開されている。
表形式データに対する予測機械学習のための基盤モデルは、近年、学界と産業界で大きな注目を集めている。様々な分野の研究コミュニティは、多様なデータセットやタスクで表形式基盤モデルの評価を進めている。しかし、これらのタスクや分野に特化した評価は、ベンチマークソフトウェアや評価プロトコルが断片化しているため、モデル研究者にとってはほとんど利用できないままである。その結果、モデル研究者は標準ベンチマークに依存することになるが、標準ベンチマークは主に表形式基盤モデルがすでに優れているタスクに対して定義されている。最も困難なシナリオは除外されており、IIDデータにおける僅かな改善に焦点が当てられることで、より広範で要求の厳しい課題ではなく、分野における有意義な進歩が制限されている。この問題を克服するために、我々はBeyondArenaを導入する。これは、多様なタスクタイプ(IID、時系列、グループ化)をサポートし、サンプルサイズと特徴次元の規模にわたり、広範な分野からの多様な特徴タイプ(テキスト付き、高カーディナリティ)を持つ、表形式データのための初の統合的包括的ベンチマークである。標準ベンチマークを超えた統一ベンチマークを可能にするため、予測機械学習用の表形式データセットをキュレーションするためのPythonフレームワークおよびメタデータスキーマであるData Foundryを導入する。11モデルと142のキュレーションデータセットにわたる我々の結果は、既存の表形式基盤モデルが小規模から中規模のIIDデータに優れる一方、伝統的な木ベースモデルや深層学習モデルが非IID、大規模、高次元データセットにおいて依然として支配的であることを示している。BeyondArenaは、表形式データにおける最も要求の厳しい課題に対してモデル研究を導き、真に基礎的な表形式モデルへの進歩を可能にする。
物理的な相互作用は長尾分布に従う。すなわち、一般的で規則的な相互作用の集合が人間の経験や視覚データの大部分を占める一方で、広範囲にわたる稀で不規則な相互作用は十分に表現されない。近年の画像や動画生成モデルを含む視覚世界モデルは、既存のベンチマークにおいて顕著なリアリズムを達成しているものの、主に一般的な物理的相互作用のシミュレーションに焦点を当てている。このことは、中心的な疑問を提起する:現在の視覚世界モデルは物理原理を内在化し、一般化しているのか?本研究では、不規則な物理的相互作用のシミュレーションを課題とするベンチマーク「Tailor-Bench」を導入する。体系的な評価を可能にするため、モデルの推論を段階的に難しくする3つのシナリオモードを設計した。Regularシナリオは一般的な道具とタスクの組合せを反映し、Unconventionalシナリオは従来の道具を属性互換性のある代替物に置き換えてアフォーダンスの一般化をテストし、Impossibleシナリオは属性に反する道具を導入して制約認識を探る。さらに、統一評価プロトコルの下で2つの補完的な設定を設計した。予測生成はガイダンスなしで結果を推論することを要求し、記述生成は忠実な実現のために目標結果を指定する。実験結果は、物理的世界モデルにおける明確な長尾ギャップを明らかにした。性能はRegularからUnconventional、Impossibleシナリオへと低下し、一般的な相互作用を超えた一般化が限定的であることを示す。失敗分析はさらに、モデルが表面的な視覚パターンに依存することを示す。画像モデルは正しい状態変化を実現できず、動画モデルは時間的一貫性の欠如にさらに悩まされる。
近年、マルチモーダル大規模言語モデル(MLLM)への関心が高まる中、中心的な問いが浮上している。それは、これらのモデルが個々のフレーム内の物体や事象を単に認識するだけでなく、動的な視覚的証拠に基づいて推論できるかどうかである。本稿で「ビデオ時間論理推論」と呼ぶこの能力には、視覚状態がフレーム間で変化するにつれて、証拠を維持・更新・構成することが求められる。既存のビデオベンチマークは、この能力をシーンの複雑さ、静的な認識、あるいは制御されていない時間的変動と混同することが多い。そこで本稿では、この能力を単離するために、状態追跡、逐次カウンティング、時間順序付け、動的空間性、構造的構成という5つの時間論理的操作に基づいて構成された制御可能なベンチマーク「Video-MME-Logical」を提案する。本ベンチマークは、制御されたオブジェクト状態、遷移、時間的依存関係、論理的構成を用いて生成された25の細粒度タスクカテゴリを含む。時間的範囲と推論の複雑さを変化させることで、難易度を制御した最終解答評価を可能にし、モデルが最終解答を生成する前に必要な論理的推論の軌跡を回復するかどうかを検証することで、中間状態の診断も支援する。最先端のMLLMによる実験では、特に時間論理的な複雑さが増すにつれて、人間とモデルの間に大きなギャップが明らかになった。最大50万の生成サンプルを用いた教師ありファインチューニングは性能を向上させるものの、推論ギャップを埋めるには不十分であり、Video-MME-LogicalはMLLMにおける時間論理推論を分析・改善するためのスケーラブルなテストベッドとして位置づけられる。
オンポリシー蒸留(OPD)は、教師からのフィードバックに導かれて生徒モデルを自身のロールアウト上で学習させる手法であり、大規模言語モデル(LLM)の事後学習において重要性が増している。しかし、強化学習(RL)と同様に、OPDはオンポリシーシステムのボトルネックに直面している。これは、推論ワークロードにおいてロールアウトが学習時間の大半を占める可能性があるためである。非同期学習パイプラインは、ロールアウト生成と学習器の更新を分離することでこのボトルネックを緩和できるが、その代償として古い方策のデータ(スティールデータ)を導入することになる。先行研究では非同期RLにおけるスティールデータが研究されてきたが、OPDにおけるその影響は未だ十分に調査されていない。本論文では、非同期OPDにおけるスティールネス(古さ)の初めての体系的な研究を提示する。特に、教師フィードバックが局所的なKL損失によって実装され、全語彙の教師ロジットを保存または転送するにはコストが高すぎるため、有限の教師スコアキャッシュが必要となる実用的な設定に焦点を当てる。まず、KLの方向がスティールデータ問題を変化させることを示す。すなわち、教師重み付き順方向KLは古いロールアウトに対してよりロバストである一方、生徒重み付き逆方向KLは脆弱である。次に、この脆弱な逆方向KLの場合について、非同期RLを安定化するために設計された手法がOPDのスティールネスを緩和できるかどうかを研究する。実験では、これらの手法はより単純なOPD固有の代理手法、すなわち学習器の時点で現在の生徒モデルの下で逆方向KL信号を再計算する手法、よりも改善を示さなかった。第三に、有限の教師スコアキャッシュがスパースでサンプリングされた逆方向KL OPD推定器に対してバイアス・バリアンストレードオフを生み出す方法を分析する。このことは、マルチサンプルモンテカルロ(MC)を動機付ける。これはMC補正可能性を維持しながら、1サンプルの分散を低減する。最後に、これらの推定器の選択に基づいて構築された完全非同期OPD学習パイプラインであるAsyncOPDを提示し、オープンソース化する。実験により、AsyncOPDは厳密な同期学習と比較して1.6倍から3.8倍の学習スループットを達成し、かつ同等の精度を達成することが示された。
ビデオ理解はマルチモーダル知能にとって基本的な能力であり、近年のマルチモーダル大規模言語モデル(Multimodal Large Language Models, MLLMs)はビデオ質問応答(Video Question Answering, VideoQA)ベンチマークにおいて顕著な性能を達成している。しかし、既存のベンチマークは主にモデルが浅い視覚的手がかりを知覚できるかを評価するものであり、MLLMsがビデオチュートリアルからより深い知識や手続きスキルを学習し、それらを下流の長期的エージェントタスクに一般化できるかどうかを検証することはほとんどない。このギャップに対処するため、我々はVG-GUIBench(Video-Guided GUI Benchmark)を導入する。これはMLLMベースのGUIエージェントがビデオチュートリアルに従って対応するGUI対話タスクを完了できるかを評価する新しいベンチマークである。さらに、VideoQAとビデオガイドエージェントタスクの両方におけるモデルの性能が、効果的なキーフレーム抽出に決定的に依存していることを観察する。この観察に基づき、我々はTASKER(Task-driven And Scene-aware Keyframe searchER)を提案する。これはタスク関連性とシーン動態を共同で考慮し、情報フレームを識別するキーフレーム抽出アルゴリズムである。実験結果は、TASKERがVideoQAとビデオガイドエージェントタスクの両方のベンチマークで有意な性能向上を達成し、EgoSchema fullsetで最良ベースラインを2.0%、NExT-QAデータセットで1.8%それぞれ上回ることを示している。これらの結果はさらに、ビデオ理解タスクにおける一般化されたキーフレーム抽出手法の可能性を強調している。我々のコードとデータはhttps://github.com/VG-GUI-TASKER/VG-GUI-TASKERで入手可能である。
現代の大規模LLM事前学習はパイプライン並列性を活用することで恩恵を受けているが、同期実装ではパイプラインバブル中にGPUがアイドル状態となり、計算資源を浪費する。非同期パイプライン並列性はこれらのバブルを排除し、勾配の陳腐化を代償にスループットを最大化する。非同期スケジュールの中でもPipeDream-2BWは特に魅力的である。元のPipeDreamスケジュールとは異なり、パイプライン深度にかかわらず一定の1ステップ勾配遅延を保証する。しかしながら、陳腐化下での最適化は本質的に不安定であるという一般的な信念のために、その採用は限定的である。本研究ではこの仮定に挑戦し、1ステップ遅延下での性能劣化が本質的な限界ではなく、最適化手法の選択に強く依存することを示す。我々は、PipeDream-2BWが導入された当時の主要な最適化手法であるAdamWが確かに深刻な劣化を示す一方で、Muonのような最近の手法は1ステップ遅延下で強いロバスト性を示すことを明らかにする、初の包括的な実証分析を提供する。さらに、遅延効果を軽減するために、最適化手法に依存しないエラーフィードバックに着想を得た補正を導入する。この補正の有無にかかわらずMuonの収束を示す理論的分析も提供する。最大10Bパラメータのモデルに対する広範な評価により、我々の戦略が同期学習との性能差を埋めることを確認し、大規模非同期パイプライン並列性の実用的可能性を強調する。
異なるリアルタイム音声アプリケーションはそれぞれ独自のレイテンシ制約を課すため、各シナリオに対して個別に学習された強調モデルが必要となることが多い。本稿では、アルゴリズムレイテンシと計算レイテンシの両方を明示的に制御可能な、汎用かつリアルタイム対応の単一音声強調モデルを提案する。アルゴリズムレイテンシは、設定可能な先読みフレームにより柔軟に調整される。様々なパディング構成による学習効率の低下を防ぐため、異なる先読み設定に対応する並列畳み込み層を導入する。計算レイテンシは早期終了機構により制御され、異なるネットワーク深度での推論を可能にする。専用モデルと柔軟なモデル間の性能ギャップを縮小するため、共有型から複数デコーダへの移行を伴う二段階学習戦略を提案する。全体として、提案フレームワークにより、個別のモデルを再学習することなく、単一モデルを多様なレイテンシ制約下で展開することが可能となる。
近年、3D Gaussian Splattingの進歩により、新規視点合成において前例のない成果が達成されている。しかし、高次球面調和関数(SH)に起因する推論およびストレージの大幅なオーバーヘッドが、モバイルプラットフォームにおける主要なボトルネックとなっている。本論文では、リソース制約のあるモバイルプラットフォーム向けに、オーバーヘッドを大幅に削減しつつ高忠実度レンダリングを実現するリアルタイムGaussian Splatting手法、Flux-GSを提案する。まず、モンテカルロ鏡面エネルギー集約器(Monte Carlo Specular Energy Aggregator)を導入し、3次の放射輝度残差をサンプリングして鏡面エネルギーをコンパクトな潜在空間に集約する。これにより、高コストな蒸留や事前学習を必要とせず、視覚的に顕著な照明特徴を低次バンドで効果的に保持する。圧縮時に失われる高周波詳細を補うため、属性条件付きSH拡張モジュール(Attribute-Conditioned SH Enhancement module)を導入する。このモジュールは、本質的なガウス属性に基づいてガウス認識オフセットを予測し、推論前に1次SH表現を拡張する。これにより、追加の推論コストは発生しない。さらに、従来の単一視点勾配ベースの高密度化は、過剰なガウスを生成し、特定の視点に過適合する傾向がある。これらの限界に対処するため、多視点アルファベースの高密度化および枝刈り戦略(Multi-view Alpha-based Densification and Pruning strategy)を提案する。多視点ガイダンスを活用することで、多視点構造の一貫性と冗長プリミティブの正確な除去を実現する。広範な実験により、Flux-GSは競争力のある画質を維持しながらパラメータ数を大幅に削減し、リアルタイムモバイルレンダリングのための堅牢でスケーラブルなソリューションを提供することを示す。コード: magenta{https://xiaobiaodu.github.io/flux-gs-project/{https://xiaobiaodu.github.io/flux-gs-project/}}
エージェント型マルチモーダルモデルは、コードを介して画像に対して多様な操作を実行し、返されたビューに基づいて推論を行う。これは、細粒度の視覚的質問応答における効果的なパラダイムである。しかし、コード操作は有用であったり、冗長であったり、誤解を招く場合がある。結果のみの報酬ではこれらのケースを正確に区別できず、既存のプロセス報酬は、最終的な正しさを個々のツール呼び出しに帰属させることができないか、外部の判断モデルを必要とするかのいずれかである。 この問題に対処するために、我々はTool-Augmented Credit Optimization (TACO)を導入する。これは、コードツールエージェント向けのGRPOの変種であり、2つの結合されたアドバンテージチャネルに基づいている。1つ目のチャネルはDifferential Answer-Probe Reward (DAPR)であり、これは自己教師ありで判断モデルを必要としないツール寄与アドバンテージであり、各ツール呼び出しを、正しく回答することに対する自身の効果に基づいてクレジットする。モデルの推論に挿入されたプローブトークンは、ツールがある場合とない場合の予測を引き出し、それらの結果報酬の差が呼び出しの価値とみなされる。有用な呼び出しでは正、誤解を招くものでは負、何も変えないものではゼロとなる。これは、補助的な判断モデルなしで既存の回答チェッカーを再利用し、絶対的なプローブスコアではなく差分であるため、自然にプローブハッキングに対して頑健である。 2つ目のチャネルは、最終回答からの結果アドバンテージであり、Outcome-Gated Advantage Routing (OGAR)によって分配される。これはパラメータフリーのルールであり、呼び出しの結果に条件付けられて、このクレジットを責任のあるセグメントのみに届け、コスト項なしで無駄なツール呼び出しを抑制する。我々は、2段階のSFT+RLパイプラインを通じてTACOを訓練する。知覚、推論、および一般的なマルチモーダルベンチマークにわたる広範な実験により、一貫した精度向上が得られ、ツールが役立つ場合にのみ呼び出すことを学習することが示される。
既存のコンピュータ使用ベンチマークは、現実世界のコンピュータ使用におけるリアリティ、複雑性、および長期的な要求を捉えきれておらず、最先端エージェントの限界を明らかにする能力が制限されている。本稿では、日常的および専門的タスクにわたる108の長期コンピュータ使用ワークフローからなるベンチマーク「OSWorld 2.0」を紹介する。これは、複雑で困難な現実世界の現象を捉えるよう設計されている。各タスクは現実的なエンドツーエンドのワークフローを表し、人間のユーザーが完了するまでに中央値で約1.6時間を要し、Claude Opus 4.7で最大思考(maximum thinking)を用いた場合、平均約318回のツール呼び出しを必要とする(OSWorld 1.0では約30回)。OSWorld 2.0は、現実のワークフローでは一般的であるにもかかわらず、従来のベンチマークでは過小評価されてきた困難な現象をターゲットとしており、ストリーミングインタラクションや動的環境といったインタラクション設計上の課題や、クロスソース推論、暗黙的状態推論、視覚空間的精度といったエージェントパターンの課題にわたる。タスクは、真の入力成果物に基づき、現実的な状態を持つユーザープロファイルデータと相互参照され、安全性に敏感な実行を監査する個別の安全性レポートも含む。500ステップでの主要な二値完了率指標において、最大思考とバッチツール呼び出しを備えたClaude Opus 4.8が最高スコアを示すものの、完了したタスクは20.6%に過ぎず、部分スコアは54.8%である。GPT-5.5はトークン効率がはるかに高いが、約13%で頭打ちとなる。これらの結果は、現在のエージェントが専門家レベルのコンピュータ使用からは依然としてほど遠いことを示している。すなわち、基本的なGUI操作やコーディングでつまずくのではなく、制約条件を見失い、タスク途中で到着する情報を見落とし、ユーザーに問い合わせる代わりに推測し、検証をスキップする。そして、タスクの鍵が回復しなければならない隠れた状態に依存する場合に最も苦戦する。
ほとんどのコーディングエージェントベンチマークは静的であり、エージェントは事前に完全なタスク記述を受け取り、最終的なコードのみで評価される。実際のコーディング支援は対話的であり、ユーザーは複数ターンにわたって目標を明確にしたり、制約を追加したり、誤りを修正したりする。本稿では、実際のユーザーとエージェントのコーディングセッションから再構築されたマルチターンベンチマークであるSWE-Togetherを紹介する。実際の対話を検証可能にするため、11,260件の記録セッションから109のリポジトリレベルのタスクを厳選し、リポジトリ状態の復元が可能で、ユーザーの目標が明確であり、結果が観察可能なセッションを選択した。これらの対話をエージェント間で再現するために、元のユーザーの意図を維持し、コーディングエージェントの進行状況に応じてフィードバックを提供する、反応型LLMベースのユーザシミュレータを構築した。エージェントを共同作業者として評価するため、最終的なリポジトリの正確性と、対話中に必要な修正フィードバックターンの数の両方を測定する。最先端のコーディングエージェントを用いた実験では、より強力なエージェントは一般的に、より少ない介入で高い最終成功率を達成し、改善されたユーザー体験を示唆している。
音声言語モデル(SLMs)は広く研究されており、一般的なパラダイムではテキストデータと事前学習済みテキスト言語モデルを組み込んでいる。主要なアプローチの一つに音声-テキスト混在(speech-text interleaving)があり、これはモデルを音声トークンとテキストトークンの両方を含む系列で訓練し、音声のみの能力さえも向上させることを目的としている。しかし、これら2つのモダリティがモデルの潜在空間でどのように相互作用するかは依然として不明である。本研究では、異なるモデルファミリーやサイズにわたる混在型音声-テキスト言語モデルを、ロジットレンズ(logit lens)の観点から分析し、この洞察を提供する。我々は、これらのモデルが暗黙的な転写フェーズを経ることを明らかにする。このフェーズでは、音声認識のために訓練されていないにもかかわらず、発話された単語のテキストトークンが中間層で復号可能になる。この単語の転写は、データの最大77%において上位候補単語の一つとして現れる。この段階に続いて、モデルはテキスト空間で次の単語を予測し、その後音声領域に変換し直す。最後に、混在データの役割やテキスト言語モデルからの初期化がこの振る舞いを引き出すこと、またこれが音声知識能力とどのように相関するかを分析する。本分析は、音声モダリティとテキストモダリティの関係の根底にある内部メカニズムに光を当て、SLMの最適化に影響を与える可能性がある。
データは、現代の知能の基本的な基盤として、現在の基盤モデルの発展を大きく促進してきました。当然ながら、研究者たちはこのパラダイムをGUIエージェントの領域に拡張し、同様のアプローチで強力なGUIエージェントを構築しようと試みています。しかし、GUIエージェントのデータはインターネットから直接収集することができず、大規模に収集するにはコストがかかり困難です。その結果、現状のGUIエージェントは、クロスデバイスでの汎化性能が低く、細かいGUI要素に対する視覚的接地能力が限られています。GUIエージェントにおけるデータ課題に取り組む試みとして、我々はGUICrafterを提案します。これは、大規模な未注釈のスクリーンショットを活用し、高コストな人手によるアノテーションへの依存を大幅に低減する弱教師ありGUIエージェントです。GUICrafterは、2段階の進行に沿ったカリキュラム学習フレームワークを探求し、GUIエージェントを訓練します。第1段階では、モデルは大規模な未注釈のスクリーンショットとWebページから視覚的接地を学習し、人手によるアノテーションなしでGUIインタラクションに内在する豊富な文脈信号を活用します。続く第2段階では、少量の高品質データを強化学習によって活用し、モデルを調整します。実験により、GUICrafterはUI-TARSのような先進的なシステムと同等またはそれ以上の性能を達成しつつ、そのデータ量の0.1%しか使用しないことが示されました。さらに、同じ量のアノテーションデータの下では、GUICrafterはGUI-R1など従来のすべての手法を凌駕します。コード、データ、モデルはhttps://github.com/fansunqi/GUICrafterで公開されています。
本論文では、リアルタイム対話型世界シミュレーションのための基盤的世界モデルのプレビュー版であるDreamForge-World 0.1 Previewを提案する。本システムは、Wan2.1-T2V-1.3BをベースとするLongLive 1自己回帰ビデオスタックを適応し、Matrix-Gameファミリーに着想を得た残差アクションパス(residual action pathway)を組み込んでいる。DreamForge-World 0.1 Previewは、フロンティア級の世界シミュレータとは相補的な軸、すなわち低計算リソースへの適応、コンシューマGPUでの実行、そして広範な対話能力のカバレッジに焦点を当てている。本システムは、ライブでのキーボード・マウス制御、マルチモーダル初期化、途中再プロンプト、デュアルビュー操作、ネイティブ480p解像度での分単位の対話的ロールアウトをサポートし、低メモリフットプリントで単一のRTX 4090上で最大14~15 FPSを達成する。オープンなビデオバックボーンを活用し、ターゲットを絞った適応学習を施すことで、高いコスト効率でプレビューシステムを構築した。DF-World 0.1 Previewは、まだメモリ完全性やフロンティア品質を備えた世界シミュレータではないが、コンシューマGPU上でリアルタイム制御可能な世界モデルプレビューへの実用的な低計算ルートを示すものである。
画像マッティングにおける目覚ましい進歩にもかかわらず、ビデオマッティングは依然として困難を伴う。これは、フレーム単位の理解を必要とする高レベルのトラッキングと、極めて微細な詳細に焦点を当てた低レベルのマッティングとの間の本質的なギャップに起因する。既存の手法では、費用がかかり適用範囲の狭いビデオマッティングデータセットを用いてこれに対処しようとするが、これによりドメイン外の汎化が制限され、トラッキングのロバスト性が損なわれる可能性がある。我々は、SAM2Mattingを用いてこのパラダイムを再考する。これは、VOSトラッカーを高忠実度のビデオマッティングに進化させるトラッカー・トゥ・マッティングフレームワークである。具体的には、タスクを分離し、基礎的なトラッカー(例:SAM2、SAM3)を領域提案ブリッジと専用のマッティングヘッドで強化することで、妥協のないトラッカーが時間的一貫性を処理し、マッティングコンポーネントが微細な詳細を解決することを可能にする。特筆すべきは、画像のみで学習されているにもかかわらず、SAM2Mattingはビデオマッティングにおいて新たな最先端性能を確立し、多様なプロンプトタイプをサポートし、強い時間的一貫性を維持し、人間中心および非制御環境の両方のシナリオでロバストな汎化を示すことである。
正規化フロー(NF)は、正確な密度推定とサンプリングが可能な強力な生成モデルである。しかし、その厳格な可逆性により、モデルが低レベルのピクセル詳細に容量を費やし、高レベルの意味構造の捕捉を妨げることが多い。一方、マスク画像モデリング(MIM)は表現学習において優れた成果を上げているが、生成パイプラインへの統合は主にモジュール的で断片的なままである。本論文では、潜在意味、ピクセル再構成、生成フローを共同で最適化する統一されたエンドツーエンドフレームワークMIMFlowを提案する。マスク画像から意味的潜在変数を推論するためにVAEエンコーダを採用することで、MIMFlowは生成タスクの原理的な分離を実現する。正規化フローは単純化された低周波の意味多様体のモデリングに集中し、特殊なデコーダが高周波合成を担当する。この設計により、NFの本質的な容量ボトルネックが効果的に解消され、冗長なノイズよりも全体的な構造的一貫性を優先することが可能となる。ImageNet 256×256における実験結果は、MIMFlow-Lが71.3%の線形プローブ精度と2.50のFIDを達成することを示している。標準モデルより50%少ない128トークンのみを使用しているにもかかわらず、同規模のNFベースラインに対して32.8%の性能向上をもたらす。コードはhttps://github.com/MCG-NJU/MIMFlowで公開されている。
時系列予測研究は、容量が精度を向上させるという仮定のもとで、特殊化されたトランスフォーマーから汎用基盤モデルへと、より大規模なアーキテクチャへと着実に移行してきている。我々はこれとは逆の立場をとる。すなわち、性能差の大部分は、モデルをスケールさせるよりも前処理を調整することで、はるかに低いコストで埋めることができる。リッジ回帰は閉形式解と解釈可能な重みを持ち、最適なハイパーパラメータを探索から直接読み取ることができるため、テストベッドとして使用する。我々は、8つの標準ベンチマークにおいて、コンテキスト長、局所正規化、正則化、拡張について探索し、3つのパターンを発見した。(1) 最適なルックバックは系列に強く依存し、予測地平に対して非単調であることが多く、適合された冪乗則指数はETTm2で+0.46からExchangeおよびTrafficで-0.19に及び、より長い地平にはより長い履歴が必要という慣習に疑問を投げかける。(2) コンテキスト全体ではなく、学習されたコンテキストの末尾部分に対して正規化することがほぼ普遍的に好まれる。(3) 同じデータセット内の系列でもハイパーパラメータが異なることが多く、異なる系列間での共有の最適度合いは完全共有から完全に系列ごとまで様々である。得られたモデルは、ほとんどのデータセット・地平の組み合わせにおいて従来の線形予測器を凌駕し、8つのベンチマークのうち6つでTransformer、MLP、CNNのベースラインを上回る。最適化されたハイパーパラメータはデータ自体の診断としても機能し、大規模モデルが学習パラメータに暗黙的に吸収する構造を明らかにする。
我々は、高解像度のテキストから画像への合成のための最先端のマスク離散拡散モデル(MDM)であるNemotron-Labs-Diffusion-Imageを提案する。マスク画像生成に関する先行研究と比較して、Nemotron-Labs-Diffusion-Imageは2つの主要な課題に取り組む。第一に、画像全体にわたって潜在表現を徐々に洗練する連続拡散モデルとは異なり、標準的なMDMは自己修正能力を欠いている。なぜなら、いったんマスクが解除された離散トークンは変更できないからである。第二に、離散画像トークナイザーの語彙サイズを増やすことで再現忠実度は向上するが、トークンごとの学習信号がますます疎になるため、生成モデリングにおける最適化の困難が生じる。第一の課題に対処するため、Nemotron-Labs-Diffusion-Imageはトークン編集メカニズムを組み込み、彫刻家が作品を反復的に洗練するように、推論中に既にマスク解除されたトークンを動的に修正できるようにする。第二の課題に取り組むため、我々はグループ化クロスエントロピー(GCE)目的関数を提案する。これは、埋め込み空間において真値に隣接するトークンに正の学習信号を割り当てることで、信号のスパース性を緩和する。訓練効率をさらに向上させるため、GCE用のカスタム融合演算子を実装し、大語彙設定でのVRAM使用量を大幅に削減する。実験結果は、これらの革新がマスク離散画像生成器の訓練効率と画像忠実度の両方を大幅に向上させ、GenEvalで0.90、DPGで86.9、HPSv3で10.76のスコアを達成することを示している。
数学的知識は命題とその依存関係に基づいて整理されるが、この構造は非一様にしか表面化されていない。すなわち、非形式的な論文は主に文献レベルで引用を行う一方、形式的なライブラリははるかに小規模な数学体系に対して細粒度の依存関係を記録している。本稿では、非形式的数学と形式的数学の両方にまたがる統一的な文レベルの依存グラフであるTheoremGraphを導入する。非形式的側面として、数学arXivから1170万件の定理類似環境を解析し、1830万件の候補となる有向依存関係を抽出する。各関係はそれを提案した抽出器でラベル付けされ、下流の利用者がカバレッジと精度をトレードオフできるようになっている。形式的側面として、Lean 4のエラボレータレベルで抽出を行うLeanGraphを公開する。これは25件のLeanプロジェクトから38万8105個の宣言ノードと1130万本の型付きエッジを生成する。さらに、生成された自然言語によるスローガンを共有意味空間に埋め込むことで、両グラフを橋渡しし、論文をまたいだ関連記述や非形式的/形式的な区分を超えた関連記述をリンクする。LLM判定器により、コサイン類似度0.8以上の閾値において4万7952件のマッチが確認され、判定器の受入率は0.8台で48%から0.9以上で87%に上昇する。形式的な概念検索において、グラフ拡張を伴う名称とシグネチャ表現は、LM再ランカーを用いずにLeanSearch v2の再ランク後Recall@10と0.5ポイント差に迫る(0.775対0.780)。我々は、データセット、抽出器、HTTP API、MCPインターフェースを、数学検索、帰属、検索拡張推論のための基盤として公開する。入手先はtheoremsearch.comおよびhuggingface.co/datasets/uw-math-ai/theorem-matchingである。
LLMエージェントは、組織を代表してツール呼び出しを通じてユーザーリクエストを処理し、システムプロンプトに記載された企業ポリシーに従わなければならない。従来の研究は、この問題を安全対策の問題として捉えていた――すなわち、非準拠なエージェントの動作をブロックする外部チェックである。我々は、ポリシー遵守はより広範な問題であると主張する。実際のワークフローは複数のターンにわたって展開され、明示的なユーザー確認と事前読取りを必要とし、単一の引数の値ではなく、対話の内容に依存する。この要件を満たすには、(i) 完全な会話コンテキスト、(ii) ポリシーと現在の対話にわたる自己推論、(iii) エージェントの次のターンを導く会話固有の修正――これら3つの能力が必要であり、従来の安全対策の研究では過小評価されてきた。我々は、POLICYGUARDを導入する。これは、エージェントと対話のビューを共有し、コンテキスト内でポリシーを推論し、エージェントの次のターンに対して実用的なフィードバックを提供するサブエージェント検証器である。tau^2-BENCH航空データセットにおいて、3つのベンダー(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro)を用い、各設定で4回の試行を行った結果、POLICYGUARDはPASS4を+12.0 / +6.0 / +12.0パーセントポイント向上させた。呼び出しごとの分析では、POLICYGUARDはより高いポリシー違反再現率を達成しつつ、引数レベルのガードと比較してブロック頻度は約半分であることが示された。
カメラ制御による世界探索のためのインタラクティブな映像生成システムは、潜在的なビデオフレームの逐次的な系列を生成し、状態遷移と高周波の観測合成とを絡み合わせる。本論文では、「Walking in the Implicit」というシーン中心のパラダイムを提案する。これは、生成の展開変数をフレームの潜在変数から、固定長でレンダリング可能な暗黙状態、すなわちNeural Implicit Scene(NIS)に変更するものである。このアプローチにより、インタラクティブ生成を、コンパクトなシーン状態の確率的遷移と、サンプリングされた状態に基づく姿勢条件付きの決定論的レンダリングに分解する。本パラダイムをNeuWorldとして具体化する。トランスフォーマーVAEが、疎な姿勢付きフレームから局所的にアンカーされたNISを学習し、拡散トランスフォーマーが、将来のカメラ軌跡と幾何学的に認識された検索履歴に条件付けられてNISを進化させる。VAEエンコーダを統一的な条件付け器として再利用することで、NeuWorldはカメラ、参照画像、履歴の手がかりを同一のNISモダリティにマッピングし、外部の異種エンコーダを不要とする。事前学習済みのビデオバックボーンや補助的な3次元再構成器を用いずに、公開されている姿勢付きビューデータからスクラッチで学習したNeuWorldは、良好な推論効率を伴いながら、強力な長期的一貫性を達成する。
RocketSmithは、打ち上げに適した高出力ロケットの開発において、DFAMプロセスを知的に自動化するエージェントシステムである。本システムは大規模言語モデルを活用し、飛行安定性などの設計特性を検証するためのソフトウェアツールの実行を統括するとともに、ロケットアセンブリのパラメトリック設計コンポーネントを生成する。複数のサブエージェントとスキル群により、ゼロショットおよびヒューマン・イン・ザ・ループの両ワークフローにおける反復を介した飛行パラメータの最適化が可能となる。本システムを用いて、異なるモーターおよびアセンブリ構成を持つ4種類の高出力ロケットが、積層造形特有の設計能力を活用して開発された。これらのアセンブリ部品は各種FDMプリンタを用いて製作され、手動で飛行準備状態を評価した後、打ち上げイベントで飛行試験を実施した。試験の結果、全てのロケットが安定した打ち上げを達成し、うち2機は再飛行可能な状態で回収に成功した。高度計データにより、ロケットはエージェントシステムが予測した遠地点の80%に相当する高度に到達したことが検証され、シミュレーションと実験の間に整合性が確認された。
人間の項目難易度の予測は教育評価の中心的な課題であり、信頼性の高い推定値は公平性と効果的なテスト構成を支える。既存の手法は多くの場合、高コストな人間による調整や項目レベルのテキスト表現に依存しており、項目を困難にする認知的プロセスに関する限られたエビデンスしか提供しない。我々は、難易度は項目テキストの特性としてだけでなく、項目が誘発する問題解決負荷の観察可能な結果としても捉えられるべきだと主張する。大規模推論モデル(LRM)は推論軌跡を通じてスケーラブルなプロセスエビデンスを提供するが、そのようなエビデンスは解釈可能なモデリングを支えるよう構造化されなければならない。この目的のために、我々はEpi2Diff(エピソードから難易度へ)というフレームワークを導入する。これはLRMの推論軌跡を認知的に基づいたエピソード系列にマッピングする。これらのエピソードは軌跡のセグメントを機能的な問題解決状態にグループ化し、推論の規模、努力配分、状態遷移を通じて難易度をモデル化することを可能にする。Epi2Diffはコンパクトなエピソードダイナミクス特徴を抽出し、それらを意味的な項目表現と組み合わせて人間の難易度予測を行う。4つの実世界の人間難易度データセットを用いた実験では、Epi2Diffが微調整済み小型言語モデル、LLMのインコンテキスト学習、教師ありLLM適応などの強力なベースラインを一貫して上回る。SAT由来の分類ベンチマークでは、Epi2Diffは教師ありLLM微調整ベースラインに対して平均8.1%の相対的な改善を達成する。さらなる分析により、困難な項目ほど単により長い応答を生むのではなく、より労力を要し、反復的で、実装中心のエピソードダイナミクスを誘発することが示された。これらの結果は、LRM推論軌跡における認知エピソードが人間の項目難易度に対する予測可能かつ解釈可能なプロセス表現を提供し、推論モデルを用いた教育測定に新たな視点をもたらすことを実証している。
MLLMベースのGUIグラウンディング手法は、一般的にターゲット定位を自己回帰座標生成として定式化し、モデルがMLLMの強力な指示追従能力と意味理解能力を活用できるようにする。しかし、この定式化では、GUIクリックが要求する空間精度で座標トークンをデコードしながら、領域レベルのターゲット証拠を保持することがモデルに求められる。我々の診断分析により、ターゲット領域認識は中間デコーダ層で出現するが、最終的な座標予測には保持されず、変換もされないことが明らかになった。既存のZoomInスタイルの手法は、外部のクロップ&再実行パスを通じてこの問題に対処するが、これにより定位は改善されるものの、エンドツーエンドのレイテンシと計算コストが増加する。この追加コストなしに2パスズーミングの精度向上を維持するために、我々は単一フォワードフレームワークであるInnerZoomを提案する。これは層間証拠橋渡しのためのものである。InnerZoomは、元のフォワードパスからのターゲット関連の手がかりをコンパクトな層間証拠状態に変換し、その後、この状態を後続のデコード層全体にわたって保持、洗練、再注入し、座標予測を導く。広範な実験結果は、InnerZoom-4Bが6つのGUIグラウンディングベンチマークすべてで最先端の性能を達成し、OSWorld-Gで64.7、UI-Visionで40.2、OSWorld-GRで73.1、MMBench-GUIで87.6を獲得し、それぞれ従来の最高結果を4.1、3.2、2.9、2.3ポイント上回ったことを示している。制御された4B設定の下で、InnerZoomは同じSFT+RLベースラインを平均5.3ポイント改善し、2パスZoomInを平均1.3ポイント上回り、同時にエンドツーエンドレイテンシを最大31.8%削減し、TFLOPsを約29%削減する。コードとモデルは公開予定である。
基礎視覚言語エンコーダを特化型検索タスクに適応させる際には、本質的なトレードオフが生じる。すなわち、対象分布における性能向上は、基盤モデルの広範な汎化能力を犠牲にすることでもたらされ、ファッション検索はこの問題の厳しい事例である。本稿では、このトレードオフをシンプルな手法で解決するファッション特化型SigLIP2-baseモデル、ZooClaw-FashionSigLIP2を提案する。手法は、厳選されたドメイン内データを用いた知識蒸留を伴う完全ファインチューニングと、その後にWise-FT(Wortsman et al., 2022)による重み補間をベースモデルとの間で行うというものである。本モデルは、LoRA、より大規模なバックボーン(最大10億パラメータ)、外部学習データを上回る性能を示す。公平な評価の下で、ZooClaw-FashionSigLIP2は、我々のスイート内のすべてのベンチマークにおいて、全てのベースラインを凌駕する。さらに、新たな高品質ファッション検索ベンチマークであるZooClaw-Fashion、および広く利用されているベンチマークの系統的な品質分析を公開し、その公開正解データにおける構造的バイアスを明らかにし軽減する。今後の研究を促進するため、モデルの重みと評価成果物を全てオープンソース化する。
生成的分子設計は、薬物様特性に関する単純な代理ベンチマークや大規模医薬品データセットで事前学習されたモデルによって形成されている。この組み合わせは強力なベンチマーク指標をもたらす一方で、創薬とは構造的に異なる領域への転移可能性を制限している。この限界を克服し、現実の科学的根拠に基づくターゲットへと探索を導くために、我々は機械学習と量子材料科学を橋渡しする「ナノテクノロジー分子最適化(NMO)ベンチマーク」を導入する。NMOは機械学習コミュニティにとって厳格なテストベッドであると同時に、ナノテクノロジー研究のための発見エンジンとして機能する。このスイートは代理オラクルを量子シミュレーションに置き換え、リーダーボード指向の過学習よりも科学的実用性を優先する厳格なプロトコルを導入する。物理に基づくNMOタスクは、厳しい構造的制約と険しい適合度ランドスケープを課し、生成モデルに根本的に新しい要件を突きつける。特筆すべきは、高度な分子最適化手法がNMOタスクにおいて、はるかに単純な手法よりも劣るパフォーマンスを示す点である。我々は、構造的制約をモデル化するための新規表現や、医薬品データセットのバイアスを排除するためのドメイン非依存型事前学習戦略を含む、NMOタスクを解決するための重要なコンポーネントを特定する新たなベースライン手法を開発する。結果は最先端の物性値を上回り、これまで未知であった構造モチーフを明らかにすることで、ナノテクノロジーコミュニティに新たな知見を提供し、機械学習が真の科学的発見を推進できることを示す。
実世界の応用において、ガードレールは、事前定義されたリスク分類に依存するのではなく、アプリケーション固有の安全ポリシーに従って、ユーザーとモデル間の安全でない相互作用を識別することが期待されることが多い。本研究では、この設定を、ガードレールがコンテキスト内で提供されるポリシー仕様に基づいて安全違反を予測する「インコンテキストポリシーガードレーリング」のパラダイムの下で調査する。この能力を体系的に評価するために、我々はSafePyramidを導入する。これは、10のドメインにわたる1,000のマルチターン会話と、それに対応する3,000のアプリケーション固有ポリシーから構成される安全性ベンチマークであり、これらには合計61,699の個別の自然言語ルールが含まれる。SafePyramidは評価を3つの難易度レベルに整理する。L0は個別ルールの理解を、L1はルール依存関係にわたる推論を、L2はコンテキスト内で定義された完全な新しいポリシーフレームワークへの適応を評価する。ベンチマークの品質を確保するため、我々は厳格な多段階パイプラインを用いてベンチマークを構築・検証する。SafePyramidを用いて、10の最先端LLMと5つのポリシー設定可能なガードレールを評価した結果、インコンテキストポリシーガードレーリングは依然として非常に困難であることが判明した。最も性能の良いモデルであるGPT-5.5でさえ、L0、L1、L2において、違反したルールの完全な集合を正確に識別できたのはそれぞれ54.0%、35.3%、12.9%のケースに過ぎなかった。これらの結果は、現在のガードレールの限界を浮き彫りにし、ポリシーを確実に実行し、ルール依存関係を解決し、新しいポリシーフレームワークに適応できる、より強力なインコンテキストポリシーガードレールの必要性を訴えている。
大規模推論モデルの登場により、極めて長い思考連鎖トレースが生み出されるようになり、重要な論理が膨大な手続き的テキストに埋もれるという透明性負荷が発生している。この問題に対処するため、我々はReasoningLensを提案する。これは複雑な推論連鎖の階層的視覚化と診断的監査を目的としたオープンソースフレームワークである。ReasoningLensは情報の検死に対し、以下の方法で対応する。(1)トレースをインタラクティブな階層に構造化し、高水準の戦略と低水準の実行を分離する。(2)エージェント型監査者を活用し、自動エラー検出とツール拡張検証を実現する。(3)系統的推論プロファイルを合成し、モデル固有の盲点を明らかにする。非構造化されたテキストの壁を実用的な洞察に変換することで、ReasoningLensは次世代の推論中心型AIを解釈、デバッグ、最適化するためのモジュール基盤を提供する。
Mixture-of-Experts(MoE)アーキテクチャは、視覚生成における拡散モデルをスケーリングするための強力なパラダイムとして登場した。近年の進展は、多様なトークン間で計算リソースを適応的に割り当て、効率性と性能を向上させることに焦点を当てている。しかし、既存の拡散MoEフレームワークにはルーティング割り当て問題が存在することを我々は特定した。すなわち、ルーターが顕著なトークンに対して正確に多くの計算リソースを割り当てることができないのである。この失敗の原因は、ルーターがノイズによって劣化した潜在特徴に依存していることにあると分析する。このような確率的ノイズは、重要な構造的・テクスチャ情報を不明瞭にし、ルーターが顕著なトークンを効果的に識別することを妨げる。この問題に対処するため、我々はSharpMoEを提案する。これは、清浄な潜在特徴をノイズのないガイダンス信号としてルーティングに利用する、顕著性を活用した正確なルーティング機構を持つポストトレーニングフレームワークである。ノイズによって歪められた入力を回避することにより、SharpMoEはルーターに明確な顕著性ガイダンスを提供し、高ノイズ段階であっても顕著なトークンを識別可能にする。さらに、マルチステップのノイズ除去軌跡全体にわたって計算割り当てを制約する軌跡ルーティング損失を導入し、生成ロールアウトに沿った正確なリソース割り当てを保証する。広範な実験により、SharpMoEは汎用的でプラグアンドプレイなソリューションとして機能し、事前学習済みで収束済みのMoEモデルをさらに強化し、視覚生成において最先端の性能を達成することを示す。
一人称視点ビデオからの4Dハンドモーション再構築は、既存手法の明確な限界によってボトルネックとなっている。画像ベースのパイプラインは、重度の遮蔽下で失敗する検出器に依存する一方、ビデオベースの手法は、乏しい手指姿勢アノテーションからのみ学習される時間モジュールに依存しており、これは動作ダイナミクス、遮蔽推論、手と物体のインタラクションをモデル化するには不十分な狭い信号である。しかしながら、これらの能力はまさに、ビデオ生成モデルがインターネット規模で首尾一貫したビデオを合成するように訓練される際に、暗黙的に獲得しなければならないものである。これに動機づけられて、我々はViDiHandを提案する。これは、事前学習済みビデオ拡散モデルの表現を活用して4Dの両手姿勢を再構築する。我々は、その世界事前知識を保持しながら手に特化した特徴を備えるように、ハンドオーバーレイレンダリング目的関数を介してこれを適応させる。次にデコーダが、適応された特徴からメートルスケールの姿勢を復元する。パイプライン全体は、検出器、補完器、テスト時最適化を一切用いずに、完全なフレームに対して直接動作する。ARCTIC、HOT3D、HOI4Dにおいて、ViDiHandは従来手法を大幅に上回り、ビデオ拡散モデルが手指動作再構築のための強力な新しい基盤であり、身体化AIのためのスケーラブルな実環境データ収集への有望な経路であることを確立する。プロジェクトページ: https://vidihand.github.io
視覚・言語・行動(VLA)モデルは指示駆動型のロボット操作を可能にするが、事前学習済みVLMから継承した言語バックボーンは過度に大きく、その容量は短いロボット指示に必要なものをはるかに超えている。このことから、閉ループ制御に実際に必要なVLAモデルの容量はどれほどか、という基本的な問いが生じる。本研究では、トランスフォーマーブロックの除去を制御された介入として用い、VLAモデルのアーキテクチャ上の冗長性を調査する。我々はDrop-Then-Recovery(DTR)という解析手法を導入する。これは、事前学習済みVLAモデルから選択したブロックを除去し、その結果得られたモデルを微調整して、除去された容量が下流の制御に必要であったかどうかを測定するものである。この介入を信頼性の高いものにするため、GateProbeを提案する。これはワンショットの仮想ゲート感度指標であり、ブロックの下流動作損失への寄与度に基づいてランク付けを行う。複数のVLAアーキテクチャ、操作ベンチマーク、さらには実ロボットの産業シナリオにおいても、除去後の回復可能性に強い非対称性が見られる。すなわち、言語バックボーンは標準的なロボット操作タスクに対して高い冗長性を持つ一方、視覚経路と行動経路は除去に対する耐性が著しく低い。LIBEROでは、LLMブロックの半数を除去することで、同じ下流微調整予算の下でOpenVLA-OFTが95.0%から98.3%に改善され、言語ブロックを2つだけ残してもベースラインレベルの性能を回復する。これらの結果は、現在のVLAベンチマークが深い言語接地や構成的指示理解に対する圧力を十分に課していない可能性を示唆しており、将来のVLAアーキテクチャは言語、視覚、行動の各構成要素に対してより意図的に容量を配分すべきであることを示している。コードはhttps://github.com/s1ghhh/VLADropで公開されている。
マルチエージェント大規模言語モデル(LLM)システムは、幻覚(ハルシネーション)を抑制するために検証エージェントや批評エージェントに依存することが多いが、検証には遅延が生じる。この遅延の間に、誤った主張がエージェントネットワーク内を伝播する可能性がある。本論文では、このプロセスを、接地修正ノードを有するグラフ上の遅延コンセンサスとしてモデル化する。接地ラプラシアンによるスペクトル分解により、検証量(修正の強さ)に関する閉形式の安定性閾値が得られる。修正が強すぎる場合や遅延が大きすぎる場合、コンセンサスが振動に転じる可能性がある。最も不安定な状態は、通信遅延と検証遅延が一致するときに生じ、遅延が2の場合、閾値は黄金比の逆数となる。同じ枠組みにより、超モジュラな配置目的関数と、限られた修正予算を影響力のあるノードに割り当てるための貪欲(1-1/e)近似規則が得られる。5つのオープンモデルを用いた実験により、予測された検証量と遅延による振動が確認された。対照的に、接地された事実回答(grounded factual answering)は真実を吸収境界とし、この効果を排除する。これは、不安定性が符号付き信念タスクに固有のものであり、接地された検証は依然として安定化効果を持つことを示唆している。
近年の研究では、大規模言語モデル(LLM)のプログラム最適化への応用可能性が示されている。この問題はプログラミング言語分野における重要な課題である。本稿では、ブラックボックス適応手法である「検索拡張探索(RAS)」を提案する。RASは、候補最適化に対してビームサーチを実行し、各ステップにおいて、低速-高速プログラム対からなる所与の訓練データセットからインコンテキスト例を検索し、LLMを誘導する。重要な発見として、LLMが生成した自然言語記述に基づく文脈的検索は、ソースコードに基づく検索よりも有意に優れた性能を示す。また、訓練例を「原子編集」として分解することで解釈可能性を向上させる手法AEGISも提案する。この原子編集は、本質的により段階的な性質を持つ。RASはC++プログラムの最適化において、従来の最先端ブラックボックス適応戦略と比較して最大2.06倍の性能向上を示し、AEGISは大幅に小さな編集を行いながら最大1.37倍の性能向上を達成する。さらに、RASを用いることで、Pythonプログラムの平均実行時間パーセンタイルがベースラインと比較して10.27改善されることを示す。
テキストと画像を生成可能な生成AIモデルの進歩は、特に両モダリティを交錯させるタスクにおいて、マルチモーダル知能の分野における重要な一歩を示す。この知能を次の段階に進めるためには、モデルが自由形式の交錯テキスト-画像シーケンスを自律的に生成することが極めて重要である。本稿では、ILLUME-Xを紹介する。これは、マルチモーダルデータ効率を改善し、マルチモーダル学習プロセスを安定化させることで、高品質で自由形式の交錯テキスト-画像生成を可能にする、高度な統合マルチモーダルパラダイムである。ILLUME-Xは以下の3つの主要コンポーネントから構成される:(i) 交錯テキスト-画像生成用に最適化された拡張トレーニングデータパイプライン、(ii) 自由長マルチモーダルトークンシーケンスに対する自己適応型目的関数を用いた段階的トレーニング戦略、(iii) 交錯テキスト-画像シーケンスに対する客観的かつ包括的な評価手法ILScore。特筆すべき点として、我々のILLUME-Xは、スタイル変換、画像分解、ストーリーテリングなど、複数の交錯テキスト-画像生成タスクにおいて、従来の統合モデルを上回る性能を示す。
自己衝突は、SMPLに基づく人間のポーズ推定および動作生成において依然として持続的な課題である。極端な関節動作や確率的な動作合成の下では、生成されるメッシュにしばしば自己貫通が生じ、物理的に非現実的な結果をもたらす。我々は、SMPLポーズ空間において直接定義されるニューラル衝突制約であるPoseShieldを提案する。衝突補正を制約付き最適化問題として定式化し、学習された制約をアイコナール方程式と関連付ける。アイコナール正則化を課すことで、衝突境界近傍での勾配消失を防ぎ、最適化プロセスの数値的安定性とロバスト性を向上させる。メッシュ空間で動作するかヒューリスティックなペナルティに依存する従来手法とは異なり、本手法は人間のポーズの低次元空間で直接動作し、理論的な基盤を有する。同一の学習された制約は人間の動作系列にも拡張可能であり、基礎となる動作モデルを再学習することなく、生成器に依存しない事後的な衝突補正器を提供する。新たに構築したSMPLポーズベンチマークを用いた実験では、本手法は95.8%の成功率を達成し、最先端のベースラインを上回る性能を示した。
現在の神経細胞集団における表現信頼性のモデルは、時間的安定性、すなわちセッションや日を超えて集団重心が保存されるか否かに焦点を当てている。この枠組みでは、基本的な疑問が未解決のまま残されている。それは、一セッション内での独立した観察間において、刺激間のペアワイズ距離構造がどの程度確実に再現されるかという問題である。我々は、この性質である幾何学的安定性が、既存の枠組みでは捉えられていない表現分析の独立した軸を構成すると論じる。幾何学的安定性を、分割半分表現非類似度行列間のスピアマンの順位相関(Shesha)として形式化し、これが時間的安定性およびデコード精度の両方から経験的に解離可能であることを示す。視覚弁別課題(Steinmetz et al., 2019)における68脳領域を網羅する229の領域-セッション観測において、幾何学的安定性は試行毎の神経-行動カップリングを予測するが(ρ=0.18、p=0.005)、重心ドリフトは予測しない(ρ=0.002、p=0.976)。領域階層では、線条体が最も安定(S=0.44)で海馬が最も不安定(S=0.19)であり、これは時間的安定性の階層とはおおよそ逆方向である。方向的に一致する嗅覚データ(Bolding & Franks, 2018)は、アトラクタネットワークモデルを動機づける。このモデルでは、再帰的興奮性結合が、疎なフィードフォワード入力から刺激パターンを完成させることにより、分割半分RDMの一致性を増幅し(ρ=+0.64、p=0.010)、幾何学的安定性が生じる回路レベルの説明を提供する。これらの結果は、幾何学的安定性を、時間的ドリフト測定とは直交し、再帰的結合が海馬回路における表現安定性と逐次ダイナミクスのバランスをとるという最近の説明を補完する、機能的に関連した回路依存的な神経集団コードの特性として確立する。
我々は、ロボット学習のための転移可能なダイナミクス事前分布を学習するスケーラブルな方法として、行動条件付き世界モデリングを研究する。行動が視覚シーンの変化をどのように駆動するかを予測するようにモデルを事前学習することで、得られた世界モデルは外観レベルのビデオ生成を超えた再利用可能なインタラクションダイナミクスを捉える。具体的には、実際の行動アノテーションが付与された大規模なロボット操作データを用いて、マルチビューインタラクティブベース拡散世界モデルA2Worldを事前学習する。我々は、学習されたダイナミクス事前分布を二つの相補的な観点から検証する。まず、A2Worldをタスクまたはシーン特化型実世界シミュレータA2World-simに適応させる。その長期ロールアウトは、実ロボットロールアウトを世界モデルロールアウトに置き換えることで、シミュレータベースのポリシー評価とスケーラブルなwhat-if分析をサポートする。次に、同じ事前学習済み重みから出発して、A2Worldを視覚と指示の条件付けの下で行動を予測するビデオ・行動統合予測モデルA2World-policyに適応させる。シミュレーションベンチマークと実ロボット設定にわたる実験により、行動条件付き世界モデルの事前学習が、シミュレータ中心およびポリシー中心の両方のロボット学習に利益をもたらす転移可能なダイナミクス事前分布をもたらすことが実証される。
テキストガイドによる画像編集は目覚ましい進歩を遂げているが、構造的な肖像写真のレタッチにおいては依然として限界がある。テキストによる記述では、顔の特徴や身体のプロポーションに対する微細な変更を伝えることが難しい。このギャップに対処するため、我々は「Exemplar-Based Portrait Photo Retouching(事例ベースの肖像写真レタッチ)」を導入する。モデルは事例ペアを与えられ、同じレタッチ操作を新しいクエリ画像に推論して適用するタスクを課される。既存の事例ベースの編集手法は主に、顕著な視覚的変化を伴うタスクに焦点を当てている。対照的に、構造的な肖像写真レタッチは非常に繊細で局所的な修正を伴い、これらの編集の正確な抽出と転送が困難である。これに取り組むため、我々はMirrorPPRという新しいフレームワークを提案する。これは微妙な構造的レタッチ操作を捕捉し転送するように設計されている。本手法は、レタッチ操作抽出器(Retouching Operation Extractor)を用いて事例ペアの微妙な差異を捕捉する。抽出された表現は、コネクタとLow-Rank Adaptation(LoRA)モジュールを介して、事前学習済みのDiffusion Transformer(DiT)に注入される。さらに、完全に位置合わせされたクロスアイデンティティの訓練ペアを構築することは、操作のミスアライメントによって深刻に妨げられる。これを克服するため、我々は厳密に位置合わせされたレタッチ操作を保証する高度なデータ自己増強パラダイムを提案する。データ不足を緩和しこの新規タスクを支援するため、我々は4700万以上のレタッチペアを含む大規模データセットMirrorPPR47Mを導入する。データセットをシミュレーションサブセットとプロフェッショナルサブセットに構造化することで、段階的カリキュラム学習を可能にし、ネットワークをスムーズに最適化する。広範な実験により、MirrorPPRがレタッチ品質と同一性保持の両方において既存のベースラインを大幅に上回ることが示された。プロジェクトページは https://sjtu-deng-lab.github.io/MirrorPPR で公開されている。
3次元世界を忠実に表現するためには、単一のカメラ光線に複数の可視かつ幾何学的に妥当な表面が含まれうる階層的ジオメトリを考慮する必要がある。しかし、単眼深度推定ではこの構造がピクセルあたり1つのスカラー深度に縮約される。透明なシーンはこの曖昧性を測定可能にする。同じ光線が前景のガラスを通り抜けて背景を観測できるため、教師あり学習のターゲットはシーンに内在する真理ではなく、アノテーション、データ、訓練の慣習となる。学習された予測器は、その深度層の選好としてこの慣習を顕在化させる。本稿では、深度層の選好と多層空間関係精度(ML-SRA)を計測するための疎な2層順序ベンチマークであるMultiDepth-3k(MD-3k)を導入する。MD-3kにおいて、主要な深度基盤モデルは標準的なRGB入力下で多様な層選好を示し、同一の階層的ジオメトリがモデル間で異なる形で解決されうることを明らかにする。さらに、訓練不要なスペクトル入力変換であるラプラシアンビジュアルプロンプティング(LVP)が、特定の固定モデルに対して報告される層を大幅に変更できることを発見した。最も強力なRGB/LVPペアであるDAv2-Lは75.5%のML-SRAを達成する。これらの結果は、深度基盤モデルが、標準的なRGB推論では表現されない相補的な幾何学的仮説を表現しうることを示唆している。本稿は、複数の有効な3D解釈を測定・保存・表現すべき幾何学的構造として扱う、曖昧性を考慮した視点を通じて深度の教師信号と評価を再考することをコミュニティに提案する。
無害データによるファインチューニングは、訓練の初期に獲得された挙動を部分的に元に戻すことができる。安全性は無害なアライメント後更新のもとで侵食され得、学習解除された能力は再出現し得、潜在特性は一見無関係な教師信号を通じて転移し得、そして関連するアライメント後の脆弱性は他の生成設定でも現れる。我々は、これらの現象が共通の学習履歴のレンズを通して見ることで有益であると論じる。我々の仮説は幾何学的なものである:大規模な初期学習フェーズは支配的な行動多様体を作り出し、その後のアライメントや特化フェーズはそれらからの浅い変位である。したがって、その後のファインチューニングは、支配的多様体の指標に向かって戻る持続的な回帰成分を受け継ぐことができる。我々はこれをファインチューニング回帰の重力解釈と呼ぶ。主たる設定全体において、表現のドリフトは急速に、履歴で定義された回帰方向(v_rev)に沿った成分を獲得する。メインのトラックでは、v_revとのアライメント(コサイン類似度)は最初の更新後の0.429 ± 0.052から、ステップ20では0.647 ± 0.021まで上昇する。24の実行-ステップペアにわたり、観測されたすべてのアライメントは等方的活性化空間の帰無仮説のp99を超えている。我々は、v_revに沿った動きを選択的に遮断することで、T=100における最終アライメントが0.648 ± 0.009から-0.211 ± 0.021に変化し、有害性が19.0% ± 4.0%から8.5% ± 1.5%に減少し、タスクコストがほとんど生じないことを示す。これらの結果は、我々のセットアップにおいてv_revがアライメント後の初期回帰の因果的に関連する媒介因子であることを支持する。重要なのは、我々はv_revが唯一の安全方向であるとか、支配的多様体が直接観測されると主張するわけではない。むしろ、我々は初期回帰の動態を説明し部分的に制御する、頑健で履歴で定義された方向を特定する。
水力トンネル点検は、インフラの健全性維持に不可欠ですが、手動による方法では非効率で危険が伴います。本論文では、UGV-UAV協調点検のためのマップレス経路計画フレームワークであるFLISP(Fast LiDAR-IMU Synchronized Path Planner)を提案します。従来のマップベースパラダイムとは異なり、FLISPは以下の3つの核心的貢献を特徴とします。(1)単一のUGV搭載LiDAR-IMUシステムが両プラットフォームの同期経路生成を駆動する統一アーキテクチャ、(2)改良型ホタルアルゴリズムを用いたUGV障害物回避と動的逐次最適化器によるUAV飛行のためのプラットフォーム固有ソルバー、(3)状態推定ドリフトを伴わずに運動学的実現可能性を保証する階層的洗練戦略。実運用トンネル(1.2 km)でのベンチマークでは、FLISPはマップベース手法の構造的ボトルネックを回避し、マップラスタライゼーションのオーバーヘッド(Fast-LIO2 + A*)やサンプリングの不安定性(LIO-SAM + RRT*)を排除します。FLISPは100%の成功率を7ミリ秒のレイテンシで達成し、グリッドベース手法に対して7倍、サンプリングベース手法に対して3桁の高速化を実現します。実運用の水力トンネルで検証された本アプローチは、特徴劣化した線状インフラにおけるロボット点検のためのスケーラブルなソリューションを提供します。デモ動画は https://youtu.be/Y_ezs1PfLJ4、コードは https://github.com/ArchibaldGuo/FLISP.git で公開されています。
事前学習済み視覚基盤モデル(VFM)は、その強力な意味表現と高い汎化能力により、現代のコンピュータビジョンにおいて中心的な役割を担っている。しかし、これらのモデルが出力するパッチ化またはプールされた特徴量は本質的に低解像度であり、詳細なピクセルレベルの推論を必要とするタスクにおいてその有効性が制限される。既存の特徴量アップサンプリング手法は、意味的忠実度を低下させるか、VFM固有の再学習や重いアーキテクチャに依存するため、効率性とスケーラビリティを妨げている。これらの課題に対処するため、我々はRaysUpを提案する。これは超軽量でタスク非依存かつVFM非依存の特徴量アップサンプリングフレームワークであり、任意の解像度で高解像度の特徴マップを再構成する。従来の2次元補間やアテンションベースの手法とは異なり、RaysUpは特徴量再構成を幾何認識光線領域に持ち上げる。具体的には、方向認識ガイダンスエンコーディングのための空間分離ガイダンスエンコーダ、解像度フレキシブルな再構成のための任意解像度クロスアテンション機構、そして6次元Plücker光線座標を介して暗黙的3次元幾何学事前情報を注入する新たな光線位置エンコーディング(RayPE)を導入する。さらに、幾何認識近傍アテンションモジュールが、幾何的一貫性を維持しながらコンテンツ適応型の双方向集約を実現する。多様な高密度予測タスクにわたる広範な実験により、RaysUpはAnyUpのわずか16%のパラメータで最先端の性能を達成し、約7倍高速な推論を実現することが示された。これらの結果は、精度と効率のトレードオフを大幅に改善し、RaysUpを汎用特徴量アップサンプリングのための実用的でスケーラブルなソリューションとして確立する。コードはhttps://github.com/MAP-RaysUp/RaysUpで公開されている。
表現アライメントは、マルチモーダル大規模言語モデル(MLLM)の内部表現を外部視覚エンコーダのそれに正則化することで、MLLMを改善する効果的なアプローチとして登場した。しかし、既存の手法は典型的に言語バックボーンの固定層をアライメントするのみで、Transformerモデルの細かい構造を見過ごしている。本研究では、ヘッド単位表現アライメント(HeRA)を提案する。これは個々のアテンションヘッドレベルでクロスモーダルアライメントを強制する手法である。我々のアプローチはプラトン的表現仮説に基づいており、モダリティ間での表現のトポロジカル構造(すなわち局所近傍関係)を保存することに焦点を当てている。相互K近傍法(MKNN)アライメント指標に従い、局所構造をマッチングするための微分可能な代理として機能する対照的目的関数を導入する。HeRAはこの目的関数をマルチモーダル学習中に、MKNN指標によるアライメントスコアに基づいて選択されたLLM内の特定のアテンションヘッドに適用する。直観に反して、最もアライメントが低いヘッドをアライメントすることで最大の改善が得られることを発見した。複数のMLLMと18のベンチマークにわたる広範な評価により、HeRAが挑戦的な視覚中心タスクで一貫して性能を向上させ、言語的先行知識への過剰依存を自然に抑制することで視覚的ハルシネーションに対する効果的な正則化器として機能することが示された。我々のコードは公開されている。