翻訳付きの日次キュレーションされたAI研究論文
近年の言語モデルの発展は、その規模によって特徴づけられてきた。世代を重ねるごとに、より多くの世界の知識が各モデルの重みに組み込まれている。しかし、多くの実用的なアプリケーションでは、膨大なパラメトリック知識よりも、堅牢な推論能力が求められる。こうした状況において、特定のタスクに特化した小型言語モデル(SLM)は、原理的に優れた設計選択肢となる。本稿では、この前提に基づいて構築されたSLMファミリーであるOptimal Cognitive Core(OCC)を提案する。OCCの派生モデルとして、提供されたコンテクストに基づいた忠実な質問応答(QA)に最適化されたOCC-RAGを紹介する。このタスクは、記憶された知識を無視しながら、供給された文章に対してマルチホップ推論を実行する必要がある点で、OCCの設計アプローチと直接的に合致する。OCC-RAGを学習させるために、マルチコンテクストかつマルチホップなQAデータを大規模に合成する新規パイプラインを実装し、マルチホップ推論、厳密なコンテクスト忠実性、および調整された棄却を対象とした300万件以上のサンプルからなるコーパスを生成した。このコーパスを用いて中間学習を施したOCC-RAG-0.6BおよびOCC-RAG-1.7Bを公開する。これらのモデルは、コンテクストからの原文引用に基づく出典情報を付与した構造化された推論トレースを生成する。OCC-RAGを通じて、コンパクトでタスク特化型のSLMが、マルチホップ推論(HotpotQA、MuSiQue、TAT-QA)、忠実性(ConFiQA)、および拒否(MuSiQue-Un)の各ベンチマークにおいて、2~6倍の規模の汎用モデルに匹敵するか、あるいはそれを上回る性能を達成できることを実証する。
人間の脳において視覚的概念を表象する脳領域を特定することは、神経科学における中心的な課題である。既存の手法は、活性化最大化を通じて大まかな機能領域(例えば顔、場所)を特定し、他の概念と比較して対象概念に対して強く活性化する領域を同定してきた。しかし、強い活性化だけではその領域が概念そのものを表象するとは断定できない。なぜなら反応は、相関する視覚的または意味的手がかりによって引き起こされている可能性があるからである。我々はBrainCauseを導入する。これは生成モデルと脳モデルを組み合わせて制御された刺激を合成し、標的を絞った因果テストを通じて神経表象を検証する自動化フレームワークである。関心のある概念を指定するクエリが与えられると、我々のフレームワークは標的刺激セットを構築する。このセットは、概念画像、他の画像内容を保持しながら対象概念を除去した反実仮想的編集、および候補となる相関ディストラクタを含む画像から構成される。次に、画像からfMRIへのエンコーディングモデルを用いて脳反応を予測し、相関する代替概念よりも対象概念に特異的に応答する表象を探索する。BrainCauseは検証された候補表象を返し、その発見をさらにテストまたは拡張するための追跡fMRI実験を提案する。我々の手法は、既知の機能局在を再現し、数十の概念にわたって新たな候補表象を同定することに成功し、予測および測定されたfMRIデータの両方で検証された。重要なことに、因果検証なしでは局在の大部分が偽陽性となることを示し、活性化だけでは表象の証拠として不十分であることを確認した。
オン方策蒸留(OPD)は、大規模言語モデル(LLM)の効率的なポストトレーニングのための基本的手法であり、エージェント学習、マルチタスク強化、モデル圧縮に広く応用される。しかし、教師と生徒の分布が大きく異なる場合、OPD学習は不安定になる。これは、生徒が生成したトークンに対する教師の監督が信頼できない方策勾配をもたらし、最適化の失敗を引き起こす可能性があるためである。本研究では、クレジット割り当て戦略を通じて信頼性の高いオン方策トークンレベル監督を実現し、Trust Region On-Policy Distillation(TrOPD)を提案する。TrOPDは以下の特徴を持つ。1)信頼領域オン方策学習:TrOPDは、教師が信頼性の高い監督を提供できる領域でのみOPDを実行し、分布ミスマッチ下でのK1逆方向KL推定器の最適化の困難を軽減する。2)外れ値推定:外れ値領域に対しては、勾配クリッピング、マスキング、順方向KL推定を調査し、信頼できない監督の悪影響を低減する。3)オフ方策ガイダンス:生徒は教師のプレフィックスから生成を継続し、順方向KLを用いてオフ方策ガイダンスを模倣することで、信頼できる領域へのオン方策探索を促進する。実験結果は、TrOPDが数学的推論、コード生成、汎用ドメインベンチマークにおいて、OPD、EOPD、REOPOLDなどの最先端OPDベースラインを一貫して上回ることを示している。
Humanoid-GPTを紹介します。これは、数十億規模のモーションコーパスで学習された、全身制御のための因果的注意機構を備えたGPTスタイルのTransformerです。データ不足と俊敏性と汎化のトレードオフに制約されていた従来の浅いMLPトラッカーとは異なり、Humanoid-GPTは、主要なモーションキャプチャデータセットを大規模な社内記録と統合した20億フレームのリターゲティングコーパスで事前学習されています。データとモデル容量の両方をスケールすることで、単一の生成型Transformerが極めて動的な動作を追跡するとともに、未知の動作や制御タスクに対して前例のないゼロショット汎化を実現します。広範な実験とスケーリング分析により、本モデルが新たな性能のフロンティアを確立し、未知のタスクへのロバストなゼロショット汎化を示しつつ、高度に動的で複雑な動作を同時に追跡できることを実証しています。
テスト時スケーリングは大規模言語モデルにおいてより良い推論を得るための強力な手法であるが、KVキャッシュが増大する長期デコード中にメモリボトルネックが発生する。KVキャッシュ量子化はこれを改善するのに役立つが、現在の手法はプリフィル的な設定で評価されており、自己回帰デコード下では誤差の挙動が異なる。後者の設定では、量子化誤差が時間ステップにわたって蓄積し、その主な原因は不適切なトークンスケールにあることを示す。我々は、アダマール回転に続いてK行列とV行列の両軸にわたる二重スケーリング分散正規化を適用するキャリブレーションフリーのKVキャッシュ量子化器KVarNを提案する。この組み合わせにより、外れトークンスケール誤差が修正され、既存のベースラインと比較して誤差の蓄積が大幅に低減されることがわかった。KVarNはMATH500、AIME24、HumanEvalを含む生成ベンチマークにおいて、2ビット精度でKVキャッシュ量子化の新たな最良結果を達成する。KVarN手法のvLLM実装はhttps://github.com/huawei-csl/KVarNで入手可能である。
強化学習(RL)による事後学習は、数学的推論、コード生成、質問応答、創造的作文(CW)などの個別ドメインにおいて大規模言語モデル(LLMs)を改善するが、あるドメインの学習は他のドメインの性能を低下させることが多い。破滅的忘却や全体的な勾配競合に基づく既存の説明は不完全である:全モデルの勾配がほぼ直交している場合でも、顕著な干渉が発生し得る。我々は、単一ドメインRLが、変化の大きいニューロン間で重複が弱い、疎で小さな大きさのパラメータ更新を生成する一方、異なるドメイン間では依然として実質的な活性計算経路を共有しており、その上での更新方向が、それらが相乗的に作用するか競合するかを決定することを示す。この観察に基づき、我々は多ドメインRLの局所摂動モデルの下で、後続ドメインの学習が主に二次損害項を通じて先行ドメインを損なうこと、そしてこの項が観察された疎な経路構造の下で低次元の共有競合部分空間に集中することを証明する。さらに、短いドメインリフレッシュはこの部分空間上の有害成分を収縮させ、限られた副次的損害で選択的な回復を可能にする。理論と一致して、Code→Math→QA→CWの後の短いRe-Mathリフレッシュは、Mathを57.66から66.04に回復させ、他のドメインの性能を概ね維持し、最高平均スコア66.39をもたらす。リフレッシュに加えて、Math-QAペアに対する疎な代理競合座標集合での学習不要のロールバックがMathを部分的に回復させ、局所的な損害に対する直接的な代理レベルの証拠を提供する。これらの結果は、多ドメインRLにおける干渉と回復の局所メカニズムの説明を提供する。
ワールドモデルとマルチモーダル大規模言語モデル(MLLM)は、静的な視覚観測から将来の結果を予測するための補完的な能力を提供する。ワールドモデルは可能な未来の具体的な視覚的ロールアウトを生成できる一方、MLLMは質問、目標、ルールについて抽象的に推論できる。しかし、生成されたロールアウトは確率的であり、視覚的にはもっともらしいがタスクとしては不正確な場合があり、視覚的シミュレーションがいつ有用か、ロールアウトが信頼できるか、そして最終的な回答にどのように影響を与えるべきかを判断する必要がある。我々はこの問題を制御された具体推論として定式化する。ここではモデルが、抽象推論と並行して視覚的未来シミュレーションを呼び出し、検証し、統合することを学習する。この設定を研究するために、我々は人間検証済みのベンチマークである、制御可能な空間的先読みのためのVRQABenchと、オープンドメインの物理予測のためのOpenWorldQAを構築し、特権的未来オンポリシー自己蒸留(PF-OPSD)を提案する。訓練中、PF-OPSDは教師側の特権的コンテキストとしてのみグラウンドトゥルースの未来ビデオと回答を使用して、オンポリシーの具体推論軌跡を評価する一方、デプロイ可能な生徒はテスト時に真の未来を観測しない。実験結果は、PF-OPSDがVRQABenchとOpenWorldQAにおいてそれぞれベースラインを10.6%および10.9%上回り、ノイズが多いまたは矛盾するロールアウトに対するロバスト性も向上させることを示している。我々のコードとデータセットはhttps://github.com/yczhou001/PF-OPSDで入手可能である。
自律エージェントは、孤立した予測タスクや短形式の臨床質問応答を超え、エンドツーエンドの医療AI研究ワークフローを支援することがますます期待されている。しかし、既存の医療エージェントベンチマークは主に最終出力を評価するため、研究プロセス内でのエージェントの挙動に対する可視性が限られている。このギャップに対処するため、我々はAutoMedBenchを提案する。これは、多様な医用画像およびマルチモーダル推論タスクにわたる自律型医療AI研究のためのワークフロー認識型ベンチマークであり、エージェントの実行を統一された5段階のワークフロー(S1-S5:計画、セットアップ、検証、推論、提出)に整理するものである。本ベンチマークは、各実行で平均33エージェントターンからなる長期的タスクで構成され、セグメンテーション、画像強調、視覚的質問応答(VQA)、レポート生成、病変検出の5つの研究トラックにわたる。各タスクはLiteとStandardの2つの難易度レベルで評価され、これらは同一のデータと評価指標を使用するが、タスク概要の足場かけの量が異なる。また、各実行は最終タスク性能とS1-S5段階スコアの両方を用いて採点され、初期タスク概要から最終提出成果物までの段階別分析を可能にする。数千の記録された実行にわたる段階別スコアリングにより、Validate(検証)が平均的に最も弱いワークフロー段階である一方、Setup(セットアップ)が最も強いことが明らかになり、これは現在のエージェントがパイプラインの信頼性を検証することよりも、実行可能にすることに優れていることを示唆している。実行後のエラー分析はさらに、検証と提出の失敗がタグ付けされたエラーを支配しており、それぞれ発火コードの37.7%と38.1%を占め、一方でタスク理解エラーは0.9%と稀であることを示している。また、1つの発火エラーコードを持つ実行は、平均的にエラーコードがない実行よりも全体スコアが48%低い。
ミッドトレーニングは現代の大規模言語モデル(LLM)開発において重要な段階となっており、大規模に厳選された混合物を用いて最終的な事後学習の前に能力を強化する。そのデータ選択問題は特徴的である。データは事前学習に近い規模で事前学習スタイルの目的関数の下で最適化されるが、下流の能力に向けて厳選され、異なる形式やトレーニング上の役割を持つ異種ソースから抽出される。その結果、効果的な選択にはスケーラビリティとソース適応型の意味基準の両方が必要となる。既存のモデルベース手法はスケーラビリティに優れるが、暗黙的な品質信号のみを提供する。意味選択手法はより強力な判断を提供するが、通常は固定された評価基準や標準化されたデータ形式を前提とする。この不一致に対処するため、我々は自己アンカー型評価基準発見に基づくソース認識フィルタリングフレームワークMIRAを提案する。核となるアイデアは、評価基準の構築をデータ選択の一部にすることである。MIRAはまず各ソースグループに対して何を評価すべきかを発見し、その後、それらの判断をスケーラブルな学生スコアラーに蒸留して全文書コーパスのフィルタリングを行う。21のソースと5つのソースグループからなるコード指向ミッドトレーニングにおいて、MIRAは9つのコードベンチマークで選択ベースラインを上回り、トークン数を半分に抑えながら全文書コーパス実行と同等の性能を達成した。
視覚推論のための強化学習(RL)は、スケーラブルで検証可能かつ制御可能な訓練信号を必要とする。既存の視覚RLポストトレーニングは、静的なキュレーションデータセットで訓練を行い、固定された画像-質問-回答サンプルは収集予算によって制限されている。本研究では、TRON(Targeted, Rule-verifiable Online eNvironments:対象指定型・ルール検証可能なオンライン環境基盤)を導入する。これは、制御可能な生成・検証プログラムが新しい潜在視覚状態をサンプリングし、画像をレンダリングし、質問を出し、回答を正確に検証することにより、トレーニングロールアウトをオンデマンドで生成するオンライン環境基盤である。したがって、単一の実行で、現在のカリキュラムに必要な難易度の新しいインスタンスを無限に生成することができる。現在のTRONスイートは、5つの能力バケット(空間、数学、図表、パターン/論理、計数)に編成された520の環境を含む。この同じ基盤により、全バケットで訓練された単一のフルモデルと、バケットごとの能力特化モデルの両方が、追加のデータ収集なしでサポートされる。また、生成信頼性、インスタンスとレベルの多様性、環境間の類似重複、難易度別のベースモデル正解率をカバーする基盤分析も紹介する。METHODを用いたRLポストトレーニングは、Qwen3-VL-4B、Qwen2.5-VL-7B、MiMo-VL-7B-SFTにおいて、10の外部マルチモーダル推論ベンチマークで一貫して性能を向上させる。
動画を理解するには、孤立した瞬間を認識するだけでは不十分であり、人間は時間の経過とともにエンティティ、状態、イベントを継続的に追跡する。この視覚的状態追跡能力は動画理解の基盤であるが、現在のマルチモーダル大規模言語モデル(MLLM)の評価では未解明のままである。我々は、MLLMにおける視覚的状態追跡を診断するために設計された動画ベンチマーク、Visual State Tracking benchmark(VSTAT)を導入する。VSTATは、合成および実世界の動画から抽出された834のクリップと、それに対応する1,500の質問から構成される。これらの質問は単一フレームや短いセグメントからは回答できず、動画全体にわたるイベントの継続的な知覚と統合を必要とする。既存の動画ベンチマークで高い性能を示すにもかかわらず、最先端のMLLMは人間の性能に遠く及ばず、回答事前分布ベースラインをわずかに上回る程度であることが判明した。このギャップを分析するため、MLLMの思考の軌跡と基盤となる動画ストリームを比較し、MLLMがVSTATでなぜ、いつ失敗するのかを理解する。その結果、MLLMはテキスト上では推論と追跡を正しく行うものの、追跡すべきイベントを視覚的に知覚することに失敗していることが分かった。最後に、予備的評価では、MLLMベースの動画エージェントやコーディングエージェントを含む最近のエージェント的アプローチでは、これらの失敗を容易に解決できず、VSTATにおいて依然として不足していることが示唆される。
過去数十年にわたり、機械学習アルゴリズムの設計において顕著な進展が見られ、初期のタスク特化型の浅いモデルから、より汎用的な深層大規模言語モデル(LLM)へと発展してきた。即時予測や文脈内学習を必要とするタスクで有望な結果を示す一方、既存のモデルは継続的に学習し、時間的な文脈内知識を効果的に長期パラメータへ転移する能力を欠いている。人間の学習プロセスに着想を得て、我々は「睡眠」パラダイムを導入する。これによりモデルは継続的に学習し、短期の脆弱な記憶を再生によって安定した長期知識へと蒸留し、「夢見」プロセスを通じて再帰的に自己改善を行う。詳細には、睡眠は次の二段階から構成される。(1)記憶の統合:知識の種まきと呼ばれる上方蒸留プロセスであり、より小型の自己の記憶をより大規模なネットワークへ蒸留することで、知識を保持しつつ容量を拡大する。概念実証として、我々は知識の種まきのための新たな一般化蒸留プロセス(すなわち、オン方策蒸留と強化学習に基づく模倣学習の組み合わせ)を提示する。(2)夢見:自己改善フェーズであり、モデルは強化学習を用いて合成データのカリキュラムを生成し、人間の監督なしに新たな知識を反復練習し、既存の能力を洗練する。長期的タスク、継続学習、知識統合、および少数ショット汎化タスクに関する実験は、睡眠段階の重要性を支持するものである。
自動運転車の能力が向上するにつれて、ロングテールシナリオにおける運転ポリシーの安全な評価は依然として重要なボトルネックとなっている。閉ループシミュレーションでは、運転ポリシーモデルが環境と積極的に相互作用し、その動作がシミュレータの状態を動的に更新し、次に生成されるセンサ観測に直接影響を与える。近年の再構成型ニューラルシミュレータは写実性を提供するものの、初期に取得されたデータに根本的に制約され、動的または新規なシーンへの汎化が困難である。これらの限界を克服するために、我々はOmniDreamsを導入する。これはCosmos拡散モデルから中間および事後学習された基盤生成ワールドモデルであり、動作条件付きビデオをリアルタイムで自己回帰的に生成する。Cosmosの豊富な視覚的先行知識と、2万1000時間の運転シナリオによる中間・事後学習を活用することで、OmniDreamsは従来のシミュレータでは捉えにくい極端な気象や予測不能な動的エージェント行動などの複雑で未観測の現象を合成する。重要な点として、過去のフレーム、現在のシミュレータ状態、および即時の運転動作に基づいて、写実的なセンサ生成を自己回帰的に条件付ける。Alpamayo 1ポリシーモデルとAlpaSimオーケストレーターを用いた閉ループシステムに展開されたOmniDreamsは、高い応答性と反応性を持つ環境として機能し、次世代自動運転ポリシーの訓練と評価のためのスケーラブルで包括的なソリューションを提供する。さらに、予備的結果として、OmniDreamsから事後学習されたワールドアクションモデル(WAM)が、Physical AI Autonomous Vehicles NuRecデータセットにおいて優れた性能を達成し、VLAベースのAlpamayo 1.5研究用ポリシーモデルを、総パラメータ数5分の1で上回ることを示す。これらの結果は、OmniDreamsのようなリアルタイムワールドモデルが、ポリシーアーキテクチャのバックボーンとしても機能する可能性を強調している。
現代の生成モデルは視覚コンテンツに対する深い理解を有しているが、画像編集のためにそれらを訓練するには通常、大規模なペアデータセットが必要となる。これはスケーラビリティを制限し、特にペアデータの収集が極めて高コストである動画編集において顕著である。本稿では、フローマッチング編集モデルのペアなし訓練のための汎用フレームワークであるBootstrap Your Generator (ByG)を提案する。本手法は、外部信号を一切用いずにベースモデルの知識を活用する。我々のアプローチでは、凍結モデルから抽出した指示追跡キューと、構造保存のためのサイクル一貫性を組み合わせる。これを実現可能にするため、下流損失からの勾配をクリーンな予測を介してノイズのある訓練状態にルーティングする手法を提案する。データが不足している挑戦的な画像および動画編集シナリオにおいて、最先端の成果を示す。広範な評価とユーザ調査により、本手法が未見のドメインに効果的に汎化し、数百万サンプルで訓練された教師ありベースラインを凌駕することが明らかになった。分析により、我々の勾配ルーティングが訓練-推論ギャップを埋めること、およびベースモデルから意味的手がかりを抽出することが外部報酬モデルの必要性を不要にする堅牢な訓練信号を提供することが示された。
本稿では、統一型かつデータ効率的な画像間変換(I2I変換)のための分離残差ノイズ除去拡散モデル(Decoupled Residual Denoising Diffusion models, DRDD)を提案する。拡散モデルは品質と多様性の面でI2I変換を進展させてきたが、我々は拡散モデルにおいてこれまで十分に探求されていなかった特性を明らかにする。重要な点として、ガウスノイズの注入は、従来の多様体リフティング(すなわち、データを低次元多様体から引き離す役割)に加えて、ドメイン間の特徴分布を暗黙的に整合させることによりドメイン調和を促進する。この特性は、特に統一型I2I変換において有利に働く。しかし、既存の拡散モデルでは、ノイズと残差が単一の結合拡散過程で同時に除去されるため、この調和効果が早期に損なわれる。この問題に対処するため、DRDDは拡散過程を二つの逐次的かつ独立した拡散段階に分離する。(1)ドメイン調和と多様体リフティングのための確率的ノイズ拡散、および(2)固定ノイズ領域内で完全に中核的な意味マッピングを学習する決定論的残差拡散である。この分離により、変換全体にわたって調和効果と多様体リフティング効果が維持され、多様なタスクやドメインにわたる統一マッピングの学習が大幅に簡略化される。特に、ノイズ拡散段階は豊富な非ペアの対象ドメイン画像のみで学習されるため、データ効率が大幅に向上する。包括的な理論的・実証的解析により、DRDDは主流の拡散モデルと広く互換性があり、限られたペアデータの下でも堅牢で統一的なI2I変換を一貫して提供することが示される。我々のコードはhttps://github.com/HKU-HealthAI/DRDDで公開されている。
パーソナライゼーションは、現代の言語エージェントにとって重要な能力である。しかしながら、現在の研究は主に、パーソナライズされたエージェントをユーザーの好みに対する受動的な応答者として位置づけており、ユーザーと対話し、提案やガイダンスを積極的に提供する能力を制限している。このような現実的な相互作用におけるプロアクティブなパーソナライゼーションを体系的に評価するために、我々はΨ-Benchを提案する。これは、会話を通じて現実的なユーザーに影響を与えるLLMの能力を評価するためのベンチマークである。我々はΨ-Benchにおいて、説得を伴う3つの現実世界の対話シナリオを設計し、対話履歴から導出される明示的なユーザープロファイルを通じて、シミュレーションされたクライアントに個人特性を付与する。Ψ-Bench上で10の最先端LLMを評価した結果、ほとんどのモデルは首尾一貫した妥当な議論を生成できるものの、最先端モデルであっても説得の面では依然として改善の余地が大きいことが判明した。また、クライアントプロファイルへのアクセスを提供することで、平均性能が18.24%向上することが明らかとなり、効果的な説得にはユーザー固有の情報が重要であることが浮き彫りになった。全体として、本研究は、よりプロアクティブなパーソナライズドLLMエージェントを評価・開発するための、挑戦的かつ実践的な方向性として、ペルソナに敏感な影響力行使を強調する。コードは以下で入手可能である:https://github.com/Hanpx20/Psi-Bench。
テスト時スケーリングは大規模言語モデルの推論性能を向上させるが、全体の計算量と遅延の両面で大きなコストを伴う。既存の適応的サンプリング手法はこの問題を部分的に緩和するが、典型的にはヒューリスティックなルールや分布仮定に依存している。本研究では、適応的サンプリングをマルコフ決定過程として定式化する。強化学習を用いて軽量なサンプリング制御器を訓練し、解答の正しさ、遅延、計算コストを同時にバランスさせる。各ラウンドにおいて、制御器はサンプリングを停止するか、追加サンプルを取得するかを決定する。本手法は軽量であり、最終解答の統計量のみに依存し、CPU上で訓練と展開が可能である。さらに、得られた枠組みは明示的な予算制約を伴う制約付き最適化問題のラグランジュ緩和として解釈できることを示す。ASCやESCなどの強力なベースラインとの比較実験により、本手法が解答の正しさ、サンプリングラウンド数、総サンプル数の間でより良いトレードオフを達成することを示す。
自動ハーネスシステム(A-Evolve、GEPA、Meta-Harnessなど)は、実行フィードバックからプロンプト、スキル、ツール、メモリ、およびそれを支える基盤を最適化することでLLMエージェントを改善するが、これらは通常、固定されたオフラインベンチマークで評価される。実際の展開では、代わりにオープンエンドなタスクストリームが発生する。すなわち、履歴は終点なく拡大し、異種タスクには異なるハーネスが必要であり、問題分布は時間とともに変化する。これらの課題により、単一のハーネスを繰り返し密に更新すると堅牢性が損なわれ、精度が早期にピークに達した後に低下するという性能劣化が生じる。このことは、タスク適応を伴う持続的なハーネス構築の動機となる。本稿では、このようなストリームに対応するフレームワークおよびシステムとしてAdaptive Auto-Harnessを提案する。本フレームワークは、オラクルハーネスへのギャップを進化損失と適応損失とに分解する。本システムは、これらの損失に対処するために、ステートフルなマルチエージェント進化器、解決時ルーティングを備えたハーネスツリー、および履歴に必要な信号が欠けている場合の人間による誘導フックを採用する。予測市場、セキュリティコンペティション、イベント予測ストリームにおいて、Adaptive Auto-Harnessは既存の5つの自動ハーネスベースラインを上回り、アブレーション研究により、その利点はより良い構築、ルーティング、またはターゲットを絞った人間の誘導に起因することが示された。コードはhttps://github.com/A-EVO-Lab/AdaptiveHarnessで入手可能である。
PaddleOCR-VL-1.6を紹介します。これは、PaddleOCR-VL-1.5をベースに構築された、改良型のコンパクトな文書解析モデルです。PaddleOCR-VL-1.5は強力な0.9Bベースラインを確立していますが、残存するエラーは、モデルの動作が不安定、データカバレッジが疎、または教師信号の信頼性が低い、といった最適化が不十分な領域に集中しています。PaddleOCR-VL-1.6は、訓練コーパスを無差別に拡張するのではなく、前モデルから弱点領域を特定し、それらの領域に対して的を絞った強化を施し、教師信号の信頼性を向上させる、領域認識データ最適化フレームワークを導入します。さらに、厳選したデータ選択と強化学習に基づく漸進的事後学習レシピを採用し、段階的な最適化を通じてモデルの性能をより高い水準に押し上げます。PaddleOCR-VL-1.6は、OmniDocBench v1.6において新たな最先端スコア96.33%を達成し、トップクラスのVLMに対して強い競争力を示すとともに、PaddleOCR-VLシリーズ向けの実用的な事後学習レシピを提供します。
インストラクションチューニングは、マルチモーダルモデルを含む大規模言語モデルを多様なユーザ意図に整合させるが、不均質な混合データへのスケーリングは勾配干渉と帯域幅を消費する同期によって妨げられる。本稿では、混合データの一部を独立に訓練し、パラメータ空間で一度だけそれらを調停することで、これら二つのボトルネックを同時に対処できるかを問う。共有された平坦な盆地内での局所二次理論を展開し、以下の三つの結果を得る:重みマージは曲率重み付き分散減少をもたらす;PCAに基づく競合分割は、高曲率方向に沿ってこの利得を最大化する;さらにマージは、暗黙のノルム正則化を伴うスペクトルフィルタリングとして機能する。これらの結果は、データセットレベルの勾配競合を推定し、上位PCA競合軸に沿って混合データを分割し、各分割を独立に(分割間通信なしで)ファインチューニングし、トークン重み付き平均化により一度だけマージする分散型マージ対応インストラクションチューニングパイプラインMERITを直接動機づける。136のVision-FLANタスクを持つQwen2.5-VL-3Bにおいて、MERITは8ベンチマーク平均を54.3(統合訓練)から57.0に向上させる。同じ手法は、176ソースからなる160万サンプルの混合データを用いた7Bモデルにもスケールし、最小限のコストオーバーヘッドで集中型統合訓練に匹敵またはそれを上回り、またテキスト専用FLANにも転用可能である。コードはhttps://github.com/naver-ai/meritで公開している。
具現化視覚ナビゲーション(エージェントが複雑な環境を知覚し、生の感覚入力から目標に到達するために行動する技術)は、家庭用サービスロボティクス、支援ロボティクス、大規模自律探査など、幅広い応用の基盤を成している。しかし、近年の視覚言語ナビゲーション(VLN)と物体目標ナビゲーション(ObjNav)を統合しようとする試みは、アーキテクチャの融合、混合タスク学習、大規模視覚言語事前学習の段階に留まっており、独立に学習された視覚エンコーダと言語エンコーダがすでに共通の意味構造を共有している可能性については検証されていない。さらに、物体中心のトポロジカルマップでさえ、CLIPや大規模視覚言語モデルなどの明示的なクロスモーダル教師信号を用いて言語目標を接地しており、純粋に視覚のみで構築されたマップからそのような接地が可能かどうかは未解決のままである。これらの課題に取り組むため、我々はプラトン的表現仮説を具現化ナビゲーションに拡張し、視覚のみのObjNav、クロスモーダルObjNav、VLNを、同一の物体中心意味多様体への3つの異なるインターフェースとして再定義する。さらに、学習不要のフレームワークであるPlatonicNavを導入する。そのPlatonicトポロジカルマップは、自己教師あり視覚エンコーダから幾何学的および意味的ノード距離を融合し、ペアとなる視覚言語データなしにブラインドマッチングを介して言語目標を接地する。HM3D-IIN、OVON、MP3D上のR2R-CEといったシミュレーションベンチマークにおける広範な実験と、Unitree Go2への実機展開により、PlatonicNavが明示的なクロスモーダル学習なしにタスク、モダリティ、エンボディメントにわたって汎化することが実証された。コード:https://github.com/AIGeeksGroup/PlatonicNav。ウェブサイト:https://aigeeksgroup.github.io/PlatonicNav。
長い思考連鎖(CoT)のトレースは、推論指向のLLM SFTにおける教師信号として広く利用されているが、回答が正しいトレースであっても、ファインチューニングの結果に著しい違いをもたらすことがある。本研究では、回答が正しい長CoTデータにおける「結論後の継続(post-conclusion continuation)」を検討する。これは、回答が十分に裏付けられているように見えるにもかかわらず、トレースが追加の推論を続け、それが教師対象に含まれる現象である。その訓練効果を検証するため、削除のみのエディタ(delete-only editor)を用いて、回答を維持したままサフィックスを除去する処理を行い、元のトレースと処理後のトレースに基づくCoTベースのSFTを比較した。その結果、エディタが特定した結論後の継続を除去した後のSFTの結果が改善されることが観察され、本設定においてこの継続が訓練に有害であることが示唆された。そこで、この経験的に裏付けられた現象を「有害継続(harmful continuation)」と呼ぶ。さらに、この介入に加え、除去された結論後の継続を不確実性と隠れ状態の進行度(hidden-state progress)の観点から特徴付けた。局所的な不確実性が持続するとともに、終端方向への進行度が弱まり、不確実性と幾何学的特性のミスマッチ(uncertainty–geometry mismatch)が形成されることを確認した。最後に、エディタが特定した結論後の継続の境界を近似する軽量な境界代理手法として、「有害継続カット(HCC: Harmful Continuation Cut)」を実装した。
オンポリシー蒸留(On-Policy Distillation, OPD)は、強力な教師モデルからの高密度なトークンレベルのフィードバックのもとで、生徒モデル自身の生成軌跡に対して学習を行う手法であり、教師ありファインチューニング(SFT)におけるオフポリシー分布シフトと、強化学習(RL)における疎なクレジット割り当ての両方を緩和する。しかし、標準的なOPDには相互に関連する二つの限界がある。第一に、教師のトークンレベルのロジットへの直接アクセスを必要とするため、広範な高性能プロプライエタリモデルを教師として利用できない。第二に、トークンレベルのロジット信号自体が脆弱であり、教師と生徒の間で妥当な次トークンの重なりが狭いことに依存し、繰り返しループのような劣化パターンを増幅しやすい。本論文では、ロジットを必要とせずチャンク単位の教師信号を用いる新たな枠組み、OmniOPDを導入する。OmniOPDは、決定的なロジットマッチングを、連続的な意味的類似度指標に基づいて複数トークンのチャンクに対する教師の局所的な選好を近似するモンテカルコロールアウトに置き換え、さらに、生徒の高不確実性な推論分岐点でのみ監査を行うピークエントロピースケジューラによってこの教師信号を集中させる。ディリクレ多項ベイズ事前分布とベースモデルKLアンカーは、離散サンプリングの分散をさらに抑制し、監査されないトークンにおける方策崩壊を防ぐ。競争力のあるベンチマークにおいて、OmniOPDは標準的なOPD手法を数学で最大+28.64%上回り、チャンク単位の意味検証がトークンレベルのロジットマッチングよりも信頼性の高い学習信号を抽出できることを確認した。トークンレベルのロジットマッチングは情報密度が高いものの、それに伴うノイズと脆弱性によってその利点が相殺されるのである。さらに、Claude-4.5-HaikuやGemini-2.5-Flashなどの強力なブラックボックス教師と組み合わせると、OmniOPDはオープンウェイト教師を用いた場合と比較して数学で相対+9.54%の向上を達成し、生徒モデルを自己探索型RLの性能を超える水準へと押し上げる。
現在の音楽類似度モデルは、通常、単一の包括的なスコアを算出し、メロディ、リズム、音色といった異なる音楽的次元を混在させている。これにより、ユーザーの制御性や解釈可能性が制限され、微妙な違いを考慮したクエリの実行が不可能となる。本稿では、これら三つの主要な次元に特化した、分離された因子固有の音楽表現を学習するフレームワークであるMERITを提案する。実世界の音響データには、個別の音楽的変化が欠如しているという課題に対処するため、条件付き音声生成と音源分離されたステムを活用した新規な訓練戦略を導入し、訓練データにおいて単一因子の変動を強く促進する。評価の結果、因子ごとの分離が強力に達成されていることが示された。各ヘッドは、意図された知覚次元に対して強い応答を示す一方、他の次元についてはほぼ偶然レベルの応答に留まり、この表現特性は合成訓練領域と独立した実世界音響の両方で一貫して確認された。
推論モデルは思考連鎖の拡張によって精度を向上させるが、その長い出力はメモリと計算のボトルネックを生み出す。KVキャッシュ追い出し手法は、重要でないキーと値のペアをキャッシュから追い出すことでこのコストを削減するが、完全なKVキャッシュを保持する選択ベースのスパースアテンション代替手法よりも精度が低くなることが多い。我々は、KVキャッシュ追い出しの精度に重要な要因を特定する。第一に、少数の値状態が異常に大きな大きさを持ち、それらを追い出すとモデルが反復的な推論ループに入るという壊滅的な失敗を引き起こす。第二に、追い出し中に確率性を導入することでキャッシュの多様性が向上し、精度が改善される。これらの発見に基づき、我々は値認識確率的KVキャッシュ追い出し(VaSE)を提案する。これは、大きな大きさの値状態を保護し、多様な追い出し判断を促進する学習不要の手法である。6つの推論タスクにおいて、VaSEを用いたQwen3モデルは、同じスパース性でSOTA選択手法よりも高い平均精度を達成し、最も強力な追い出し手法を4%以上上回る。全体として、VaSEは効率性と精度のギャップを埋め、FlashAttention2をサポートし、推論モデルに静的なメモリフットプリントを実現する。
有限要素解析(FEA)は固体力学において最も重要な数値解析手法である。FEAの課題としては、初心者にとって学習曲線が急であることや、境界条件、荷重ケース、解変数などの主要なシミュレーション構成要素の誤った定義による擬似シミュレーションの可能性が挙げられる。実際の問題解決には通常、長年の工学的経験が必要である。これらの課題に対処するため、我々は大規模言語モデル(LLM)に基づくマルチエージェントフレームワークAbaqusAgentを提案する。AbaqusAgentは、最も広く使用されているFEAパッケージの一つであるAbaqusを用いた解析ケースの生成と実行を促進するために開発され、ユーザーの自然言語指示を実行可能なFEA解析と結果の可視化に変換する。AbaqusAgentは、インタプリタ、アーキテクト、入力ライター、ランナー、レビュアー、ビジュアライザーの6つのエージェントから構成され、標準的なFEA解析の全ての重要な前処理および後処理ステップを包含する。50種類の多様な固体力学問題が正常に検証され、全体の成功率86%を達成した。固体力学問題に対するFEAの効率を向上させ、計算力学教育の障壁を低減するだけでなく、AbaqusAgentは人間とシミュレーションの相互作用パラダイムを前進させ、AIによる最適化や材料特性評価ワークフローとの統合を可能にする。コードは https://github.com/LIRAM-LIN/AbaqusAgent で入手可能である。
大規模言語モデルは汎用的な能力において顕著な進歩を示しており、ドメイン固有のデータによるファインチューニングを通じて特定の領域で高い性能を達成することができる。しかし、対象ドメインの高品質なデータを取得することは依然として大きな課題である。既存のデータ合成手法は演繹的なパラダイムに従い、自然言語で表現された明示的なドメイン記述と注意深いプロンプトエンジニアリングに大きく依存しており、ドメインの記述や形式的な表現が困難な現実世界のシナリオでは適用性が制限される。 本研究では、ドメイン特性を自然言語で表現することが困難な場合に特に、対象ドメインが参照サンプルの集合によってのみ定義される帰納的パラダイムを通じて、未だ十分に探求されていないドメイン固有データ合成の問題に取り組む。我々は、参照サンプルから最小限かつ十分なドメイン表現を学習し、それを活用してドメインに整合した合成データの生成を導く新しいフレームワークDOMINOを提案する。 DOMINOは、プロンプトチューニングと対照的ディスタングルメント目的関数を統合し、ドメインレベルのパターンをサンプル固有のノイズから分離することで、過学習を軽減しつつ中核的なドメイン特性を保持する。理論的には、DOMINOが合成データ分布のサポートを拡張し、より大きな多様性を保証することを証明する。経験的には、ドメイン定義が暗黙的である困難なコーディングベンチマークにおいて、DOMINOによって合成されたデータでファインチューニングを行うことで、強力なインストラクションチューニング済みバックボーンと比較してPass@1精度が最大4.63%向上し、その有効性とロバスト性を示している。 本研究は、ドメイン固有データ合成の新しいパラダイムを確立し、手動によるプロンプト設計や自然言語によるドメイン仕様を必要とせずに、実用的でスケーラブルなドメイン適応を可能にする。
計算社会科学の核心的な目標の一つは、政治的信条や指導の質といった関心のある結果に応じて言語がどのように異なるかについて、解釈可能な差異を発見することである。近年のLLMに基づく仮説生成手法は、このような差異を自然言語で記述するが、研究者の領域知識に基づいてデータを形成する共変量を考慮せずに、全体的に識別力のあるパターンを選択する。共変量が無視されると、選択されたパターンは実質的な関心対象の差異ではなく、交絡を反映することになる。本稿では、研究者が指定した共変量を組み込むことで、関連するサブグループ内で成立する差異へと仮説発見を誘導するフレームワークである、条件付き仮説生成を導入する。ここで二つの課題が生じる。すなわち、対象サブグループの過小代表性(層の不均衡)と、サブグループ間で差異の方向が逆転する可能性(符号反転)である。我々は、計量経済学に着想を得た二つの手法を提案する。一つは特徴量と共変量の交互作用を導入して符号反転を検出する手法、もう一つは層内平均差し引きと逆頻度再重み付けを適用して過小代表な層を均等化する手法である。合成実験により、各手法が標的とする設定において全体的なベースラインを上回る性能を示し、二つの実世界データセットに関する専門家評価により、共変量を考慮した生成が、関連サブグループ内でより有用な仮説を導き出すことが確認された。
軟らかい境界(例:髪の毛や焦点ぼけ)を正確にモデル化することは、ステレオ変換における基本的な課題であり、前景と背景の曖昧な混合が原因となる。既存の深度モデルは主に単一層の深度を予測するため、軟らかい境界における深度対応に曖昧さが生じる。マット手法は層状モデリングのための不透明度を捉えることができるが、複数の対象を含む複雑なシーンでは困難を伴い、通常はユーザーの介入を必要とする。本稿では、軟らかい境界を分解する層状表現であるαDepthを導入し、高忠実度のステレオ変換を実現する。具体的には、まず軟らかい境界における混合された色と深度の曖昧さを、層状の色と深度値を推定することで解消する。複雑な複数対象シーンに対処するため、円形アルファ表現(CAR)を設計し、グローバルな対象抽出から局所的な境界分解へとパラダイムを転換する。従来のマット手法は単一の前景/背景に制限されていたのに対し、CARは手動ガイダンスなしで効率的なシーンレベルの推論を可能にする。広範な評価により、αDepthはステレオ変換において最先端の性能を達成し、軟らかい境界における背景の滲みや構造的歪みを除去することが示された。
リアルタイムビジョンでは、多様なハードウェアにわたって正確かつ効率的で、簡単にデプロイ可能なモデルが求められる。YOLOファミリーはこの理由から広く展開されてきたが、ほとんどのYOLO検出器は依然として推論時に非最大値抑制(NMS)に依存し、Distribution Focal Lossにより重い検出ヘッドを抱え、長い学習スケジュールを必要とし、最も小さい物体にポジティブラベル割り当てが行われないという課題がある。本稿では、これらの制約をアーキテクチャと学習の進歩を通じて解決する統合リアルタイムビジョンモデルファミリー、Ultralytics YOLO26を提案する。YOLO26は、デュアルヘッド設計によりNMSフリーなエンドツーエンド推論を実現し、DFLを完全に排除することで、制約のない回帰範囲を持つ軽量なヘッドを実現する。その学習パイプラインは、大規模言語モデルの学習から適応したハイブリッドMuon-SGD最適化器MuSGD、推論時のヘッドに監視をシフトするProgressive Loss、そして小物体に対してポジティブなカバレッジを保証するラベル割り当て戦略STALを組み合わせる。検出に加えて、YOLO26はインスタンスセグメンテーション、姿勢推定、回転検出向けのタスク固有のヘッドと損失設計を導入し、タスクとスケールにわたって一貫した性能向上をもたらす。本ファミリーは5つのスケール(n/s/m/l/x)にわたり、単一パイプラインで検出、インスタンスセグメンテーション、姿勢推定、分類、回転検出をサポートし、テキスト、ビジュアル、プロンプトフリー推論のためのオープンボキャブラリ拡張YOLOE-26も備える。全スケールにおいて、YOLO26はCOCO上で40.9~57.5 mAP、T4 TensorRTレイテンシ1.7~11.8 msを達成し、従来のリアルタイム検出器を超える精度-レイテンシのパレート最前線を更新する。また、YOLOE-26xはテキストプロンプト下でLVIS minival上で40.6 APを達成する。コードとモデルは https://github.com/ultralytics/ultralytics で入手可能である。
エージェントスキルは、AIエージェントに再利用可能な指示、ツール、スクリプト、参照情報、ワークフローを拡張し、モデルの安全性や従来のパッケージマルウェア検出とは異なるセキュリティ境界を確立する。ClawHub Security Signalsは、67,453個の最新の公開OpenClawスキルバージョンからなるサニタイズ済みデータセットである。各行は、編集済みのSKILL.mdコンテンツと、存在する場合はサニタイズされたバンドルファイルを、最終的なClawScanレジストリ判定および3つのスキャナファミリー(VirusTotal、静的ヒューリスティック分析、NVIDIA SkillSpector)からの証拠と組み合わせている。 悪意あるスキルの普及率を推定する代わりに、我々はスキャナ間の不一致を研究する。3つのスキャナが同じスキルをフラグすることはまれであり、任意のペアの組み合わせた陽性のうち最大10.4%しか重複せず、3つすべてでフラグされるスキルはわずか0.69%であり、フラグされたスキルの81.9%は単一のスキャナによって特定される。この不一致は攻撃面によって構造化されている。SkillSpectorは、マルウェア評判シグナルではなく意味論的なエージェントリスク勧告を発するものであり、25,504の疑わしい行のうち19,209(75.3%)で陽性であるが、206の悪意ある行のうちわずか14(6.8%)で陽性である。悪意判定領域は逆のプロファイルを示しており、206の悪意ある行のうち150(72.8%)がVirusTotal陽性であり、これはバンドルコードのマルウェア証拠と一致する。 これらの結果は、エージェントスキルのセキュリティには単一スキャナによる許可/ブロック判断ではなく、階層的なガバナンスが必要であることを示している。このコーパスはサニタイズされたシルバースタンダードデータセットとしてリリースされる。ラベルはレジストリの自動判定であり、人間が注釈付けたグラウンドトゥルースではなく、このリリースは初期のバージョン管理されたスナップショットであり、人間が注釈付けたサブセットが開発される間、コミュニティを支援することを目的としている。スキルセキュリティトリアージに特化したモデルを含む、さらなる研究が奨励される。
KVキャッシュはデータセンター向けのメモリとしては適切であるが、ロボット向けとしては不適切である。データセンターの推論では多数の短いリクエストをバッチ処理してリセットし、注意機構のキャッシュを群衆全体で償却する。一方、身体化エージェントは帯域幅に制約のあるエッジハードウェア上で、リセットしない単一の長時間エピソードを実行する。この環境では、高帯域幅メモリやフラッシュメモリが不足し、フラッシュメモリの書き込み耐久性が有限であり、メモリ書き込みが計算処理ではなく制約要因となる可能性がある。 AURA-Mem(Action-Utility Recurrent Adaptive Memory)はこの領域を対象とする。本手法は、凍結された視覚-言語-動作バックボーンを、固定サイズのリカレントメモリと学習可能なゲートでラップする。このゲートは、現在の観測が次の動作を変化させる場合にのみ書き込みを行う。すなわち、沈黙すべきタイミングを知るメモリである。再構成ベースのメモリとは異なり、このゲートは閉ループの動作誤差信号に対して直接訓練される。その推論状態は、地平線の長さに関わらず4,224バイトに固定されている一方、KVキャッシュは10万ステップで6,061倍に拡大する。 制御された合成ベンチマークでは、AURA-Memは最高性能のO(1)ベースラインと同等の精度を達成しつつ、書き込み回数を5.19~6.13倍削減し、より容易な構成では最大9.19倍削減する。予算を一致させたランダムスケジュールや周期スケジュールではこの利得は再現されず、その効果が行動驚き信号(action-surprise signal)に起因することが確認される。LIBERO-Long(各アーム60エピソード、n=60)上で訓練済みの閉ループOpenVLA-OFT 7Bパネルを用いた評価では、ゲートは成功率に悪影響を与えない。AURA-Memは非ゲートのベース方策(0.233)と同等の性能を示し、常時書き込みを行うKVアーム(0.217)をわずかに上回りつつ、書き込み回数を7.0倍削減し、メモリを一定に保つ。また、方法論の実証として、近似情報状態価値損失の上界も実装する。この規模では、この上界は保証というより空虚なものとなる。
産業用ビジュアルsim-to-realは、しばしば合成画像から実画像への転送として説明されるが、産業展開では通常、利用可能な証拠と必要な判断の間により広範なミスマッチが伴う。システムは、CADレンダリング、シミュレーションRGB-D観測、正常参照画像、合成欠陥、事前学習済み特徴空間、または言語プロンプトから構築される可能性があるが、異なるセンサー、照明、素材、治具、キャリブレーション、製造バリエーション、および稀な欠陥モードの下で展開される。本レビューでは、産業用ビジュアルsim-to-realを、事前の利用可能性によって整理されたドメインギャップ問題として再構成する。我々は、明示的な物体形状がレンダリング、キャリブレーション、ポーズ推定、セグメンテーション、およびテスト時幾何検証をサポートできるCAD利用可能設定、形状が正常参照外観、特徴分布、教師-生徒残差、合成異常仮定、基盤特徴、または視覚言語事前知識に置き換えられるCAD非利用可能設定、ならびに近似モデル、テンプレート、参照ビュー、または意味対応がCADの役割の一部のみを保持する境界事前設定を区別する。この枠組みは、通常は別々にレビューされるCADベースの検出および6Dポーズ推定文献と、産業用異常および表面検査文献を結びつける。この分類法を具体化するために、T-LESS/BOP、MVTec AD、VisAに関する経験的アンカーを使用する。アンカーは、CADレンダリング数だけでは転送を完了せず、ソース分布設計、検出器容量、および少数の実キャリブレーションがより重要であることを示している。また、テスト時のCADは、マスク、ポーズ、深度の一貫性を通じて明確な検証チャネルを生成するのに対し、CAD非利用可能検査は、校正された正常性と特徴偏差に依存することを示している。したがって、本レビューは単一のクロスタスクリーダーボードに反対し、代わりに展開の決定を支える事前知識は何かを問う。
フィードフォワードモデルによる3次元再構成では、画像間の情報交換に深いクロスビューアテンションを用いることで高い性能を達成している。しかし、これらの手法は多くの場合、重厚なデコーダスタックに依存し、幾何学的精緻化のための構造化された機構が欠如しているため、マルチビュー一貫性が低いという問題がある。本研究では、古典的なバンドル調整(BA)から着想を得て、この問題に取り組む。BAは、ポーズと局所幾何形状間の反復的な情報伝播プロセスと見なすことができる。BAに触発され、我々はBA-Tを提案する。これは、BAスタイルの構造化更新を暗黙的トークン空間における反復可能な層として実装する反復型Transformerである。BA-Tは深いアテンションスタックに依存せず、単一の軽量層によって潜在残差に基づく予測を精緻化する。実験では、BA-Tが反復を重ねるごとにポーズと再構成精度を段階的に向上させ、従来のデコーダよりも強力なクロスビュー一貫性を達成し、デコーダパラメータを16%のみ使用しながら、はるかに大規模なモデルに匹敵またはそれを上回る性能を示す。BA-Tは、深いアテンションに代わるコンパクトで効率的かつ構造的な選択肢を提供し、軽量アーキテクチャ内での正確な3次元再構成を可能にする。コードはhttps://github.com/zhangganlin/BA-Tにて公開予定である。
LLMの活性化に基づいて訓練された線形プローブは、欺瞞検出の指標として提案されることが増えているが、クリーンベンチマークでは0.96を超えるAUROCを報告する一方、分布シフトの下で性能が崩壊する。本論文は、Gemma 3モデルファミリー(1B~27Bパラメータ)にわたってプローブベースの指標を体系的にストレステストし、単に失敗を記録するのではなく、その失敗の原因を診断する。我々は、欺瞞の符号化に関する4つの仮説を検証する:(1) 単一線形方向、(2) 多次元部分空間、(3) 凸円錐包、(4) エントロピープロキシ。我々の実験設計には、クロスドメイン転送行列、置換帰無仮説ベースラインを用いた多次元プローブ分析、エントロピー残差化テスト、および8つのスタイルシフトにわたるディストラクター評価が含まれる。我々は以下の知見を得た:(a) プローブはクリーンデータではほぼ完全なAUROC(>=0.998)を達成するが、スタイルシフトによって性能が崩壊する。スタイル拡張プローブは未見のスタイルに対してほぼ完全な検出(平均AUROC 0.979-0.983)を回復する。(b) 単一方向仮説は棄却される(k=1ではAUROC 0.61-0.80のみ捕捉)。クロスドメイン転送の失敗は、層の不一致ではなく幾何学的要因によるものであることが確認された。(c) エントロピープロキシ仮説は棄却される(最大|ρ|=0.454、残差化後の最大Δ-AUROC=0.004)。(d) 欺瞞は有意な線形部分空間を形成しない(ドメインごとの最適次元k*=0)が、多次元プローブ(k>=5)は分布した閾値未満の特徴を通じて信号を回復する。プローブの脆弱性は、アーキテクチャ上の制限ではなく、分布の狭さを反映している。スタイル拡張プローブは4Bと27Bの両方でほぼ完全な検出を回復し、逆スケーリングパターンが真のスケール依存現象ではなく、学習分布の人為的産物であることを示している。
近年のマルチモーダル大規模言語モデルは、強力な推論能力を示している。しかし、自動評価器としての信頼性は、重要な脆弱性によって依然として制限されている。すなわち、視覚的証拠がテキストの手掛かりと矛盾する場合、MLLM(マルチモーダル大規模言語モデル)判別器は、知覚的に正しい回答よりも、もっともらしい物語を優先する傾向がある。本稿では、この現象を特定し、体系的に分析する。我々はこれを「知覚的判断バイアス」と命名する。制御された視覚的摂動を通じて、既存のマルチモーダル判別器は、自身の視覚的知覚ではなく、応答テキストに頻繁に固執し、一貫性がなく検証不可能な評価をもたらす。この問題に対処するため、我々は「知覚的摂動判断データセット」を導入する。これは、知覚的誤りを分離し、検証可能な監視を可能にする最小限に編集された反実仮想的応答を構築する。このデータセットに基づき、構造化されたGRPOベースの報酬とバッチランキング目的関数を組み合わせた統一訓練フレームワークを開発し、明示的なペアラベルなしで整合性のある大域的順序付けを達成する。多様なMLLM-as-a-Judgeベンチマークにおける実験により、我々のアプローチが、知覚的忠実性、ランキングの整合性、人間評価との一致を大幅に改善することが示される。本研究結果は、知覚的に根拠付けられ、解釈可能であり、視覚-推論の競合に対して頑健なマルチモーダル判別器を訓練するための、スケーラブルで一般化可能な経路を確立するものである。
WALL-WMは、映像-行動学習をチャンク中心の最適化からイベント基盤の視覚-言語-行動(VLA)事前学習へと転換させる世界行動モデルであり、意味的に一貫した行動イベントを学習の基本単位として用いる。既存のWAMは一般にマルチモーダルまたは映像基盤モデルから初期化され、現在の観測と指示に直接条件付けられた固定長の行動チャンクを最適化する。便利ではあるが、このチャンク中心の定式化は根本的な粒度のミスマッチを生む。言語は意味的な目標やイベントを記述し、映像は連続的なシーンのダイナミクスを通じて変化し、行動は制御レベルの時間スケールで動作する。これら三つを同一の固定長予測ウィンドウに押し込むことは、VLA学習を短期相関のフィッティングに変えてしまう。WALL-WMは、教師信号とデータの両方を意味的イベントに基づいて整理することで、このミスマッチに対処する。具体的には、イベントレベルのキャプションとクラスタバランスサンプリングから構築されたデータエコシステムと組み合わせたイベント基盤VLA事前学習を導入し、多様な行動、シーン、タスク構造にわたるスケーラブルな学習を可能にする。同一のイベント事前学習済みバックボーンから、WALL-WMは二つの相補的な推論モードをサポートする。イベントモードは次のイベント記述を入力として可変長の実行チャンクを生成し、統合モードはStaircase Decodingを用いたVLMにより従来の固定長チャンク推論を条件付けつつ、勾配連続なVLA経路を保持する。Muonオプティマイザに基づく大規模事前学習インフラと相まって、WALL-WMは汎用WAMのための実用的なスケールアップレシピを提供する。実験では、WALL-WMが言語、シーン、タスクにわたり広範に汎化し、大規模実世界汎化評価において最先端の性能を達成することを示す。