翻訳付きの日次キュレーションされたAI研究論文
視覚言語モデル(VLM)は一般的に、ビジュアルグラウンディングと検出を座標トークン生成問題として定式化し、各2Dボックスを複数の1Dトークンに系列化して、それらをほぼ独立に学習・デコードする。このトークン単位のデコードは、ボックス幾何の結合構造とミスマッチを生じるとともに、厳密な逐次生成による実用的な推論ボトルネックを生み出す。本稿では、並列ボックスデコード(PBD)に基づく統一型生成グラウンディング・検出フレームワークであるLocateAnythingを提案する。バウンディングボックスや点などの幾何要素を原子単位として単一ステップでデコードすることで、LocateAnythingはボックス内の幾何的一貫性を保持し、大幅な並列性を実現する。PBDがデコードスループットと位置特定精度の両方を向上させることを示す。さらに、スケーラブルなデータエンジンを開発し、1億3800万以上のトレーニングサンプルを含む大規模データセットLocateAnything-Dataをキュレーションすることで、高精度位置特定のためのデータ多様性を大幅に向上させる。広範な評価により、LocateAnythingは速度と精度のフロンティアを前進させ、デコードスループットを大幅に向上させると同時に、多様なベンチマークで高IoU位置特定品質を改善することを示す。これらの結果は、並列ボックスデコードと大規模トレーニングデータが、効率的かつ高精度な統一ビジュアルグラウンディング・検出を可能にする相補的な利点を浮き彫りにしている。
生成的動画基盤モデルの急速な進化により、この分野はプロ級の映画品質合成へと押し進められている。このような高度な品質を達成するため、研究コミュニティは強化学習(RL)やエージェント型ワークフローへと移行しつつある。しかし、信頼性の高い評価が重大なボトルネックとして浮上している。既存のベンチマークは主として「それが正しいかどうか」(基本的なプロンプト追従)を評価する一方で、「それが良いかどうか」(映画品質、演技、美学)を根本的に無視している。さらに、現在の自動指標は、信頼できるシグナルを提供するために必要なドメイン固有の厳密性を欠いており、人間の美的知覚と機械のスコアリングの間には深刻な信頼性ギャップが生じている。このギャップを埋めるために、我々はEvalVerseを導入する。これは、包括的で、パイプラインを認識し、専門家によって調整された評価フレームワークである。我々は動画生成評価を単なる工学的タスクとしてではなく、根本的な科学問題、すなわち主観的な映画制作の専門知識を体系的にデジタル化するものとして扱う。第一に、ドメイン知識をプロフェッショナルな映画制作ワークフロー(プリプロダクション、プロダクション、ポストプロダクション)に沿った評価分類法として整理する。第二に、人間の専門家による判断を大規模な人手アノテーション付きキュレーションデータセットに蒸留する。第三に、この知識を専門家調整されたファインチューニング戦略を通じて視覚言語モデル(VLM)に注入し、VLMが明示的な思考連鎖推論を実行できるようにする。これまでの研究と比較して、EvalVerseは基礎的な「正しさ」の指標との互換性を維持するだけでなく、「良さ」へと基準を大幅に拡張し、複雑なマルチショットシーケンスや視聴覚統合へとタスク範囲を広げる。その結果、詳細な診断シグナルを提供することにより、EvalVerseは静的なリーダーボードを超越し、将来の研究(報酬モデルや評価エージェントなど)のための基盤インフラを確立する。
空間基盤モデルは標準データセットにおいて顕著な性能を示している一方で、重要な疑問が残る。それは、多様な下流タスク、任意の視点、変化するシーンドメイン、可変の入力密度、特定のハードウェア制約に対してロバストに汎化できる真のオールラウンドプレイヤーなのか、という点である。この包括的な問いに答えるには全体的な評価が必要であるが、現在のモデルは主に、それらが特別に設計・訓練された特定のドメインで評価されている。こうした評価は、本質的に狭いパラダイム範囲、限られたシーンドメイン、任意のフレームサンプリングによって制限されており、真の汎化能力を評価することは根本的に困難である。このギャップを解消するため、我々は決定論的サンプリングを備えたクロスパラダイムかつドメイン多様な空間基盤モデル用ベンチマーク「SpatialBench」を提案する。SpatialBenchは前例のない規模と厳密な決定論的設計を特徴とし、5つの多様な空間ドメインにわたる19のデータセットと546のシーンを含む。また、6つのパラダイムにわたる41のモデルを、4つの異なる入力密度設定下で5つのタスクスイートについて包括的に評価する。我々の広範な評価により、現在のモデルはまだオールラウンドプレイヤーではないことが明らかになり、将来の進展に向けた重要な知見が得られた。具体的には、フルコンテキストアテンションが精度を最大化する一方、有界メモリ戦略が長シーケンスのスケーラビリティを実現することを実証した。さらに、挑戦的な身体性・自己中心性タスクにおける実証評価から、厳密なドメイン整合性と高品質なデータが、単純なデータセットのスケーリングよりも性能に決定的に重要であることが示された。そして、分析で特定された最大のデータギャップに対処するため、評価を超えて大規模データセット「DA-Next-5M」と強力なベースラインモデル「DA-Next」を導入し、空間表現学習の限界を押し広げる。
我々は、プロプライエタリなバックエンドを再現することなくインタラクションの忠実性を重視し、日常的なモバイル利用を対象とした、ブラウザ上で動作する軽量で完全に制御可能な環境MobileGymを提案する。これにより、従来の日常的なアプリでは不可能であった2つの機能、すなわち構造化JSON状態に基づく決定論的な状態ベース評価による検証可能な結果シグナルと、低コストな並列ロールアウトによるスケーラブルなオンライン強化学習が実現される。環境の完全な状態は構造化JSONとして取得、設定、分岐、比較され、単一サーバで数百の並列インスタンスをホストでき、インスタンスあたり約400MBのメモリと約3秒のコールドスタートを要する。階層的な状態モデルと宣言的なタスク定義フレームワークにより、状態のプログラマビリティとタスク作成を大規模に実用的に保ち、単一のプログラム評価機構が決定論的な評価判定と密なRL報酬の両方を提供する。付属のMobileGym-Benchは、28のアプリにわたる416のパラメータ化されたタスクテンプレート(256のテストテンプレートと160のトレーニングテンプレートを含む)を提供し、決定論的な評価機構と、自由テキストマッチングの失敗を回避する構造化AnswerSheetプロトコルを備える。Sim-to-Realのケーススタディでは、Qwen3-VL-4B-Instruct上のGRPOが256タスクのテストセットで+12.8パーセンテージポイント向上し、59タスクの実デバイス信号サブセットでは、実デバイス実行がシミュレーション側のトレーニング効果の95.1%を維持した。プロジェクトページ: https://mobilegym.github.io
多視点3D再構成は、フィードフォワード型3D再構成モデルの登場により目覚ましい進展を遂げている。しかし、これらのモデルは通常、劣化のない理想的な撮影条件下で学習・評価される一方、実際の観測データには、そのような設定とは大きく異なる劣化が含まれることが多い。そのため、劣化条件下での多視点3D再構成の頑健性を向上させることは、引き続き重要な課題である。本稿では、フィードフォワード型3D再構成モデルの特徴空間において、拡散モデルに基づく多視点復元を直接実行する新たなフレームワーク「幾何学認識表現ノイズ除去(GARD)」を提案する。本設計は、3D再構成器の幾何学認識特徴表現を活用し、正確なシーン形状の復元を効果的に実現する。さらに、追加のRGB画像デコーダを用いることで、精緻化された特徴表現から高品質なRGB画像の復元も可能となり、3Dシーン形状と高品質画像の同時復元を実現する。Depth Anything 3(DA3)ベンチマークにおける包括的な実験により、提案するGARDフレームワークの有効性が実証された。
音声・視覚生成は短いクリップから数分のコンテンツへと急速に進展しているが、既存の評価プロトコルは主に短尺形式に限定されたままである。既存のベンチマークは主に5~10秒のテキスト条件付き生成に焦点を当てており、テキスト、画像、動画の条件付けモダリティを横断した統合評価をほとんどサポートしていない。さらに、アイデンティティの一貫性、ナラティブの整合性、音声と視覚の同期が長時間にわたってどのように劣化するかについての洞察は限られている。このギャップを埋めるために、我々はLongAV-Compassを導入する。これは、1分間の音声・視覚生成のための体系的なベンチマークである。LongAV-Compassは、テキストから音声動画(T2AV)、画像から音声動画(I2AV)、動画から音声動画(V2AV)にわたる284の厳選されたテストケースを含み、アプリケーションシナリオと生成複雑性によって整理されている。本ベンチマークは、分類学に基づくベンチマーク構築と、MLLM支援評価をDINO-v2、ArcFace、CLIP、ImageBindなどの補完的な知覚・マルチモーダル指標と統合した統一評価フレームワークを組み合わせている。このフレームワークは、セグメント内品質、セグメント間一貫性、全体的なナラティブの整合性、意味的アライメント、音声と視覚の同期をカバーする20以上の細かい次元を評価する。11の代表的なモデルに対する実験と人間によるアライメント検証を通じて、LongAV-Compassは、多様な入力モダリティにわたって一貫性、意味的アライメント、時間的整合性を維持する1分スケールの音声・視覚生成における現在のシステムの限界を分析するための診断テストベッドを提供する。
拡散型大規模言語モデル(D-LLM)が自己回帰型大規模言語モデル(AR-LLM)の代替として登場したにもかかわらず、D-LLMに対する安全性監視はほとんど未開拓のままである。AR-LLMとは異なり、D-LLMは多段階のノイズ除去プロセスを通じてテキストを生成し、標準的な単一段階の監視設定では利用できない安全性関連情報を含む可能性のある中間隠れ表現を露出させる。常時監視に適した軽量プローブの利点に動機づけられ、我々はどの軌跡レベルの信号が、そのようなプローブが困難に直面する可能性を最もよく示すかを分析する。その結果、最も情報量の多い信号は安全性のためらい、すなわち中間隠れ状態がプローブの決定境界の僅かなマージン内に繰り返し収まることであることがわかった。D-LLMの軌跡におけるそのようなためらいステップの数は、プローブの失敗を効果的に予測し、サンプルの難易度の代理指標を提供する。この分析に基づき、我々はD-LLM向けの二段階安全監視機構であるD^2-Monitorを提案する。D^2-Monitorは、常時稼働の監視機構として軽量プローブを採用し、ためらいの推定と基本分類を共同で行う。ためらいのレベルが閾値を超えると、より表現力が高いが計算負荷の大きいプローブが起動される。この動的ルーティング機構により、テスト時に監視リソースを効率的に配分できる。3つのデータセット(WildguardMix、ToxicChat、OpenAI-Moderation)において4種類のD-LLMで評価した結果、D^2-Monitorはコンパクトなパラメータ規模(0.85Mパラメータ以下)で最先端の性能を達成し、有効性と効率性の間で最良のトレードオフを示した(8つのベースラインと比較して)。
本稿では、最小限の活性化で最大限の実世界知能を引き出すという原則に基づいて設計された、Mixture-of-Experts言語モデル群であるMiniMax-M2シリーズを紹介する。フラグシップモデルであるM2は総パラメータ数229.9Bであり、トークンあたりの活性化パラメータはわずか9.8Bである。エージェント展開をエンドツーエンドで想定して設計されたM2シリーズは、以下の3つのコンポーネントに基づいている。(i)エージェント駆動型データパイプライン。これは、エージェント型コーディングおよびエージェント型コワークにおける大規模で検証可能な軌跡を生成し、それぞれ実行可能なワークスペースとアーティファクトに整合した報酬に基づく。(ii) Forge。スケーラブルなエージェントネイティブ強化学習システムであり、長期的なエージェント軌跡に適応し、ウィンドウ化FIFOスケジューリング、プレフィックスツリーマージ、推論最適化、およびホワイトボックスエージェントとブラックボックスエージェントの両方をサポートするクリーンな学習-推論-エージェントの分離を備える。(iii)最新のM2.7チェックポイントは、自己進化への初期段階を示すものであり、自律的に学習実行をデバッグし、自身のスキャフォールドを修正する。M2からM2.7に至るまで、この組み合わせにより、少ない活性化パラメータという特徴を活かしながら、エージェント型コーディング、深層探索、オフィスタスク、および推論ベンチマークにおいて最先端レベルの性能を実現する。
本論文では、シリーズレベルの映画的リメイク、すなわち数百のショットにわたってナラティブ構造、振付動作、キャラクターのアイデンティティを厳密に保持しながら、スタイル変換や俳優の差し替えによって全エピソードや映画を変換する長期的なビデオ間生成問題を研究する。既存のビデオ生成・編集パイプラインは、大きなカメラ動作や視点変更の下で、増幅されるアイデンティティのドリフト、背景の変異、意味の浸食により、この領域ではしばしば機能不全に陥る。我々はSoap2Soapを提案する。これは、デュアルブリッジ一貫性機構を通じて長期的な言語-視覚的一貫性を強制するマルチエージェントフレームワークである。この機構は、永続的な意味的バックボーンとして機能するシーン認識型JSONスクリプトと、シーンレベルおよびショットレベルの両方で動的に割り当てられる視覚参照アンカーから構成される。ビデオ合成前のドリフトを抑制するために、我々はバッチキーフレーム一貫性を導入する。これは、グリッドベースの定式化により共有潜在コンテキスト内で複数のキーフレームを同時に生成するものである。閉ループ検証エージェントはさらに、アイデンティティ、安定性、整合性を監査し、選択的再生成をトリガーする。SoapBenchでの実験は、長期的な一貫性とナラティブの忠実性において、商用ビデオ生成APIを大きく上回る改善を示している。
テスト時間スケーリング(TTS)は、追加の推論計算を割り当てて解空間を探索することで、大規模言語モデルの推論能力を強化する。しかし、既存の並列TTS手法では、探索中に分岐が通常分離されたままとなり、中間的な発見は分岐内に限定され、他の分岐にタイムリーにガイドを提供できない。この情報の分離により、分岐が既に他の場所で見つかった情報を繰り返し再発見し、正解に達するために必要な完全な決定情報を収集するためにより多くの探索ステップを要するため、相当な冗長探索が発生する。このギャップを埋めるために、我々は協調的並列思考(CPT)を提案する。これは、並列分岐間での探索時の情報共有を可能にする訓練不要の推論フレームワークである。CPTは進行中の分岐からコンパクトな中間情報を抽出し、重複排除されたクエリレベルの情報プールを維持し、プールエントリを入力コンテキストを通じてブロードキャストすることで、後続の探索ステップにおける各分岐が、同じ情報を再発見するのではなく、他の分岐による発見を再利用できるようにする。実験的に、HMMTおよびAIMEベンチマークでの実験は、CPTがロールアウト予算とモデルスケールにわたって、強力なベースラインよりも優れた精度-レイテンシのパレートフロンティアを確立することを示しており、探索時の協調が効率的な並列TTSのための有効な方向性であることを強調している。
LLaVA-OneVision-2(LLaVA-OV-2)は、LLaVA-OneVisionシリーズにおける現時点で最も高性能な視覚言語モデルであり、幅広いマルチモーダルベンチマークにおいて優れた性能を達成している。本モデルはネイティブのOneVisionエンコーダを基盤とし、Windowed Attentionを導入することで、ネイティブ解像度を維持しつつ効率的な局所計算を実現している。その主要な進歩はコーデックストリームトークン化にある。すなわち、圧縮動画を連続的なビットコストストリームとして扱い、ビットコストの動的特性に基づいて適応的な時間グループを決定し、動き残差の手がかりを利用して顕著な空間的証拠をコンパクトな視覚キャンバスに選択する。この割り当てにより、限られたトークン予算をイベントを含むコンテンツに集中させることができ、固定された画像グループよりも安定した長尺動画のトークン圧縮が可能となる。さらに共有3D RoPEにより、コーデックキャンバス、サンプリングフレーム、画像を統一された時空間座標系に配置する。加えて、LLaVA-OV-2のデータおよび学習スタックは大規模なオープンな教師信号を中心に構築されており、事前学習用に約800万の再キャプション済み動画サンプル、ファインチューニング用に400万サンプルの空間コーパスを含む。また、既存の動画評価では過小評価されている、高頻度で高密度に繰り返される動作における細粒度の接地を対象とした時間的局所化ベンチマークであるJumpScoreを新たに導入する。LLaVA-OV-2の際立った能力は、動画理解、時間的接地、空間的接地、操作トレース推論にわたる統一的な知覚である。JumpScoreにおいて、LLaVA-OneVision-2-8Bは74.9のJumpScore mAPを達成し、Qwen3-VL-8B(30.1)を44.8ポイント上回る。同一ベンチマークにおいて同等の視覚トークン予算の下では、コーデックストリーム入力はフレームサンプリングに比べて時間的接地を9.7ポイント向上させる。標準ベンチマークにおいても、LLaVA-OneVision-2-8Bは動画タスクで平均4.3ポイント、空間タスクで5.3ポイント、追跡タスクで平均J&Fが15.6ポイント、それぞれQwen3-VL-8Bを上回る。
現代の大規模言語モデル(LLM)における正規化層は、決定論的な正規化演算と学習可能なスケールベクトルから構成される。正規化演算は広く研究されている一方、スケールベクトルはその広範な利用にもかかわらず、十分に理解されていない。本稿では、LLMにおけるスケールベクトルについて、表現力、最適化、アーキテクチャ構造の観点から体系的な研究を行う。第一に、スケールベクトルはモデルパラメータのごくわずかな割合を占めるに過ぎないが、それを除去するとLLMの事前学習が大幅に劣化することを実験的に示す。さらに理論によって、Pre-Normアーキテクチャにおいてスケールベクトルは表現力を高めるのではなく、後続の線形写像に対する自己増幅型のプレコンディショニング効果を通じて最適化を改善することを明らかにする。第二に、スケールベクトルに対する重み減衰の役割を調査する。Input-Norm層とOutput-Norm層を区別し、それらが最適化と表現力において異なる役割を果たすことから、重み減衰は前者には有益であるが後者には有害であることを理論的に示す。第三に、この理解に基づき、ブランチ固有の異質性、線形写像周辺の配置改善、大きさ-方向の再パラメータ化という3つの軽量かつ相補的な改善策をスケールベクトルに提案する。理論と実験の両方により、各改善策が一貫した利得をもたらすことを確認する。最後に、これらの改善策を統合したスケールベクトル戦略にまとめ、0.12Bから2Bパラメータの高密度モデルおよび混合専門家モデルに対して、複数の最適化手法と学習率スケジュールを用い、産業規模のトークンバジェットの下で広範なLLM事前学習実験により評価する。統合戦略は、十分に調整されたベースラインよりも一貫して低い最終損失を達成し、より好ましいスケーリング挙動を示す一方で、パラメータと計算のオーバーヘッドは無視できる程度である。
Vision-Language-Action(VLA)モデルは、事前学習済みのVision-Language Model(VLM)をポリシーバックボーンとして広く採用しているが、どのような種類の事前学習済みVLM表現がVLA初期化として有用であるかは、依然として不明である。本論文では、VLA初期化を、能力レベルの具現化VQA(視覚質問応答)監督、パラメータ更新戦略、ロボットデータ事前学習の三軸に沿った制御された表現設計問題として研究する。実験により、元の事前学習済みVLM表現が行動性能の重要な源泉であることが示された。しかし、具現化VQA適応は一律の利得をもたらすわけではなく、その利点は下流のボトルネックに依存し、異なる能力ドメインからの利得は単純に加算的ではない。更新戦略に関しては、LoRAが完全微調整よりも信頼性の高い初期化を提供し、事前学習済み表現を過度に変形するとVLA初期化を弱める可能性があることが示された。ロボットデータ事前学習はVLA初期化をさらに向上させ、最も強力な変種は段階的なLoRAベースの訓練によって得られる。これらの知見は、効果的なVLMからVLAへの適応には、行動学習に有用な事前学習済みVLM表現を保持しつつ、行動に関連する具現化信号およびロボット軌道信号を注入すべきであることを示唆している。
クリーンデータ予測を用いたフローマッチングは、クリーンな点への回帰が、周辺のノイズを含んだ量を予測するよりも、低次元構造をより効果的に活用できることを示している。我々は、画像を学習された潜在空間に写像した後でも、圧縮によって生の画素の変動の多くが除去されている状況で、この原理が依然として有用であるかを問う。我々はJLTを導入する。これは、凍結されたFLUX.2 VAE符号上で動作する130Mパラメータの潜在拡散Transformerであり、同一の表現、バックボーン、学習設定の下で、クリーン潜在変数予測と、それに対応する速度予測DiTを比較する。3つの変数x、ε、vは固定された破損時刻において線形変換可能であるが、局所ガウス解析により、速度回帰は等方的な目標共分散の下限を継承し、低分散の潜在方向を増幅する一方、クリーン予測はそれらを減衰させることが示される。ImageNet 256×256において、JLT-B/1は分類器不要ガイダンスによりFID-50K 2.50を達成し、速度予測に対して大きな一致した目標間のギャップを示す。これらの結果は、潜在拡散における予測目標が、互換可能な代数的パラメータ化ではなく、表現に依存する幾何学的選択であることを示唆している。
エージェント強化学習(RL)は、外部ツール使用能力を備えたLLMベースのエージェントの訓練に効果的であることが示されている。しかし、エージェントRL訓練は、冗長なツール呼び出しを増加させ、モデルの内在的知識境界を曖昧にするという問題を我々は特定する。すなわち、モデルがツールを必要とする場合とパラメトリック知識で十分である場合とを区別できなくなる。既存の報酬形成に基づく解決策は粗粒度の最適化目標を作り出し、無差別なツール呼び出し抑制を促進する傾向があり、報酬ハッキングを引き起こす。本論文では、AKBE(Agentic Knowledge Boundary Enhancement)を提案する。これは、訓練中に二経路(ツール有りとツール無し)のロールアウトを通じてモデルの内在的知識境界を動的に探査するオンポリシー手法である。知識境界を、ツールが必要かどうかのインスタンスごとの判断と、必要な最小限のツール呼び出し数として定義する。AKBEは、経路間の正解率比較により軌跡を分類し、各質問に対して効率的なツール使用パターンを導くための対象監視信号を構築する。これらの信号は、エージェントRL訓練ループにシームレスに統合される。7つのQAベンチマークによる実験では、AKBEは標準のエージェントRLと比較して、タスク精度を平均+1.85向上させ、ツール呼び出しを18%削減し、正確さと効率のトレードオフなしにツール生産性を25%向上させることを示す。さらに、異なるRLアルゴリズムに対するプラグアンドプレイ互換性と、各信号カテゴリのメカニズムについての分析を提供する。コードはhttps://github.com/CuSO4-Chen/AKBEで入手可能である。
大規模言語モデル(LLM)エージェントは、複雑なタスクを解決するために再利用可能なスキルに依存している。しかし、既存のスキル作成手法ではスキルを孤立した静的な成果物として扱うため、その再利用性、信頼性、および長期的な改善が制限されている。本稿では、MUSE-Autoskill Agent(Memory-Utilizing Skill Evolution)を提案する。これは、エージェントがスキルの作成、再利用、洗練を統一されたライフサイクル(作成、記憶、管理、評価、洗練)の下で継続的に行うことにより、タスク解決能力を向上させるスキル中心型エージェントフレームワークである。本フレームワークにより、エージェントは必要に応じてスキルを作成し、タスク間で保存・再利用し、効率的に整理・選択し、単体テストと実行時フィードバックを通じて評価し、継続的に洗練することが可能となる。さらに、タスク間で各スキルの経験を蓄積するスキルレベルの記憶を導入し、時間の経過とともにより効果的な再利用と適応を実現する。SkillsBenchでの実験は、ライフサイクル管理されたスキルがタスク成功率、効率性、再利用性、およびエージェント間転送を向上させるという初期の証拠を提供し、スキルを長期間持続し、経験を認識し、テスト可能な資産として扱うことの重要性を強調している。
ソーシャル・ディダクションゲームは、大規模言語モデル(LLM)エージェントにおける推論、欺瞞、協調、信念モデリングを探求するための人気のあるテストベッドとなっている。しかしながら、ほとんどの環境は勝率などのゲーム結果のみで評価され、テキストのみの相互作用に留まることが多く、エージェントの言語が実際にその知覚や行動に基づいているのか、あるいはその行動の背後にある失敗モードを特定することが困難である。このギャップに対処するため、我々はQUACKを導入する。これは、マルチモーダルな社会的推論におけるエージェント言語の接地を監査するためのオープンソース環境および評価フレームワークである。QUACKはエージェントをゲーム結果、行動軌跡、発話レベルの一貫性の3つの水準で評価する。その中核であるステートメント検証パイプラインは、エンジンログから各エージェントの真の行動軌跡を再構築し、それに対してすべての議論中の主張を照合することで、空間的幻覚、根拠のない非難、欺瞞の崩壊、言語と行動の不一致を自動的に検出する。3つの最先端VLMを同種および異種モデルが混在する敵対的設定の両方で評価した結果、最も強力なエージェントでさえ、検証可能な空間的主張の15.1%に幻覚を生じさせ、非難の半数以上を根拠のないまま行っていることが明らかになった。我々は、完全なエンジン、評価フレームワーク、ツールキット、ログをhttps://github.com/AAAAA-Academia-Attractions/QUACK で公開する。
検証可能な報酬を用いた強化学習(RLVR)による視覚推論は目覚ましい進歩を遂げている。しかし、マルチソース入力を扱う場合、既存の手法は単なる情報の蓄積として扱う傾向があり、追加の情報源を統合することで情報利得が得られるか、あるいは干渉が生じるかを区別する明示的な機構を欠いている。そのため、特に赤外線や深度など物理的特性や意味内容が大きく異なる情報源を統合する際に、動的な相互作用を効果的にモデル化できず、ある情報源が支配的な信号を有する場合にはモノソース推論よりも性能が劣ることになる。この問題に対処するため、我々はMARSという新たなモノアンカー型マルチソース推論フレームワークを提案する。本フレームワークは各視覚モダリティを独立した情報源としてモデル化する。具体的には、単一情報源の報酬を動的アンカーとして扱うことで、マルチソース融合によって導入される情報利得を明示的にアドバンテージ正規化に組み込み、RLVR中に情報源間の相互促進を適応的に強調しつつ、潜在的なノイズや競合を抑制する。理論解析により、本手法は勾配推定においてマルチソース統合によって導入される情報利得を効果的に定量化し、一貫したモダリティ調整を可能にする。実証結果においても、GRPOおよびDAPOにおいて多様なデータセットでそれぞれ平均3.2%および4.9%の性能向上を示し、本手法の有効性を確認している。
大規模言語モデル(LLM)は、実世界のタスクにおいてユーザーと協働する対話型エージェントへと進化している。このような環境での効果的な協働は、明示的に述べられた内容を超えてユーザーを理解することにますます依存している。なぜなら、ユーザーの意図は断片的な日常的やり取りに反映されることが多く、個別化されたモデリングと積極的な対話の両方を必要とするからである。しかし、既存のエージェントベンチマークは主に推論やツール使用を評価しており、現実的なシナリオにおけるユーザーの嗜好の推測と活用の課題をほとんど考慮していない。このギャップを埋めるため、我々は長期的なユーザー対話における個別化された積極的なエージェント行動を評価するベンチマーク、VitaBench 2.0を導入する。VitaBench 2.0では、タスクは個々のユーザーに対して時間順に整理された系列として構成され、嗜好は断片的で異質なやり取りに埋め込まれている。タスクを成功裏に完了するには、エージェントがこれらのやり取りから継続的にユーザーの嗜好を抽出、活用、更新する必要がある。さらに、エージェントが情報不足を認識し、意思決定前にユーザーや環境から積極的に情報を取得する必要があるタスクを通じて、積極性を評価する。系統的な分析を支援するため、拡張可能なメモリインターフェースを提供し、異なるメモリアーキテクチャ間の制御された比較を可能にする。我々は、最先端のプロプライエタリおよびオープンソースの多様なLLMをベンチマークする。結果は、現実世界での個別化が最先端モデルにとっても依然として非常に困難であり、現在の能力と実用的要件との間に大きなギャップがあることを示している。さらに詳細な分析により、現実世界での個別化意思決定における現在のエージェントの失敗モードと能力のボトルネックが明らかになり、将来のモデル改善への洞察を提供する。
活性化オラクルは、他のモデルの活性化を人間にとって可読にすることを目的としており、ホワイトボックス解釈可能性手法と比較して有望な結果を示している。しかしながら、このような活性化オラクルの自然言語出力に対する不確実性定量化(UQ)はこれまで研究が不十分である。本研究では、活性化オラクルの信頼度を推定する6つの異なる手法を調査し、それらの信頼度スコアの較正がどの程度良好であるかを評価する。オラクルあたり6,000サンプル(動詞化器とコンテキストプロンプトを変動)を用いた実験の結果、テストした手法のうちブートストラップ最頻値が最も較正の良い手法であること(Qwen3-8Bにおいて、回答語の対数確率のECE 25.5%に対し5.7%、Qwen3.6-27Bにおいて13.1%に対し10.3%)、および対数確率ベースラインが低コストで迅速なトリアージ信号として機能することが明らかとなった。 コードとパッチ適用済みトレーナーは https://github.com/federicotorrielli/probabilistic_activation_oracles で入手可能である。
大規模言語モデル(LLMs)は、推論、ツールの使用、複数ステップにわたる行動を行う自律エージェントとしてますます展開されている。しかし、ほとんどの幻覚(ハルシネーション)ベンチマークは依然として最終出力のみを評価しており、中間の思考・行動・観察(Thought-Action-Observation)ステップに起因する失敗を見逃している。本論文では、マルチエージェント産業ワークフローにおける軌跡レベルの幻覚を監査するためのデータセットおよび評価フレームワークであるTrajel(トラジェル)を提案する。Trajelは、AssetOpsBench(アセットオプスベンチ)からの専門家注釈付きエージェントトレースに対して、5種類の幻覚分類法(事実的、指示的、論理的、手続き的、範囲ベース)を導入する。我々は、サブタスク、軌跡、長文脈の各レベルで教師あり検出モデルのベンチマーク評価を行う。我々の結果は、最も一般的な障害モードが既存のベンチマークでは見逃されていること、幻覚を含む軌跡のほぼ半数が一度に複数のタイプを含んでいること、そして高い二値精度を持つ自動検出器でも最も微妙なタイプを誤分類することを示している。軌跡を考慮した検出は標準的な事後検証を大幅に上回り、より安全なエージェント展開には分類法に基づいた評価が必要であることを示している。
マルチエージェントLLMシステムは、複数のエージェントからの出力を組み合わせることで推論能力を向上させるが、相互作用に依存する手法はエラーの伝播や高い通信オーバーヘッドを引き起こす可能性がある。エージェントが生の応答や推論トレースを交換すると、誤った中間推論が採用・増幅され、確信度は高いが誤った合意に至ることがある。また、複数回の通信はトークン消費、遅延、推論コストを増大させる。本論文では、DarkForestと名付けた制御通信協調フレームワークを提案する。DarkForestはまずエージェントを独立に保ち、各エージェントが他者の出力を見ずに回答を生成する。次に、生の応答を構造化された候補レコードに解析し、意味的に等価な候補をクラスタにグループ化し、エージェントの信頼性、確信度、解析品質、サポートパターンの信頼性、独立性補正を用いて、これらのクラスタに対する校正された信念分布を推定する。コーディネーターは、この信念状態からポリシーで許可された証拠のみを制御通信により受け取る。6つの推論ベンチマークにおける実験では、DarkForestが全体的な品質でリーダーとなり、最も優れたベースラインをベンチマーク指標で最大30.7%上回り、通信負荷の高いベースラインと比較してトークン消費を最大6.5倍削減することを示した。
Mixture-of-Experts (MoE)は、数千億パラメータの言語モデルにおいて事実上の標準アーキテクチャとなっているが、サブビリオンスケールでのデバイス上展開におけるその利点はほとんど未探求のままである。このギャップを埋めるため、我々はMobileMoEを提案する。MobileMoEは、アクティブパラメータが10億未満(0.3〜0.9Bのアクティブ、1.3〜5.3Bの総数)のオンデバイスMoE言語モデルファミリであり、オンデバイスLLMの新たなパレートフロンティアを確立する。我々はまず、モバイルのメモリと計算制約の下でMoEアーキテクチャを共同最適化するオンデバイスMoEスケーリング則を定式化し、オンデバイスのスイートスポット——メモリと計算の両方で最適な、細粒度の共有エキスパートによる適度な疎性——を特定する。導出されたアーキテクチャに基づき、我々はMobileMoEを、事前学習、中間学習、命令ファインチューニング、量子化対応学習からなる4段階のレシピで訓練する。すべてのデータセットはオープンソースである。14のベンチマークにおいて、MobileMoEは、推論FLOPsが2〜4分の1で、主要なオンデバイス高密度LLMに匹敵またはそれを上回り、また、最先端MoEモデルOLMoE-1B-7Bと比較して最大60%少ないパラメータで同等かそれを上回る性能を示す。モバイル展開への最終段階を埋めるため、我々は、市販のスマートフォン上で、包括的なオンデバイスプロファイリングを伴う初の効率的なMoE推論を提供する。同等のINT4重みメモリにおいて、MobileMoE-Sは、高密度ベースラインMobileLLM-Proよりも、プリフィルで1.8〜3.8倍、デコードで2.2〜3.4倍高速である。
主題駆動画像生成は、指定された被写体の同一性を保持しつつ、テキスト指示に従った新しい画像を合成することを目的とする。既存の手法では、テキストと参照画像を別々にエンコードすることが多く、これによりクロスモーダルな推論能力が制限され、コピーペーストのアーティファクトが引き起こされる。マルチモーダルモデルと拡散モデルを接続する最近のフレームワークは指示追従性を改善するが、同一性保持はほとんど考慮されていない。これらの限界に対処するため、我々はテキストと参照画像を共同でエンコードするマルチモーダル大規模言語モデル(MLLM)に拡散モデルを条件付け、さらにVAEベースの同一性条件付けでこれを強化する。新たに設計されたDual Layer Aggregation(DLA)モジュールは、最適な条件付けのために多層MLLM特徴を集約し、多段階ノイズ除去戦略を適用して、推論時にMLLMからの意味情報とVAEからの微細な同一性の詳細を段階的にバランスさせる。広範な実験により、我々のアプローチはマルチモーダル理解と同一性保持を調和させ、コピーペースト問題を軽減し、主題駆動画像生成における人間の選好に関して優れた性能を達成することを示す。プロジェクトウェブサイトはhttps://zsh2000.github.io/squeeze-mllm-subject-gen/で公開されている。
我々は、動画、音声、画像、テキストの各モダリティを統合された表現空間に埋め込むことを可能にする、ネイティブなマルチモーダル埋め込みモデル「Gemini Embedding 2」を紹介する。Geminiのマルチモーダル能力を活用し、これらすべてのモダリティにわたるインターリーブされた入力の任意の組み合わせに対して埋め込みを生成し、多様なタスクにわたって優れた汎化性能を実現する。マルチタスク・多段階の学習設定において大規模な対照学習を適用することで、単一モダリティ、クロスモーダル、およびマルチモーダル検索を含む多様なタスクセットにわたる主要な埋め込みベンチマークにおいて、最先端の性能を達成した。本埋め込みモデルは、MSCOCOで62.9のR@1、Vatexで68.8のNDCG@10、MTEB多言語で69.9、MTEB Codeで84.0というスコアを達成し、専門化されたモデルの性能を上回る、多様なタスクにわたる強力な性能を示す。これらの統合された能力により、Gemini Embedding 2はRAG、レコメンデーション、検索といった下流ユースケースにおける有望な候補となる。さらに、天文学や生命科学から美術や料理芸術に至るまで、異なる分野にわたる堅牢なゼロショット性能は、専門領域においても高い信頼性を持つ即時利用可能な表現として確立している。
近年、大規模言語モデル(LLM)の進展により、LLMが推論、計画、ツール使用が可能な対話型エージェントとして広く展開されるようになった。既存のベンチマークでは高い性能を示す一方で、これらのエージェントは現実世界の環境(本質的に確率的で不完全)に展開された際に、顕著な性能低下を示すことが多い。この乖離は、理想化された訓練設定と現実世界の相互作用ダイナミクスの間の根本的なミスマッチに起因すると我々は考える。現在のパラダイムは、厳選されたタスク指示と安定した制御環境に依存しているためである。このギャップを埋めるため、我々はNoisyAgentを提案する。これは、エージェントの学習プロセスに環境の不完全性を明示的に組み込むエージェント訓練フレームワークである。現実世界のシナリオにおける相互作用ノイズの主な原因として、ユーザーインタラクションの曖昧さや変動性を捉えるユーザーノイズと、ツール実行時の障害や異常を反映するツールノイズの2つを特定した。訓練パイプラインには、訓練環境内でユーザーインタラクションパターンを変更し、ツール実行結果をシミュレートすることで、これらの摂動を導入する。訓練を安定化させつつ、エージェントがより困難な不完全性に対処するよう促すため、ノイズは一部のロールアウトにのみ適用し、モデルが現在のノイズレベルに適応するにつれて難易度を段階的に上げる。広範な実験により、本手法がノイズの多い動的環境下でエージェントのロバスト性を一貫して向上させることが示された。分析の結果、ノイズ条件下での訓練は理想化されたベンチマークにおいても性能向上をもたらし、環境ノイズへの制御された曝露がより汎化可能な推論・意思決定行動を促進することが示唆された。この発見は、エージェント訓練と現実世界展開のギャップを埋めるために、相互作用の不完全性をモデル化することの重要性を強調するものである。
LLMベースのエージェントによるGPUカーネル生成は急速に進歩しているが、その進歩は最適化の対象とするベンチマークによって根本的に制約されている。既存のベンチマークはプロダクション推論フレームワークとの整合性が低く、単一GPU上での合成入力を用いたカーネル評価、周辺のコンパイルスタックの無視、既知の最適化の再現を報酬とし新たな発見を評価しないといった問題がある。その結果得られる報酬信号は誤解を招くものとなる。すなわち、エージェントはサンドボックス内で高スコアを得るカーネルを生成するが、実際のシステムに統合した際にはインターフェースの非互換性、コンパイルスタックとの競合、無言の正確性劣化を引き起こす。本稿では、8カテゴリにわたる46の代表的なアーキテクチャの最小限のセットを基盤とし、そのカーネルがHuggingFace Transformersアーキテクチャの96.2%(425件中409件)を包含するベンチマーク「FastKernels」を提案する。FastKernelsは、最小限でありながらプロダクショングレードの推論フレームワークとしても機能し、主流のLLMサービスにおいてvLLMやSGLangといった堅牢なシステムと同等の性能を発揮し、十分に最適化されていないアーキテクチャでは上流のリファレンスを大幅に上回る。各タスクのインターフェースは、そのアーキテクチャファミリにおける最先端ライブラリの対応モジュールを反映しており、最適化されたカーネルをプロダクションコードベースに直接デプロイすることが可能である。FastKernelsを用いて最先端のカーネルエージェントを評価したところ、最も強力なエージェントでもプロダクションベースラインに対し総合で0.94倍の速度向上に留まり、弱いエージェントでは0.78倍、0.53倍となり、ベンチマークとプロダクションの乖離が本分野における重要なボトルネックであることが確認された。我々はFastKernelsを、ベンチマークでの利得がプロダクションのスループット向上に直接反映されるカーネルエージェントへの足掛かりとして公開する。コードはhttps://github.com/Snowflake-AI-Research/fastkernelsで入手可能である。
大規模言語モデルは、膨大なウェブコーパスで学習するため、有害な生成を引き起こす可能性のある入力として定義される機密情報を必然的に保持し、プライバシーと安全性への懸念を引き起こす。既存の機械学習アンラーニング手法は主に再学習または過激なファインチューニングに依存しており、これらは計算コストが高いか、関連する知識やモデル全体の有用性を劣化させる傾向がある。本研究では、機械学習アンラーニングをモデル編集による精密な知識再マッピング問題として再定義する。我々は、数ショットアンラーニングフレームワークであるZeroUnlearnを提案する。これは、機密入力を中立なターゲット状態にマッピングし、元の表現を削除することで上書きする。ZeroUnlearnは、閉形式解を持つ乗法的パラメータ更新を通じて表現の直交性を強制し、効率的でターゲットを絞ったアンラーニングを可能にする。さらに、ZeroUnlearnをマルチサンプルアンラーニングのための勾配ベースの変種に拡張する。実験により、我々のアプローチが既存のベースラインを上回りつつ、モデルの一般的な有用性を保持することを実証する。コードはGitHub (https://github.com/XMUDeepLIT/ZeroUnlearn) で公開されている。
長期的なエージェント推論では、大規模言語モデルが思考、ツール呼び出し、観察、部分的な結論を含む長い相互作用履歴に基づいて動作する必要がある。課題は単にこれらの履歴が長くなることではなく、現在の決定に必要な情報が離れたステップに散在し、後になって初めて重要になることである。既存のアプローチは、相互作用履歴を切り詰めたり、短い代理情報に圧縮したり、再利用のために選択部分を検索したりすることでこの困難に対処しているが、過去の相互作用へのアクセスがエージェントの状態変化に適応する方法を明示的にモデル化していない。そこで我々は、長期的推論を状態適応型メモリの問題として捉える。この目的のために、我々はState-Adaptive Memory~(SAM)を提案する。これは、進行中の相互作用をコンパクトなメモリキューに集約しつつ、意図駆動型の想起のために生の軌跡ページを保持する独立したフレームワークである。これらのキューは履歴の代替として扱われるのではなく、むしろ軽量なハンドルとして機能し、エージェントが基礎となるバックボーンを再学習することなく、現在のニーズに応じて時間的に離れた情報を再構築することを可能にする。さらに、専門家による指導と強化学習を通じてメモリモジュールを最適化し、軌跡レベルの有用性に整合させる。BrowseComp、BrowseComp-ZH、WideSearch、HLEにおいて、SAMは多様なエージェントバックボーンにわたって強力なベースラインを一貫して上回る。我々の結果は、明示的なメモリモデリングが長期的なエージェント推論のためのシンプルで効果的な基盤を提供することを示唆している。
階層化画像生成と編集は、生成された視覚コンテンツのレイヤー単位での再利用、編集、合成を可能にする基本的な能力であり、自然言語における単語レベルの編集に類似する。その重要性にもかかわらず、この分野は大規模な研究が十分に行われていない。この課題に対処するため、我々は200億パラメータのマスク領域拡散モデルMRTを提案する。本モデルは多層透明画像の生成と編集に特化しており、多様なアスペクト比とテキストプロンプトをカバーする1000万以上の多言語デザインサンプルで学習されている。このスケールを最大限に活用するため、我々は2つの主要な技術的貢献を行う。第一に、テキストからレイヤー、画像からレイヤー、レイヤーからレイヤーという3つの相補的なタスクを、共有のマスク領域拡散フレームワーク内で統合する。ここでは選択的トークンマスキングにより柔軟なレイヤー単位の生成と編集を可能にする。第二に、オーバーフローレイヤー生成を実現するため、境界の不整合を処理し半透明な背景合成をサポートするオーバーフロー対応キャンバスレイヤーを導入し、可視キャンバス境界を超えた完全な編集可能レイヤーを可能にする。さらに、拡散蒸留を適用することで、品質劣化を最小限に抑えながら8ステップのリアルタイム多層生成を達成する。大規模な実験により、我々のフレームワークは、3つのタスクすべてにおいて、様々な商用システムを含む従来の最先端手法を大幅に上回り、多層透明画像生成の新たなベンチマークを確立する。特に、ユーザー調査によれば、本モデルは画像からレイヤーへの品質において、同時期のQwen-Image-Layeredモデルを有意に上回り、画像からレイヤーへの推論において10~100倍の高速化と50~90%のアクティブGPUメモリ消費削減を達成する。
拡散トランスフォーマー(DiT)は画像生成において優れた性能を示すが、推論コストが大きい。従来研究では量子化や蒸留によりこのコストを削減してきたが、FLOPSをほぼ半減できる半構造化スパース性は未だ十分に検討されていない。主な理由として、既存手法の大半が重みのスパース化に着目しており、重みの50%を刈り込むとモデルの重要な容量が失われ、生成品質が低下するためである。しかし本研究では、DiTの活性化が本質的にスパースであり、重みよりもN:M半構造化スパース化に対して格段に頑健であることを示す。この知見に基づき、我々は重みのスパース化から活性化のスパース化へのパラダイムシフトを提唱する。提案手法RT-Lynxは、活性化にN:Mスパース化を適用し、精度低下を緩和するための誤差補償技術を組み込む。さらに、この設定に特化した高度に最適化されたCUDAカーネルを実装し、線形層において平均1.55倍の高速化を達成する。複数の拡散モデルにわたる大規模実験により、本手法が元モデルの生成品質を維持しつつ、推論を大幅に高速化することを実証する。
エージェンティックシステムはますます高性能化しており、エージェントは戦略を定義し、行動を実行し、多様な環境と相互作用する。この自律性は、エージェントの行動を監視・評価する上で深刻な課題をもたらす。現在のツールの大半は限定的であり、基本的な評価機能を備えた可観測性に焦点を当てるか、あるいは新たな領域に適応できない静的な手作業によるエラータクソノミを適用している。このギャップに対処するため、我々は自動的で動的かつ使いやすい評価フレームワークであるAgentic CLEARを提案する。本フレームワークは、システム、トレース、ノードの3段階の粒度でエージェントの行動に関するテキスト形式の洞察を生成する。Agentic CLEARは可観測性レイヤの上位で動作し、シームレスな統合を可能にし、直感的なUIによりエージェント評価を極めてアクセスしやすいものにする。4つのベンチマーク、7つのエージェンティック設定、数万回のLLM呼び出しを用いた実験では、Agentic CLEARが高品質でデータ駆動型の洞察に富んだフィードバックを生成することを示す。分析の結果、人間が注釈を付けたエラーとの強い一致と、タスク成功率を予測する能力が確認された。
大規模言語モデル(LLM)は通常、シャッフルされたコーパスで訓練され、その結果、モデルの知識は訓練時に固定され、時間的な根拠(temporal grounding)は十分に理解されていない。本研究では、データの順序付けに特に焦点を当て、事前学習の動態が時間に敏感な事実知識の獲得に与える影響を調査する。主な貢献は2つある。第一に、7,000以上の時間的に根拠付けられた質問からなる包括的なベンチマークと、モデルが事実を対応する時間帯に正しく関連付けているかを分析可能な評価プロトコルを導入する。第二に、時間順に整列されたCommon Crawlスナップショットを用いて6Bパラメータのモデルを事前学習し、標準的なシャッフル事前学習と比較する。実験結果から、逐次学習されたモデルは、一般的な言語理解と共通知識においてシャッフルベースラインと同等の性能を示しつつ、一貫してより最新かつ時間的に正確な知識を持つことが示された。時間順事前学習は事実の新鮮さを向上させる一方、シャッフル事前学習は事実の繰り返しが多い可能性から古いデータでピーク性能を示す。これらの発見、ならびにコード(https://github.com/kyutai-labs/kairos)、チェックポイント、データセット(https://huggingface.co/collections/kyutai/kairos)の公開は、LLMの継続学習に関する今後の研究の基盤を提供する。
大規模言語モデルは自身の内部状態を検出し報告できるのか。これまでの複数の研究では、この問いに対する答えが「はい」であると論じてきた。しかし本稿では、人間のメタ認知研究からの教訓に基づき、この結論は尚早である可能性を指摘する。すなわち、この結論を確信するためには、真の内省と表面的な手がかりに基づくパターンマッチングとを区別する必要がある。さらに、行動的証拠のみでは、強い内省的主張を立証するのに本質的に不十分であると論じる。 本稿では、この観点から最近導入された二つの評価パラダイムを再検討する。第一のパラダイムでは、モデルは自身の内部状態が改ざんされたかどうかを検出することが期待される。モデルは、自身の内部状態への介入と入力への操作とを確実に区別できないことが判明した。このことは、元の研究での成功が、内部状態への介入そのものではなく、より一般的に異常を検出する能力を反映していることを示唆する。検討した第二のパラダイムでは、モデルは自身の隠れ状態から導出されたラベルを予測する課題を与えられる。ここで、入力のみにアクセス可能な分類器がモデル自身の文脈内予測と同等の性能を達成することが明らかになった。これは、元の結果がモデルが内部表現への特権的アクセスを有することを決定的に示していないことを示す。さらに、再ラベル付けされた対照設定を導入し、モデルが課題の意味論に頼らず、代わりに内部表現に依存せざるを得ないようにした。このより適切に制御されたバージョンの課題では、モデルの性能は偶然の水準に近づく。これらの結果を総合すると、現状のエビデンスは、大規模言語モデルがメタ認知モニタリングを示すことを立証するには不十分であることが示唆される。
我々は、全米科学財団(NSF)の受賞アブストラクトから抽出された科学的主張と調査提案からなる包括的データセットであるNSF-SciFyを紹介する。従来の科学的クレーム検証データセットは規模と範囲が限られていたが、NSF-SciFyは全科学・数学分野にわたる40万件のアブストラクトから280万件のクレームを収録し、顕著な進歩を示す。我々は2つの焦点化されたサブセットを提示する。材料科学関連の受賞から114,000件のクレームを含むNSF-SciFy-MatSciと、5つのNSF部門にわたる135,000件のクレームを含むNSF-SciFy-20Kである。ゼロショットプロンプティングを用いて、科学的主張と調査提案の統合抽出のためのスケーラブルなアプローチを開発する。このデータセットの有用性を、非専門家向けアブストラクト生成、クレーム抽出、調査提案抽出という3つの下流タスクで実証する。当データセットで言語モデルをファインチューニングすると、特にクレーム抽出と提案抽出タスクにおいて、相対的な改善が100%を超えることが多いなど、大幅な性能向上が得られる。エラー分析により、抽出されたクレームは高い適合率を示す一方で再現率が低いことが明らかとなり、さらなる方法論的改善の余地があることを示唆している。NSF-SciFyは、大規模クレーム検証、科学的発見の追跡、メタ科学的分析における新たな研究方向を可能にする。コードとデータはhttps://github.com/darpa-scify/NSFSciFyで公開されている。
先行研究では、大規模言語モデルからの自己生成応答間の制御された対比性を報酬スコアで設定することで、英語における下流の選好チューニングが改善されることが示されている。我々はこの手法を複数言語に拡張し、合計14の高リソース言語および低リソース言語にわたって、多様なタスクで2つのモデルを評価する。中心的な発見は、自己生成に対する言語横断的対比選好チューニング(CroCo)が、言語固有の選好アノテーションなしで転移することである。英語の選好で訓練された報酬モデル(多言語ベースの上に)は、ほとんどの言語で有用な言語内ランキングを生成し、単言語または多言語設定でのペアリングは、教師あり微調整の破滅的忘却を防ぎつつ、ほとんどの設定で各モデルを改善する。我々は、この利得にはオン方策データが必要であることを観察する。オフ方策応答は利得を減少させ、オンライン選好最適化はオフライン変種を改善できない。具体的には、構造化タスクにおいて、本手法はEuroLLM-9Bでは7言語中6言語、Aya-3Bでは7設定中4設定でベースを達成または上回る。オープンエンド生成では、両チューニングモデルが評価された11言語すべてでそれぞれのベースに勝利する。全体として、我々は多言語選好チューニングの有望な方向性を示す。
現代のロボットポリシーは、実世界で複雑なタスクを実行するためにアクションチャンキングにますます依存している。アクションチャンキングは中程度の動作周波数では時間的一貫性を向上させるが、動作周波数をさらに高めると(例:60 Hz)、不十分となる。このような高周波数では、ポリシーは時間的に滑らかで空間的に一貫した動作を生成できなくなることが多い。本稿では、高周波動作学習を動作空間から変分オートエンコーダ(VAE)を用いた潜在空間へ移行することで、この課題に取り組む。この定式化により、高周波制御の時間的一貫性と空間的一貫性が大幅に向上する。さらに、円滑なリアルタイム実行を実現するため、非同期推論下で隣接するアクションチャンク間の連続性を改善するチャンクレベルの改良戦略であるReuse-then-Refineを導入する。その結果、本ポリシーによって制御されるロボットは、停止やぎこちない動作を減らし、複雑な接触を伴うタスクを連続的に実行できる。実世界における3つの接触リッチなロボットタスクの実験により、本手法が滑らかな動作で一貫してタスクを完了することを示す。コードとデータは https://github.com/tars-robotics/RTR で公開している。
我々は、長期間にわたるアニメーション動画生成のための効率的な後訓練手法であるEverAnimateを提案する。本手法は、画質とキャラクターの同一性を維持することを目的とする。長尺アニメーションは、比較的静的な環境に対して高いダイナミクスを持つ人間の動作を合成する必要があるため、チャンクベースの生成では累積的なドリフトが生じやすいという課題がある。具体的には、(i) 低レベルの品質ドリフト(静的背景の漸進的な劣化など)、および(ii) 高レベルの意味的ドリフト(キャラクターの一貫性の欠如や視点依存属性の不一致)である。この問題に対処するため、EverAnimateは、持続的な潜在コンテキストメモリに生成を固定することで、ドリフトした流れの軌跡を復元する。本手法は、2つの相補的なメカニズムから構成される。(i) 持続的潜在伝播(Persistent Latent Propagation)は、チャンク間でコンテキストメモリを保持し、潜在空間における同一性と動作を伝播させると同時に、時間的な忘却を緩和する。(ii) 復元的流れマッチング(Restorative Flow Matching)は、サンプリング中の速度調整を通じて暗黙的な復元目的を導入し、チャンク内の忠実度を向上させる。軽量なLoRAチューニングのみで、EverAnimateは短期および長期の両方の設定において、最先端の長尺アニメーション手法を凌駕する。10秒では、PSNR/SSIMが8%/7%向上し、LPIPS/FIDが22%/11%低減される。90秒では、その改善はそれぞれ15%/15%および32%/27%に拡大する。
垂直領域向け大規模言語モデルは、複雑でドメイン固有のタスク指向型対話データの不足がボトルネックとなっている。既存のデータ取得パイプラインは、専門家によるアノテーションは高コストであり、実際のサービス会話はプライバシーや商業的制約によって制限され、静的なコーパスは時間とともに陳腐化するという持続的な三難問題に直面している。本稿では、公開ストリーミングメディア(ライブ配信やショート動画)を活用して高価値なサービス対話を大規模に合成するデータ中心型フレームワークStreamを提案する。Streamはノイズの多いストリームから本質的なインタラクション信号を抽出し、役割に基づくペルソナ構築と会話設計図(Conversational Blueprint)構築を統合して対話を合成する。さらに、検索拡張生成(RAG)を採用して知識を考慮した応答を実現する。Streamに基づき、自動車、飲食店、ホテルをカバーする大規模マルチドメインデータセットStreamDialを公開する。StreamDialは合計87,498対話セッションと1,497,320ターンを含み、セッションあたり平均17.11ターンで、ドメイン間で同程度の規模である。各セッションは、対話履歴と明示的なユーザー/エージェントのペルソナ、および会話設計図を対応付ける構造化された4つ組⟨P_u, P_a, B, H⟩として整理され、要件発掘、制約の競合、交渉、リカバリなど、現実的なサービス行動を捉えている。自動評価と下流タスクによる評価では、StreamDialが強力なベースラインと比較して内在的な対話品質を向上させ、StreamDialで訓練されたモデルが複数のバックボーンにわたって対話状態追跡(DST)を改善することが示された。さらに、完了した人間評価セットと、制御された訓練予算下でのQwen3-8Bにおける有望な多言語転移についても報告する。データはhttps://github.com/hitxueliang/DialogDataSetBySTREAMで公開されている。