翻訳付きの日次キュレーションされたAI研究論文
データ中心トレーニングは、モデルパラメータのみならず、最適化過程における学習データの選択、構成、重み付けも最適化することで大規模言語モデル(LLM)を改善する有望な方向性として登場しました。しかし、既存のデータ選択、データ混合最適化、データ再重み付けの手法は、分断されたコードベースで開発され、インターフェースが一貫しないことが多く、再現性、公平な比較、実用的な統合を妨げています。本論文では、LLaMA-Factoryを基盤とした統一データ中心動的トレーニングフレームワークであるDataFlexを提案します。DataFlexは、サンプル選択、ドメイン混合調整、サンプル再重み付けという3つの主要な動的データ最適化パラダイムをサポートしつつ、元のトレーニングワークフローとの完全な互換性を維持します。拡張可能なトレーナー抽象化とモジュラーコンポーネントを提供し、標準的なLLMトレーニングのドロップイン代替を可能にするとともに、埋め込み抽出、推論、勾配計算といった主要なモデル依存操作を統一し、DeepSpeed ZeRO-3を含む大規模設定をサポートします。複数のデータ中心手法にわたる総合的な実験を実施しました。動的データ選択は、Mistral-7BとLlama-3.2-3Bの両方において、MMLUで静的フルデータトレーニングを一貫して上回りました。データ混合については、DoReMiとODMが、SlimPajamaでQwen2.5-1.5Bを6Bトークンおよび30Bトークンスケールで事前学習する際、デフォルトの比率よりもMMLU精度とコーパスレベルパープレキシティの両方を改善しました。DataFlexは元の実装よりも一貫した実行時改善も達成しています。これらの結果は、DataFlexがLLMのデータ中心動的トレーニングに向けた効果的、効率的、かつ再現性の高いインフラストラクチャを提供することを実証しています。
潜在空間は、言語ベースのモデルにおける新たな基盤として急速に台頭しつつある。現代のシステムが未だに明示的なトークンレベルの生成として理解されることが多い一方で、多くの重要な内部プロセスが人間が読解可能な言語痕跡よりも、連続的な潜在空間においてより自然に実行されることを示す研究が増えている。この転換は、言語的冗長性、離散化によるボトルネック、逐次処理の非効率性、意味情報の損失といった、明示的空間計算の構造的限界によって推進されている。本サーベイは、言語ベースのモデルにおける潜在空間の統一された最新の動向を提供することを目的とする。本稿では、調査内容を「基盤」「進化」「メカニズム」「能力」「展望」という5つの連続的な視点で構成する。まず、潜在空間の範囲を定義し、明示的空間や言語空間、および生成視覚モデルで一般的に研究される潜在空間と区別する。次に、初期の探求的試みから現在の大規模拡張に至るまでの分野の進化を辿る。技術的景観を整理するために、既存の研究を「メカニズム」と「能力」という補完的なレンズを通して検証する。「メカニズム」の観点から、アーキテクチャ、表現、計算、最適化という4つの主要な発展系統を特定する。「能力」の観点からは、潜在空間が推論、計画、モデリング、知覚、記憶、協調、具身化にわたる広範な能力スペクトルを如何に支えているかを示す。体系化を超えて、主要な未解決課題について議論し、将来研究の有望な方向性を概説する。本サーベイが既存研究の参照資料としてだけでなく、次世代知能のための汎用的な計算・システムパラダイムとしての潜在空間を理解する基盤として役立つことを期待する。
生成的な逆レンダリングおよびフォワードレンダリングを実世界のシナリオに拡張する際、既存の合成データセットの限定的なリアリズムと時間的一貫性がボトルネックとなっている。この頑固なドメインギャップを埋めるため、視覚的に複雑なAAAゲームから構築した大規模な動的データセットを提案する。新しいデュアルスクリーン・ステッチング収録手法を用いて、多様なシーン、視覚効果、環境(悪天候やモーションブラー変種を含む)において、同期されたRGBおよび5種類のG-bufferチャネルからなる400万連続フレーム(720p/30FPS)を抽出した。本データセットは双方向レンダリングを独自に推進する:ロバストな実世界環境での幾何学・マテリアル分解を可能とし、高精細なG-buffer誘導型ビデオ生成を促進する。さらに、教師データなしで逆レンダリングの実世界性能を評価するため、意味的・空間的・時間的一貫性を測定する新しいVLMベースの評価プロトコルを提案する。実験により、当データでファインチューニングした逆レンダラーが優れたクロスデータセット一般化性能と制御可能な生成を達成し、我々のVLM評価が人間の判断と強い相関を持つことを実証した。当ツールキットと組み合わせたフォワードレンダラーにより、ユーザーはテキストプロンプトを用いてG-bufferからAAAゲームのスタイルを編集可能となる。
エージェントスキルは、推論時にエージェントが動的に読み込む手続き的知識と実行可能リソースを構造化したパッケージであり、LLMエージェントを拡張する信頼性の高いメカニズムとなっている。しかし、推論時におけるスキル拡張には根本的な限界がある:検索ノイズが無関係なガイダンスをもたらし、注入されるスキル内容が大幅なトークンオーバーヘッドを課し、モデルは単に従っているだけで知識を真に獲得することはない。我々は、スキルをモデルパラメータに内在化させ、ランタイムのスキル検索を一切必要としないゼロショット自律動作を可能にできるかどうかを問う。本論文では、スキル内在化のために設計されたインコンテキスト強化学習フレームワークSKILL0を提案する。SKILL0は、完全なスキルコンテキストから開始し、それを段階的に削減する学習時カリキュラムを導入する。スキルはカテゴリごとにオフラインでグループ化され、インタラクション履歴とともにコンパクトな視覚的コンテキストとして表現されることで、モデルにツール呼び出しとマルチターンタスク完了を教示する。ダイナミックカリキュラムは、各スキルファイルのオンポリシー有益性を評価し、線形減衰する予算内で現在のポリシーが依然として恩恵を受けるもののみを保持し、最終的にエージェントが完全なゼロショット環境で動作するようにする。大規模なエージェント実験により、SKILL0が標準RLベースラインと比較して大幅な改善(ALFWorldで+9.7%、Search-QAで+6.6%)を達成しつつ、ステップあたり0.5kトークン未満という極めて効率的なコンテキストを維持することを実証した。コードはhttps://github.com/ZJU-REAL/SkillZeroで公開されている。
我々はEgoSimを提案する。これは閉ループ式のエゴセントリック世界シミュレータであり、空間的一貫性のあるインタラクション動画を生成し、基盤となる3Dシーン状態を持続的に更新することで継続的なシミュレーションを実現する。既存のエゴセントリックシミュレータは、明示的な3D接地が不足しているため視点変化に伴う構造的ドリフトが生じるか、あるいはシーンを静的に扱うため多段階インタラクションにわたる世界状態の更新ができないという課題があった。EgoSimは更新可能な世界状態として3Dシーンをモデル化することで、これらの両方の制限を解決する。我々はGeometry-action-aware Observation Simulationモデルによる具現化インタラクションを生成し、Interaction-aware State Updatingモジュールによる空間的一貫性を確保する。密に整列したシーン-インタラクショントレーニングペアの取得困難性がもたらす重大なデータボトルネックを克服するため、大規模な単眼エゴセントリックビデオから静的点群・カメラ軌道・具現化動作を抽出するスケーラブルなパイプラインを設計した。さらに未校正のスマートフォンによる低コスト実世界データ収集を可能にするキャプチャシステムEgoCapを導入する。大規模実験により、EgoSimが視覚的品質・空間的一貫性・複雑シーンへの一般化・実世界の精巧なインタラクションにおいて既存手法を大幅に上回ることを示すとともに、ロボットマニピュレーションへのクロスエンボディメント転移をサポートすることを実証した。コードとデータセットは近日公開予定。プロジェクトページはegosimulator.github.io。
事前学習済みVision Transformer(ViT)であるDINOv2やMAEは、検索、分類、セグメンテーションなど様々な下流タスクに応用可能な汎用的な画像特徴を提供します。しかし、このような表現は画像内の最も顕著な視覚的手がかりに焦点を当てる傾向があり、関心のある目立たない概念に向けて方向づける手段がありません。一方、マルチモーダルLLMはテキストプロンプトで誘導できますが、得られる表現は言語中心となり、汎用的な視覚タスクにおける有効性が損なわれます。この問題に対処するため、我々は自然言語によって大域的および局所的特徴を誘導可能な新しい視覚表現のクラスであるSteerable Visual Representationsを提案します。ほとんどの視覚言語モデル(CLIPなど)がテキストと視覚特徴を符号化後に融合する(後期融合)のに対し、我々は軽量なクロスアテンションを介してテキストを視覚エンコーダの層に直接注入します(早期融合)。表現の誘導性を測定するベンチマークを導入し、提案する誘導可能な視覚特徴が基礎となる表現品質を保ちながら画像内の任意の対象物に焦点を当てられることを実証します。また、本手法は異常検出や個人化対象識別において専用手法に匹敵あるいは優れる性能を示し、分布外タスクへのゼロショット一般化能力を発揮します。
個人化生成や画像編集といった識別情報に焦点を当てたタスクを評価する際、既存の視覚エンコーダは対象の識別情報を背景コンテキストと絡み合わせてしまうため、信頼性の低い表現と評価指標が生じる問題がある。本研究では、この脆弱性を原理的に解決する初のフレームワークを提案する。具体的には、意味的に類似しているが異なるインスタンス(NearID distractor)を参照画像と全く同じ背景に配置し、文脈的なショートカットを排除して、識別情報のみを判別信号として分離する。この原理に基づき、NearIDデータセット(19,000の識別情報、316,000の同一背景distractor)と厳格なマージンベースの評価プロトコルを構築した。この設定下では、事前学習済みエンコーダの性能は低く、厳格なマージンベースの識別指標であるSample Success Rate (SSR) は30.7%まで低下し、クロスビューでの正しい一致よりもdistractorを高く順位付けすることが多い。この問題に対処するため、凍結したバックボーン上で、同一識別情報 > NearID distractor > ランダムネガティブという階層を強制する二段階の対照学習目標を用いて、識別情報を意識した表現を学習する。これにより、SSRは99.2%に改善し、部分レベルの識別能力が28.0%向上し、個人化のための人間評価に整合したベンチマークDreamBench++において、人間の判断とのより強い一致が得られる。プロジェクトページ: https://gorluxor.github.io/NearID/
統一モデル(UM)は、異種モダリティにわたるコンテンツの理解と生成能力において期待を集めている。単に視覚コンテンツを生成するだけでなく、UMを相互交差型のクロスモーダル推論に活用することは、より有望かつ価値が高い。例えば、高密度な視覚的思考を要する理解問題の解決、自己反省を通じた視覚生成の改善、段階的行動介入に導かれた物理世界の視覚的ダイナミクスのモデリングなどが挙げられる。しかし、既存のUMは理解と生成のための視覚表現が分離しているため、ピクセルデコーディングを橋渡しとして必要としており、これは非効率かつ非効果的である。本論文では、全てのモダリティを共有された意味的潜在空間内で表現する新たな統一モデル「LatentUM」を提案する。これにより、視覚理解と生成の間におけるピクセル空間仲介の必要性が解消される。この設計は、柔軟な相互交差型クロスモーダル推論と生成を自然に実現する。計算効率の向上に加えて、共有表現はコードックバイアスを大幅に軽減し、クロスモーダル整合性を強化する。これにより、LatentUMはVisual Spatial Planningベンチマークで最先端の性能を達成し、自己反省を通じて視覚生成の限界を押し広げ、共有意味潜在空間内で未来の視覚状態を予測することによる世界モデリングを可能にする。
AIエージェントが長期にわたって動作することが増えているが、マルチモーダルな経験を保持・整理・想起する能力は依然として重大なボトルネックである。効果的な生涯記憶を構築するには、アーキテクチャ、検索戦略、プロンプトエンジニアリング、データパイプラインにまたがる広大な設計空間を適切に選択する必要がある。この空間は広大で相互接続されているため、手動での探索や従来のAutoMLでは効果的に探求することが困難である。我々は、自律的研究パイプラインを展開し、生涯AIエージェントのための統一マルチモーダル記憶フレームワークであるOmni-SimpleMemを発見した。単純なベースライン(LoCoMoベンチマークでF1=0.117)から開始し、このパイプラインは2つのベンチマークで約50件の実験を自律的に実行し、障害モードの診断、アーキテクチャ変更の提案、データパイプラインのバグ修正を、内側のループにおいて人的介入なしで行った。結果として得られたシステムは両ベンチマークで最高性能を達成し、初期設定と比較してLoCoMoではF1を+411%(0.117から0.598へ)、Mem-Galleryでは+214%(0.254から0.797へ)改善した。決定的に、最も影響の大きかった発見はハイパーパラメータ調整ではなかった。バグ修正(+175%)、アーキテクチャ変更(+44%)、プロンプトエンジニアリング(特定カテゴリで+188%)は、それぞれ個別に、全てのハイパーパラメータチューニングの累積的貢献を上回り、従来のAutoMLの範囲を根本的に超える能力を示している。我々は6種類の発見タイプの分類を提供し、マルチモーダル記憶が自律的研究に特に適している4つの特性を特定し、自律的研究パイプラインを他のAIシステム領域に適用するための指針を提供する。コードはhttps://github.com/aiming-lab/SimpleMem で公開されている。
既存のビデオオブジェクト除去手法は、オブジェクトの「背後」にあるコンテンツの修復や、影や反射といった見た目レベルの人工物の修正において優れた性能を発揮する。しかし、除去対象のオブジェクトが他のオブジェクトとの衝突など、より重要な相互作用を持つ場合、現在のモデルはそれらを修正できず、不自然な結果を生成してしまう。本研究では、このような複雑なシナリオにおいて物理的に妥当な修復を実現するビデオオブジェクト除去フレームワーク「VOID」を提案する。モデルの学習には、KubricとHUMOTOを用いて新たに構築した反事実的オブジェクト除去のペアデータセットを利用する。このデータセットでは、オブジェクトを除去すると下流の物理的相互作用を変更する必要が生じる。推論時には、視覚言語モデルが除去対象のオブジェクトの影響を受けたシーン領域を特定する。これらの領域は、物理的に一貫性のある反事実的結果を生成するビデオ拡散モデルを誘導するために用いられる。合成データと実データの両方を用いた実験により、従来手法と比較して、提案手法がオブジェクト除去後の一貫したシーンダイナミクスをより良好に保持することを示す。本フレームワークが、高水準の因果推論を通じてビデオ編集モデルをより優れた世界シミュレータとする方法に示唆を与えることを期待する。
大規模言語推論モデルが選択を行う際、それは「まず思考し、その後で決定する」のか、それとも「まず決定し、その後で思考する」のか。本論文では、検出可能な早期エンコードされた決定が推論モデルの思考連鎖(chain-of-thought)を形成しているという証拠を示す。具体的には、単純な線形プローブが、生成前の活性化状態から非常に高い確信度でツール呼び出しの決定をデコード可能であり、場合によっては最初の推論トークンが生成される前ですら可能であることを示す。活性化操作による検証はこれを因果的に支持する:決定方向を撹乱すると審議が過剰に膨らみ、多くの事例で行動が反転する(モデルとベンチマークに依存し7~79%)。行動分析を通じて、操作によって決定が変化する場合、思考連鎖プロセスは多くの場合、その反転に抵抗するのではなく、それを正当化するように働くことも示す。これらの結果は総じて、推論モデルがテキスト上の審議を開始する前に、行動選択をエンコードし得ることを示唆している。
Vision-Language-Action (VLA) モデルは近年、自動運転分野に登場し、豊富な世界知識を活用して運転システムの認知能力を向上させる可能性を約束している。しかし、このようなモデルを運転タスクに適応させる際、現在、空間知覚と意味推論の間で重大なジレンマに直面している。その結果、既存のVLAシステムは最適ではない妥協を強いられている:2D Vision-Languageモデルを直接採用すると空間知覚が限定的となり、一方で3D空間表現で強化すると、往々にしてVLMの本来の推論能力が損なわれるのである。我々は、このジレンマが主に、共有されたモデルパラメータ内での空間知覚と意味推論の結合最適化に起因していると主張する。これを克服するため、我々はMixture-of-Transformersに基づく統一運転Vision-Language-Actionモデル、UniDriveVLAを提案する。これは、専門家の分離を通じて知覚と推論の衝突に対処する。具体的には、運転理解、シーン知覚、行動計画の3つの専門家で構成され、マスクされた結合アテンションを通じて調整される。さらに、空間知覚を向上させながら意味推論能力を維持するために、スパース知覚パラダイムと三段階の段階的学習戦略を組み合わせる。大規模な実験により、UniDriveVLAがnuScenesにおけるオープンループ評価およびBench2Driveにおけるクローズドループ評価で最先端の性能を達成することが示された。さらに、3D検出、オンライン地図生成、動き予測、運転指向VQAなど、幅広い知覚、予測、理解タスクにおいて強力な性能を示し、自動運転のための統一モデルとしての幅広い適用可能性を強調している。コードとモデルはhttps://github.com/xiaomi-research/unidrivevla で公開されている。
AIはAI自身の発展を加速させ得るか?近年のエージェントシステムは、範囲が明確で迅速なフィードバックが得られるタスクでは高い性能を示しているが、実際のAI進歩を駆動する、コストが高く長期的で弱教師付きの研究ループに対処できるかは不明である。本論文では、AIのための研究(AI-for-AI)を行うエージェントフレームワーク「ASI-Evolve」を提案する。このフレームワークは、学習-設計-実験-分析のサイクルを通じてこのループを閉じる。ASI-Evolveは、標準的な進化型エージェントに二つの主要コンポーネントを追加する。一つは、蓄積された人間の事前知識を各探索ラウンドに注入する「認知ベース」、もう一つは、複雑な実験結果を将来の反復で再利用可能な知見に蒸留する専用の「分析器」である。我々の知る限り、ASI-Evolveは、AI開発の三つの核心的要素(データ、アーキテクチャ、学習アルゴリズム)にわたってAI駆動の発見を実証した初の統一フレームワークである。 ニューラルアーキテクチャ設計では、105のSOTA線形注意機構アーキテクチャを発見し、最良の発見モデルはDeltaNetを+0.97ポイント上回り、これは近年の人間による改良による向上量の約3倍に相当する。事前学習データキュレーションでは、進化させたパイプラインが平均ベンチマーク性能を+3.96ポイント向上させ、MMLUでは18ポイントを超える向上を示した。強化学習アルゴリズム設計では、発見されたアルゴリズムが、AMC32でGRPOを最大+12.5ポイント、AIME24で+11.67ポイント、OlympiadBenchで+5.04ポイント上回った。さらに、このAI-for-AIパラダイムがAIスタックを超えて転移可能であることを、数学と生物医学における実験を通した予備的証拠を示す。これらの結果は総合して、ASI-Evolveが開発の基礎的段階全体でAIがAIを加速することを可能にするための有望な一歩であり、閉ループ型AI研究の実現可能性に対する初期証拠を提供することを示唆している。
コード向け大規模言語モデルの台頭は、ソフトウェア開発の形を変えつつある。ブランチの作成、プルリクエストのオープン、コードレビューの実施を自律的に行うコーディングエージェントが、現実のプロジェクトに積極的に貢献するようになった。彼らの役割の拡大は、AIによる貢献と、それがコード品質、チームダイナミクス、ソフトウェアの保守性に与える影響を調査する、独特かつ時宜を得た機会を提供する。本研究では、約11万件のオープンソースのプルリクエストからなる新規データセットを構築した。これには関連するコミット、コメント、レビュー、イシュー、ファイル変更が含まれ、総計数百万行のソースコードを網羅している。我々はOpenAI Codex、Claude Code、GitHub Copilot、Google Jules、Devinという5つの主要なコーディングエージェントを比較し、マージ頻度、編集ファイルタイプ、コメントやレビューといった開発者間のインタラクションシグナルなど、様々な開発側面におけるそれらの利用実態の違いを検証する。さらに、コードの作成とレビューは、より大きなソフトウェアエンジニアリングプロセスの一部に過ぎず、生成されたコードは時間の経過とともに保守され、更新され続けなければならない点を強調する。そこで我々は、エージェント生成コードと人間作成コードの生存率と変更率について、いくつかの長期的な推定値を提示する。最終的に、我々の分析結果は、オープンソースプロジェクトにおけるエージェントの活動が活発化している一方で、その貢献は人間のコードと比較して時間の経過とともにより多くの変更を伴う傾向があることを示唆している。
大規模言語モデル(LLM)ベースの進化は、継続的な探索と知識蓄積を必要とするオープンエンドな発見において有望なアプローチである。既存手法は依然として固定されたヒューリスティクスやハードコードされた探索ルールに大きく依存しており、LLMエージェントの自律性を制限している。本論文では、オープンエンド問題における自律的なマルチエージェント進化の初のフレームワークであるCORALを提案する。CORALは、共有永続メモリ、非同期マルチエージェント実行、ハートビートベースの介入を通じて探索、内省、協働を行う長寿命エージェントによって、硬直的な制御を置き換える。さらに、分離されたワークスペース、評価機能の分離、リソース管理、エージェントセッション及び健全性管理といった実用的な保護機能を提供する。多様な数学的、アルゴリズム的、システム最適化タスクによる評価において、CORALは10のタスクで新たなstate-of-the-art結果を達成し、固定された進化的探索ベースラインと比較して、タスク全体で評価回数がはるかに少ないにも関わらず、3〜10倍高い改善率を示した。Anthropicのカーネルエンジニアリングタスクでは、共進化する4つのエージェントが既知の最高スコアを1363サイクルから1103サイクルに改善した。機構的分析はさらに、これらの利益が知識の再利用とマルチエージェントによる探索・通信からどのように生じるかを示している。これらの結果は総じて、エージェントの自律性とマルチエージェント進化の強化が、オープンエンドな発見を大幅に改善し得ることを示唆している。コードはhttps://github.com/Human-Agent-Society/CORALで公開されている。
GUIプロセスオートメーション(GPA)は、軽量でありながら汎用的なビジョンベースのRPA技術であり、単一のデモのみで高速かつ安定したプロセス再生を実現する。従来のRPAの脆弱性や、現在の視覚言語モデルベースのGUIエージェントが抱える非決定論的リスクに対処するため、GPAは以下の3つの核心的利点を提供する:(1)Sequential Monte Carloに基づく位置推定による堅牢性(スケーリング変化や検出の不確実性への対応)、(2)準備状態キャリブレーションによる決定論的動作と信頼性の保証、(3)完全ローカル実行による高速処理とプライバシー保護。本手法は、企業ワークフローに必要な適応性・堅牢性・安全性を兼ね備える。また、コーディング能力を有する他のエージェント向けのMCP/CLIツールとしても利用可能であり、エージェントは推論と調整に専念し、GUI操作はGPAが担当する分担が可能である。Gemini 3 Pro(CUAツール搭載)との比較パイロット実験では、GPAが長期的GUIタスクの完了において、成功率が高く、実行速度が10倍高速であることを確認した。
視覚言語行動(VLA)モデルはロボットマニピュレーションにおいて強力な性能を示すが、物理的に実現可能な敵対的攻撃に対する頑健性は未だ十分に検討されていない。既存研究は言語摂動や2次元視覚攻撃による脆弱性を明らかにしてきたが、これらの攻撃表面は実際の展開環境を十分に反映していないか、物理的な現実性に限界がある。対照的に、敵対的3Dテクスチャは操作対象物体に自然に付随し、物理環境への導入が容易であるため、より物理的に妥当かつ深刻な脅威となり得る。しかし、VLAシステムに対する敵対的3Dテクスチャの適用は容易ではない。主要な障壁は、標準的な3DシミュレータがVLAの目的関数から物体外観への微分可能な最適化経路を提供しないため、エンドツーエンドでの最適化が困難である点にある。この問題に対処するため、我々は前景と背景の分離(FBD)を提案する。FBDはデュアルレンダラーの整合性を維持しつつ、元のシミュレーション環境を保存した微分可能なテクスチャ最適化を実現する。さらに、物理世界における長期的な動作経路や多様な視点に対して攻撃効果を維持するため、行動的に重要なフレームを優先し、頂点ベースのパラメータ化で最適化を安定化する経路認識敵対的最適化(TAAO)を考案した。これらの設計に基づき、VLAシミュレーション環境内で直接3D敵対的テクスチャをエンドツーエンド最適化する初のフレームワークであるTex3Dを開発した。シミュレーションおよび実ロボット環境での実験により、Tex3Dが多様なマニピュレーションタスクにおいてVLAの性能を大幅に劣化させ、最大96.7%のタスク失敗率を達成することを実証した。本実証結果は、VLAシステムが物理に根ざした3D敵対的攻撃に対して極めて脆弱であることを暴露し、頑健性を考慮した訓練の必要性を浮き彫りにする。
ビデオ拡散モデルは、迷路やパズルを解くような創発的な推論能力を示すが、生成中の推論プロセスについてはほとんど理解されていない。本研究はこの理解に向けた第一歩として、2D迷路解決を制御されたテストベッドとして用い、ビデオモデルの内部計画ダイナミクスを調査する。我々の調査から2つの発見があった。第一の発見は**早期計画確定**である。ビデオ拡散モデルは、最初の数回のノイズ除去ステップ内で高レベルの動作計画を確定させ、その後のノイズ除去は視覚的詳細を変更するが、根本的な軌道は変更しない。第二の発見は、迷路の難易度の主要な予測因子が**障害物密度ではなく経路長**であり、12ステップで失敗率が急激に上昇する閾値が存在することである。これは、ビデオモデルが長い迷路を推論するには、複数の連続した生成を連鎖させる必要があることを意味する。我々の発見の実用的な利点を実証するため、**Chaining with Early Planning (ChEaP)** を提案する。これは、有望な早期計画を持つシードにのみ計算リソースを投入し、それらを連鎖させて複雑な迷路に取り組む手法である。これにより、長期的な迷路における精度が7%から67%に向上し、Frozen LakeおよびVR-Benchにおける困難なタスク全体では、Wan2.2-14BとHunyuanVideo-1.5にわたって2.5倍の精度向上を達成した。我々の分析は、現在のビデオモデルが従来認識されていた以上に深い推論能力を有しており、より優れた推論時スケーリングによりその能力を確実に引き出せることを明らかにする。
画像生成技術は急速な進化により様々な応用を促進しているが、最新のモデルが論文で即利用可能な学術図表を生成できるかについては未解明の部分が多い。生成図表とVLMを直接比較評価する手法は単純だが、理想的なマルチモーダル理解能力を必要とし、長文・複雑なテキストと図表に対して信頼性に欠ける。この課題に対し、我々は学術図表の論理的正しさをVQAで、美的品質をVLMで評価する初のベンチマークAIBenchを提案する。具体的には、論文の方法論セクションから抽出した論理図に基づき4段階の質問を設計し、生成図表が論文内容とどの程度整合するかを多角的に検証する。VQAベースの手法は、評価用VLMの能力への依存度を低減しつつ、視覚-論理的一貫性をより精密に評価できる。高品質なAIBenchを用いた大規模実験により、本タスクにおけるモデル間の性能差が一般タスクより顕著に大きく、複雑な推論と高密度生成能力の差異を反映することを明らかにした。さらに、手作りの図表と同様、論理性と美的品質の両立が困難であることも示唆された。追加実験では、両能力に対するテスト時スケーリングが本タスクの性能を大幅に向上させることを実証した。
近年、ビデオマルチモーダル大規模言語モデルは、様々なベンチマークで印象的な成果を上げている。しかし、現在の評価には2つの重大な限界がある:(1)スコアの過大評価が、細粒度の視覚的理解と推論における欠陥を隠蔽する可能性、(2)回答の正しさが、モデルが予測を支持する正確な時空間的証拠を特定しているかどうかを検証せずに測定されることが多い。これに対処するため、我々は挑戦的な長尺ビデオ質問応答向けに設計され、時空間的証拠を厳密に検証する階層的ベンチマーク「VideoZeroBench」を提案する。これは13のドメインにわたる500の手動注釈付き質問から構成され、証拠として時間区間と空間的バウンディングボックスがペアとなっている。回答生成、時間的グラウンディング、空間的グラウンディングを分離するため、証拠要件を段階的に厳格化する5段階の評価プロトコルを導入する。実験結果によると、Gemini-3-Proでさえ、標準的なエンドツーエンドQA設定(レベル3)では質問の17%未満しか正しく回答しない。グラウンディング制約が課されると、性能は急激に低下する:正しい回答と正確な時空間的ローカライゼーションの両方が要求される場合(レベル5)、どのモデルも1%の精度を超えず、大半は正しくグラウンディングされた予測を一切達成できない。これらの結果は、表面的な回答の正しさと真の証拠に基づく推論との間に大きな隔たりがあることを露呈し、グラウンディングされたビデオ理解が長尺ビデオQAにおけるボトルネックであることを明らかにする。さらに、最小証拠スパン、原子的能力、推論パラダイムにわたる性能を分析し、グラウンディングされたビデオ推論の将来研究への示唆を提供する。ベンチマークとコードは公開予定である。
メンバーシップ推論攻撃(MIA)は、機械学習モデルにおける訓練データ漏洩の評価を目的とした、基本的な監査ツールとして機能する。しかし、既存の手法は主に静的な人手設計のヒューリスティクスに依存しており、適応性に欠けるため、異なる大規模モデル間で転用した際にしばしば最適ではない性能となる。本研究では、メンバーシップ推論を自己探索と戦略進化の自動化プロセスとして再定義する、エージェント型フレームワークであるAutoMIAを提案する。高水準のシナリオ仕様が与えられると、AutoMIAは実行可能なロジットレベル戦略を生成し、閉ループ評価フィードバックを通じて段階的にそれらを洗練させることで、攻撃空間を自己探索する。抽象的な戦略推論を低水準の実行から分離することにより、本フレームワークはモデルに依存しない体系的な攻撃探索空間の走査を実現する。大規模な実験により、AutoMIAが手動の特徴量設計を不要としつつ、既存の最先端ベースライン手法に匹敵する、またはそれを上回る性能を一貫して発揮することを実証する。
事前学習済み言語モデル(LM)を視覚言語モデル(VLM)に適応させる際、マルチモーダル適応過程で生じる表現シフトとモダリティ間干渉により、元々備わっていた言語能力が低下する可能性がある。この損失は、標準的な目的関数を用いたタスク特化のファインチューニングを行っても回復が困難である。従来の回復手法では、モダリティ固有の部分空間を維持または分離する中間アラインメント層として機能する追加モジュールを導入するのが一般的であったが、これによりアーキテクチャの複雑化、推論時のパラメータ増加、モデルや設定跨ぐ柔軟性の制限が生じる。本研究では、アダプタを必要としない知識蒸留法LinguDistillを提案する。この手法は、元の凍結済みLMを教師モデルとして利用し言語能力を回復させる。鍵となる課題である、視覚条件付きの教師監督を可能にするため、層単位のKVキャッシュ共有を導入した。これにより、双方のモデルアーキテクチャを変更することなく、教師モデルが生徒モデルのマルチモーダル表現に接触できるようにする。その後、言語集約的データに対して教師の強力な言語信号を選択的に蒸留し言語能力を回復させつつ、マルチモーダルタスクにおける生徒モデルの視覚的接地能力は維持する。その結果、LinguDistillは言語及び知識ベンチマークで失われた性能の約10%を回復し、視覚重視タスクでは同等の性能を維持した。我々の知見は、追加モジュールなしで言語能力が回復可能であることを示し、マルチモーダルモデルにおけるモダリティ固有の能力劣化に対する効率的かつ実用的な解決策を提供する。
サプライチェーンの混乱が顕在化する前に予測することは、企業と政策立案者双方にとって核心的な課題である。主な難しさは、ノイズの多い非構造化入力から、頻度は低いが影響の大きい事象について確実に推論する方法を学ぶことにある。これは、汎用モデルがタスク固有の適応なしでは苦戦する設定である。本論文では、実現した混乱の結果を教師信号として用い、LLMが較正された確率的予測を生成するように訓練するエンドツーエンドのフレームワークを提案する。その結果得られたモデルは、精度、較正、精密さにおいて、GPT-5を含む強力なベースラインを大幅に上回る性能を示した。また、訓練により、明示的なプロンプティングなしにより構造化され信頼性の高い確率的推論が誘起されることも示す。これらの結果は、意思決定に活用可能なシグナルを生成するドメイン特化型予測モデルを訓練するための一般的な道筋を示唆している。透明性を確保するため、本研究で使用した評価データセットを公開する。 データセット: https://huggingface.co/datasets/LightningRodLabs/supply-chain-predictions
我々は、多言語デジタル・写真文書解析における初のベンチマーク「Multilingual Document Parsing Benchmark」を提案する。文書解析技術は著しく進歩しているものの、その評価は一部の主要言語における清書されたデジタル形式の整った文書にほぼ限定されている。多様な文字体系や低リソース言語にわたるデジタル及び写真文書に対するモデル性能を体系的に評価するベンチマークは存在しなかった。MDPBenchは17言語、多様な文字体系、様々な撮影条件をカバーする3,400枚の文書画像から構成され、専門モデルによるラベリング、手動修正、人的検証という厳格なプロセスを通じて高品質なアノテーションを付与している。公平な比較とデータ漏洩を防ぐため、公開評価用と非公開評価用のデータ分割を維持している。オープンソースモデルとクローズドソースモデル双方に対する総合的な評価により、驚くべき知見が得られた:クローズドソースモデル(特にGemini3-Pro)は比較的堅牢である一方、オープンソースモデルは劇的な性能低下を示し、非ラテン文字や実世界の写真文書において顕著で、写真文書では平均17.8%、非ラテン文字では14.0%の性能低下が見られた。これらの結果は言語や条件間における著しい性能不均衡を明らかにするとともに、より包括的で実用レベルの解析システム構築への具体的な方向性を示すものである。ソースコードはhttps://github.com/Yuliang-Liu/MultimodalOCR で公開されている。
検証可能な報酬を用いた強化学習(RLVR)による汎用推論モデルの構築は、先進的なオープンウェイトモデルにおいて広く採用されている。しかし、そのトレーニングレシピやドメイン混合は開示されないことが多い。複数ドメインにわたる共同最適化には重大な課題がある。ドメインによってロールアウトの長さ、問題の難易度、サンプル効率が大きく異なるためである。さらに、長い思考連鎖を持つモデルは推論コストとレイテンシを増大させ、実用展開には効率性が極めて重要となる。本論文では、Apriel-Base(150億パラメータのオープンウェイトLLM)に対し、公開データセットを用いた数学、コード生成、指示追従、論理パズル、関数呼び出しの5ドメインにわたる完全再現可能なマルチドメインRL事後学習レシピでトレーニングしたApriel-Reasonerを提案する。不均一なロールアウト動態にもかかわらず目標ドメイン比率を維持する適応的ドメインサンプリング機構と、追加のトレーニングオーバーヘッドなしで、難易度の高い問題ではより長い推論を、容易な問題では短い思考痕跡を促進する標準的な長さペナルティの難易度考慮拡張を導入する。厳格な16Kトークンの出力予算でトレーニングされたApriel-Reasonerは、推論時に32Kトークンまで一般化し、AIME 2025、GPQA、MMLU-Pro、LiveCodeBenchにおいてApriel-Baseを上回り、かつ30-50%短い思考痕跡を生成する。これにより、同規模の強力なオープンウェイトモデルと同等の精度を、より少ないトークンコストで達成し、精度対トークン予算のパレートフロンティアを推進する。
連続的画像編集は、ソース画像の忠実性を保ちながら編集方向の一貫性を維持しつつ、編集強度をスライダー形式で制御することを目的としている。既存の学習ベースのスライダー手法は、一般的に合成データや代理監督で学習された補助モジュールに依存する。これにより追加の学習コストが生じ、スライダーの挙動が学習分布に結合されるため、編集やドメインの分布変化に対する信頼性が低下する可能性がある。本研究では、学習後処理を必要としないRectified Flowにおける連続的編集のための学習不要手法FlowSliderを提案する。FlowSliderはFlowEditの更新を、(i) 同一性と構造を保持するソース条件付き安定化項として機能する忠実性項と、(ii) 対象編集への意味的遷移を駆動する操縦項に分解する。幾何学的分析と実測結果により、これらの項が近似的に直交しており、忠実性項を固定したまま操縦項のみをスケーリングすることで安定した強度制御が可能となることが示された。その結果、FlowSliderは学習後処理なしで滑らかで信頼性の高い制御を実現し、多様なタスクにおける連続的編集の品質を向上させる。
自己回帰型ニューラルコデック言語モデルは強力なゼロショット音声クローニング能力を示すが、デコーダのみのアーキテクチャでは入力テキストが接頭辞として扱われ、増加する音声シーケンスと位置符号化容量を競合するため、長い発話ではテキスト条件付けが弱体化する。本論文では、エンコーダ-デコーダ型コデック言語モデルであるT5Gemma-TTSを提案する。これはすべてのデコーダ層で双方向テキスト表現をクロスアテンション経由でルーティングすることで、持続的なテキスト条件付けを維持する。T5Gemma事前学習済みエンコーダ-デコーダバックボーン(エンコーダ20億パラメータ+デコーダ20億パラメータ、合計40億パラメータ)を基盤としており、音素変換なしで豊富な言語知識を継承し、テキストをサブワードレベルで直接処理する。発話長制御を改善するため、26層すべてのクロスアテンションに進度監視型ロータリ位置埋め込み(PM-RoPE)を導入し、正規化された進度信号を注入することでデコーダが目標音声長を追跡できるようにした。英語、中国語、日本語の17万時間の多言語音声で学習し、T5Gemma-TTSは日本語話者類似度でXTTSv2を統計的有意に上回り(0.677対0.622、95%信頼区間は重複せず)、学習データに含まれない韓国語においても最高の数値的な話者類似度(0.747)を達成した(ただしXTTSv2の0.741に対する優位性は統計的に決定的ではない)。また、5つのベースライン中で最低の日本語文字誤り率(0.126)を示したが、Kokoroとの信頼区間が一部重複するため、この順位は注意して解釈すべきである。LibriSpeechにおける英語結果は、LibriHeavyがLibriSpeechのスーパーセットであるため上限推定値と見なすべきである。同一チェックポイントで推論時にPM-RoPEを無効化すると合成はほぼ完全に失敗し:文字誤り率は0.129から0.982に悪化、発話長精度は79%から46%に低下した。コードと重みはhttps://github.com/Aratako/T5Gemma-TTS で公開している。
近年進展が見られるものの、ビデオ拡散モデルは、高度に動的な動きを伴う現実的な映像合成や、微細な動きの制御性が要求される場面において依然として困難に直面している。中心的な課題は、一般的に使用される訓練データセットにこのような事例が不足している点にある。この問題に対処するため、我々は光学フローとして表現されコンピュータグラフィックスパイプラインでレンダリングされる合成モーションデータを訓練に活用するビデオ合成フレームワーク、DynaVidを提案する。このアプローチには2つの主要な利点がある。第一に、合成モーションは実データから得ることが困難な多様な動きパターンと精密な制御信号を提供する。第二に、人工的な外観を持つレンダリング動画とは異なり、レンダリングされた光学フローは動きのみを符号化し、外観から切り離されているため、モデルが合成動画の不自然な見た目を再現するのを防ぐ。この考え方に基づき、DynaVidは2段階の生成フレームワークを採用する:モーション生成器がまず動きを合成し、その後、動き誘導ビデオ生成器がその動きを条件としてビデオフレームを生成する。この分離された定式化により、モデルは合成データから動的な動きパターンを学習しつつ、実世界の動画から視覚的な現実性を保持することが可能となる。本フレームワークを、既存データセットが特に限られている2つの挑戦的シナリオ、激しい人体動作生成と極端なカメラ動作制御において検証する。大規模な実験により、DynaVidが動的モーション生成およびカメラ動作制御において現実性と制御性を向上させることを実証する。
近年、マルチモーダル大規模言語モデルは、統合的なテキスト・画像の理解と生成において高い性能を達成している。しかし、データ不足のため、この本来の能力を3Dへ拡張することは依然として課題である。豊富な2D画像に比べ、高品質な3Dアセットは乏しく、3D合成は制約が不十分になりがちだ。既存手法は、2Dで編集し最適化を介して結果を3Dに変換する間接的なパイプラインに依存することが多く、幾何学的一貫性を犠牲にする。我々は、テキストから2D、テキストから3Dへの生成を単一の自己回帰フレームワーク内に統合する3Dネイティブ基盤モデル「Omni123」を提案する。重要な洞察は、画像と3D間のクロスモーダル一貫性が暗黙的な構造制約として機能し得る点である。テキスト、画像、3Dを共有シーケンス空間内の離散トークンとして表現することで、モデルは豊富な2Dデータを幾何学的事前知識として活用し、3D表現を改善する。我々は、完全に整合したテキスト-画像-3Dの三つ組を必要とせず、異種ペアデータセット上で多様なクロスモーダルタスクを調整する、インターリーブされたX-to-X訓練パラダイムを導入する。自己回帰シーケンス内で意味-視覚-幾何学のサイクル(例:テキスト→画像→3D→画像)を辿ることにより、モデルは意味的整合性、外観の忠実度、多視点幾何学的一貫性を共同で強化する。実験により、Omni123がテキスト誘導3D生成と編集を大幅に改善し、マルチモーダル3D世界モデルへのスケーラブルな道筋を示すことを実証する。
従来の科学の発見は、数世紀にわたって進歩を牽引してきた仮説立案・実験・精緻化の反復的サイクルに依存してきた。しかし、この直感的でアドホックな実装は、往々にして資源の浪費、非効率な設計、重要な知見の見落としを招く。本チュートリアルでは、この科学の核心的サイクルを形式化し自動化する、確率論に基づく体系的なフレームワークであるベイズ最適化(BO)を紹介する。BOは、経験的観測を発展する仮説としてモデル化するための代理モデル(ガウス過程など)と、実験選択を導く獲得関数を用いる。これにより、既知の知見の活用と未開拓領域の探索のバランスを取り、推測や手動の試行錯誤を排除する。まず科学の発見を最適化問題として位置づけ、次にBOの核心的構成要素、エンドツーエンドのワークフロー、触媒・材料科学・有機合成・分子発見におけるケーススタディを通じた実世界での有効性について解説する。さらに、科学応用における重要な技術的拡張(バッチ実験、不均一分散性、文脈依存最適化、人間-in-the-loop統合)も扱う。広範な読者層を想定した本チュートリアルは、BOにおけるAIの進歩と実践的な自然科学への応用を橋渡しし、段階的な内容構成により、学際的研究者がより効率的な実験を設計し、体系的な科学の発見を加速するための手引きを提供する。
拡散モデルに基づく制御可能なビジュアル生成の近年の進展により、画像品質は著しく向上している。しかし、これらの強力なモデルは計算需要が大きいため、通常クラウドサーバー上にデプロイされ、ユーザーデータのプライバシーに関する重大な懸念を引き起こしている。安全かつ効率的なオンデバイス生成を実現するため、本論文では、エッジデバイス上であっても優れた拡張性と効率性を提供する線形注意機構を基盤とした制御可能な拡散モデルを探求する。しかしながら、我々の実験により、ControlNetやOminiControlなどの既存の制御可能生成フレームワークは、複数の異種条件タイプをサポートする柔軟性に欠けるか、あるいはこのような線形注意モデル上では収束が遅いという課題が明らかになった。これらの限界に対処するため、我々はSANAのような線形注意バックボーンに特化した新規の制御可能拡散フレームワークを提案する。本手法の核心は、デュアルパイプラインで動作する統一されたゲート付き条件付けモジュールにあり、空間的に整合性のある手がかりと非整合性のある手がかりなど、複数タイプの条件入力を効果的に統合する。複数のタスクとベンチマークにおける広範な実験により、本アプローチが線形注意モデルに基づく制御可能生成性能において既存手法を忠実度と制御性の点で凌駕し、最先端の性能を達成することを実証する。
Late Interactionモデルは強力な検索性能を示す一方、その内部動態の多くは未解明であり、性能上のボトルネックが隠れている可能性がある。本研究では、Late Interaction検索における二つの課題に着目する:マルチベクトルスコアリング使用時に生じる長さバイアスと、MaxSim演算子による最大値プーリングを超えた類似度分布である。NanoBEIRベンチマークにおける最先端モデルのこれらの挙動を分析した。結果、因果的Late Interactionモデルの理論的な長さバイアスが実践でも確認される一方、双方向モデルも極端なケースでは同様の影響を受けることが示された。また、トップ1の文書トークンを超えた有意な類似度トレンドは存在せず、MaxSim演算子がトークンレベルの類似度スコアを効率的に活用していることが確認された。
視覚言語モデル(VLM)は、同一オブジェクトに対する視点間で一貫性のない記述を生成することが多く、具象エージェントが時間的経過に伴って一貫した意味表現を構築する能力を妨げている。従来手法では、オフラインのマルチビュー集約、あるいは探索・データ対応付け・キャプション学習を分離した多段階パイプラインを用いて不整合を解決していたが、過去に観測されたオブジェクトに対する推論能力は限定的であった。本論文では、データ対応付け・オブジェクトキャプション生成・探索方策を単一の自己回帰フレームワーク内で同時に扱う、メモリ拡張型の統合視覚言語エージェントを提案する。本モデルは、現在のRGB観測データ、上方図形式の探索マップ、およびオブジェクトレベルのエピソード記憶をオブジェクトレベルのトークンにシリアライズして処理し、長い時系列にわたるオブジェクトの永続的同一性と意味的一貫性を保証する。モデルを自己教師あり学習で訓練するため、写真写実的な3D環境において、不一致に基づく方策と、マルチビューのキャプション履歴間の一貫性を強化する擬似キャプション生成モデルを用いてデータセットを収集した。手動注釈によるオブジェクトレベルのテストセットを用いた詳細な評価では、標準的なキャプション評価スコアで最大+11.86%、キャプション自己類似性で+7.39%のベースラインモデルに対する改善を確認しつつ、コンパクトなシーン表現によるスケーラブルな性能を実現している。コード、モデル重み、データはhttps://hsp-iit.github.io/epos-vlm/で公開されている。
スパースビュー3Dモデリングは、再構成の忠実度と生成的妥当性の間の根本的な緊張関係を表している。フォワード再構成は効率性と入力整合性に優れるが、構造的完全性に必要な大域的プリオーを欠くことが多い。一方、拡散ベースの生成は豊富な幾何学的詳細を提供するが、多視点一貫性に課題を残す。本研究では、これら二つのパラダイムを単一の協調システムに統合する統一フレームワーク「UniRecGen」を提案する。座標空間、3D表現、学習目標における本質的な衝突を克服するため、共有正準空間内で両モデルを整合させる。分離協調学習を採用し、推論時のシームレスな連携を可能にしつつ安定した学習を維持する。具体的には、再構成モジュールは正準幾何アンカーを提供するように適応され、拡散生成器は潜在拡張条件付けを活用して幾何構造を洗練・完成させる。実験結果では、UniRecGenが優れた忠実度と頑健性を達成し、まばらな観測からの完全かつ一貫性のある3Dモデル作成において既存手法を凌駕することを実証する。
現在のLLMベースのコーディングエージェントは、逐次実行のパラダイムに従っている。つまり、モデルがまず完全なコードを生成し、その後インタプリタを起動して実行するという流れだ。このシーケンシャルなワークフローでは、生成中はエグゼキュータが、実行中はジェネレータがそれぞれアイドル状態となり、不必要なエンドツーエンドのレイテンシが生じる。我々は、人間の開発者とは異なり、LLMは修正を加えることなくコードトークンを逐次的に生成するため、コードの生成途中での実行が可能であると考察する。本論文では、この並列実行パラダイムを、生成、検出、実行の3段階のパイプラインとして定式化し、その高速化の可能性と動作領域を特徴付ける閉形式のレイテンシ限界を導出する。次に、ASTベースのチャンキング、ゲート付き実行による動的バッチ処理、早期エラー中断を特徴とする具体的な実装「Eager」を提示する。Eagerを4つのベンチマーク、7つのLLM、3つの実行環境で評価した結果、Eagerは7つのLLMと4つのベンチマークにわたって、非重複実行レイテンシを最大99.9%、エンドツーエンドレイテンシを最大55%削減できることが示された。
音響研究コミュニティは、新たなアプローチを構築し、ベースラインを確立するための基盤ツールとして、オープンな生成モデルに依存しています。本報告では、Sony AIが公開したサウンドエフェクト基盤モデル「Woosh」を紹介し、そのアーキテクチャ、学習プロセス、および他の主要なオープンモデルとの比較評価を詳述します。サウンドエフェクトに最適化された本モデルは、(1) 高品質なオーディオエンコーダ/デコーダモデルと、(2) 条件付けのためのテキスト-オーディオ整合モデル、さらに(3) テキストからオーディオを生成するモデルおよび(4) ビデオからオーディオを生成するモデルを提供します。リソースが限られた環境での動作や高速推論を可能とする、蒸留版のテキスト-to-オーディオおよびビデオ-to-オーディオモデルも公開に含まれています。公開データおよび非公開データを用いた評価では、StableAudio-OpenやTangoFluxなどの既存のオープンな代替モデルと比較して、各モジュールが同等以上の性能を示しました。推論コードとモデル重みは https://github.com/SonyResearch/Woosh で、デモサンプルは https://sonyresearch.github.io/Woosh/ でそれぞれ公開されています。
近年のビデオ拡散モデルの進歩により、インタラクティブな環境をシミュレート可能な「世界モデル」の開発が可能となってきた。しかし、これらのモデルは主に単一エージェント設定に限定され、シーン内の複数エージェントを同時に制御することができない。本研究では、既存のビデオ拡散モデルにおける動作束縛の根本的な問題、すなわち特定の動作を対応する主体に関連付けることに苦労する問題に取り組む。この目的のために、生成型ビデオゲームのための動作制御可能な多主体世界モデルであるActionPartyを提案する。本モデルは、シーン内の各主体の状態を持続的に捕捉する潜在変数である、主体状態トークンを導入する。状態トークンとビデオ潜在表現を空間的バイアス機構で共同モデリングすることにより、グローバルなビデオフレームの描画と、個別の動作制御による主体の更新を分離する。ActionPartyをMelting Potベンチマークで評価し、46の多様な環境において最大7プレイヤーを同時に制御可能な初のビデオ世界モデルであることを実証する。結果は、複雑なインタラクションを通じた主体の堅牢な自己回帰的追跡を可能にしつつ、動作追従精度と同一性一貫性において大幅な改善を示している。
大規模言語モデル(LLM)エージェントがソフトウェアエンジニアリングのような開放領域で展開されるにつれ、重要な文脈が欠落した未詳細化指示に頻繁に遭遇するようになっている。人間の開発者が未詳細化を解消する際には自然に明確化質問を行うが、現行のエージェントは自律的な実行に最適化されている。本研究では、SWE-bench Verifiedの未詳細化バリアントにおいて、LLMエージェントの明確化質問能力を体系的に評価する。我々は、未詳細化の検出とコード実行を明示的に分離する不確実性認識型マルチエージェント・スキャフォールドを提案する。実験結果から、OpenHands + Claude Sonnet 4.5を用いたこのマルチエージェントシステムが69.40%のタスク解決率を達成し、標準的なシングルエージェント構成(61.20%)を大幅に上回り、完全に詳細化された指示で動作するエージェントとの性能差を埋めることが示された。さらに、マルチエージェントシステムは較正された不確実性を示し、単純なタスクでは質問を抑制しながら、複雑な課題では積極的に情報収集を行うことが分かった。これらの知見は、現行のモデルが積極的な協調者へ転換可能であり、実世界の未詳細化タスクにおいてエージェントが自律的に質問すべきタイミングを認識できることを示唆している。
大規模言語モデルに基づくエージェント型アプリケーションは、計画、行動実行、環境フィードバックを含む多段階のインタラクションループに依存することが増えている。このようなシステムはすでに大規模に展開されているが、デプロイ後の改善は依然として困難である。エージェントの軌跡は膨大で非決定的であり、人間によるレビューや補助LLMによるものを含め、個々の軌跡を検討することは時間がかかりコストがかさむ。本稿では、エージェントのインタラクション軌跡をトリアージするための軽量なシグナルベースのフレームワークを提案する。我々のアプローチは、ライブインタラクションから安価で広く適用可能なシグナルを計算し、それらを構造化属性として軌跡トリアージに付加することで、オンラインのエージェント動作に影響を与えることなく、有益な情報を含みそうなインタラクションを特定する。シグナルを、インタラクション(不一致、停滞、離脱、満足度)、実行(失敗、ループ)、環境(枯渇)にまたがる粗い分類体系に整理し、モデル呼び出しなしでの計算を想定する。ツール拡張エージェント評価の広く使われているベンチマークであるτ-benchを用いた制御された注釈研究において、シグナルベースのサンプリングは、ヒューリスティックフィルタリングの74%、ランダムサンプリングの54%と比較して、82%の情報含有率を達成し、有益な軌跡あたりの効率が1.52倍向上することを示す。この利点は報酬層やタスク領域を超えて頑健であり、シグナルが明らかな失敗を過剰にサンプリングするだけでなく、軌跡ごとの真の情報含有率の向上をもたらすことを確認する。これらの結果は、軽量なシグナルがエージェントシステムの実用的なサンプリング基盤として機能しうることを示し、選好データ構築とデプロイ後最適化への道筋を示唆するものである。
言語モデルは多くの実体中心の事実質問に回答できるが、このプロセスにどの内部メカニズムが関与しているかは不明なままである。我々は複数の言語モデルにわたってこの問題を調査する。各実体に関するテンプレート化されたプロンプトを用いて実体選択的MLPニューロンを局在化し、PopQAベースのQA事例に対する因果的介入によって検証する。PopQAから抽出した200実体の精選セットにおいて、局在化ニューロンは初期層に集中している。負のアブレーションは実体特異的な記憶喪失を引き起こし、プレースホルダートークンへの制御注入は、平均実体および誤ったセル制御と比較して回答検索を改善する。多くの実体において、コンテキストが初期化されれば、単一の局在化ニューロンを活性化するだけで実体整合的な予測を回復可能であり、これは純粋な深度横断的な漸進的豊富化ではなく、コンパクトな実体検索と整合する。別名、頭字語、誤字、多言語形式への頑健性は標準化解釈を支持する。この効果は強いが普遍的ではない:全ての実体が信頼性の高い単一ニューロンハンドルを許容するわけではなく、人気実体ではカバレッジが高い。全体として、これらの結果は、実体条件付けされた事実的挙動を分析・調整するための疎で因果的に実行可能なアクセスポイントを同定する。
形態形質は、生物個体が環境とどのように相互作用するかについての重要な手がかりを提供する生物学的特徴である。しかし、これらの形質の抽出は依然として速度が遅く、専門家主導のプロセスに依存しているため、大規模な生態学研究における利用が制限されている。大きなボトルネックは、生物画像と形質レベルの注釈を結び付ける高品質なデータセットの欠如である。本研究では、基盤モデルの特徴量で学習したスパース自己符号化器が、単義的で空間的に接地されたニューロンを生成し、それらが意味のある形態的部分で一貫して活性化することを実証する。この特性を活用し、顕著な領域を局在化させ、視覚言語プロンプトを用いて解釈可能な形質記述を生成する形質注釈パイプラインを提案する。このアプローチを用いて、BIOSCAN-5Mの19,000枚の昆虫画像にまたがる80,000件の形質注釈からなるデータセット、Bioscan-Traitsを構築した。人間による評価は、生成された形態記述の生物学的妥当性を確認する。包括的なアブレーション研究を通じて設計の感度を評価し、主要な設計選択を系統的に変化させ、それらが結果の形質記述の品質に与える影響を測定した。法外にコストのかかる手作業ではなく、モジュール式のパイプラインで形質を注釈することにより、生物学的に意味のある教師信号を基盤モデルに注入するスケーラブルな方法を提供し、大規模な形態解析を可能にし、生態学的関連性と機械学習の実用性の間の隔たりを埋める。
本論文では、大規模言語モデルの継続的なマルチドメインファインチューニングのためのモジュラーアーキテクチャ「Brainstacks」を提案する。これは、推論時に共有の凍結ベースモデル上で加算的に合成される凍結アダプタスタックとしてドメイン知識をパッケージ化する。5つの連動する構成要素:(1)QLoRA 4ビット量子化(rsLoRAスケーリング適用)下での全7トランスフォーマー射影層に対するShazeer式ノイジートップ2ルーティングを備えたMoE-LoRA、(2)学習済みスタックを凍結し新規スタックを追加する残差ブースティングを行う内側ループ、(3)カリキュラム順序に基づく依存関係でドメイン特化スタックを逐次学習する外側ループ、(4)ランダム化SVDによる零空間射影により新規スタックを過去の学習方向と直交する部分空間に制約し、単体では完全な忘却防止を実現、(5)経験的に発見されたドメイン組み合わせターゲットに基づいて学習された成果ベースのシグモイドメタルーターがスタックを選択的に重み付けし、ドメイン横断的な合成を可能にする。二つの境界実験:(6)ランダム初期化モデルに対するPSN事前学習、(7)SFT後のアライメント手法(DPO/GRPO)との互換性を検証するドメイン毎の強化学習。TinyLlama-1.1B(4ドメイン、9スタック)とGemma 3 12B IT(5ドメイン、10スタック)で検証した結果、MoE-LoRAはパラメータ数が同等の単一LoRAより2.5倍高速に収束し、残差ブースティングは単一スタックの性能限界を突破し、ルーティングシステムはゲートなしスタック累積で損なわれた生成品質を回復した。中核的発見:成果ベースルーターは、ドメインスタックがドメイン固有知識ではなく転移可能な認知的プリミティブ(指示追従の明確性、数値推論、手続き的論理、連鎖思考構造)を符号化することを発見。医療プロンプトの97%が、医療データを一切含まない「対話+数学」スタックにルーティングされることを実証。
映像ベースの世界モデルは、対話型シミュレーションやエンターテインメントにおいて大きな可能性を示している。しかし、現在のシステムは依然として、対話性における二つの重要な側面、すなわち「再現可能で編集可能な体験のためのユーザーによる環境制御」と「プレイヤーが共通世界に対して影響力を持つ共有推論」に課題を抱えている。これらの限界に対処するため、我々はシステムに明示的な外部メモリを導入する。これはモデルのコンテキストウィンドウから独立して動作する永続的状態であり、ユーザーの行動によって継続的に更新され、生成のロールアウト全体を通じて参照される。従来の拡散モデルベースのゲームエンジンが次フレーム予測器として動作するのとは異なり、本手法では生成を「メモリ」「観測」「ダイナミクス」のモジュールに分解する。この設計により、編集可能なメモリ表現を通じてユーザーは環境構造を直接的に編集・制御でき、一貫した視点とプレイヤー間で整合性のある相互作用を伴う、リアルタイムのマルチプレイヤーロールアウトへ自然に拡張することが可能となる。
音声認識(PR)は多言語・低リソース音声処理タスクにおける重要な基盤技術であるが、頑健な性能達成は未だ困難な課題である。英語に特化した高精度モデルは他言語への汎化性に欠け、多言語モデルは事前学習された表現を十分に活用できていない。さらに、データ規模、アーキテクチャ、学習目標が多言語PRにどのように寄与するかも不明確である。本論文では、大規模多言語データで学習し、多言語音声(17.7% PFER)とアクセント付き英語音声(10.6% PFER)の両方でState-of-the-Art性能を達成するPhoneticXEUSを提案する。統一評価枠組による100言語超にわたる制御されたアブレーション実験を通じて、我々の学習レシピを実証的に確立し、SSL表現、データ規模、損失関数の影響を定量化する。さらに、言語族、アクセント付き音声、調音特徴にわたる誤りパターンを分析する。全てのデータとコードを公開する。