翻訳付きの日次キュレーションされたAI研究論文
AIコーディングエージェントは科学的研究にますます利用されているが、そのエンドツーエンドの自律研究能力の検証は依然として困難である。本稿では、10の科学分野にわたる40のタスクからなる自律的科学的研究の評価ベンチマークであるResearchClawBenchを提案する。各タスクは実際に出版された論文に基づき、関連文献と生データを提供し、評価中は目標論文を隠す。専門家が選定したマルチモーダルルーブリックは目標の科学的成果物を重み付き基準に分解し、目標論文レベルの再発見を評価可能にするとともに、新たな発見の余地も残している。 我々は、統一プロトコルの下で7つの自律研究(オートリサーチ)エージェントと、軽量なResearchHarnessを通じて17のネイティブLLMを評価した。現在のシステムは、信頼性のある再発見には程遠い。最強の自律エージェントであるClaude Codeの平均スコアは21.5、最強のResearchHarness LLMであるClaude-Opus-4.7の平均スコアは20.7であり、LLMフロンティアの平均はわずか26.5である。エラー分析によると、失敗は実験プロトコルの不一致、エビデンスの不一致、科学的核心の欠落に集中している。ResearchClawBenchは、自律的科学的研究に向けた進捗を測定するための再現可能な評価フロンティアを提供する。
視覚言語モデル(VLM)は多くのタスクで高い性能を示すものの、重要な情報が直接観測できない状況での空間推論には依然として課題がある。そのような問題の多くは、想像的な知覚、すなわち未観測の視点から見えるものを推論したり、遮蔽された空間を通る経路を追跡したり、部分的な観測を一貫した空間表現に統合する能力を必要とする。本稿では、観測入力との整合性を保ちつつ、VLMが代替的な空間配置のもとで知覚するであろう内容を外部化する中間的な知覚表現である「想像的知覚トークン(Imaginative Perception Tokens, IPT)」を提案する。 この能力を研究するため、我々は3つのタスク(視点取得(PET)、経路追跡(PT)、多視点計数(MVC))を策定し、正解の想像結果、解答、評価ベンチマークを含む約2万個のデータセットを構築した。統一型VLMであるBAGELをバックボーンとして用いた場合、IPTによる教師信号は空間推論を一貫して改善し、推論時に画像を生成しなくても、テキストによる連鎖思考(chain-of-thought)学習を上回ることが多い。MVCではIPTにより精度が3.4%向上し、PTでは強力なクローズドソースモデルと競争力のある性能を達成する。さらに、IPTとラベルのみの教師信号を組み合わせると追加の利得が得られる一方、テキストによる連鎖思考は性能を著しく低下させることがあり、空間計算を言語に強制する際のモダリティの不一致を示唆している。全体として、IPTは未観測の空間構造に関する推論のための原理的な教師信号を提供し、解釈可能な中間表現を生成しつつ汎化性能を向上させる。
大規模言語モデルは、多様な下流タスクにおいて印象的なゼロショット能力を示します。しかし、既製の埋め込みモデルとして機能するには難点があり、大規模なテキスト埋め込みベンチマークにおいて最適とは言えない性能に留まっています。本論文では、この欠点の背後にある潜在的な原因を特定します。我々の動機は、予期せぬ観察に基づいています。テキスト埋め込みを語彙空間に投影すると、頻繁に出現するが情報量の少ないトークンと一致する傾向があるのです。この高頻度トークンの過剰な表現が、モデルの微妙な意味を捉える能力を抑制していると考えます。この問題に対処するため、我々はEmbedFilterを導入します。これは大規模言語モデルから直接得られるテキスト埋め込みを洗練するための単純な線形変換です。具体的には、大規模言語モデル内のアンエンベッディング行列が、これらの頻出トークンを埋め込み空間に積極的に書き込む潜在空間を符号化していることを明らかにします。この部分空間をフィルタリングすることにより、EmbedFilterは高頻度トークンの影響を抑制し、意味表現を強化します。魅力的な副産物として、これにより本質的な次元削減が可能となり、インデックス保存の低減と検索の高速化を実現しつつ、洗練された埋め込み品質を完全に維持します。複数の大規模言語モデルバックボーンを用いた実験により、EmbedFilterを備えた大規模言語モデルは、埋め込み次元を大幅に削減した場合でも、優れたゼロショット下流性能を達成することを示します。我々の知見が、大規模言語モデルに基づく表現のメカニズムについてより深い洞察を提供し、テキスト埋め込み学習を改善するためのより原理的な設計を促進することを期待します。コードはhttps://github.com/CentreChen/EmbFilterで公開しています。
LLM調停者の評価は依然として困難である。なぜなら、調停は、紛争当事者の感情、意図、文脈の変化に応じて形成されるリアルタイムの軌跡として展開するからである。既存のテストベッドは、少数の専門家が作成したドメインに依存し、主に戦略的姿勢を変化させ、すべてのターンをすべてのトピックに対して採点するため、トピック外のノイズが生じる。我々は、現実的でマルチドメインなテストベッドにおいて、能動的なLLM調停者を評価するためのベンチマークであるSoCRATESを導入する。これは、エージェント型パイプラインを通じて8つのドメインにわたる実際の紛争からシナリオを構築し、5つの社会認知的適応軸(戦略的姿勢、当事者構成、履歴長、感情的反応性、文化的アイデンティティ)を調査し、トピックを進展させるターンのみをトピック局所評価器を用いて採点する。この評価器は、人間の専門家との一致率0.82を達成し、1ターンごとのベースラインを2倍以上上回る。8つの最先端LLMをベンチマークした結果、最も強力な調停者でさえ、多様で現実的なテストベッドにおいて、調停なしの場合の合意ギャップの約3分の1しか埋められず、性能は社会認知的軸によって大きく変動することが判明した。これは、進歩が多様な条件への社会的適応にあることを強調している。
ゲノム基盤モデルの進捗評価は、断片的なベンチマーク、互換性のない評価プロトコル、タスク固有の報告のために困難である。その結果、モデル間での優位性や汎用性の主張は、多くの場合直接比較できない。我々はGENEBを導入する。これは13の機能カテゴリにわたる100のタスクにおいて40のゲノム基盤モデルからの凍結表現を、数ショット設定を含む統一されたプローブベースのプロトコルで評価する大規模診断ベンチマークである。GENEBは、モデル規模、アーキテクチャ、トークン化、事前学習データにわたる制御された比較を可能にし、タスクレベルのトレードオフを明示的に明らかにする。我々の分析は、集約リーダーボードが不安定であることを示している。モデルランキングはタスクカテゴリ間で大きく変動し、規模はわずかで一貫性のない利点しか提供せず、アーキテクチャと事前学習の整合性がしばしばパラメータ数を上回る。これらの結果は、現在の評価手法の限界を浮き彫りにし、ゲノム機械学習における原理的な比較とカテゴリ認識型モデル選択のための参照フレームワークとしてGENEBを位置づける。
MMAE(Massive Multitask Audio Editing benchmark)を紹介する。これは、汎用的な指示ベースの音声編集を対象とした初の包括的評価テストベッドである。インテリジェントな創作への潮流に刺激され、画像分野のNano-banana 2や動画分野のGemini-Omniといったモデルが先駆けとなって、インタラクティブ編集は視覚領域から音声へと急速に拡大してきた。しかし、現在の評価基盤は深刻に立ち遅れており、特定のサブドメインや基本的な操作に限定された極めて断片的な状態にとどまっている。範囲が限定的な既存のベンチマークとは異なり、MMAEは幅広い実世界シナリオに対応し、サウンド、音声、音楽、およびそれらの混合を含む7つの異なる音声モダリティを網羅する。さらに、基本修正からマルチホップ推論やマルチラウンド編集に至る6段階のタスク複雑性、2段階の粒度、8種類の操作タイプからなる包括的な分類体系を構築した。人間とエージェントの協働により丹念に厳選されたMMAEは、2,000件の高忠実度サンプルと、先駆的なルーブリックベースの評価フレームワークを組み合わせている。自由形式のタスクを17,741の検証可能なクライテリアに分解することで、この堅牢なルーブリックベースのパラダイムは、指示追従性と文脈一貫性の両方を正確かつ多次元的に評価することを可能にする。主要モデルを広範囲に評価した結果、現在のシステムは信頼性の高い編集を実現するには程遠いことが明らかになった。特に、Exact Match Rate(EMR)は常に5%を下回り、複雑な混合モダリティタスクでは絶対的な0%にまで低下しており、精密な実行と構造的頑健性における重大なボトルネックが露呈している。MMAEが、次世代音声編集システムに対する明確な診断ロードマップを提供し、標準化された長期的な評価パラダイムを確立することで、インテリジェント創作コミュニティの将来の進歩の触媒となることを期待している。
対話型世界モデリングは極めて重要なフロンティアであるにもかかわらず、実用的なシナリオで必要とされる多用途な制御性という観点では、いまだ十分に研究されていない。このギャップを埋めるため、我々はAnchorWorldを提案する。これは、インタラクションの完全性を高め、世界をカスタマイズする柔軟なメカニズムを通じて、自己中心視点シミュレーションを高度化するフレームワークである。まず、3次元の人体動作を主要なインタラクション手法として採用する。自己中心視点において視野外や途切れた身体部位を補完するために、エージェントの一人称感覚器から切り離された外部視点を導入した補助的トレーニング監視手法を導入する。これにより、モデルは環境に対するエージェントの全身の位置関係を観測できるようになり、人間と世界とのインタラクションをより強固に空間的に grounding できるようになる。さらに、自己進化する世界をカスタマイズするための、シンプルでありながら効果的なメカニズムを提案する。これは、統一された世界座標系内でアンカービューを定義し、局所的なシーンの動的な変化を指示するテキスト記述と組み合わせることで実現される。実験結果は、AnchorWorldが最先端のベースラインを大幅に上回る性能を示し、アブレーション研究によって我々の主要な設計の有効性が検証された。特筆すべきは、我々のカスタマイズ手法が、優れた時空間幾何学的一貫性を示し、規定された進化ダイナミクスに厳密に従う点である。
汎用ロボット知能は、しばしばポリシースケーリングの問題として捉えられている。すなわち、より多くのロボットデモンストレーションを収集し、より大規模なVision-Language-Action(VLA)モデルを訓練すれば、より広範な汎化が期待できるという考え方である。本ポジションペーパーでは、この枠組みは不完全であると主張する。中心的なボトルネックはポリシー学習だけではなく、世界に豊富に存在する非構造化行動データを、接地されたロボットの教師信号に変換するメカニズムが欠如していることにある。人間の動作、インターネット動画、シミュレーションロールアウト、対話型デモンストレーションには、タスク、目標、接触、失敗、物理的制約に関する豊富な情報が含まれているが、それらの情報の大部分は、エンボディメント固有の行動ラベル、タスク意味論、報酬構造が欠如しているため、ロボットポリシーが直接利用できない。本稿では、次世代ロボティクスに必要な4つの欠落要素を特定する。すなわち、非構造化行動を自動ラベリングするためのデータインターフェース、人間の動作をロボット行動にリターゲティングするためのエンボディメントインターフェース、物理に接地された3D推論のための世界モデルインターフェース、そして動画と言語からタスクの進捗と成功を推論するための報酬インターフェースである。ロボット基盤モデル、クロスエンボディメントデータセット、動画からの学習、世界モデル、報酬モデリングに関する最近の進展を概観し、ロボットデモンストレーションからのみならず、より広範な物理世界からも学習可能なロボティクスシステムを構築するための研究課題を提案する。
オブジェクト挿入は、参照オブジェクトを背景画像の指定領域にシームレスに合成することを目的とする。近年の拡散モデルを用いた手法は高い視覚品質を実現しているが、挿入を単純な2Dインペインティングタスクとして定式化しており、オブジェクトの3D姿勢を明示的に制御できず、実用的な適用可能性が制限されている。我々は、インタラクティブな姿勢操作と高忠実度2D画像合成を統合し、姿勢制御可能なオブジェクト挿入を実現する新しいフレームワークDIRECT(Decomposed Injection for Reference Composition and Target-integration)を提案する。本手法は、挿入条件を3つの補完的なコンポーネント、すなわち参照オブジェクトから視覚的詳細を捉える外観ガイダンス、ユーザーが調整した3Dプロキシから導出される幾何ガイダンス、対象背景からのコンテキストガイダンスに分解する。これらを別々の経路で注入することにより、DIRECTは特徴の絡み合いを回避し、参照の外観を維持しつつユーザー指定の姿勢に従い、オブジェクトを対象シーンに適応させる。また、訓練データの多様性と品質を向上させるための自動データ構築パイプラインを導入する。実験により、DIRECTは幾何学的制御性と視覚品質の両方において従来手法を上回ることが示された。
自己進化型エージェントは展開後の適応を必要とするが、既存のアプローチでは厳選されたスキル、成功軌跡、検証信号など、利用可能な学習ループを前提としている。実際のオープンワールド展開ではこれらが一切提供されず、タスクプロンプトのみが与えられる場合がある。本研究では、エージェントが対象タスクの教師信号なしに、オープンワールドのリソースのみを用いて、スキルと自身の検証信号の両方をゼロから構築しなければならないオープンワールド自己進化を扱う。我々はこのループをブートストラップするフレームワークOpenSkillを提案する。これは、ドキュメント、リポジトリ、ウェブから接地された知識と検証アンカーを獲得し、それらを転移可能なスキルに合成し、対象回答ではなくアンカーに基づく自己構築仮想タスクに対してスキルを洗練する。こうしてオープンワールドは学習すべき知識と教師なしの練習環境の両方を提供し、対象タスクの教師信号は最終評価にのみ用いられる。3つのベンチマークと2つの対象エージェントにおいて、OpenSkillは教師なし制約を満たしつつ最良の自動パス率を達成した。分析により、そのスキルはモデル固有の適応なしにモデル間で転移可能であり、自己構築検証器は正解結果にアクセスすることなくそれらと整合することが示された。
既存のベンチマークは、LLMにおけるツール統合推論(TIR)を理想的な「ハッピーパス」で評価しており、現実世界のツール障害をほとんど無視している。我々は、TIRエージェントにおける動的な経路発見とエラー復旧のためのベンチマークであるToolMazeを紹介する。系統的な再計画と盲目的な試行錯誤を区別するために、ToolMazeは2次元の設計を採用している。すなわち、DAGベースのトポロジカル複雑性と、ツール摂動の2×2分類(明示的/暗黙的、一時的/永続的)である。評価の結果、摂動はほぼすべてのモデルの性能を低下させ、暗黙的な意味的障害において最も顕著な低下が見られた。破損した出力に対する系統的な過信に起因して、これらのシナリオでは摂動回復率(PRR)が約37%急落し、複雑なトポロジはエージェントを無駄な試行錯誤のループに陥らせる。重要なことに、エージェントのフォールトトレランスはモデル規模に応じて向上するが、その速度は基本的なタスク実行よりも3.66倍遅く、動的な再計画がモデルスケーリングやプロンプティングでは対処されていない明確なボトルネックであることが浮き彫りになる。データとコードはhttps://github.com/Zhudongsheng75/ToolMazeで入手可能である。
ビデオ理解は、マルチモーダル大規模言語モデル(MLLMs)によって急速に変革されつつあり、研究は短いクリップから長時間のマルチモーダルかつ知識集約的なビデオシナリオへと移行している。これらのシナリオでは、モデルが疎な証拠、長距離依存関係、マルチモーダルアライメント、そして限られた計算予算下での信頼性の高い推論を処理することが求められる。本稿では、LLMを基盤としたビデオ理解に対して、人間の視点に基づく考察を提示し、それを「視聴」「記憶」「推論」という三つの機能的能力に整理する。ビデオタスクを個別のベンチマークとして扱うのではなく、この視点は、ビデオMLLMがどのように証拠を取得し、コンテキストを保持し、根拠のある出力を生成するかを分析するための統一的な枠組みを提供する。我々は、ビデオ理解システムを知覚表現、記憶状態、推論トレース、最終予測によって特徴づける定式化を導入する。この定式化に基づき、時空間知覚、効率的な長時間ビデオ処理、記憶モデリング、ストリーミング理解、そして忠実な推論における課題を特定する。代表的な手法は、ビデオMLLMシステムにおける役割に応じて整理される。「視聴」は、詳細な、包括的な、音声-視覚的な、そして効率的な知覚を扱う。「記憶」は、オフラインおよびストリーミングメモリを対象とし、「推論」はテキストのみの推論とビデオを用いた思考を扱う。さらに、一人称視点、スポーツ、教育用、医療、ナラティブビデオなどの応用領域を検討し、タスクタイプ、教師形式、モダリティ、能力次元にわたるトレーニングデータセットと評価ベンチマークを網羅する。最後に、スケーラブルでメモリ認識型かつ根拠に基づくビデオ知能のための未解決問題と将来の方向性を概説する。関連研究は、https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding で継続的に追跡される。
永続的AIアシスタント(例:OpenClaw)は、長期的な対話を通じて関連記憶の大規模なコレクションを蓄積する。記憶が増大するにつれて、それらは互いに強化し合い、文脈に応じて分岐したり、直接矛盾したりする可能性があり、正確な支援は孤立した想起ではなく記憶間の関係に依存するようになる。既存の長期記憶ベンチマークは、エージェントが下流タスクにおいてそのような関係を保存・活用する方法をほとんど調査していない。 このギャップに対処するため、我々はSubtleMemoryを提案する。これは、長期稼働するAIエージェントにおける細粒度の関係記憶識別のためのベンチマークである。SubtleMemoryは、バリアントが補完的、微細、または矛盾した関係を具体化する関係制御された潜在意味アーティファクトを構築し、それらを現実的なユーザー・エージェント履歴に埋め込むことで、エージェントが後のクエリや指示において分散された関係構造を復元することを要求する。本ベンチマークは、10の長期履歴にわたる1,522の評価インスタンスを含み、1,090の関係制御された記憶バリアントセットに基づき、ユーザー関連および非ユーザー関連のクエリにわたる。 6つのスタンドアロンメモリシステム、ネイティブメモリモジュールを持つ2つのClaw型エージェント、およびプラグインメモリモジュールを持つ3つのClaw型エージェントを評価した結果、現在のシステムは細粒度の関係記憶識別において依然として脆弱であることが判明した。さらに、記憶保持、検索、下流推論の各段階にわたって異なる能力プロファイルを明らかにする診断プロトコルを導入する。
私たちは、大規模言語モデル(LLM)が真の背後分布を捉える能力を評価するUnpredictaBenchを紹介します。LLMが経済シミュレーションにおける人間など、他の実体の代替としてますます利用される中で、多くのモデルが唯一の妥当な回答に収束する傾向は、現実システムの予測不可能性を捉え損ねることを意味します。出力の多様性を向上させる最近の研究は、この設定では不十分です。シミュレーションには、単に多様な出力ではなく、目標分布に較正された標本が必要です。UnpredictaBenchは、この問題の簡略化された基本的なバージョンに焦点を当てます。すなわち、標準的な統計分布、確率的プログラムによって誘導される分布、ランダムな過程を説明する自然言語シナリオを含む個別の目標分布からの結果の標本抽出です。我々は、448個のこのような問題とともに、KS@Nという汎用的な評価指標を導入します。これは、Kolmogorov-Smirnov統計検定を介して、モデル出力がブラックボックスの目標分布をどの程度近似しているかを定量化します。この指標は、サイズNのモデル標本を真の標本に対して棄却できない割合を示し、Nが大きいほど難易度が高いことを意味します。オープンモデルとプロプライエタリモデルの両方でテストしたところ、分布に関する能力には大きなばらつきがあることがわかりました。例えば、モデルがサイズ100の標本を生成する場合(KS@100、我々の標準指標)、スコアはほぼ0%から20%超まで広がりました。KS@100で40%以上を達成できるモデルはなく、分布標本抽出という能力には大きな改善の余地があることが示されています。推論を追加することでスコアがある程度上がるものの、この問題に対する即効性のある解決策は見つかりませんでした。UnpredictaBenchは、単純な分布シミュレーションでさえ依然として困難であることを示しており、LLMを複雑なシステムの代役として使用するための必要な第一歩となります。
因果グラフは、メカニズムを透明化するための高水準の言語を提供する。最近の研究では、大規模言語モデル(LLM)を用いて外界のプロセスの因果グラフを復元している。それに対し、本論文では因果グラフを用いてLLMの推論そのものをモデル化し、モデルが予測を生成する際に高水準の概念をどのように認識・整理しているかをステークホルダーに透明に示す。我々は、そのようなグラフを構築するための4段階の手法を提案する。対象となるLLMと一連のテキスト例が与えられると、本手法はクラス識別可能で人間が解釈可能な概念を発見し、各入力をLLMが認識した概念状態にマッピングする。次に、MCMCに着想を得た反実仮想拡張手順を導入し、反実仮想の連鎖を通じて疎な観測データを拡張する。これにより、σ-CGを用いた安定した因果発見が可能となり、情報量が多く解釈可能なグラフが得られる。本手法を、疾患診断、感情分析、LLM-as-a-judge(LLMによる判定)の分類タスクにおいて3つのLLMに適用する。学習されたグラフの予測忠実性と構造的安定性、およびMCMCに着想を得た拡張手法の収束性と下流タスクでの有用性を評価する。結果は、発見された因果グラフがLLMの推論と整合する意味のある依存関係を捉えていることを示している。以上より、本論文はLLMの概念レベルでの説明可能性の基盤を提供する。
視覚言語モデル(VLM)は強力な視覚推論能力を示してきたが、その空間推論能力は観測画像とテキスト指向のチェーン・オブ・ソートに大きく制限されたままである。限られた自己中心的な観測のみが利用可能な場合、未観測のレイアウトを推論すること、視点間の一貫性を維持すること、および代替視点から推論することにしばしば困難を伴う。本研究では、この問題を「想像による思考」として捉え、VLMが推論中に世界シミュレータと相互作用することで想像上の視覚的証拠を能動的に獲得する方法を探る。我々は、VLMに行動条件付き視覚想像力を付与するエージェント型空間推論フレームワーク「Astra」を提案する。具体的には、Astraは強化学習(RL)で訓練されたVLMポリシーであるAstra-VLと、コンテキスト画像と自然言語によるカメラ動作から新規視点観測を生成するBagelベースの世界シミュレータAstra-WMを連携させる。信頼性の高い想像上の証拠を提供するため、Astra-WMは視点一貫性チューニングにより訓練され、視点間の姿勢と内容の一貫性を向上させる。RL段階では、世界シミュレータをループに含む二相RLカリキュラムを提案し、ツール使用探索を安定化させるとともに、モデルが直接回答よりも想像上の観測が有効である場合にのみシミュレータを呼び出す能力を向上させる。実験により、世界シミュレータとエージェント型ポリシーの両方が必要であることが示された。Astra-WMはシミュレータ拡張型Gemini-3-FlashのMMSI-Benchスコアを45.1から49.5に向上させ、Astra-VLはバックボーンのQwen3-VLをMMSI-Benchで29.8から38.8、MindCubeで36.8から42.7に改善した。これらの結果は、想像上の観測が有用な空間的証拠を提供できることを示す一方、効果的な世界モデル拡張型推論には、いつ、どこで、どのように想像すべきかを学習することが必要であることを示している。
本研究では、広く利用されているフォトリアリスティックなビュー合成手法であるSHARPを拡張し、従来の透視カメラから広視野角、魚眼、全方位パノラマ設定に至るまで、多様なカメラシステムに対応したユニバーサル単眼レンダリングを実現することに焦点を当てています。SHARPのピンホールカメラに固有の仮定を克服するため、我々の鍵となるアイデアは、様々な画像を統一された全方位潜在空間で位置合わせすることです。そこで我々は、特徴空間とガウス空間の両方で暗黙的な位置合わせを行うUniSHARPを提案します。具体的には、ガウスプリミティブをレイベースのユニバーサル表現におけるレイと径方向の距離に沿って配置し、UniK3Dに着想を得たエンコーダから抽出された2次元セマンティック特徴と3次元空間特徴を統合的にデコードすることで、完全なガウスクラウドを生成します。本手法を包括的に評価するため、様々なシーンにおける多様な撮像システムを網羅したベンチマークを構築しました。さらに、このベンチマークは視野角(FoV)ごとに階層化され、ユニバーサル単眼レンダリングタスクの詳細な評価を可能にしています。提案ベンチマークを用いた大規模な実験により、UniSHARPの有効性が実証され、代替手法を大きく上回る性能を達成しました。プロジェクトページは以下をご参照ください:https://insta360-research-team.github.io/Unisharp-website/
我々は、高品質な動作データがトレーニングの初期段階において、追跡ポリシーをより優れた最適化軌道へ導くことができると主張する。本研究では、LIMMT(Less Is More for Motion Tracking)を導入する。我々の知る限り、これは物理ベースのヒューマノイド動作追跡における初のデータ中心的な研究である。我々は単に低品質で誤ったクリップを除去するにとどまらず、動作データの品質を物理的実現可能性、多様性、複雑性の3次元で定義する。AMASSデータセットの3%未満でトレーニングした場合でも、全データセットでトレーニングした場合と同等以上の追跡性能が得られることを示す。さらに、Webから取得した推定モーションキャプチャデータに対してデータクリーニングを実施する。広範な実験と分析により、我々のフレームワークの有効性が検証される。
我々は、連続潜在空間における音声をモデル化する、20億パラメータの連続自己回帰型テキスト音声合成(TTS)基盤モデル「dots.tts」を提案する。既存の連続自己回帰モデルと比較して、我々の主要な革新は3点である。第一に、意味的に構造化され予測に適した連続音声空間を構築するため、複数の目的関数を持つAudioVAEを学習する。第二に、フローマッチングヘッドにおいて全履歴条件付けを用いることで、長距離の一貫性を維持し、生成時のドリフトを低減する。第三に、フローマッチングヘッドに対して報酬なし自己修正型ポストトレーニングを適用し、ロバスト性と音響品質をさらに向上させる。大規模多言語コーパスで学習されたdots.ttsは、Seed-TTS-Evalにおいて最高の平均性能を達成し、zh/en/zh-hardテストセットでそれぞれ0.94%/1.30%/6.60%のWERと81.0/77.1/79.5のSIMスコアを示す。他のベンチマークにおいても、dots.ttsは一貫してオープンソースの最先端性能を示し、強力な生成安定性、声質クローニング能力、感情表現力を発揮する。さらに効率的な推論のために、CFG対応MeanFlow蒸留を適用し、アウトプットストリーミングモードとデュアルストリーミングモードにおいてそれぞれ85ミリ秒および54ミリ秒の初回パケット遅延で低遅延音声生成を実現する。再現可能な研究と実用的な展開を促進するため、トレーニングコードと推論コード、ならびに事前学習済み、ポストトレーニング済み、MeanFlow蒸留済みのチェックポイントをApache 2.0ライセンスの下で公開する。
画像から動画への拡散モデルは、入力画像を活用して視覚的に秀逸なコンテンツを生成する一方、物理法則に反する動きを頻繁に生み出す。我々は驚くべき発見を明らかにする:同一モデルにおいて、2ステップの生成が50ステップの出力よりも優れた物理的整合性を示すことが多い。スペクトル解析を通じて、これをノイズ除去中の位相侵食に起因するものと特定した。位相はステップ2から50にかけて約18%低下するほど著しく劣化するのに対し、振幅は比較的安定している。この知見に基づき、我々はPhaseLockを提案する。これは学習不要のフレームワークであり、ノイズ除去の軌跡全体にわたって少数ステップ推論からの有効な動きの事前分布を保持する。PhaseLockは物理的整合性のために全ステップ推論に依存する代わりに、わずか2ステップから動きの事前分布を抽出し、それを潜在デルタガイダンスを介して高忠実度生成に適用する。本手法は位相劣化を効果的に軽減し、多様なモデルにおいて物理的整合性を平均6.2ポイント向上させつつ、視覚的忠実度をほぼ維持し、オーバーヘッドを無視できる程度(時間1.06倍、メモリ1.02倍)に抑え、高価な外部ガイダンス手法への依存を低減する(約5倍の時間短縮)。
人間は、AIの構築と改善におけるボトルネックである。モデルとその周辺を構成するエージェントは、いずれも人間によって記述、調整、修正される。自己改善の方法を自ら見出すことのできるAIという長期的目標は、いまだ未解決の課題である。このボトルネックに挑む二つの研究系統は、ほぼ独立して進められている。ハーネス更新アプローチでは、メタエージェントがタスク特化型エージェントのスキャフォールド(ツール、プロンプト、再試行ロジック、探索手順)を書き換える一方、モデル重みは固定される。テスト時トレーニングアプローチでは、手書きのRLパイプラインを用いて、タスクフィードバックに基づいてモデル自身の重みを更新する一方、ハーネスは固定される。この二つの系統は互いに独立して運用されている。本稿では、言語モデルエージェント(フィードバックエージェント)がタスク特化型エージェントのハーネスと重みの両方を更新する自己改善ループであるSIAを提案する。評価は、中国法における罪種分類、低レベルGPUカーネル最適化、単一細胞RNAのノイズ除去という、対照的な三つの領域で行う。両方のレバーを組み合わせることで、三つのベンチマーク全てにおいてスキャフォールドのみの反復を上回る性能向上が達成された。その向上幅は、LawBenchで56.6%、GPUカーネルで実行時間91.9%削減、ノイズ除去で初期ベースライン比502%に達する。ハーネスの更新はモデルをエージェント化し、探索と行動の方法を形成する。一方、重みの更新は、いかなるプロンプトやスキャフォールドも植え付けることのできないドメイン直観を構築する。
科学論文推薦は通常、固定された候補集合に対する静的ランキングとして評価されるが、実際の科学研究の読書は、興味が変化しフィードバックが蓄積される日々の縦断的なプロセスとして展開される。我々はPaperFlowを提案する。これは、このプロセスを以下の三つの連携した段階に整理するフレームワークである。すなわち、プロファイリング(異種のコールドスタート証拠から構造化され検査可能な学術プロファイルを構築・維持する)、推薦(固定された表示予算の下でマルチシグナル集約により日付固有の論文ストリームをランキングする)、適応(意味的に異なるフィードバック信号からユーザー状態を更新し、日をまたいだ興味の移り変わりをモデル化する)である。さらに、共有された時間情報境界の下でユーザー、日付、候補プール、可視入力、隠れたシミュレーションされた関連性ラベルを固定する縦断的なユーザー日別ベンチマークを定義する。このベンチマークは、24名のシミュレーション研究ユーザー、50の日次論文ストリーム、1,200のユーザー日別エピソード、20,727件のユニークな論文、および497,448件のエピソード・論文レコードを含む。さらに、自動指標と専門家による判断との整合性を検証するためのブラインド人間評価プロトコルを規定する。五つの科学論文推薦ベースラインに対する実験の結果、PaperFlowは最も強力なオラクルベースのランキング、シミュレーションされた読書選択との最も高い行動的一致、および最良のブラインド人間評価スコアを達成することを示す。
LLM駆動型ソフトウェアエンジニアリングエージェントは、現実世界における言語モデルの能力を評価するための中心的なテストベッドとなっているが、その訓練は高品質なソフトウェアエンジニアリングタスクの入手可能性によって依然として制限されている。既存の合成データ手法は、通常、固定された変異やバグ注入手順を通じてタスクを作成するため、生成される分布はエージェント自身の弱点や訓練の進捗からほぼ独立したものとなる。本稿では、Socratic-SWEを提案する。これは、エージェントの過去の解決トレースを訓練信号の源泉として再利用する閉ループ型自己進化フレームワークである。Socratic-SWEは、トレースを単に報酬計算のための証拠として扱うのではなく、それらを反復的な失敗や効果的な修復パターンを要約した構造化されたエージェントスキルへと蒸留する。これらのスキルは、実際のリポジトリ上で対象を絞った修復タスクの生成を導く。候補タスクは実行ベースの検証によってチェックされ、ソルバー勾配アライメント報酬でスコアリングされるため、保持されるタスクは検証可能であり、かつソルバーの改善に有用である。更新されたソルバーは新たなトレースを生成し、タスクカリキュラムが連続するラウンドにわたって適応することを可能にする。SWE-bench Verified、SWE-bench Lite、SWE-bench Pro、Terminal-Bench 2.0において、Socratic-SWEは同じ計算予算のもとで自己進化ベースラインを一貫して上回り、3回の反復後にSWE-bench Verifiedで50.40%に達した。これらの結果は、解決トレースが自己進化型SWEエージェントのためのスケーラブルな基盤として機能し得ることを示唆している。
LLMエージェントは、異なる実行パラダイムを必要とする異種タスク領域にわたって動作することがますます期待されている。このことは、固定されたエージェントシステムに課題を突きつけ、個別のコンポーネント更新を超えたシステムレベルのメタ適応を動機づける。既存研究では外部ハーネスを適応させたり、基盤となる推論ポリシーを訓練したりしているが、システム全体の適応はまだ十分に特徴づけられていない。構造と実行の間の適応空間が明示されることはほとんどなく、外部ハーネスと内部リゾルバ(推論器)の間の互換性も共同最適化されていない。本稿では、LLMエージェントシステムを進化させるメタ適応フレームワークHarnessForgeを提案する。HarnessForgeはエージェントシステムをハーネス・ポリシーペアとして定式化し、ハーネスレベルの実行構造とポリシーレベルの推論動作を分離する安定した適応空間を定義する。次に、フォールト誘導型ハーネス調整とハーネス条件付きポリシーアライメントを通じて、ハーネス・ポリシーの共進化を実行する。多様な分野の5つのベンチマークを用いた実験では、HarnessForgeがQwen3-4BおよびQwen3-8Bの両バックボーンで一貫して改善を示し、ハーネスのみまたはポリシーのみのベースラインを上回り、最強ベースラインに対して最大12.0%の向上を達成し、好ましいロールアウト効率のトレードオフを示した。これにより、ハーネス・ポリシーの共進化が有効であり、ハーネスと推論ポリシーの間の実行可能な互換性がエージェントシステムの適応に不可欠であることが実証された。コードはhttps://github.com/mingju-c/HarnessForgeで公開されている。
ビジョン・ランゲージモデル(VLM)の急速な進歩にもかかわらず、その真の推論能力を厳密に診断し、人間に近いマルチモーダル知能への有意義な進歩を計測するベンチマークは、この分野では不足している。既存の評価のほとんどは、断片的または非連続的なタスクに焦点を当てており、重要な認知的弱点を不明瞭にし、的を絞った改善への洞察をほとんど提供しない。このギャップを埋めるために、我々はAlmieyarベンチマークシリーズの一部であるBloomBenchを紹介する。これは、認知的に人間に基づいた初のバイリンガル(英語・アラビア語)マルチモーダルベンチマークである。ブルームのタキソノミーに基づき、BloomBenchは注意深く設計された画像・質問・回答タスクを通じて、6つの認知レベル(記憶、理解、応用、分析、評価、創造)を体系的に評価する。半自動化されたパイプラインで構築され、層別化されたハイブリッド品質保証プロトコルによって検証されており、スケーラビリティ、文化的包括性、言語的忠実性が保証されている。この枠組みを活用し、我々は最先端のVLMの認知プロファイルを診断する包括的研究を実施する。分析により、顕著な認知的不均衡が明らかになった。すなわち、最先端のモデルは意味理解において高い性能上限を達成する一方で、事実の想起と創造的合成に著しく苦慮している。これは、現在の一般的なマルチモーダル能力が、特定の認知層におけるより深い限界を隠していることを示している。さらに、本研究はアラビア語と英語の間に重大な性能ギャップがあることを浮き彫りにし、現在の言語横断的なマルチモーダル推論の限界を露呈している。これらの発見は、より認知に即した包括的なVLMの開発の基盤を確立するものである。ベンチマークフレームワークとデータセットは以下で入手可能である:https://github.com/qcri/Almieyar-Oryx-BloomBench。
視覚言語モデル(VLM)は、行動の大きさや空間座標などの数値出力を必要とする具現化環境への展開が進んでいる。これらの数値は一見意味を持つように見えるが、そうした数値出力が実際に空間知覚に基づいているかは不明である。そこで本研究では、空間探索における動的遷移としての数値と、空間推論における静的レイアウトとしての数値という、相補的な二つの設定を捉える統一フレームワークSpaceNumを通じて、空間的な数値理解を再検討する。VLMが視覚側の空間構造と言語側の数値表現との間をどのようにマッピングするかを評価するため、双方向のタスクであるNum2SpaceとSpace2Numを定式化する。現在のVLMが空間設定における数値を真に理解しているかを体系的に調査する。動的遷移と静的レイアウトの両方において、モデルは数値を空間的な意味に根付かせることにほとんど失敗しており、多くがランダムな推測に近い性能を示すことがわかった。誤り分析、推論過程の分析、および制御された介入を通じて、現在のVLMは浅い空間的手がかりに過度に依存し、安定した座標認識表現を構築するのに苦戦し、視覚観測から構造化された空間レイアウトを抽象化できないことを示す。さらに、明示的な推論はわずかな改善しかもたらさず、一方でチューニングは空間的数値理解を部分的に改善し、外部の空間推論ベンチマークへ転移可能であることを示す。
尽管3D场景理解取得了进展,现有的3D大多模态模型仍运行在离线设置中,需要完整的场景观测或预定义的视频片段。本文提出了一种在线3D视觉语言模型,能够从流式视频中实现实时空间理解。我们的方法采用基于LLM下一个词元预测目标的自回归流控制建模,以学习何时响应,并运用轻量级的视觉-空间特征融合(VSFI)模块,将时间对齐的几何先验逐步注入视觉流中。为缓解长上下文解码开销,我们提出了即插即用的几何自适应体素压缩(GAVC)模块,用于高效的视觉词元压缩。针对流式3D语言数据的稀缺问题,我们进一步开发了一套可扩展的数据生成流程,构建了超过100万个在线时空3D问答对,并建立了包含29项任务的综合基准。大量实验表明,我们的方法在在线和离线的3D空间理解、推理及定位任务上显著优于专有模型和开源模型。项目页面访问地址为 https://stream3d-vlm.github.io/ 。
3Dビジョンは、ますます多様化するデータ表現、学習パラダイム、およびモデリング戦略によって推進され、急速に進化してきた。しかしながら、この分野は表現やベンチマーク間で断片化されたままであるため、効率性、忠実性、およびスケーラビリティに関する統一的な視点を構築することが困難となっている。本研究では、幾何学的表現、データセット、学習フレームワーク、およびアプリケーションを単一の概念マップ内で結びつける、データ中心の3Dビジョンの分類法を提供する。まず、3Dデータの主要な構造表現(点群、メッシュ、ボクセル、3Dガウシアン)とその獲得パイプラインを分析する。次に、データセット設計、ベンチマーク構築、および教師あり学習方式が、2D教師あり3D学習、暗黙的ニューラル表現、および4Dワールドモデリングにわたる最近の進歩をどのように形成しているかを検討する。この統合的視点を通じて、表現、学習パラダイム、および再構成、生成、ビデオモデリングにおける下流タスク間の関係を明確にし、効率性と忠実性のバランス、およびマルチモーダル幾何学的基盤化に向けた新たなトレンドの統合的見解を提供する。
検索エージェントのための検索は、依然として非エージェント型情報検索の枠組みを継承している。すなわち、検索器がコーパスを順位付けし、エージェントは返却された少数の文書を読み取る。近年の直接コーパス相互作用(DCI)研究では、エージェントがgrepやファイル読み取りなどのシェルツールを通じて生のコーパスと直接相互作用できることが示されている。しかし、無制限な相互作用はスケールしない。なぜなら、広範なシェルコマンドはコーパス全体のスキャンであり、コーパスが大きくなるにつれてレイテンシが急激に悪化するからである。我々は、エージェント型検索における検索の役割は、LLMのコンテキストウィンドウに収まる文書を選択することだけでなく、相互作用空間(エージェントが関連ツールを用いて探索できるコーパスの有界部分集合)を構築することにあると主張する。これに伴い、二つの設計上の含意が生じる。その空間には検索によって供給される境界が必要であり、またその内部のオブジェクトは相互作用のために処理されるべきである。概念実証として、我々はRISE(Retrieving Interaction SpacE:相互作用空間検索)を提案する。具体的には、BM25を用いて相互作用空間を構築し、同時にその文書をインデックス作成時にシェル形式のナビゲーション向けに処理する。BrowseComp-Plusにおいて、RISEはgpt-5.4-miniで78%の精度を達成し、クエリあたりのコストは純粋シェル型のDCIベースラインの約4分の1である。100万文書の場合、RISE-BM25はgpt-5.4-miniで81%に達するのに対し、gpt-5.4-nano上のDCIは60%に低下し、100件中33件でウォールクロック障害が発生した。
確信度に基づく損失重み付けは、モデルが誤って確信している場合に誤差を加速するため、通常生成モデルでは避けられるが、この直観は教師付き拡散訓練では崩れる。我々は、DiT出力の空間エネルギ分布のエントロピーから導出されるパラメータフリーの重みであるEisbach対数バリアを導入する。高いエントロピーは勾配を減衰させ、低いエントロピーはそれを保持する。これをMusicCaps上のStable Audio 3 MediumのLoRAファインチューニングに適用したところ、予想に反して重み付けなしの訓練よりも強力な主題展開、明確な音響的弁別、高いテクスチャ多様性をもたらし、モード崩壊とは正反対の結果となった。これは、教師付き拡散では勾配方向が正解に固定されるため確信度はステップサイズをスケーリングするだけであり、また時間的エントロピーが平坦なサンプルを減衰させる一方で高コントラストのサンプルを保持するためである。その結果、純粋に順方向パスから出現するオンラインで自己参照的なデータカリキュラムが得られ、ノイズレベルのダイナミクスを解析し、検証可能な予測を提供する。
言語モデルは、検証可能な報酬を用いることで多様な推論タスクにおいて性能を向上させることができる。しかし、パラメトリックな手法(例:RLVR)およびノンパラメトリックな手法(例:プロンプト最適化)のいずれも、通常は数百のトレーニングサンプルと数千回のモデルロールアウトを必要とし、最善の場合でも高コストであり、最悪の場合には手に負えないものとなる。この課題に対処するため、我々はContrastive Reflection(CORE)を導入する。これはノンパラメトリックな学習アルゴリズムであり、過去の推論トレースを比較することで洞察、すなわち成功した試行と失敗した試行の違いを捉えた、推論戦略や制約に関する短く自然言語で記述された記述を生成する。4つの推論タスクにおいて、COREがパラメトリック手法(GRPO)およびノンパラメトリック手法(GEPA、エピソードRAG、MemRL)のいずれよりも、より少ないロールアウトで迅速な改善を実現することを示す。さらに、固定されたロールアウト予算のもと、わずか5つのトレーニングサンプルを用いた場合でも、COREが各ベースラインと同等以上の性能向上を達成することを明らかにする。最後に、COREがノンパラメトリックベースラインよりも大幅にコンテキスト効率が高く、学習した知識をコンパクトで解釈可能な自然言語による洞察として保存しながら、必要なプロンプトトークンが少ないことを強調する。したがって、我々の結果は、成功した推論トレースと失敗した推論トレースの対比を抽象的で有用な洞察に蒸留することが、重み更新、プロンプト最適化、あるいは保存された推論トレースの直接再利用よりも、モデルの自己改善に対するより効率的で解釈可能な経路を提供することを示唆している。
特定のタスクやドメインにLLM判定器を適応させる場合、複数の評価基準を同時に最適化するためにプロンプトを調整することが多い。テキスト勾配法は単一の判定基準に対してこのプロセスを自動化するが、自然言語による批評を生成するものであり、数値ベクトルを出力するわけではない。したがって、マルチタスク学習における競合解決の手法(PCGrad、MGDA)は、多目的テキスト勾配設定には適用できない。我々は、損失、勾配、および最適化LLMが共有するタスク間情報の程度を変化させることで、テキスト勾配最適化器の5つの分解モードを検証した。10の構成のうち6つにおいて、最適化が初期プロンプトを改善しないことを観察した。勾配LLMが複数の基準を同時に処理する場合、勾配の特異性は59%低下した(9.0から3.7へ)。また、タスクごとの指示を単一のプロンプトに単純に統合すると、スピアマンのρが-5.3%低下することを別途観察した。これらの結果は、最適化時の勾配希釈と推論時の命令干渉という2つの分離可能な障害モードを特定するものであり、これらがテキストフィードバックを用いた多目的判定器カスタマイズの設計空間を制約する。
推論モデルは急速に進歩してきたが、検証可能な報酬を用いた強化学習(RLVR)の主要な手法は驚くほど狭い範囲にとどまっている。すなわち、多数の応答をサンプリングし、各応答に最終回答の正誤を示す1ビットの報酬を与えるというものである。しかし、多くの設定では、実行トレース、ツールの出力、専門家による修正、モデルの自己評価など、豊富なフィードバックが得られる。本研究では、このようなフィードバックを活用する方法として、古典的な模倣学習アルゴリズムであるDAggerの分布的な変種を検討する。この変種では、学習主体が現在の方策によって訪問された状態に関する専門家分布に局所的にアクセスできる。これにより、ブラックボックスな専門家を受け入れる単純な前方クロスエントロピー目的関数が導かれ、その系列レベルの勾配は、将来の専門家と学習主体の不一致をより早期の決定に伝播させることで、豊かなクレジット割り当てを実行する。逆KLやジェンセン・シャノンに基づく自己蒸留目的関数を用いた従来の強化学習は、単調な方策改善を保証できないこと、すなわち専門家がより高い報酬を持つ場合でも、その更新により悪い行動の確率が増加する可能性があることを示す。対照的に、前方クロスエントロピーは単調な方策改善を許容し、後悔に関する保証も享受できることを示す。さらに、我々の目的関数が、教師重み付き成功尤度の下界を最適化し、Pass@Nの改善につながることを示す。実験的には、我々のアプローチであるDistILは、科学的推論、コーディング、難解な数学問題の解決など、さまざまな領域において、RLVRおよび自己蒸留ベースの強化学習ベースラインを上回る性能を達成する。
推論モデルは長い思考連鎖(chain-of-thought)を生成するため、蒸留のコストが高く、生徒モデルの出力を冗長にする傾向がある。本研究では、知識蒸留前にこうした思考連鎖を事後的に圧縮する手法を検討する。2つの教師モデル(Qwen3.5-397B-A17B および gpt-oss-120B)がそれぞれ約28万3千件の正解思考連鎖を生成し、2つの指示調整済みモデルがこれらを元の文字数の8.6~21.0%に圧縮する。48回のメイングリッド実験と7回のQwen教師切り詰めアブレーションを通じて、圧縮された思考連鎖は訓練トークンを生データの12~30%に削減し、訓練速度を2.0~7.6倍に向上させ、推論出力を3~19倍短縮する。ただし、gpt-oss教師がより短いため、削減幅は小さくなる。しかし、すべてのスケールおよび両教師において、生の思考連鎖が最も高い下流精度を維持する。長さを一致させた生の思考連鎖切り詰めアブレーションにより、圧縮が単にトークン予算の削減によるものではないことが示される。モデルによる圧縮思考連鎖は、特に小規模な生徒モデルにおいて、単純な切り詰めを概ね上回るか同等であり、かつ推論出力はより短い。総じて、推論思考連鎖の圧縮は無償の改善ではなく、精度と効率のトレードオフを提供する。すなわち、生徒モデルは生の思考連鎖の精度の最大96%を維持しつつ、トークンあたりの効率を最大18倍向上させることができ、LoRAを用いた0.8Bスケールでは、圧縮思考連鎖が生データと圧縮データのギャップを縮めるものの、生データを超えることはない。
エージェント型言語モデルシステムは、構造的に異なる2種類のステップ、すなわち構造化ツール呼び出し(短く、決定論的で、低パープレキシティ)と、自由な計画・推論ステップ(長く、複雑で、高パープレキシティ)を交互に実行する。この不均一性にもかかわらず、現在の推論システムはすべてのステップに同一の計算を適用している。そこで我々は、LayerRouteを導入する。これは、入力ごとにトランスフォーマーブロックを選択的にスキップすることを学習する軽量なアダプターである。LayerRouteは、Qwen2.5-0.5B-Instructの24個のトランスフォーマーブロックのそれぞれに、(1) ストレートスルー推定器を介してハードなバイナリゲートを出力するレイヤー単位のルーター(約897パラメータ、Linear(896,1))、および(2) Q/K/V/Oアテンション射影に適用されるLoRAアダプター(ランク8、約108万パラメータ)を追加する。バックボーンの重みは凍結される。エージェント型データ(Hermes、Glaive、GSM8K、Turing)に対するゲート正則化項を用いた単一のエンドツーエンド学習パスにより、システムは入力タイプごとにどのブロックがスキップ可能かを発見する。3,000ステップ(A100 40GB上で6.4分)後、LayerRouteは12.91%のスキップ差分を達成する。すなわち、ツール呼び出しではFLOPsの15.25%をスキップするのに対し、計画ステップでは2.34%のみをスキップし、使用する訓練可能パラメータはわずか110万(4億9400万のバックボーンの0.22%)である。LoRA適応により、ベースモデルと比較して品質が向上し、パープレキシティ差分はツール呼び出しで-1.29、計画で-1.30となる。
大規模言語モデル(LLM)は近年、世論シミュレーションのための合成エージェントとして採用され、コストが高く時間のかかる人間の調査に代わる有望な選択肢を提供している。その拡張性にもかかわらず、現在のLLMベースのシミュレーション手法は社会的多様性を捉えることができず、集団間の差異が平坦化され、人口統計学的グループ間で過度に均質な応答を生成している。我々はこの限界を、LLMの潜在表現における「多様性崩壊」現象として特定する。この現象では、異なる社会的アイデンティティが層を経るにつれて区別がつかなくなる。この観察に動機づけられ、我々は「パラメトリック社会的アイデンティティ注入(PSII)」を提案する。これは、人口統計学的属性と価値志向性の明示的かつパラメトリックな表現を、LLMの中間潜在状態に直接注入する汎用フレームワークである。プロンプトベースのペルソナ条件付けとは異なり、PSIIは表現レベルでの微細かつ制御可能なアイデンティティ変調を可能にする。複数のオープンソースLLMを用いたWorld Values Surveyにおける広範な実験により、PSIIが分布の忠実性と多様性を大幅に向上させ、実際の調査データとのKLダイバージェンスを低減しつつ、全体的な多様性を高めることが示された。本研究は、LLMエージェントの表現レベル制御に関する新たな知見を提供し、拡張可能で多様性を考慮した世論シミュレーションを前進させる。
自動音声認識(ASR)はヒューマンコンピュータインタラクションの核となる構成要素であり、LLMベースのアシスタントやエージェントにおいて重要性が増すフロントエンドである。しかし、現在のASRシステムのほとんどは依然として単一パス方式に従っており、誤解が繰り返しの明確化と修正によって解消される人間のコミュニケーションとは整合性が低い。この不一致により、一度発生した意味的に重要な誤りを訂正することが困難となる。また、WERやCERといったトークンレベルの指標では、この問題を適切に反映できない。これらの限界に対処するため、我々は対話型ASRをマルチターン修正タスクとして定式化し、単一パスASRフロントエンドと意味修正、意図ルーティング、推論ベース編集を組み合わせた閉ループフレームワークであるAgentic ASRを提案する。さらに、LLMベースの意味評価指標である文レベル意味誤り率(S²ER)と、拡張可能かつ再現性のあるベンチマーク評価のための対話型シミュレーションシステムを導入する。多言語、固有表現密集、コードスイッチングのベンチマーク実験により、反復的な対話が一貫して意味誤りを低減し、従来のトークンレベル指標よりもS²ERにおいてはるかに大きな改善が見られることを示す。人間-AIの整合性評価とアブレーション研究により、意味判定器の信頼性と提案フレームワークの頑健性がさらに検証された。コードはhttps://interactiveasr.github.io/、ライブデモはhttps://i-asr.sjtuxlance.com/で公開されている。
蒸留攻撃は、モデル提供者にとってデプロイメント上のトレードオフを生み出す。すなわち、モデルをより有用にする出力は、同時に模倣を容易にする可能性がある。我々は、効用制約を受ける教師と適応的な学生との間のミニマックスゲームを通じて、このトレードオフを研究する。本フレームワークは、扱いやすい一方的な応答ルールをもたらす。すなわち、学生が高価値の事例を再重み付けする適応的評価ルールと、蒸留に最も有用な出力を抑制する教師側の防御テンプレートである。事例価値の安価なプロキシから、我々はProduct-of-Experts(PoE)を導出する。これは、生成中に教師とプロキシ学生を組み合わせる、単純な順伝搬のみの防御である。経験的に、適応的評価は大きな受動-適応ギャップを明らかにする。最先端の防御において、適応的学生はGSM8KおよびMATHにおいて、受動的評価が示唆するよりもはるかに多くの能力を回復する。このより強力な評価の下では、高コストな防御とPoEとの間の見かけ上のロバスト性ギャップは大幅に縮小する一方、PoEははるかに低コストであり、より高品質な推論痕跡を保持する。全体として、我々の結果は、強力な蒸留を阻止することは依然として困難であり、反蒸留に関する進歩は受動的学生ではなく適応的学生に対して評価されるべきであることを示唆する。コードはhttps://github.com/ysfalh/distillation-gameで入手可能である。
我々は、連続的な力の入力によって物理的に基づいた制御を可能にするストリーミング動画生成フレームワークStreamForceを紹介する。異なる力のタイプごとに個別のモデルを訓練したり、固定された力を仮定したり、非因果的な処理に依存する従来の動画モデルとは異なり、StreamForceは因果的で統一されたモデルであり、局所的および大域的な時間変動する力に対して即座にかつ一貫して応答する。これを達成するために、我々は制御信号として統一的な力表現を設計し、力制御可能な動画生成のための蒸留パイプラインを開発する。我々のモデルは自己回帰的な効率性と力応答性を組み合わせ、安定した測光的および動的なリアリズムを維持する。StreamForceは単一GPUで最大16.6 FPSで動作し、力の追従性と動きのリアリズムの両方において最先端の性能を達成する。プロジェクトウェブサイト: https://neu-vi.github.io/StreamForce/
高密度検索におけるハードネガティブソースの選択は、通常、ファインチューニングと下流評価の後にのみ決定される。本稿では、凍結されたターゲットエンコーダの埋め込みを用いて候補ネガティブソースをランク付けする、Effective Contrastive Information (ECI) の意味残差変種である ECI_{sem} を提案する。ECI_{sem} は学習不要であるが、ラベル不要ではない。すなわち、各スコアリング対象の例は、クエリ、ラベル付きポジティブ、および明示的な候補ネガティブを必要とする。ECI_{sem} は、ターゲット一貫性、意味的局所性、語彙的残差性、および対数行列式多様性目的から、重み付き残差情報行列を構築する。MS MARCO ネガティブソースにおいて、同一ファミリーの ECI_{sem} は、非ハイブリッドソースの中で LLM ネガティブを最も高くランク付けし、ハイブリッドソースの中で Dense+LLM を最も高くランク付けする。これは、DistilBERT、E5-base、Contriever にわたる最強の総合 BEIR 転送結果と一致する。制御されたアブレーション実験は、この一致がターゲットエンコーダファミリーの使用に依存することを示す一方、追加のアブレーション実験は、サンプルサイズ、温度、トークナイザ、IDFコーパスの摂動下での安定性を示す。理論は損失削減への局所線形化された関連性を提供し、実証研究は下流評価を最終テストとして扱う。
開発者は、日々のソフトウェアワークフローにおいてChatGPT、Copilot、ClaudeなどのAIツールをますます活用しているが、従来の研究では、LLMの出力を単独で評価することが多く、実際のプロジェクトで開発者がどのように適応させているかを検討することは少なかった。本研究では、AIの使用に明示的に言及している35,361件のGitHubコードコメントと、それに関連するコードブロックを分析する。まず、500件のユニークなコメントとコードブロックをオープンコーディングし、AI支援による開発活動の分類体系を導出する。次に、2つのLLMベースの分類器を用いて全データセットにアノテーションを施し、Dawid-Skene期待値最大化法により予測を統合する。さらに、導入後のAI支援コードの進化を調査するため、12,996件の後続コミットメッセージを分析し、2022年12月から2026年3月までの時間的傾向を検討する。結果から、開発者は主にコード実装にLLMを利用しており、次いでコード改善、デバッグ、ドキュメント作成、テストに使用していることが示された。後続のコミットでは、リファクタリングとクリーンアップ、機能統合と拡張、バグ修正が頻繁に行われており、AI支援コードを適応させる際に持続的な人間の監視が行われていることを示している。時間の経過とともに、AIに言及するコメントは、直接的なコード生成から、知識・概念的な支援やコード改善へとシフトしている。これらの知見は、AIツールが単なるコード生成支援としてだけでなく、開発者がその出力を時間をかけて洗練・拡張・修正する協調的な支援メカニズムとして埋め込まれつつあることを示唆している。
深層ニューラルネットワークのロバスト性は安全性が重要な応用において極めて重要であるが、既存の評価手法は多くの場合攻撃に依存し、解釈可能性に欠ける。本論文では、フィッシャー情報行列(FIM)のスペクトルノルムに基づく、原理的で攻撃に依存しないロバスト性指標を提案する。この指標は、入力摂動に対するモデルの出力分布の最悪時の感度を定量化する。理論的には、FIMが入力ヤコビアンの分散に等しいことを示し、VGG、ResNet、DenseNet、Transformerを含む一般的なアーキテクチャに対して閉形式のスペクトル境界を導出し、初の理論的なロバスト性ランキングを提供する。スケーラブルな評価を実現するため、べき乗法やハッチンソン推定に基づく効率的なアルゴリズムを開発し、ホワイトボックスおよびブラックボックスの両設定をサポートする。CIFAR、ImageNet、医用画像を含む複数のデータセットと複数のアーキテクチャにわたる広範な実験により、本指標と敵対的脆弱性との間に強い相関があることを示す。本フレームワークは、攻撃ベースの評価を補完する解釈可能な診断ツールとして機能し、アーキテクチャの感度に関する洞察を提供し、よりロバストなモデルの設計を導く。コードはhttps://github.com/franz-chang/SRP/で公開されている。
我々は、自己回帰モデル(ARLM)から拡散言語モデル(DLM)への変換について研究する。先行研究では、スクラッチからの事前学習を行わず、ARLMにおける因果的注意を双方向注意に置き換え、その結果得られたモデルをDLM目的関数で訓練する手法が取られてきた。しかし、これらのアプローチには2つの分布シフトが生じる。第一に、次トークン予測目的関数からDLM目的関数への移行により、ARLMが訓練中に獲得した知識が失われる可能性がある。第二に、標準的なDLMは訓練と推論のミスマッチを抱えており、訓練損失はランダムにマスクされた系列に対して定義される一方、推論時には信頼度に基づくデコードによって生成される軌跡が発生する。これらの2つの課題に対処するため、我々はオン方策拡散言語モデル(OPDLM)を導入する。OPDLMでは、ARLMからDLMへの変換にオン方策蒸留(OPD)を採用する。具体的には、OPDLMは自己OPDによって訓練され、生徒モデル(双方向注意を持つARLM)が自身の軌跡を生成し、教師モデル(元の凍結されたARLM)がこれらの軌跡に対する目標ロジットを提供することで知識を蒸留する。オン方策で直接訓練することにより、OPDLMはDLMにおける訓練と推論のミスマッチを解消し、元のモデルからの蒸留によってARLMの知識保持を強化する。実験結果は、OPDLMが広範なタスクにおいて強力な性能を発揮しつつ、訓練トークン数を15分の1から7,000分の1に削減することを示している。OPDLMはDLM事前学習の膨大なコストを回避し、DLM変換をARLMのポスト訓練の一形態として位置付ける。
離散視覚-言語-行動(VLA)モデルは通常、離散化された行動空間における次トークン予測として行動生成を定式化し、各トークンを先行コンテキストに基づいて自己回帰的に条件付けます。このパラダイムは効果的である一方、高い推論遅延を引き起こし、行動軌跡に内在する時間構造をほとんど考慮しません。近年の取り組みでは、効率向上のために並列デコードを導入し、より高速な推論を実現していますが、トークン間の依存関係を明示的にモデル化する機構は欠如しています。本稿では、ブロック拡散を導入して時間的行動生成を可能にする、離散トークンベースのVLAフレームワークであるTBD-VLAを提案します。行動系列を時間ブロックに分割し、各ブロック内でマスク離散拡散を実行する一方、ブロック間では自己回帰生成を維持します。この設計により、時間的自己回帰と並列行動デコードが統合され、強い時間的一貫性と改善された推論速度の両方を実現します。さらに、明示的な時間モデリングにより、時間的インペインティングを介した行動チャンクの非同期実行(例:リアルタイムチャンキング)が可能になります。TBD-VLAは、シミュレーションおよび実世界の操作タスクの両方において従来のVLA手法を大幅に上回り、高速で時間認識可能な離散VLAモデルへの拡張可能な道筋を提供します。プロジェクトWebページ:https://tbd-vla.github.io/
現実世界の応用において、モデルは多様な環境で確実に動作することが期待される。しかし、既存の多くのマルチモーダルベンチマークは、タスクの種類を拡大する一方で、開かれた視覚的入力を扱うために必要な視覚的多様性を捉えていない。そこで我々は、マルチモーダル大規模言語モデル(MLLM)を評価するための、挑戦的かつ視覚的に多様な推論ベンチマークであるWorldBenchを提案する。我々は、複数のドメイン(例:生物)にわたる数千の視覚的概念からなる分類体系を構築する。この分類体系に基づき、検索エンジンや既存のデータセットから広範な画像コレクションを厳選し、視覚世界を包括的に表現する。構造化された試行錯誤を通じて、最先端のMLLMが答えられない難易度の高い質問を手動で設計する。量的評価および人間による評価において、WorldBenchは既存の多様なベンチマークよりも高い視覚的多様性を達成する。WorldBench上で15のMLLMを評価した結果、視覚理解の弱点が明らかになった。最も強力なモデルでも正解率は64.0%にとどまり、一部のモデルは偶然のレベルをわずかに上回る程度であった。本研究が、マルチモーダルベンチマークの構築における視覚的多様性の重要性を強調するものとなることを期待する。
エージェント型検索システムは、複雑なクエリに回答するために検索モデルと反復的に相互作用する。大きな進展があったものの、エージェント型検索における検索モデルの最適化は依然として困難であり、多くの場合、大規模な共学習やゴールドスタンダードアノテーションを必要とし、実世界での適用可能性が制限される。本稿では、推論時および学習時の両方において、推論エージェントと検索モデル間のフィードバックループを明示的に閉じるフレームワークであるCritic-Rを提案する。Critic-Rは、検索された証拠を参照した後にエージェントの内省的推論過程を評価し、その検索コンテキストが次の推論ステップを十分にサポートするかどうかを判断する批評モデルを導入する。Critic-Rには二つの相補的なメカニズムがある。すなわち、推論時にクエリと検索指示を反復的に書き換えるクエリ洗練ループであるCritic-R-Zeroと、手動の関連性アノテーションを必要とせずに成功および失敗した洗練の軌跡を自動的な監督として活用する検索モデルの最適化手法であるCritic-Embedである。我々はCritic-RをHotpotQA、2WikiMultihopQA、MuSiQue、Bamboogleで評価した。結果は、Critic-Rが検索品質と下流の解答精度の両方を大幅に改善することを示している。
効率的な推論は、長文脈言語モデルにおいて重要であり、アテンション計算とKVキャッシュアクセスがコストの大部分を占める。最近の研究であるRAT+は、推論時に柔軟なダイレイテッドアテンションを可能にする再帰拡張アテンションバックボーンを導入した。本稿では、この指数関数的減衰メモリが既存のクエリ認識型スパース推論手法を改善できるかどうかを調査する。Quest、MoBA、SnapKVを含む代表的な手法を用いて、RAT+が標準アテンションと比較して、8つの「干し草の山から針を見つける」タスクにおいて、スパース予算全体にわたって一貫して精度を向上させることを示す。これらの改善は、RAT+論文で公開されたチェックポイントと、追加のメモリモジュールを用いて100億トークンにわたって事前学習を継続したOLMo2-7Bの両方において検証する。最後に、このメモリモジュールがクエリ認識型スパース推論に有効である理由について2つの仮説を提案し、それらを裏付けるための目的指向型実験を設計する。
ハーモニーは、数学的な音程関係、音響的な協和性、そして音楽の慣習が出会うコンパクトな記号層である。本報告書では、和音記号系列を音楽の完全な表現としてではなく、ジャンル固有の調的和声モデリングのための解釈可能で制御可能な時系列として扱う。ポップ・ジャズのMusic Transformerの凍結チェックポイントを起点に、小さな適応インターフェースがモデルをブルース、ボサノバ、バッハのコラール、カントリー、エレクトロニック、フォーク、ファンク、ゴスペル、ヒップホップ、R&B/ソウル、ロックの11のターゲットジャンルにどの程度拡張できるかを評価する。主な評価では、LoRA、IA3、BitFit、プレフィックスチューニング、そして完全ファインチューニングを11ジャンルと3シードにわたって比較し、完全な165セルのグリッドを構成する。5つの手法すべてが、保持された和音予測において凍結ベースモデルを上回り、マクロゲインは+2.89から+3.61ポイントの範囲であった。LoRAとIA3が最高スコアを示したが、HolmおよびBenjamini-Hochberg補正を適用したWilcoxon検定では決定的な勝者は認められなかった。データサイズを一致させた対照実験により、この結果はさらに明確になる。ジャンルを共通のコーパスサイズにサブサンプリングすると、IA3がトップを維持する一方、LoRAの全データでの優位性は消失し、最下位に転落した。これは、僅差の一部がデータ駆動的であることを示唆している。対照トークンベースラインも強力であり、誤ったジャンルのアダプターもしばしば凍結ベースモデルを上回った。このことから、効果の大部分は特定のアダプターファミリーによるものではなく、再利用可能な和声ベースに対する軽量な条件付けに由来することが示唆される。追加の診断(ランクスイープ、誤ジャンルローテーション、ベースチェックポイントのアブレーション、和音のみのジャンル分類、生成出力統計、実曲評価、重複分析)は、限定的な結論を支持する。すなわち、和音記号の適応はジャンル固有の調的和声予測を確実に改善するが、和音記号だけで完全なジャンルの同一性を伝達するわけではない。したがって、本報告書では、知覚されたジャンルの信憑性や完全な音楽的品質に関する主張は避ける。これらは制御された聴取者または演奏者による評価を必要とする。