翻訳付きの日次キュレーションされたAI研究論文
コンピューティングシステムと脳の関係は、ジョン・フォン・ノイマンやアラン・チューリング以来、先駆的な理論家たちの動機となってきた。脳のような均一でスケールフリーな生物学的ネットワークは、時間とともに一般化する強力な特性を持っており、これはユニバーサル推論モデルへの道における機械学習の主要な障壁である。 本論文では、局所的に相互作用するニューロン粒子からなるスケールフリーな生物学的インスパイアードネットワークに基づく新しい大規模言語モデルアーキテクチャ「Dragon Hatchling」(BDH)を紹介する。BDHは、Transformerのような性能を犠牲にすることなく、強力な理論的基盤と本質的な解釈可能性を兼ね備えている。 BDHは、実用的で高性能な最先端のアテンションベースの状態空間シーケンス学習アーキテクチャである。グラフモデルであることに加え、BDHはGPUに適した定式化を許容する。Transformerのようなスケーリング則を示し、同じパラメータ数(10Mから1B)で同じトレーニングデータを用いた場合、言語および翻訳タスクにおいてGPT2の性能に匹敵することを実証的に確認した。 BDHは脳モデルとして表現することができる。推論中のBDHのワーキングメモリは、スパイキングニューロンを用いたヘブ学習によるシナプス可塑性に完全に依存している。BDHが言語入力を処理する際に特定の概念を聞いたり推論したりするたびに、特定の個々のシナプスが接続を強化することを実証的に確認した。BDHのニューロン相互作用ネットワークは、重い裾を持つ次数分布を持つ高いモジュール性のグラフである。BDHモデルは生物学的に妥当であり、人間のニューロンが発話を達成するために使用する可能性のある一つのメカニズムを説明している。 BDHは解釈可能性を考慮して設計されている。BDHの活性化ベクトルはスパースで正である。言語タスクにおいてBDHの単一意味性を実証する。ニューロンやモデルパラメータの解釈可能性を超えた状態の解釈可能性は、BDHアーキテクチャの本質的な特徴である。
MCPは、大規模言語モデル(LLM)が外部システムと相互作用する方法を標準化し、汎用エージェントの基盤を形成します。しかし、既存のMCPベンチマークは範囲が狭く、読み取り中心のタスクや相互作用の深さが限られたタスクに焦点を当てており、現実世界のワークフローの複雑さと現実性を捉えられていません。このギャップを埋めるため、我々はMCPMarkを提案します。これは、MCPの使用をより現実的かつ包括的に評価するために設計されたベンチマークです。MCPMarkは、ドメインエキスパートとAIエージェントが共同で作成した127の高品質なタスクで構成されています。各タスクは、精選された初期状態から始まり、自動検証のためのプログラムスクリプトを含んでいます。これらのタスクは、環境とのより豊かで多様な相互作用を要求し、幅広い作成、読み取り、更新、削除(CRUD)操作を伴います。我々は、ツール呼び出しループで動作する最小限のエージェントフレームワークを使用して、最先端のLLMを包括的に評価しました。実験結果によると、最高性能のモデルであるgpt-5-mediumは、pass@1で52.56%、pass^4で33.86%に達するのみで、claude-sonnet-4やo3など、広く強力とされる他のモデルは、pass@1で30%未満、pass^4で15%未満に留まります。平均して、LLMはタスクごとに16.2回の実行ターンと17.4回のツール呼び出しを必要とし、以前のMCPベンチマークを大幅に上回り、MCPMarkのストレステスト的な性質を浮き彫りにしています。
強化学習(RL)は視覚言語モデル(VLM)の推論能力を効果的に向上させることができるが、現在の手法は依然として、広範な手作業による構築と検証を必要とする労力集約的なデータセットに大きく依存しており、極めて高いトレーニングコストを招き、結果としてVLMの実用的な展開を制約している。この課題に対処するため、我々はVision-Zeroを提案する。これは、任意の画像ペアから生成された競争的な視覚ゲームを通じてVLMの自己改善を可能にするドメイン非依存のフレームワークである。具体的には、Vision-Zeroは以下の3つの主要な特徴を備えている:(1) 戦略的セルフプレイフレームワーク:Vision-Zeroは「Who Is the Spy」スタイルのゲームでVLMをトレーニングし、モデルが複数の役割で戦略的推論と行動を行う。インタラクティブなゲームプレイを通じて、モデルは人間のアノテーションなしでトレーニングデータを自律的に生成する。(2) 任意の画像からのゲームプレイ:既存のゲーム化フレームワークとは異なり、Vision-Zeroは任意の画像からゲームを生成できるため、モデルの多様なドメインにわたる推論能力を向上させ、異なるタスクに対する強い汎化能力を示す。この汎用性を、CLEVRベースの合成シーン、チャート、実世界の画像という3つの異なるタイプの画像データセットを使用して実証する。(3) 持続的なパフォーマンス向上:我々は、セルフプレイと検証可能な報酬を用いた強化学習(RLVR)を交互に行う新しいトレーニングアルゴリズムであるIterative Self-Play Policy Optimization(Iterative-SPO)を導入し、セルフプレイのみのトレーニングでしばしば見られるパフォーマンスの停滞を緩和し、持続的な長期的改善を達成する。ラベルなしデータを使用しているにもかかわらず、Vision-Zeroは推論、チャート質問応答、視覚中心の理解タスクにおいて最先端のパフォーマンスを達成し、他のアノテーションベースの手法を凌駕している。モデルとコードはhttps://github.com/wangqinsi1/Vision-Zeroで公開されている。
大規模言語モデル(LLMs)において、推論能力が重要な機能として浮上しています。強化学習(RL)、特にGroup Relative Policy Optimization(GRPO)を通じて、これらのモデルは数学やコード生成といった複雑なタスクを解決できるようになりました。これらの進歩を基に、最近の研究では視覚言語モデル(VLMs)への推論能力の拡張が試みられ、多様な視覚タスクで有望な結果が得られています。しかしながら、我々の研究はマルチモーダル推論の二面性を明らかにしました:論理的推論を大幅に強化し、難しい問題の解決を促進する一方で、知覚的基盤を徐々に損ない、基本的な視覚質問での認識失敗を引き起こす可能性があります。さらなる分析を通じて、この現象を視覚的忘却に帰因させました。これは、長時間の推論がモデルに視覚入力を無視させることを引き起こすものです。これを解決するために、我々はVision-Anchored Policy Optimization(VAPO)を提案します。これは、推論プロセスを視覚的に基づいた軌道に明示的に導くシンプルかつ効果的な方法です。結果として得られたモデル、VAPO-Thinker-7Bは、視覚情報への依存を大幅に強化し、広範なベンチマークで新たな最先端の結果を達成しました。プロジェクトページ:https://xytian1008.github.io/VAPO/
教師ありファインチューニング(SFT)が軽量な後処理ステップから、中規模トレーニングに匹敵する計算集約的なフェーズへと進化するにつれ、限られた予算下で大規模言語モデル(LLM)を整合させるためのデータ効率性が重要となっている。既存のデータプルーニング手法は断片的な設計に悩まされており、サンプルレベルまたはトークンレベルのいずれかで単独で動作し、両次元を同時に最適化することができない。この断絶は重大な非効率性を引き起こす——高価値のサンプルには依然として冗長なトークンが含まれる可能性があり、トークンレベルのプルーニングはしばしば個々の例に埋め込まれた重要な指示や修正信号を破棄してしまう。このボトルネックを解決するため、我々はエラー-不確実性(EU)平面を導入し、サンプルとトークンにわたるトレーニングデータの異質な有用性を同時に特徴付ける診断フレームワークを提案する。この洞察に基づき、サンプルプルーニングとトークンプルーニングを戦略的に調整する統一フレームワークであるQuadrant-based Tuning(Q-Tuning)を提案する。Q-Tuningは二段階の戦略を採用する:まず、情報豊富な誤解やキャリブレーション信号を含むサンプルを保持するためにサンプルレベルのトリアージを行い、次に、非対称なトークンプルーニングポリシーを適用し、コンテキストを意識したスコアリングメカニズムを使用して誤解サンプルから重要度の低いトークンを削除しつつ、キャリブレーションサンプルは完全に保持する。我々の手法は、5つの多様なベンチマークで新たな最先端を確立した。特に、SmolLM2-1.7Bにおいて、Q-Tuningは元のトレーニングデータのわずか12.5%を使用して、フルデータSFTベースラインに対して平均+38%の改善を達成した。フルデータトレーニングを一貫して上回る初の動的プルーニングアプローチとして、Q-Tuningは予算制約下でのLLM SFTにおけるデータ利用を最大化するための実用的でスケーラブルな青写真を提供する。
大規模言語モデル(LLM)は、事実に関する質問応答において高い性能を示しているものの、特にパラメトリック知識の範囲外の情報を必要とするタスクにおいて、幻覚(hallucination)や不正確な応答を生成しやすい傾向にある。実際、真実性(truthfulness)を確保するためには、正確さ(accuracy)だけでなく、モデルが不確実性を認識し、確信が持てない場合には回答を控える能力も必要である。これは既存の手法にとって根本的な課題を提示している:正確さを最適化するアプローチはしばしば幻覚を増幅し、一方で回答を控えることを促すアプローチは過度に保守的になり、正しい回答を犠牲にしてしまう。どちらの極端な場合も、最終的には真実性を損なうことになる。本研究では、LLMの真実性を直接最適化する汎用的な強化学習(RL)フレームワークであるTruthRLを提案する。具体的には、TruthRLをGRPOを用いて実装し、正しい回答、幻覚、および回答控えを区別するシンプルでありながら効果的な三値報酬を導入する。これにより、モデルは正しい回答を提供するだけでなく、不確実な場合には回答を控えることを促され、幻覚を減らすことで真実性を向上させる。4つの知識集約型ベンチマークでの大規模な実験により、TruthRLは従来のRLと比較して幻覚を28.9%削減し、真実性を21.1%向上させることが示された。また、様々なバックボーンモデル(例:Qwen、Llama)において、検索あり・なしの両設定で一貫した改善が見られた。詳細なアブレーションスタディにより、教師ありファインチューニングや二値報酬を用いたRLなど、正確さを重視する従来の手法は、事実の正確さと不確実性のバランスを取ることに苦戦することが明らかになった。一方、提案した真実性を重視するTruthRLは、正確さと真実性の両方で高い性能を達成し、真実性のあるLLMを開発するための学習目標設計の重要性を強調している。
大規模言語モデル(LLMs)は、テキストのみで訓練されているにもかかわらず、驚くほど豊かな視覚的プライアーを発達させます。これらのプライアーにより、比較的少量のマルチモーダルデータで視覚タスクの潜在能力を解き放つことが可能になり、場合によっては、画像を見たことがなくても視覚タスクを実行できるようになります。系統的な分析を通じて、言語事前訓練中に獲得された視覚世界に関する暗黙的で創発的な知識である視覚的プライアーが、分離可能な知覚プライアーと推論プライアーで構成されており、それぞれ独自のスケーリング傾向と起源を持つことを明らかにします。LLMの潜在的な視覚推論能力は、主に推論中心のデータ(例:コード、数学、学術)の事前訓練によって発達し、段階的にスケールすることが示されています。言語事前訓練から獲得されたこの推論プライアーは、視覚推論に転用可能で普遍的に適用可能です。一方、知覚プライアーは広範なコーパスからより拡散的に創発し、知覚能力は視覚エンコーダーと視覚指示チューニングデータに対してより敏感です。並行して、視覚世界を記述するテキストは重要であることが証明されていますが、そのパフォーマンスへの影響は急速に飽和します。これらの洞察を活用して、視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、1Tトークンスケールの事前訓練で検証します。私たちの知見は、50万GPU時間を消費する100以上の制御実験に基づいており、LLMの事前訓練から視覚アラインメント、教師ありマルチモーダルファインチューニングまでの完全なMLLM構築パイプラインにわたる5つのモデルスケール、幅広いデータカテゴリと混合、および複数の適応設定を網羅しています。主な知見とともに、いくつかの仮説を提案し、Multi-Level Existence Bench(MLE-Bench)を紹介します。この研究全体を通じて、言語事前訓練から視覚的プライアーを意図的に育成する新しい方法を提供し、次世代のマルチモーダルLLMへの道を切り開きます。
我々は、効率的な動画生成のためのポストトレーニング高速化フレームワーク「DC-VideoGen」を紹介する。DC-VideoGenは、任意の事前学習済み動画拡散モデルに適用可能であり、軽量なファインチューニングによって深層圧縮潜在空間に適応させることで効率性を向上させる。本フレームワークは、以下の2つの主要なイノベーションに基づいている:(i) 32倍/64倍の空間圧縮と4倍の時間圧縮を実現しつつ、再構成品質と長尺動画への汎化性を維持する、新規のチャンク因果的時系列設計を備えたDeep Compression Video Autoencoder、および(ii) 事前学習済みモデルを新たな潜在空間へ迅速かつ安定して転移させるAE-Adapt-Vという堅牢な適応戦略である。DC-VideoGenを用いて事前学習済みWan-2.1-14Bモデルを適応させるのに必要なのは、NVIDIA H100 GPU上でわずか10 GPU日である。高速化されたモデルは、品質を損なうことなくベースモデルと比較して最大14.8倍の低い推論遅延を実現し、さらに単一GPUでの2160x3840解像度の動画生成を可能にする。コード:https://github.com/dc-ai-projects/DC-VideoGen。
我々はOceanGymを紹介する。これは海洋水中におけるエンボディードエージェントのための初の包括的なベンチマークであり、最も過酷な現実環境の一つにおけるAIの進化を目指して設計された。地上や空中の領域とは異なり、水中環境は低視程や動的な海流など、極端な知覚と意思決定の課題を提示し、効果的なエージェントの展開を特に困難にしている。OceanGymは8つの現実的なタスク領域と、マルチモーダル大規模言語モデル(MLLM)によって駆動される統一エージェントフレームワークを包含しており、知覚、記憶、逐次的意思決定を統合している。エージェントは光学およびソナーデータを理解し、複雑な環境を自律的に探索し、これらの過酷な条件下で長期的な目標を達成する必要がある。広範な実験により、最先端のMLLM駆動エージェントと人間の専門家との間に大きなギャップがあることが明らかになり、海洋水中環境における知覚、計画、適応性の持続的な困難が浮き彫りになった。高忠実度で厳密に設計されたプラットフォームを提供することにより、OceanGymは堅牢なエンボディードAIを開発し、これらの能力を現実世界の自律海洋水中車両に転送するためのテストベッドを確立し、地球最後の未開拓のフロンティアの一つで動作可能なインテリジェントエージェントに向けた決定的な一歩を記した。コードとデータはhttps://github.com/OceanGPT/OceanGymで利用可能である。
検証可能な報酬を伴う強化学習(RLVR)は複雑なタスクを効果的に解決するが、トレーニング中に極めて長いコンテキスト長を必要とし、その結果、多大な計算コストが発生する。多段階トレーニングはこれを部分的に緩和できるが、過度に短いコンテキストから始めると、しばしば不可逆的な性能低下を引き起こし、最終的には全体のトレーニング計算量を大幅に削減することができない。本論文では、**T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**)を紹介する。これは、長いChain-of-Thought(CoT)蒸留と標準的なRLVRを橋渡しする、シンプルでありながら効果的なRLVRへの適応手法である。TFPIは、シンプルな*ThinkFree*操作を用いて、思考内容を明示的に破棄し、直接的な*</think>*追加を通じて推論中のトークン使用量を削減する。*ThinkFree*適応された入力でのトレーニングは、元の低速思考モードにおいても性能を向上させ、トークン消費量を低減する。様々なベンチマークでの広範な実験により、TFPIがRLの収束を加速し、より高い性能上限を達成し、特殊な報酬や複雑なトレーニング設計なしに、よりトークン効率の高い推論モデルを生成することが示された。TFPIのみを用いて、4Bモデルをトレーニングし、AIME24で89.0%、LiveCodeBenchで65.5%の精度を達成し、4K H20時間未満でこれを実現した。
大規模言語モデル(LLM)ベースの判定は、強力なLLMを活用して候補コンテンツを効率的に評価し、判定スコアを提供します。しかし、LLMが生成する判定に内在するバイアスや脆弱性が懸念を引き起こしており、学術的な査読のような敏感なシナリオにおいてそれらを識別する必要性が緊急に求められています。本研究では、判定検出タスクを提案し、形式化し、LLM生成判定の検出可能性を体系的に調査します。LLM生成テキスト検出とは異なり、判定検出は判定スコアと候補のみに依存し、検出プロセスにおいてテキストフィードバックがしばしば利用できない現実世界のシナリオを反映しています。我々の予備分析によると、既存のLLM生成テキスト検出手法は、判定スコアと候補コンテンツ間の相互作用を捉える能力が欠如しているため、効果的な判定検出には不十分です。これに着想を得て、我々はJ-Detectorを導入します。これは、軽量で透明性の高いニューラル検出器であり、明示的に抽出された言語的特徴とLLM拡張特徴を活用して、LLM判定者のバイアスと候補の特性を結びつけ、正確な検出を実現します。多様なデータセットにわたる実験により、J-Detectorの有効性が実証され、その解釈可能性がLLM判定者のバイアスを定量化することを可能にすることが示されました。最後に、LLM生成判定の検出可能性に影響を与える主要な要因を分析し、現実世界のシナリオにおける判定検出の実用性を検証します。
大規模言語モデル(LLM)のテスト時スケーリングにおける信頼性は、正しい推論と誤った論理を区別する外部検証器や報酬モデルによって評価されることが多い。従来の研究では、中間推論ステップごとにスコアを付与するプロセス報酬モデル(PRM)が、最終的な答えのみを評価するアウトカム報酬モデル(ORM)を上回ると一般的に考えられてきた。この見解は主に、数学に近い狭い領域からの証拠に基づいている。本研究では、14の多様な領域にわたって、識別型ORMとPRM(\DisORM、\DisPRM)および生成型ORMとPRM(\GenORM、\GenPRM)という4つの報酬モデルのバリエーションを初めて統一的に評価した。従来の通説に反し、以下の結果が得られた:(i) \DisORMは\DisPRMと同等の性能を示す、(ii) \GenPRMは競争力がない、(iii) 全体として、\GenORMが最も堅牢であり、すべてのテスト領域で有意かつ一貫した向上をもたらす。この結果は、PRM形式のステップごとのスコアリングが、LLMの自動ラベリングからラベルノイズを継承し、自己修正を含む長い推論軌跡を評価するのが困難であることに起因すると考えられる。理論的分析では、推論の長さが増すにつれてエラーが累積することが示され、実証的観察もこの効果を裏付けている。これらの知見は、細かい監視が常に優れているという一般的な前提に疑問を投げかけ、多領域展開における生成型アウトカム検証を支持するものである。今後の多領域設定における研究を促進するため、コード、データセット、およびチェックポイントをhttps://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}}で公開している。
パノラマは完全な視野角(360度×180度)を有しており、透視画像よりもより完全な視覚的記述を提供します。この特性により、パノラマ深度推定は3Dビジョン分野で注目を集めつつあります。しかし、パノラマデータの不足により、従来の手法はドメイン内設定に制限されることが多く、ゼロショット汎化性能が低いという課題がありました。さらに、パノラマに内在する球面歪みのため、多くのアプローチが透視分割(例:キューブマップ)に依存しており、効率性が最適でない状況でした。これらの課題に対処するため、我々はDA^{2}:Depth Anything in Any Directionを提案します。これは、正確でゼロショット汎化可能、かつ完全なエンドツーエンドのパノラマ深度推定器です。具体的には、パノラマデータのスケールアップのために、透視画像から高品質なパノラマ深度データを生成するデータキュレーションエンジンを導入し、sim543KのパノラマRGB-深度ペアを作成し、総計をsim607Kにしました。さらに、球面歪みを軽減するため、球面座標を明示的に活用してパノラマ画像特徴の球面幾何学的整合性を強化するSphereViTを提案し、性能向上を実現しました。複数のデータセットにおける包括的なベンチマークは、DA^{2}のSoTA性能を明確に示しており、最も強力なゼロショットベースラインに対してAbsRelで平均38%の改善を達成しました。驚くべきことに、DA^{2}は従来のドメイン内手法をも上回り、その優れたゼロショット汎化性能を強調しています。さらに、エンドツーエンドソリューションとして、DA^{2}は融合ベースのアプローチよりもはるかに高い効率性を示しています。コードとキュレーションされたパノラマデータは公開予定です。プロジェクトページ:https://depth-any-in-any-dir.github.io/。
現代の大規模推論モデルの驚異的な能力は、主に教師ありファインチューニングや強化学習といったポストトレーニング技術によって解き放たれています。しかし、そのような改善の背後にあるアーキテクチャのメカニズムは、依然としてほとんど解明されていません。本研究では、回路分析を用いて、複雑な推論のためのポストトレーニングが、新たな機能特化型アテンションヘッドの出現を促すことを示します。これらのヘッドは、構造化された推論と計算を集合的にサポートします。QwenファミリーとDeepSeek蒸留モデルにわたる比較分析により、これらの出現ヘッドが異なるトレーニング体制の下で異なる進化を遂げることが明らかになりました。蒸留とSFTは、安定した推論ヘッドの累積的な追加を促進します。一方、グループ相対ポリシー最適化は、動的な探索モードで動作します:比較的少数のアテンションヘッドが反復的に活性化、評価、剪定され、その生存がタスクの報酬信号の変動に密接に追従します。さらに、制御可能な思考オン/オフモデルには、専用の思考ヘッドが存在しないことがわかりました。代わりに、明示的な推論をオフにすると、より広範だが効率の低い補償ヘッドのセットがトリガーされます。アブレーションと質的分析を通じて、これらの回路レベルのダイナミクスを重要なパフォーマンスのトレードオフに結びつけます:強化されたヘッドは、難しい問題に対する洗練された問題解決戦略を可能にしますが、より単純なタスクでの計算ミスや論理ループといった過剰思考の失敗モードを引き起こす可能性もあります。これらの発見は、回路レベルのダイナミクスをマクロレベルのパフォーマンスに結びつけ、複雑な推論が基本的な計算のコストを伴うという固有の緊張関係を特定します。より広く、我々の研究は、効果的な推論戦略の開発と信頼性のある完璧な実行の保証のバランスを取る必要性を強調し、将来のトレーニングポリシー設計の方向性を示しています。
画像から動画生成は、拡散モデルの進展により著しい進歩を遂げてきたが、現実的な動きを持つ動画の生成は依然として非常に困難である。この難しさは、物理的な制約、物体間の相互作用、および領域固有のダイナミクスを正確にモデル化する複雑さに起因しており、これらは多様なシナリオにわたって容易に一般化できない。この問題に対処するため、我々はMotionRAGを提案する。これは、関連する参照動画から運動の事前知識を適応させることで、運動のリアリズムを向上させる検索拡張フレームワークであり、Context-Aware Motion Adaptation (CAMA)を介して実現される。主な技術的革新点は以下の通りである:(i) ビデオエンコーダと専用のリサンプラーを使用して高レベルの運動特徴を抽出し、意味的な運動表現を蒸留する検索ベースのパイプライン、(ii) 因果的トランスフォーマーアーキテクチャを介して実装された、運動適応のためのインコンテキスト学習アプローチ、(iii) 転送された運動特徴を事前学習済みのビデオ拡散モデルにシームレスに統合するアテンションベースの運動注入アダプター。大規模な実験により、我々の手法が複数の領域および様々なベースモデルにおいて、推論時の計算オーバーヘッドをほとんど伴わずに大幅な改善を達成することが示された。さらに、我々のモジュール設計により、検索データベースを更新するだけで、コンポーネントの再学習なしに新しい領域へのゼロショット一般化が可能となる。本研究は、運動の事前知識の効果的な検索と転送を可能にすることで、ビデオ生成システムのコア能力を強化し、現実的な運動ダイナミクスの合成を促進するものである。
LLMベースのエージェントが実生活のシナリオでますます展開される中、既存のベンチマークは、膨大な情報の処理、多様なリソースの活用、動的なユーザーインタラクションの管理といった本質的な複雑さを捉えられていません。このギャップを埋めるため、我々はVitaBenchを紹介します。これは、現実世界の設定に基づいた多様なインタラクティブタスクでエージェントを評価する挑戦的なベンチマークです。フードデリバリー、店内消費、オンライン旅行サービスといった日常的なアプリケーションから着想を得て、VitaBenchは66のツールを備えた、これまでで最も複雑な生活支援シミュレーション環境をエージェントに提供します。ドメイン固有のポリシーを排除するフレームワークを通じて、これらのシナリオとツールの柔軟な組み合わせを可能にし、100のクロスシナリオタスク(主要結果)と300のシングルシナリオタスクを生成します。各タスクは複数の実際のユーザーリクエストから派生し、エージェントに時間的・空間的次元にわたる推論、複雑なツールセットの活用、曖昧な指示の積極的な明確化、マルチターン会話を通じたユーザー意図の変化の追跡を要求します。さらに、ルーブリックベースのスライディングウィンドウ評価器を提案し、複雑な環境と確率的なインタラクションにおける多様な解決経路の堅牢な評価を可能にします。我々の包括的な評価によると、最も先進的なモデルでさえ、クロスシナリオタスクでは30%の成功率に留まり、その他のタスクでは50%未満の成功率です。全体として、VitaBenchは実用的な現実世界のアプリケーションにおけるAIエージェントの開発を進めるための貴重なリソースとなることを信じています。コード、データセット、リーダーボードはhttps://vitabench.github.io/で利用可能です。
Muonオプティマイザは、大規模言語モデル(LLMs)の訓練においてAdamよりも一貫して高速であるが、その成功の背後にあるメカニズムは未だ不明である。本論文は、連想記憶の観点からこのメカニズムを解明する。Muonによって最適化されるトランスフォーマーコンポーネントを除去することで、LLMsの連想記憶パラメータ、すなわちValueおよびOutput(VO)アテンション重みとフィードフォワードネットワーク(FFNs)が、Muonの優位性の主要な要因であることを明らかにする。この連想記憶の視点に基づき、Muonの現実世界のコーパスにおける優位性を説明する。これらのコーパスは本質的に裾が重い分布を持ち、少数のクラス(裾クラス)が他のクラスよりもはるかに少ない頻度で出現する。Muonの優位性は、以下の二つの主要な特性によって説明される:(i) その更新ルールは、Adamよりも一貫して等方的な特異値スペクトルを生成する;(ii) その結果、裾が重いデータにおいて、裾クラスをAdamよりも効果的に最適化する。実験的証拠に加えて、クラス不均衡データ下での一層連想記憶モデルの分析を通じて、これらの知見を理論的に確認する。Muonは、特徴埋め込みに関わらずクラス間で均衡の取れた学習を一貫して達成するのに対し、Adamは埋め込み特性に依存して学習誤差に大きな差を生じさせる可能性があることを証明する。要約すると、我々の実験的観察と理論的分析は、Muonの核心的な利点を明らかにする:その更新ルールは線形連想記憶の外積構造と整合し、裾が重い分布における裾クラスのより均衡の取れた効果的な学習をAdamよりも可能にする。
拡散型大規模言語モデル(dLLM)は、最近、自己回帰型生成の有望な代替手段として研究コミュニティで注目を集めており、並列トークン予測と低い推論遅延を提供します。しかし、その並列デコードの可能性はまだ十分に探求されておらず、既存のオープンソースモデルでは性能を確保するためにほぼトークン長のデコードステップが必要です。この問題に対処するため、我々はdParallelを導入します。これは、dLLMの内在する並列性を活用して高速サンプリングを実現するシンプルで効果的な手法です。並列デコードの主要なボトルネックが、マスクされたトークンの逐次的確実性収束にあることを特定しました。この洞察に基づき、我々のアプローチの中核となる「確実性強制蒸留」を導入します。これは、モデルが元のサンプリング軌跡を追従しつつ、マスクされたトークンに対してより迅速かつ並列に高い確実性を達成するよう訓練する新しい戦略です。様々なベンチマークでの広範な実験により、我々の手法が性能を維持しながらデコードステップ数を劇的に削減できることが示されました。LLaDA-8B-Instructモデルに適用した場合、dParallelはGSM8Kでのデコードステップを256から30に削減し、性能低下なしに8.5倍の高速化を実現しました。MBPPベンチマークでは、デコードステップを256から24に削減し、精度を維持しながら10.5倍の高速化を達成しました。我々のコードはhttps://github.com/czg1225/dParallelで公開されています。
拡散モデルによって生成された画像と入力プロンプトとの間の正確なマルチモーダルアライメントを確保することは、長年の課題であった。従来の研究では、高品質な選好データを用いて拡散モデルの重みをファインチューニングする手法が採用されてきたが、そのようなデータは限られており、スケールアップが困難である。最近の編集ベースの手法では、生成された画像の局所領域をさらに洗練するが、全体的な画像品質を損なう可能性がある。本研究では、追加のデータや編集操作を必要としない、再生成ベースのマルチモーダルアライメントフレームワークであるImplicit Multimodal Guidance(IMG)を提案する。具体的には、生成された画像とそのプロンプトが与えられた場合、IMGはa) マルチモーダル大規模言語モデル(MLLM)を利用してミスアライメントを特定し、b) 拡散条件付け特徴を操作してミスアライメントを軽減し、再生成を可能にするImplicit Alignerを導入し、c) 再アライメントの目標を学習可能な目的関数、すなわちIteratively Updated Preference Objectiveとして定式化する。SDXL、SDXL-DPO、およびFLUXにおける広範な定性的および定量的評価により、IMGが既存のアライメント手法を凌駕することが示された。さらに、IMGは柔軟なプラグアンドプレイアダプターとして機能し、従来のファインチューニングベースのアライメント手法をシームレスに強化する。我々のコードはhttps://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignmentで公開される予定である。
強化学習(Reinforcement Learning: RL)は、大規模言語モデル(Large Language Models: LLMs)の推論能力を向上させる上で顕著な成功を収めています。その中でも、プロセス監視型強化学習(Process-Supervised RL: PSRL)は、結果ベースのRLと比較してより効果的なパラダイムとして登場しました。しかし、既存のPSRLアプローチは、分岐位置とサンプリングの両面において探索効率が限定的であるという課題を抱えています。本論文では、推論モデルに対して効率的な探索を可能にする新しいPSRLフレームワーク(AttnRL)を提案します。高いアテンションスコアを示すステップが推論行動と相関するという予備的な観察に基づき、高い値を持つ位置から分岐することを提案します。さらに、問題の難易度と過去のバッチサイズを考慮した適応型サンプリング戦略を開発し、トレーニングバッチ全体が非ゼロのアドバンテージ値を維持することを保証します。サンプリング効率をさらに向上させるため、PSRL向けのワンステップオフポリシートレーニングパイプラインを設計しました。複数の難易度の高い数学的推論ベンチマークでの大規模な実験により、本手法が性能、サンプリング効率、トレーニング効率の面で従来のアプローチを一貫して上回ることが実証されました。
人間はAI生成(偽物)の動画を識別し、根拠のある理由を提供できるのか? 動画生成モデルが急速に進化する中で、重要な次元――人間が生成された動画内のディープフェイクの痕跡、すなわち動画が機械生成であることを明らかにする時空間的に根拠のある視覚的アーティファクトを検出できるかどうか――はほとんど見過ごされてきた。我々はDeeptraceRewardを導入する。これは、人間が知覚する偽物の痕跡を動画生成の報酬として注釈付けする、初めての細粒度で空間的・時間的に認識されたベンチマークである。このデータセットは、3.3Kの高品質な生成動画にわたる4.3Kの詳細な注釈から構成される。各注釈は自然言語による説明を提供し、知覚された痕跡を含むバウンディングボックス領域を特定し、正確な開始と終了のタイムスタンプを記録する。我々はこれらの注釈を、人間が動画をAI生成と識別する原因となるディープフェイクの痕跡の9つの主要カテゴリに統合し、マルチモーダル言語モデル(LM)を報酬モデルとして訓練し、人間の判断と位置特定を模倣する。DeeptraceRewardにおいて、我々の7B報酬モデルは、偽物の手がかりの識別、根拠付け、説明においてGPT-5を平均34.7%上回った。興味深いことに、一貫した難易度の勾配が観察された:二値の偽物対本物の分類は、細粒度のディープフェイク痕跡検出よりも大幅に容易である;後者の中では、自然言語の説明(最も容易)から空間的根拠付け、時間的ラベリング(最も困難)へと性能が低下する。人間が知覚するディープフェイクの痕跡を前景化することにより、DeeptraceRewardは社会的に意識された信頼できる動画生成のための厳密なテストベッドと訓練信号を提供する。
我々はコードからメトリックへの回帰、すなわちコード実行の数値的結果を予測する課題を研究する。プログラミング言語のオープンエンドな性質ゆえに、これは困難なタスクである。従来の手法は重厚でドメイン固有の特徴量エンジニアリングに頼ってきたが、我々は単一の統一された回帰言語モデル(RLM)が、テキストから直接的に予測できることを示す。具体的には、(i) PythonやC++といった複数の高級言語におけるコードのメモリフットプリント、(ii) Triton GPUカーネルのレイテンシ、(iii) ONNXで表現された訓練済みニューラルネットワークの精度と速度を同時に予測できる。特に、T5Gemmaから初期化された比較的小規模な300MパラメータのRLMは、APPSの競技プログラミング提出物において0.9以上のスピアマン順位相関係数を達成し、単一の統一モデルがCodeNetの17の異なる言語にわたって0.5以上の平均スピアマン順位相関係数を達成する。さらに、RLMはグラフニューラルネットワークが支配していた5つの古典的なNAS設計空間において0.46の最高平均ケンドールタウを獲得し、同時に多数のハードウェアプラットフォームにおけるアーキテクチャのレイテンシを予測できる。
従来のAI Scientistシステムは新規の発見を生成できるものの、人間が定義する喫緊の課題に対処する科学的に価値ある貢献を生み出すための焦点を欠いていることが多かった。本論文では、この課題を克服するため、数ヶ月にわたる目標指向型の完全自律的な科学的発見を実施するDeepScientistシステムを紹介する。本システムは発見をベイズ最適化問題として形式化し、「仮説生成、検証、分析」からなる階層的評価プロセスを通じてこれを運用する。累積的な発見メモリを活用することで、このループは新規仮説の探索と活用をインテリジェントにバランスさせ、最も有望な発見をより高精度な検証段階へと選択的に昇格させる。20,000 GPU時間以上を消費し、約5,000のユニークな科学的アイデアを生成し、そのうち約1,100を実験的に検証した結果、3つの最先端AIタスクにおいて人間が設計した最新手法をそれぞれ183.7%、1.9%、7.9%上回る成果を達成した。本研究は、AIが科学的タスクにおいて人間の最先端を段階的に超える発見を達成し、科学的発見のフロンティアを真に押し進める価値ある知見を生み出した初めての大規模な証拠を提供する。このプロセスに関するさらなる研究を促進するため、すべての実験ログとシステムコードをhttps://github.com/ResearAI/DeepScientist/でオープンソースとして公開する予定である。
大規模言語モデル(LLM)エージェントは、限られたコンテキストウィンドウに制約されており、長期的な情報理解のためには外部メモリシステムが必要とされる。現在のメモリ拡張型エージェントは、通常、事前定義された指示やツールに依存してメモリを更新する。しかし、言語モデルは、特にメモリシステムが複雑化するにつれて、どの情報を保存するか、どのように構造化するか、いつ更新するかを決定する能力を欠いている場合がある。これにより、最適でないメモリ構築や情報の損失が生じる。この問題に対処するため、我々はMem-alphaを提案する。これは、エージェントが相互作用とフィードバックを通じて複雑なメモリシステムを効果的に管理することを学習する強化学習フレームワークである。また、効果的なメモリ管理を教えるために設計された多様な多ターン相互作用パターンと包括的な評価質問を組み合わせた専門的なトレーニングデータセットを構築した。トレーニング中、エージェントは逐次的な情報チャンクを処理し、関連する内容を抽出して保存し、メモリシステムを更新することを学習する。報酬信号は、完全な相互作用履歴にわたる下流の質問応答精度から導出され、メモリ構築を直接最適化する。我々のトレーニングフレームワークの有効性を示すために、コア、エピソード、セマンティックのコンポーネントからなるメモリアーキテクチャを設計し、メモリ操作のための複数のツールを備えている。実証評価により、Mem-alphaが既存のメモリ拡張型エージェントベースラインを大幅に改善することが示された。最大30kトークンのインスタンスでのみトレーニングされたにもかかわらず、我々のエージェントはトレーニング長の13倍を超える400kトークンを超えるシーケンスに対して顕著な一般化能力を示し、Mem-alphaの堅牢性を強調している。
現代のリカレントニューラルネットワークは、線形時間計算量の特性から3D再構成において競争力のあるアーキテクチャとなっています。しかし、訓練コンテキスト長を超えて適用すると性能が大幅に低下し、長さ一般化能力が限られていることが明らかになりました。本研究では、テストタイムトレーニングの観点から3D再構成の基盤モデルを再検討し、その設計をオンライン学習問題として捉え直します。この観点に基づき、メモリ状態と新たな観測値との整合性信頼度を活用して、メモリ更新のための閉形式学習率を導出し、過去情報の保持と新たな観測への適応のバランスを取ります。このトレーニング不要の介入手法、TTT3Rは、長さ一般化能力を大幅に改善し、ベースラインと比較してグローバルポーズ推定において2倍の精度向上を達成します。さらに、数千枚の画像を処理する際にわずか6GBのGPUメモリで20FPSを実現します。コードはhttps://rover-xingyu.github.io/TTT3Rで公開されています。
音声視覚分離(AVSS)手法は、視覚的手がかりを活用してターゲット音声を抽出し、騒音の多い音響環境において優れた分離品質を実証してきました。しかし、これらの手法は通常、多数のパラメータを必要とし、高い計算コストを伴うため、音声分離がさらなる音声処理の前処理ステップとしてのみ機能する多くのアプリケーションでは受け入れられません。この問題に対処するため、我々はDolphinという効率的なAVSS手法を提案します。視覚的特徴抽出のために、唇の動きを離散的な音声整合セマンティックトークンに変換するデュアルパス軽量ビデオエンコーダであるDP-LipCoderを開発しました。音声分離については、各層にマルチスケール依存性を効率的に捕捉するグローバル-ローカルアテンション(GLA)ブロックを組み込んだ軽量エンコーダ-デコーダセパレータを構築しました。3つのベンチマークデータセットでの実験により、Dolphinは分離品質において現在の最先端(SOTA)モデルを上回るだけでなく、効率性においても顕著な改善を達成しました:パラメータ数が50%以上削減、MACsが2.4倍以上削減、GPU推論速度が6倍以上高速化されました。これらの結果は、Dolphinが実世界のシナリオにおける高性能AVSSの実用的かつ展開可能なソリューションを提供することを示しています。我々のコードとデモページはhttp://cslikai.cn/Dolphin/で公開されています。
オープンな大規模言語モデル(LLM)の普及は、人工知能(AI)における研究とイノベーションの活発なエコシステムを促進しています。しかし、オープンLLMの開発において、その公開前後で用いられる協力方法についてはまだ包括的に研究されておらず、オープンLLMプロジェクトがどのように開始され、組織化され、運営されているか、またこのエコシステムをさらに促進するための機会が何であるかについての理解が限られています。私たちは、北米、ヨーロッパ、アフリカ、アジアの草の根プロジェクト、研究機関、スタートアップ、大手テクノロジー企業からなる14のオープンLLMの開発者に対する半構造化インタビューを基に、オープンLLMの開発と再利用のライフサイクル全体におけるオープンな協力を探索的に分析し、このギャップを埋めます。私たちは、研究と実践に対して3つの重要な貢献をします。第一に、オープンLLMプロジェクトにおける協力は、LLM自体をはるかに超えて、データセット、ベンチマーク、オープンソースフレームワーク、リーダーボード、知識共有とディスカッションフォーラム、コンピュートパートナーシップなどを含んでいます。第二に、オープンLLMの開発者には、AIアクセスの民主化やオープンサイエンスの促進から、地域エコシステムの構築や言語表現の拡大まで、さまざまな社会的、経済的、技術的動機があります。第三に、サンプルされたオープンLLMプロジェクトは、単一企業プロジェクトから非営利団体が支援する草の根プロジェクトまで、5つの異なる組織モデルを示しており、これらは制御の集中度やコミュニティエンゲージメント戦略において、オープンLLMライフサイクル全体で異なります。最後に、AIのよりオープンな未来を築くグローバルコミュニティを支援しようとするステークホルダーに向けた実践的な提言をまとめます。
外部ツールとの相互作用を通じて能力を拡張する大規模言語モデルエージェントの構築は、AI研究と応用における新たなフロンティアを表している。本論文では、革新的なデータ合成パイプラインとオーケストレーションされたウェブ検索ツールを備えた深層研究エージェントであるInfoAgentを紹介する。挑戦的で見つけにくいクエリを構築するために、エンティティツリーを構築し、エンティティのファジィ化を伴うサブツリーサンプリングを適用して、質問の難易度を体系的に高める。商用検索ツールに大きく依存する従来の研究とは異なり、専用の自己ホスト型検索インフラストラクチャを開発し、エージェント環境の透明性を高め、エージェントの能力のさらなる進化を促進する。データパイプラインの有効性を評価するために、質問に正しく答えるために必要なツール呼び出しの平均回数を測定し、また、当社のツールを備えたエージェントがより優れたパフォーマンスを発揮することを示す。InfoAgentは、Qwen3-14Bを基に、2段階のレシピでポストトレーニングを行った:長期的な検索行動を身につけるためのコールドスタートの教師ありファインチューニングと、推論主導のツール使用を大幅に改善する強化学習である。当社の手法により、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成し、WebSailor-72BやDeepDive-32Bなどの従来のオープンソースの深層研究エージェントを上回った。
オンラインアライメント(例:GRPO)は、一般的にオフラインアライメント(例:DPO)よりも高性能です。しかし、その理由は何でしょうか?行動経済学のプロスペクト理論を援用し、我々は人間中心の説明を提案します。我々は、オンラインのオン・ポリシーサンプリングが、モデルが生成できるものの人間が知覚する分布をより良く近似することを証明し、PPO/GRPOスタイルのクリッピング(元々は訓練を安定化するために導入されたもの)が、人間が確率をどのように知覚するかにおける知覚バイアスを回復することを示します。この意味で、PPO/GRPOはすでに知覚損失として機能しています。我々の理論はさらに、オンライン/オフラインの二分法自体が人間の効用を最大化するために偶発的であることを示唆しています。なぜなら、オンラインのオン・ポリシーデータに限定するのではなく、人間の知覚を模倣する方法で任意のデータを選択的に訓練することで、同じ効果を達成できるからです。これにより、性能を犠牲にすることなく、より迅速に、安価に、柔軟にポストトレーニングを行うことが可能になります。この目的のために、我々は確率の知覚歪みをDPO/KTO/GRPOのような目的関数に明示的に組み込む設計パターンを提案し、それらのヒューマンライン変種を作成します。驚くべきことに、これらのヒューマンライン変種は、オフラインのオフ・ポリシーデータで訓練された場合でも、検証可能なタスクと検証不可能なタスクの両方において、オンラインの対応する手法と同等の性能を発揮することがわかりました。
大規模言語モデル(LLM)の安全性は、広範な展開を可能にする上で最も緊急の課題の一つです。ほとんどの研究や世界的な議論は、モデルがユーザーに自己や他者への危害を加える手助けをするといった一般的な害に焦点を当てていますが、企業はより根本的な懸念を抱えています:LLMベースのエージェントがその使用目的において安全かどうかです。これに対処するため、我々は「運用安全性」を導入します。これは、特定の目的を担う際にLLMがユーザーのクエリを適切に受け入れるか拒否する能力と定義されます。さらに、一般的な場合と特定のエージェント的ユースケースにおける運用安全性を測定するための評価スイートとベンチマークであるOffTopicEvalを提案します。20のオープンウェイトLLMを含む6つのモデルファミリーに対する評価では、モデル間で性能にばらつきがあるものの、すべてのモデルが依然として高度に運用上安全でないことが明らかになりました。最強のモデルでさえ、Qwen-3(235B)が77.77%、Mistral(24B)が79.96%と、信頼できる運用安全性には程遠い結果を示しています。一方、GPTモデルは62~73%の範囲で頭打ちとなり、Phiは中程度のスコア(48~70%)に留まり、GemmaとLlama-3はそれぞれ39.53%と23.84%にまで低下しました。運用安全性はモデルアラインメントの核心的な問題ですが、これらの失敗を抑制するため、我々はプロンプトベースのステアリング手法を提案します:クエリグラウンディング(Q-ground)とシステムプロンプトグラウンディング(P-ground)です。これらはOOD拒否を大幅に改善します。Q-groundは最大23%の一貫した向上をもたらし、P-groundはさらに大きな向上を実現し、Llama-3.3(70B)を41%、Qwen-3(30B)を27%向上させました。これらの結果は、運用安全性への介入の緊急性と、より信頼性の高いLLMベースのエージェントに向けた第一歩としてのプロンプトベースのステアリングの可能性を強調しています。
大規模言語モデル(LLM)の提供者は、最大コンテキストウィンドウサイズについて大きな数値を誇示している。現実世界でのコンテキストウィンドウの使用を検証するため、我々は1)最大有効コンテキストウィンドウの概念を定義し、2)様々なサイズと問題タイプにおけるコンテキストウィンドウの有効性をテストする方法を策定し、3)モデルの有効性を比較するための標準化された方法を作成し、失敗点を見つけるために、次第に大きくなるコンテキストウィンドウサイズを検証した。我々は複数のモデルにわたって数十万のデータポイントを収集し、報告された最大コンテキストウィンドウ(MCW)サイズと最大有効コンテキストウィンドウ(MECW)サイズの間に有意な差異があることを発見した。我々の調査結果は、MECWがMCWとは大幅に異なるだけでなく、問題タイプに基づいて変化することを示している。テストグループ内のいくつかの最先端モデルは、コンテキスト内のトークン数がわずか100でも失敗し、ほとんどのモデルはコンテキスト内のトークン数が1000に達すると精度が大幅に低下した。全てのモデルは、最大コンテキストウィンドウに比べて最大99%も不足していた。我々のデータは、提供される問題タイプに基づいて最大有効コンテキストウィンドウが変化することを明らかにし、モデルの精度を向上させ、モデルの幻覚率を低下させるための明確で実行可能な洞察を提供する。
最先端の視覚言語モデル(VLM)において、基本的な視覚理解は本当に解決されているのか?本論文では、VisualOverloadという、わずかに異なる視覚質問応答(VQA)ベンチマークを提案する。このベンチマークは、2,720の質問-回答ペアから成り、非公開の正解応答を保持している。従来のVQAデータセットが通常、ほぼ全体的な画像理解に焦点を当てているのに対し、VisualOverloadは、密集した(または過負荷の)シーンにおいて、単純で知識を必要としない視覚タスクを実行することをモデルに要求する。我々のデータセットは、パブリックドメインの絵画の高解像度スキャンで構成されており、複数の人物、行動、そして詳細な背景の中で展開されるサブプロットが描かれている。これらの画像を、シーンを徹底的に理解するための6つのタスクカテゴリーにわたる質問で手動で注釈付けした。我々は、現在のベンチマークがVLMの性能を過大評価しており、詳細のエンコードと推論は、特に密集したシーンに直面した場合、依然として困難なタスクであると仮説を立てている。実際、テストした37のモデルの中で最良のモデル(o3)でさえ、最も難しいテスト分割では19.6%の精度しか達成せず、全質問では69.5%の精度に留まった。徹底的な評価に加えて、我々はベンチマークをエラー分析で補完し、カウントスキルの欠如、OCRの失敗、複雑なタスク下での顕著な論理的不整合など、複数の失敗モードを明らかにした。全体として、VisualOverloadは現在の視覚モデルの重要なギャップを暴露し、より良いモデルを開発するための重要なリソースをコミュニティに提供する。ベンチマーク: http://paulgavrikov.github.io/visualoverload
近年の強化学習(RL)手法は、大規模言語モデル(LLM)の計画能力を大幅に向上させてきたが、その有効性の理論的基盤は未だ明らかではない。本研究では、グラフベースの抽象化を通じてRLの利点と限界を調査し、特に方策勾配法(PG)とQ学習法に焦点を当てる。理論分析の結果、教師ありファインチューニング(SFT)は共起に基づく疑似解を導入する可能性があるのに対し、RLは主に探索を通じて正しい計画を達成し、より良い汎化を可能にする上で探索の役割を強調することが明らかになった。しかしながら、PGは多様性の崩壊に悩まされ、訓練中に出力の多様性が減少し、完全な精度が達成された後もその状態が持続することを示す。一方、Q学習はオフポリシー学習と収束時の多様性保持という二つの重要な利点を提供する。さらに、Q学習において報酬ハッキングを防ぐためには、慎重な報酬設計が必要であることを示す。最後に、現実世界の計画ベンチマークであるBlocksworldに本フレームワークを適用し、これらの挙動が実際に現れることを確認する。
本論文では、リアルタイム会話制約下における音声インタラクティブシステムの推論能力を評価するためのベンチマーク「Voice Evaluation of Reasoning Ability (VERA)」を提案する。VERAは、確立されたテキストベンチマークから派生した2,931の音声ネイティブなエピソードで構成され、5つのトラック(数学、ウェブ、科学、長文脈、事実)に分類されている。各項目は推論の難易度を維持しつつ、音声インタラクション向けに適応されている。VERAは、モデルファミリー内でのテキストと音声の直接比較を可能にし、アーキテクチャの選択が信頼性に与える影響の分析を支援する。我々は12の最新音声システムを強力なテキストベースラインとともに評価し、大きな一貫したモダリティギャップを観察した:競技数学において、主要なテキストモデルは74.8%の精度を達成するのに対し、その音声版は6.1%に留まる;全トラックのマクロ平均では、最良のテキストモデルは54.0%を達成するのに対し、音声は11.3%である。レイテンシーと精度の分析から、低レイテンシープラトーが明らかになり、高速な音声システムは約10%の精度に集中する一方、テキスト性能に近づくにはリアルタイムインタラクションを犠牲にする必要がある。診断実験から、一般的な緩和策では不十分であることが示された。「思考時間」を増やしても、わずかな改善しか得られない;推論とナレーションを分離したデカップルドカスケードは精度を向上させるが、テキストには遠く及ばず、特徴的なグラウンディング/一貫性エラーを導入する。失敗分析からは、ネイティブストリーミング、エンドツーエンド、カスケード設計それぞれに異なるエラー特性が示された。VERAは、思考と発話を分離するアーキテクチャのための再現可能なテストベッドとターゲット診断を提供し、流暢かつ信頼性のある推論を実現するリアルタイム音声アシスタントに向けた進捗を測定するための原理的な方法を提供する。
グラフィカルユーザーインターフェース(GUI)と効果的に相互作用する自律エージェントの開発は、特に小型のオンデバイスモデルにおいて、依然として難しい未解決の問題です。本論文では、モバイル、ウェブ、デスクトップなど多様なプラットフォームで動作するコンパクトなエンドツーエンドGUIエージェントであるFerret-UI Liteを紹介します。小型モデルの開発に最適化された技術を活用し、実データと合成データからなる多様なGUIデータの混合をキュレーションし、連鎖思考推論と視覚的ツール使用による推論時の性能強化、および設計された報酬を用いた強化学習を通じて、3BのFerret-UI Liteエージェントを構築しました。Ferret-UI Liteは、他の小規模GUIエージェントと競争力のある性能を達成しています。GUIグラウンディングにおいて、Ferret-UI LiteはScreenSpot-V2、ScreenSpot-Pro、OSWorld-Gベンチマークでそれぞれ91.6%、53.3%、61.2%のスコアを獲得しました。GUIナビゲーションでは、Ferret-UI LiteはAndroidWorldで28.0%、OSWorldで19.8%の成功率を達成しました。我々は、コンパクトなオンデバイスGUIエージェントの開発から得られた手法と教訓を共有します。
jina-reranker-v3は、0.6Bパラメータの多言語ドキュメントリランカーであり、新規の「最後だが遅くない相互作用」を導入しています。ColBERTのような遅延相互作用モデルとは異なり、クエリとドキュメントを別々にエンコードした後にマルチベクトルマッチングを行うのではなく、本アプローチでは、同じコンテキストウィンドウ内でクエリとドキュメント間の因果的自己注意を実施し、各ドキュメントの最後のトークンから文脈埋め込みを抽出する前に、豊富なクロスドキュメント相互作用を可能にします。このコンパクトなアーキテクチャは、生成型リストワイズリランカーの10分の1のサイズでありながら、61.94 nDCG@10という最先端のBEIR性能を達成しています。
大規模言語モデル(LLMs)は、複雑なタスクを遂行するための基本的なパラダイムとして多ターンインタラクションを採用している。しかし、これらのモデルは通常、静的な単一ターンのデータで訓練されているため、長時間のインタラクションにおいて性能が低下し、リアルタイムのユーザーフィードバックに適応する能力が制限される。この課題に対処するため、我々はまず新しいパラダイムを提案する:多ターンインタラクションのためのテスト時ポリシー適応(T2PAM)。T2PAMは、進行中のインタラクションからのユーザーフィードバックを報酬信号として利用し、ユーザーの嗜好に沿った潜在的な最適ポリシーを推定し、その後、モデルのパラメータの一部を更新してこのポリシーに向けて誘導し、最終的に対話中の自己修正を効率的に可能にする。次に、T2PAMを実現する軽量なアルゴリズムである最適参照ワンステップ適応(ROSA)を導入する。ROSAは、理論上の最適ポリシーに向けてモデルパラメータを単一の効率的な更新ステップで誘導し、コストのかかる反復的な勾配ベースの最適化を回避し、計算オーバーヘッドを最小化する。我々は、インタラクションの回数が増えるにつれてROSAのポリシーがユーザーの嗜好に収束することを保証する厳密な理論分析を提供する。挑戦的なベンチマークでの広範な実験により、ROSAがタスクの有効性と効率の両方において大幅な改善を達成することが示された。
大規模言語モデルは強化学習(RL)において優れた性能を発揮するが、その潜在能力を完全に引き出すためには、中間訓練段階が必要である。効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、オンラインRLを通じてそれらを迅速に選択できるようにするべきである。本論文では、この直感を理論的に形式化し、中間訓練が訓練後の結果にどのように影響を与えるかについて初めての理論的結果を示す。具体的には、プルーニングによる価値近似誤差とその後の計画中のRL誤差の両方を最小化するアクション部分空間を特徴付ける。我々の分析から、中間訓練の効果を決定する2つの重要な要因が明らかになった。1つは、初期RLポリシーの事前分布を形成するプルーニング効率であり、もう1つは、オンライン相互作用を通じてそのポリシーを改善できる範囲を決定するRL収束への影響である。これらの結果は、決定空間がコンパクトで有効地平線が短い場合に中間訓練が最も効果的であることを示しており、原始的なアクションではなく、アクション抽象化の空間で操作することの重要性を強調している。これらの知見に基づいて、我々はスケーラブルな中間訓練アルゴリズムである「Reasoning as Action Abstractions(RA3)」を提案する。具体的には、逐次的な変分下限を導出し、RLを通じて時間的に一貫した潜在構造を反復的に発見し、その後ブートストラップデータで微調整することで最適化する。コード生成タスクにおける実験は、我々のアプローチの有効性を実証している。複数のベースモデルにおいて、RA3はHumanEvalとMBPPの平均性能をベースモデルと次トークン予測ベースラインに対してそれぞれ8ポイントと4ポイント向上させた。さらに、RA3はHumanEval+、MBPP+、LiveCodeBench、およびCodeforcesにおいて、RLVRでの収束速度と漸近的性能の向上を達成した。
KVキャッシュ圧縮は、パフォーマンスの低下をほとんど伴わずにスループットと効率の向上を約束します。スループットの向上は疑いようがなく、最近の研究では特定のベンチマークにおいて最小限の劣化しか示されていないものの、現実的なシナリオ(例えば複数指示プロンプト)における圧縮の影響は十分に研究されていません。本論文では、KVキャッシュ圧縮されたLLMをデプロイする際に実務者が注意すべきいくつかの落とし穴を特定します。特に、特定の指示は圧縮によって急速に劣化し、LLMによって完全に無視されてしまうことを示します。その実践的な例として、システムプロンプトのリークをケーススタディとして取り上げ、圧縮がリークと一般的な指示追従に与える影響を実証的に示します。プロンプトリークに関与するいくつかの要因(圧縮方法、指示の順序、KVエビクションのバイアス)を示し、これらの要因の影響を軽減し、複数指示タスクにおける全体的なパフォーマンスを向上させるためのKVキャッシュエビクションポリシーの簡単な変更を提案します。
近年の実証研究では、特定のタスクにおいてテスト時にモデルを継続的に訓練するというアイデア、すなわちテスト時訓練(TTT)が検討され、その結果、性能が大幅に向上することが明らかとなっている。しかし、TTTがなぜ、そしてどのような場合に有効であるかについては、十分な理解が得られていない。これまでの説明は主に、TTTが分布外適応に適用される場合や特権データと共に使用される場合に有効であるという観察に焦点を当てていた。しかし、基盤モデルの規模が拡大し、ほとんどのテストデータが分布内であることを考えると、これらの説明には疑問が生じる。我々は、基盤モデルが全体的に過少パラメータ化された状態であり、TTTが汎化後の専門化を可能にするメカニズムを提供し、テストタスクに関連する概念に容量を集中させると仮定する。具体的には、線形表現仮説の下で、TTTが全体的な訓練よりも大幅に小さい分布内テスト誤差を達成するモデルを提案する。我々は、ImageNet上でスパースオートエンコーダを訓練し、意味的に関連するデータポイントが少数の共有概念によって説明されることを示すことで、モデルの主要な仮定を実証的に検証する。最後に、画像と言語タスクにわたるスケーリング研究を行い、専門化が最も効果的な領域を特定することで、我々のモデルの実用的な意義を確認する。
現在のオンライン強化学習(RL)アルゴリズム、例えばGRPOは、大規模言語モデル(LLM)の推論において重要な制限を共有している。すなわち、モデルにとって「解けない」問題から学習することができない。言い換えると、モデルが正解を探索できる問題においてのみ性能を向上させることができる。その結果、RLトレーニング後もモデルの「上限」は変わらず、解ける問題の解決可能性が増加する一方で、難しいサンプルはトレーニングに貢献できない。なぜなら、ロールアウトが報酬を生まず、勾配が生成されないためである。これらの難しいサンプルから学習を可能にするために、我々はNuRLを提案する。これは、自己生成されたヒント、すなわち問題の難易度を下げるための抽象的な手がかりを用いて、LLM推論の上限を押し上げることを目指す「ナッジング」手法である。質問とその正解が与えられると、モデルはCoT(Chain-of-Thought)を生成し、問題を解決するために必要な核心的な知識を含むヒントを生成する。トレーニング中、基本ポリシーからG回のロールアウトを生成し、通過率に基づいてヒントを注入するかどうかを決定する。通過率が0%の難しいサンプルに対しては、ヒントを注入し、新たなバッチの軌跡を再生成する。これにより2つの利点が得られる:(1) ヒントが通過率を向上させ(0%から非ゼロへ)、これまで解けなかったサンプルに対してトレーニング信号を導入し、(2) ヒントが自己生成されるため、分布のシフトを避け、外部モデルに依存しない。NuRLは、6つのベンチマークと3つのモデルにおいて一貫した改善を達成し、テスト時のスケーリングと補完的である。特に、NuRLはモデルの上限を引き上げることができるが、GRPOは基本モデルと比較してpass@1024を変化させない。さらに、効果的なヒントの条件と、ヒントが最も有用なタイミングについて体系的な研究を提示する。興味深いことに、最良のヒントは抽象的で高レベルであり、必要に応じて、かつGRPOが収束した後に適用される場合に最も有益である。
拡散ベースの大規模言語モデル(dLLM)は、その有望な性能にもかかわらず、依然として推論効率の低さに悩まされている。これは、dLLMが双方向アテンションに依存しており、自己回帰モデル(ARM)が行う標準的なキー・バリュー(KV)キャッシュを直接活用できないためである。この問題を解決するため、我々は訓練不要の近似KVキャッシュフレームワークであるDual aDaptive Cache(d^2Cache)を提案する。d^2Cacheは、各デコードステップでトークンを識別し、そのKV状態を適応的に更新するための2段階の細粒度選択戦略を特徴とし、残りのトークンのKV状態を再利用のためにキャッシュする。さらに、d^2Cacheは自然により信頼性の高いデコードの代替手段を提供し、準左から右への生成を可能にし、シーケンスの終端におけるトークンの早期過信を軽減する。代表的なdLLM(LLaDAおよびDream)を用いた広範な実験結果は、d^2Cacheが推論速度を大幅に向上させるだけでなく、生成品質においても一貫した改善をもたらすことを示している。コードはhttps://github.com/Kamichanw/d2Cacheで公開されている。
現代のAIは、深層人工ニューラルネットワーク(NN)に基づいている。2025年現在、21世紀で最も引用されている科学論文は、残差接続を利用した深層残差学習に関するNNの論文である。これを発明したのは誰か?本稿では、深層残差学習の進化のタイムラインを提示する。
大規模言語モデル(LLM)は、質問応答やファクトチェックといった知識集約型アプリケーションを支援する神経知識ベースとして、ますます研究が進められています。しかし、その知識の構造的組織については未解明のままです。認知神経科学の知見、例えば意味的クラスタリングやプライミング(ある事実を知ることが関連する事実を想起する可能性を高める現象)に着想を得て、我々はLLMにおける類似の知識同質性パターンを調査します。この目的のために、トリプレットレベルとエンティティレベルの両方で知識チェックを行い、LLMの知識をグラフ表現にマッピングします。その後、エンティティとその近傍との知識量関係を分析し、LLMがグラフ内で近接するエンティティについて類似の知識レベルを持つ傾向があることを発見しました。この同質性原理に基づき、我々は近傍スコアを活用してトリプレットのエンティティレベル知識量スコアを推定するグラフニューラルネットワーク(GNN)回帰モデルを提案します。予測された知識量により、あまり知られていないトリプレットのチェックを優先し、同じラベリング予算下で知識カバレッジを最大化することが可能になります。これは、LLMに知識を注入するためのファインチューニングにおけるアクティブラベリングの効率を向上させるだけでなく、推論集約型の質問応答におけるマルチホップパス検索も強化します。
現在の検索技術は、標準的なRAGクエリ-ドキュメントアプリケーションに限定されています。本論文では、必要なAPIを予測するためのコードとインデックスを拡張する新技術を提案し、自動補完やエージェントAIアプリケーション向けの高品質なエンドツーエンドのコード生成を直接可能にします。我々は、現行のコード間ベンチマークデータセットにおけるAPI漏洩の問題に対処するため、実世界のServiceNow Script Includesから構築した新しいデータセットを導入し、コード内でのAPI使用意図が不明瞭な課題を捉えます。評価指標によると、この手法は87.86%のトップ40検索精度を達成し、下流のコード生成を成功させるために必要なAPIを含む重要なコンテキストを提供します。リアルタイム予測を可能にするため、合成データセット生成、教師ありファインチューニング、強化学習を通じてコンパクトな0.6Bリランカーを最適化する包括的なポストトレーニングパイプラインを開発しました。このアプローチにより、我々のコンパクトなリランカーは、より大規模な8Bモデルを上回りながら、2.5倍のレイテンシ削減を維持し、大規模モデルの計算オーバーヘッドなしに企業固有のコードのニュアンスを効果的に扱うことができます。
マルチエージェントシステム(MAS)は、複雑な現実世界のタスクに対処する能力をますます高めているが、エージェント間の協調、ツールの使用、長期的な推論に依存しているため、エラーの認識が特に困難である。小さなエラーがエージェント間で伝播し、タスクの失敗に至る一方で、長く絡み合った実行軌跡を生成し、人間の開発者や自動化システムにとってデバッグや分析に多大なコストを強いる。我々の重要な洞察は、失敗軌跡(例:ログ)の表面的な違いにもかかわらず、MASのエラーはしばしば類似した構造パターンで繰り返されることである。本論文では、CORRECTを紹介する。これは、蒸留されたエラースキーマのオンラインキャッシュを活用して、新しいリクエスト間で失敗構造の知識を認識し転送する、初めての軽量でトレーニング不要なフレームワークである。このキャッシュベースの再利用により、LLMは推論時にターゲットを絞ったエラー局所化を実行し、高価な再トレーニングを必要とせず、サブ秒単位で動的なMASの展開に適応する。この領域での厳密な研究を支援するため、我々はまた、現実世界の分布に基づいた新しいエラー注入パイプラインを通じて収集された2,000以上の注釈付き軌跡からなる大規模なデータセットCORRECT-Errorを導入し、自然な失敗パターンとの整合性を確保するために人間による評価をさらに行った。7つの多様なMASアプリケーションでの実験により、CORRECTが既存の進歩に対してステップレベルのエラー局所化を最大19.8%向上させ、ほぼゼロのオーバーヘッドで自動化と人間レベルのエラー認識のギャップを大幅に縮めることが示された。
Transformerベースのモデルは、時系列予測において著しい進歩を遂げており、パッチベースの入力戦略が効率性と長期的なモデリングの改善を提供しています。しかし、既存のアプローチは時間的に無関係なパッチ構築に依存しており、任意の開始位置と固定長が自然な遷移を境界で分割することで時間的連続性を損なっています。この単純なセグメンテーションは、短期的な依存関係を破壊し、表現学習を弱めることがしばしばあります。これに対応して、我々はEntroPE(Entropy-Guided Dynamic Patch Encoder)を提案します。これは、条件付きエントロピーを介して遷移点を動的に検出し、パッチ境界を動的に配置する、時間的に情報化された新しいフレームワークです。これにより、時間的構造を保持しながら、パッチングの計算上の利点を維持します。EntroPEは、情報理論的基準を適用して自然な時間的シフトを特定し、パッチ境界を決定するエントロピーベースのダイナミックパッチャー(EDP)と、プーリングとクロスアテンションを採用してパッチ内の依存関係を捕捉し、固定サイズの潜在表現を生成する適応型パッチエンコーダー(APE)という2つの主要モジュールで構成されています。これらの埋め込みは、パッチ間のダイナミクスをモデル化するためにグローバルトランスフォーマーによって処理されます。長期的な予測ベンチマークでの実験により、EntroPEが精度と効率の両方を向上させ、エントロピーガイドのダイナミックパッチングが時系列モデリングの有望な新しいパラダイムとして確立されることが示されています。コードは以下で利用可能です:https://github.com/Sachithx/EntroPE。
オープンソースソフトウェア(OSS)プロジェクトの自動コンパイルは、重要でありながらも労力を要し、複雑なタスクであるため、LLMエージェントにとって良い挑戦課題となっている。既存の手法は手動で作成されたルールやワークフローに依存しており、カスタマイズされた設定や環境構築を必要とするOSSには適応できない。最近の大規模言語モデル(LLM)を用いた試みでは、高評価のOSSの一部に対して選択的な評価を行っており、これはOSSコンパイルの現実的な課題を過小評価している。実際には、コンパイル手順が欠落している場合や、依存関係が文書化されていない場合が多く、ビルドを成功させるためにはソースファイルの修正やビルドスクリプトの変更が必要になることもある。我々は、品質、規模、特性においてより多様なOSSを含む、より挑戦的で現実的なベンチマークであるBUILD-BENCHを提案する。さらに、BUILD-BENCHにおいて最先端の性能を発揮し、異種のOSS特性に適応可能な、強化されたビルド手順検索モジュールを備えた強力なベースラインLLMベースのエージェント、OSS-BUILD-AGENTを提案する。また、異なるコンパイル方法の設計選択とそのタスク全体への影響に関する詳細な分析を提供し、将来の進展を導くための洞察を提供する。我々は、BUILD-BENCHにおける性能が、複雑なソフトウェアエンジニアリングタスクとしてのコンパイルに取り組むエージェントの能力を忠実に反映すると信じており、このベンチマークがソフトウェア開発およびソフトウェアセキュリティ分野における下流アプリケーションに大きな影響を与えるイノベーションを促進することを期待している。
マルチモーダル大規模言語モデル(MLLMs)は、細かい粒度の知覚を実現するために高解像度の視覚情報を必要としますが、高解像度画像全体を処理することは計算上非現実的です。最近の手法では、注目領域(RoI)メカニズムを活用して重要な領域に焦点を当てていますが、これらは通常、難しいトレードオフを伴います。トレーニングベースのアプローチは大規模な注釈付きデータセットに依存し、一方でモデルの内部アテンションを利用するトレーニング不要の手法は計算効率が悪く、精度も低く、複数回のプリフィル段階を必要とするか、遅い自己回帰デコーディングプロセスに依存します。本論文では、このトレードオフを解決する効率的で注釈不要の自己蒸留型領域提案ネットワーク(SD-RPN)を提案します。SD-RPNは、MLLMの中間層からのノイズの多いアテンションマップを、信号を明示的にノイズ除去し曖昧さを解決することで高品質な疑似RoIラベルに変換するパイプラインを中心に構築されています。これらのラベルを使用して、より正確な位置特定を学習する軽量な領域提案ネットワーク(RPN)をトレーニングします。このRPNは非常に効率的で、MLLMの中間層からの特徴を利用して単一のフォワードパスでRoIを予測し、RoIの識別を自己回帰生成から切り離し、コストのかかる複数回の操作を回避します。我々のアプローチを検証するために、このフレームワークをLLaVA-1.5アーキテクチャに統合しました。わずか数(例:10K)の質問-回答ペアでトレーニングされたにもかかわらず、我々の手法は優れたデータ効率性と汎化性能を示し、TextVQA、DocVQA、V-Starなどの未見のベンチマークで10%以上の絶対精度向上を達成しました。我々の研究は、高コストな監視やモデル全体のファインチューニングを必要とせずに、MLLMsの細かい粒度の知覚を向上させるための実用的でスケーラブルなソリューションを提供します。コードはhttps://github.com/YuHengsss/SD-RPNで公開されています。
大規模な音声言語モデルは急速に進化していますが、その評価の多くは音声やグローバルに収集された音に重点を置いており、文化的に特徴的な手がかりを見落としています。このギャップは重要な疑問を提起します:現在のモデルは、コミュニティが即座に認識するが外部の人間にはわからない、ローカライズされた非意味的な音声に一般化できるのでしょうか?この問題に対処するため、私たちはTAU(Taiwan Audio Understanding)を提案します。これは台湾の日常的な「サウンドマーク」をベンチマーク化したものです。TAUは、キュレーションされたソース、人間による編集、LLM支援の質問生成を組み合わせたパイプラインを通じて構築され、トランスクリプトだけでは解決できない702のクリップと1,794の多肢選択問題を生成します。実験では、Gemini 2.5やQwen2-Audioを含む最先端のLALMが、地元の人間のパフォーマンスを大きく下回ることが示されました。TAUは、文化的な盲点を明らかにし、より公平なマルチモーダル評価を導き、グローバルな主流を超えたコミュニティにモデルが役立つことを保証するために、ローカライズされたベンチマークの必要性を実証しています。
本論文では、視覚的に異質でありながら高レベルの意味(共通のカテゴリ、シーン、または概念など)を共有する任意のカーディナリティの画像セットを処理するために設計された新しいニューラルアーキテクチャ、Convolutional Set Transformer(CST)を紹介する。既存のセット入力ネットワーク(例:Deep SetsやSet Transformer)はベクトル入力に限定されており、3D画像テンソルを直接扱うことができない。その結果、これらのネットワークは通常CNNなどの特徴抽出器とカスケード接続する必要があり、セット入力ネットワークが画像間の関係をモデル化する前に画像を埋め込みにエンコードしなければならない。一方、CSTは3D画像テンソルを直接操作し、特徴抽出と文脈モデリングを同時に行うことで、両プロセスの相乗効果を可能にする。この設計により、セット分類やセット異常検出などのタスクで優れた性能を発揮し、さらにGrad-CAMなどのCNNの説明可能性手法とのネイティブな互換性を提供する。これは、不透明なままの競合手法とは対照的である。最後に、CSTは大規模データセットで事前学習し、標準的な転移学習スキームを通じて新しいドメインやタスクに適応できることを示す。さらなる研究を支援するため、ImageNetで事前学習されたCSTバックボーンであるCST-15を公開する(https://github.com/chinefed/convolutional-set-transformer)。
拡散モデルは確率的な天気予報に対して物理的に基づいたフレームワークを提供しますが、推論時に遅い反復ソルバーに依存するという特性のため、長期のリードタイムとドメイン駆動のキャリブレーションが不可欠なサブシーズナルからシーズナル(S2S)のアプリケーションには実用的ではありません。この課題に対処するため、我々はSwiftを導入しました。これは、確率流モデルを連続ランク確率スコア(CRPS)目的関数で自己回帰的に微調整することを可能にする初めての単一ステップの一貫性モデルです。これにより、マルチモデルアンサンブルやパラメータ摂動の必要性がなくなります。結果は、Swiftが6時間ごとの熟練した予測を生成し、最大75日間安定しており、最先端の拡散ベースラインよりも39倍高速に動作しながら、数値ベースの運用IFS ENSと競争力のある予測技能を達成することを示しています。これは、中範囲から季節スケールまでの効率的で信頼性の高いアンサンブル予報に向けた一歩を記すものです。
デザイナーは、レイヤー表現を用いてグラフィックデザインを制作および編集するが、ラスター画像に合成されるとレイヤーベースの編集は不可能となる。本研究では、ラスターグラフィックデザインを再編集可能なクリエイティブワークフローのためにレイヤーに分解する手法であるLayerDを提案する。LayerDは、遮蔽されていない前景レイヤーを反復的に抽出することで分解タスクに対処する。グラフィックデザインにおいてレイヤーがしばしば均一な外観を示すという仮定を利用した、シンプルでありながら効果的なリファインメント手法を提案する。分解は不良設定問題であり、真のレイヤー構造が信頼できない場合があるため、この難しさに対処する品質指標を開発する。実験では、LayerDが高品質な分解を成功させ、ベースラインを上回ることを示す。また、最先端の画像生成器とレイヤーベース編集を用いたLayerDの活用例も示す。
大規模言語モデル(LLM)は、推論能力を備え、高校レベルの数学競技やコーディングにおいて急速に進歩していますが、フロンティア物理学研究で見られるような複雑でオープンエンドな課題を効果的に推論できるでしょうか?そして重要なのは、物理学者がLLMにどのような推論タスクを支援してほしいと考えているかです。これらの疑問に答えるため、私たちはCritPt(Complex Research using Integrated Thinking - Physics Test、「臨界点」と発音)を提案します。これは、未発表の研究レベルの推論タスクを対象とした最初のベンチマークであり、凝縮系物理、量子物理、原子・分子・光学物理、天体物理、高エネルギー物理、数理物理、統計物理、核物理、非線形力学、流体力学、生物物理など、現代物理学研究の広範な領域をカバーしています。CritPtは、エントリーレベルでの本格的な研究プロジェクトをシミュレートするために設計された71の複合研究課題で構成され、さらに詳細な洞察を得るために190のより単純なチェックポイントタスクに分解されています。すべての問題は、50人以上の現役物理研究者が自身の研究に基づいて新たに作成しました。各問題は、推測に耐え、機械検証可能な答えを許容するように手作業で選定され、高度な物理学固有の出力形式に特化してカスタマイズされた自動評価パイプラインによって評価されます。現在の最先端LLMは、個別のチェックポイントにおいて初期の有望性を示していますが、完全な研究規模の課題を確実に解決するには程遠いことがわかりました:ベースモデルの中で最高の平均精度はGPT-5(高)の4.0%に留まり、コーディングツールを装備しても約10%に中程度上昇します。CritPtが提供する現実的でありながら標準化された評価を通じて、現在のモデルの能力と現実の物理学研究の要求との間に大きな隔たりがあることを強調し、科学的に根拠のあるAIツールの開発を導く基盤を提供します。
時系列基盤モデル(TSFM)は大規模な事前学習を通じて強力なゼロショット予測を提供するが、公開データが限られた領域での性能向上にはファインチューニングが依然として重要である。TSFMの数が増えるにつれ、下流タスクのファインチューニングに最適なモデルを効率的に特定することがますます困難になっている。本研究では、モデル選択をインコンテキスト学習問題として再定義する転移可能性推定フレームワーク「TimeTic」を提案する。TimeTicは、既知の(ソース)データセットにおける観測結果を基に、TSFMが下流(ターゲット)データセットでファインチューニングされた後の性能を予測する。TimeTicは、観測されたモデルとデータの関係を柔軟に文脈情報として整理し、さまざまなテストシナリオにシームレスに適応できる。データセットのメタ特徴、モデル特性、およびファインチューニングされた性能によって形成される自然な表形式の構造を活用し、表形式基盤モデルをインコンテキスト学習器として利用する。さらに、モデル層全体のエントロピー変化に基づく新しいモデル特性化を導入し、埋め込み空間の違いを捉え、TimeTicが任意のモデルセットに一般化できるようにする。10のデータセット、10の基盤モデル、および3つの予測タスクを含む転移可能性推定の包括的なベンチマークを確立した。このベンチマークにおいて、TimeTicの推定は、未見のデータセットに対する実際のファインチューニング性能と強く一致し、平均順位相関が約0.6、ゼロショット性能を転移可能性スコアとして使用した場合と比較して30%の改善を示した。
大規模言語モデル(LLM)のための透かし技術は、生成過程において統計的な信号を埋め込み、モデルが生成したテキストの検出を可能にする。透かしは良性の環境下では有効であることが証明されているものの、敵対的な回避下での頑健性については依然として議論の余地がある。こうした脆弱性に対する厳密な理解と評価を進めるため、我々は理論的に動機付けられ、モデルに依存しないBias-Inversion Rewriting Attack(BIRA)を提案する。BIRAは、基盤となる透かしスキームに関する知識を一切必要とせず、LLMベースの書き換え中に透かしが埋め込まれた可能性の高いトークンのロジットを抑制することで、透かし信号を弱める。最新の透かし手法において、BIRAは元のテキストの意味内容を保ちつつ、99%以上の回避率を達成する。攻撃を実証するだけでなく、我々の結果は体系的な脆弱性を明らかにし、ストレステストと頑健な防御の必要性を強調するものである。
拡散モデルを用いた敵対的浄化は有望な防御戦略として登場しましたが、既存の手法は通常、均一なノイズ注入に依存しており、すべての周波数を無差別に撹乱し、意味構造を損なって堅牢性を低下させています。私たちの実証研究によると、敵対的摂動は均一に分布しているわけではありません:それらは主に高周波領域に集中しており、周波数や攻撃タイプによって異なる大きさの強度パターンを持っています。この観察に基づき、私たちはMANI-Pureを導入しました。これは、入力の大きさスペクトルを活用して浄化プロセスを導く、大きさ適応型の浄化フレームワークです。均一なノイズを注入する代わりに、MANI-Pureは異種の周波数ターゲットノイズを適応的に適用し、脆弱な高周波・低振幅帯域の敵対的摂動を効果的に抑制しながら、意味的に重要な低周波コンテンツを保持します。CIFAR-10とImageNet-1Kでの広範な実験により、MANI-Pureの有効性が検証されました。これは、元の分類器とのクリーン精度の差を0.59以内に狭め、堅牢精度を2.15向上させ、RobustBenchリーダーボードでトップ1の堅牢精度を達成し、以前の最先端手法を上回りました。
既存のスキル熟練度推定手法は、しばしばブラックボックス的なビデオ分類器に依存しており、マルチビューコンテキストを無視し、説明可能性を欠いている。本研究では、この課題を生成的推論として再定式化するコンパクトな視覚言語モデル、ProfVLMを提案する。ProfVLMは、エゴセントリックおよびエクソセントリックビデオからスキルレベルを予測し、専門家のようなフィードバックを生成する。本手法の中核となるのは、AttentiveGatedProjectorであり、凍結されたTimeSformerバックボーンから投影されたマルチビュー特徴量を動的に融合し、フィードバック生成に適した言語モデルに投影する。専門家の解説付きデータセットEgoExo4Dで学習されたProfVLMは、最大20倍少ないパラメータを使用し、学習時間を最大60%削減しながら、最先端の手法を凌駕する。本アプローチは、多様な活動において優れた精度を達成するだけでなく、パフォーマンスに沿った自然言語による批評を出力し、透明性のある推論を提供する。これらの結果は、生成的視覚言語モデリングがスキル評価のための強力な新たな方向性であることを示している。
近年のビデオ生成技術の進展により、ユーザーが提供するプロンプトから高精細なビデオ合成が可能となった。しかし、既存のモデルとベンチマークは、プロフェッショナルなビデオ生成の複雑さと要件を十分に捉えられていない。この目標に向けて、我々はStable Cinemetricsを導入する。これは、映画制作の制御を4つの分離された階層的分類法(セットアップ、イベント、照明、カメラ)に体系化した構造化評価フレームワークである。これらの分類法は、業界の実践に基づいた76の細かい制御ノードを定義する。これらの分類法を用いて、プロフェッショナルなユースケースに沿ったプロンプトのベンチマークを構築し、プロンプトのカテゴリ化と質問生成の自動化パイプラインを開発し、各制御次元の独立した評価を可能にする。我々は、10以上のモデルと20,000以上のビデオを対象とした大規模な人間による研究を実施し、80人以上の映画プロフェッショナルによって注釈が付けられた。我々の分析は、粗粒度と細粒度の両方で、現在最も強力なモデルでさえ、特にイベントとカメラ関連の制御において大きなギャップがあることを明らかにした。スケーラブルな評価を可能にするために、専門家の注釈に基づいて調整された視覚言語モデルである自動評価器を訓練し、既存のゼロショットベースラインを上回る性能を示した。SCINEは、映画制作の制御を中心とした分類法を導入し、構造化された評価パイプラインと詳細な分析を提供することで、プロフェッショナルなビデオ生成をビデオ生成モデルの領域に位置付ける最初のアプローチである。
既存のマルチモーダル音声生成モデルは、しばしばユーザーによる精密な制御を欠いており、プロフェッショナルなフォーリーワークフローにおける適用性を制限している。特に、これらのモデルはビデオ全体に焦点を当てており、シーン内の特定のオブジェクトを優先するための精密な手法を提供せず、不要な背景音を生成したり、誤ったオブジェクトに焦点を当てたりする。このギャップを埋めるため、我々はビデオオブジェクトセグメンテーションを意識した音声生成という新たなタスクを導入し、音声合成をオブジェクトレベルのセグメンテーションマップに明示的に条件付ける。我々は、視覚的セグメンテーションマスクとビデオおよびテキストの手がかりを活用することで、制御可能な音声生成を実現する新しいマルチモーダル生成モデルであるSAGANetを提案する。このモデルは、ユーザーに音声生成に対する細かい視覚的ローカライズ制御を提供する。このタスクとセグメンテーションを意識したフォーリーのさらなる研究を支援するため、我々はセグメンテーション情報を伴う楽器演奏ビデオのベンチマークデータセットであるSegmented Music Solosを提案する。我々の手法は、現在の最先端の手法を大幅に改善し、制御可能で高忠実度のフォーリー合成の新たな基準を設定する。コード、サンプル、およびSegmented Music Solosはhttps://saganet.notion.siteで利用可能である。
インテリジェントな画像編集に向けて、オブジェクト除去は対象オブジェクトだけでなく、その因果的な視覚的アーティファクト(例えば影や反射)も除去する必要がある。しかし、既存の画像外観ベースの手法は、厳密にマスクに沿ったトレーニングを採用し、明示的にマスクされていないこれらの因果的効果を除去できないか、または緩やかにマスクに沿った戦略を採用しており、制御性に欠け、他のオブジェクトを意図せず過剰に消去してしまう可能性がある。これらの制限は、オブジェクトの幾何学的存在とその視覚的効果との因果関係を無視していることに起因すると我々は認識した。この制限を解決するために、我々は幾何学的に意識した二段階フレームワークを提案し、オブジェクト除去を(1)幾何学的除去と(2)外観レンダリングに分離する。第一段階では、厳密にマスクに沿った監視を用いて、オブジェクトを直接幾何学(例えば深度)から除去し、強力な幾何学的制約を伴う構造意識的な編集を可能にする。第二段階では、更新された幾何学に基づいてフォトリアルなRGB画像をレンダリングし、因果的視覚的効果は変更された3D幾何学の結果として暗黙的に考慮される。幾何学的除去段階の学習を導くために、我々は正例と負例のペアに基づく選好駆動型の目的関数を導入し、モデルがオブジェクトとその因果的視覚的アーティファクトを除去しつつ、新しい構造的挿入を避けることを促す。大規模な実験により、我々の手法が二つの人気ベンチマークにおいて、オブジェクトとそれに関連するアーティファクトの除去において最先端の性能を達成することが示された。コードはhttps://github.com/buxiangzhiren/GeoRemoverで公開されている。