翻訳付きの日次キュレーションされたAI研究論文
メモリはAIエージェントにとって極めて重要であるが、広く採用されている静的メモリは、事前に利用可能なメモリを作成することを目指すため、必然的に深刻な情報損失を被る。この制約を解決するために、我々は新たなフレームワークである汎用エージェントメモリ(General Agentic Memory, GAM)を提案する。GAMは「ジャストインタイム(JIT)コンパイル」の原則に従い、オフライン段階ではシンプルだが有用なメモリのみを保持しつつ、実行時にクライアント向けに最適化されたコンテキストを作成することに焦点を当てる。これを実現するため、GAMは以下のコンポーネントからなるデュオデザインを採用する。1)メモライザ(Memorizer):軽量なメモリを使用して重要な履歴情報を強調しつつ、完全な履歴情報をユニバーサルページストア内に保持する。2)リサーチャ(Researcher):事前に構築されたメモリに基づいて、オンラインリクエストに対してページストアから有用な情報を検索し統合する。この設計により、GAMは最先端の大規模言語モデル(LLMs)のエージェント能力とテスト時のスケーラビリティを効果的に活用しつつ、強化学習を通じたエンドツーエンドの性能最適化を促進する。実験的研究において、GAMが既存のメモリシステムに対して、様々なメモリ基盤タスク完了シナリオで大幅な改善を達成することを示す。
人間は、異なるダイナミクス、観測、報酬構造を持つ世界において、背後にある規則を学習することで多様な環境に自然に適応する。一方、既存のエージェントは通常、単一ドメイン内での自己進化を通じて改善を示し、環境分布が固定されていることを暗黙に仮定している。環境横断的な学習はほとんど測定されていない:制御可能で不均質な環境の標準的なコレクションも、エージェントの学習方法を統一して表現する方法も存在しない。我々はこれらの課題を二段階で解決する。第一に、環境を遷移、観測、報酬に関する分解可能な分布として扱い、低コスト(平均4.12米ドル)で不均質な世界を生成可能な自動化フレームワークAutoEnvを提案する。AutoEnvを用いて、36の環境と358の検証済みレベルからなるデータセットAutoEnv-36を構築し、7つの言語モデルが正規化報酬12-49%を達成することを実証し、AutoEnv-36の難易度を示した。第二に、エージェント学習を、改善可能なエージェントコンポーネントに適用される選択、最適化、評価の3段階から構成されるコンポーネント中心のプロセスとして形式化する。この定式化を用いて8つの学習手法を設計し、AutoEnv-36で評価する。実証的に、単一の学習手法の効果は環境数が増加するにつれて急速に低下し、固定された学習手法が不均質な環境にスケールしないことを明らかにした。環境適応的な学習手法の選択は性能を大幅に改善するが、手法空間が拡大するにつれて収穫逓減を示す。これらの結果は、スケーラブルな環境横断的一般化のためのエージェント学習の必要性と現状の限界の両方を浮き彫りにし、AutoEnvとAutoEnv-36を環境横断的エージェント学習を研究するためのテストベッドとして位置づける。コードはhttps://github.com/FoundationAgents/AutoEnvで公開されている。
ピクセル拡散は、画像をピクセル空間で直接エンドツーエンド生成することを目的としています。このアプローチは、二段階の潜在拡散におけるVAEの制限を回避し、より高いモデル容量を実現します。既存のピクセル拡散モデルは、高周波信号と低周波セマンティクスの両方を単一の拡散トランスフォーマー(DiT)内でモデル化するため、学習と推論が遅いという課題があります。より効率的なピクセル拡散パラダイムを追求するため、我々は周波数分離型ピクセル拡散フレームワークを提案します。高周波成分と低周波成分の生成を分離する直観に基づき、軽量なピクセルデコーダーを活用して、DiTからのセマンティックガイダンスを条件として高周波詳細を生成します。これにより、DiTは低周波セマンティクスのモデル化に特化することが可能になります。さらに、視覚的に重要な周波数を強調し、重要でない周波数を抑制する周波数認識フローマッチング損失を導入します。大規模な実験により、DeCoがピクセル拡散モデルの中で優れた性能を発揮し、ImageNetにおいてFID 1.62(256x256)および2.22(512x512)を達成し、潜在拡散手法との差を縮めることが示されました。さらに、事前学習されたテキスト画像生成モデルは、システムレベル比較においてGenEvalで0.86のリーディングスコアを達成しました。コードはhttps://github.com/Zehong-Ma/DeCo で公開されています。
深層研究モデルは、長文で適切に典拠が示された回答を生成するために多段階の調査を行います。しかし、現在公開されている深層研究モデルの大半は、検証可能な報酬を用いた強化学習(RLVR)によって、検証が容易な短文QAタスクで学習されており、現実的な長文タスクには対応できていません。この課題に対処するため、我々は進化する評価基準を用いた強化学習(RLER)を提案します。RLERでは、学習過程中にポリシーモデルと共進化する評価基準を構築・維持し、モデルが新たに探索した情報を評価基準に組み込むことで、識別力のあるオン方策フィードバックを実現します。RLERを用いて開発したDeep Research Tulu(DR Tulu-8B)は、オープンエンドの長文深層研究に直接学習された初のオープンモデルです。科学・医療・一般領域の4つの長文深層研究ベンチマークにおいて、DR Tuluは既存のオープン深層研究モデルを大幅に上回り、プロプライエタリな深層研究システムに匹敵するかそれを超える性能を示しながら、モデルサイズとクエリあたりのコストを大幅に削減しています。今後の研究促進のため、新規開発したMCPベースの深層研究システム用エージェント基盤を含む、すべてのデータ・モデル・コードを公開します。
コンピュータ利用エージェント(CUA)は、グラフィカルユーザーインターフェース(GUI)を介してデジタル環境を自律的に操作する能力を急速に高めている。しかし、ほとんどのGUIは依然として人間向けに設計されており、視覚的美観や使いやすさを優先するため、エージェントは効率的なタスク実行には不要な人間指向の行動を強いられている。一方、コード指向の言語モデル(Coder)の急速な進歩により、自動GUI設計が大きく変革されつつある。これにより生じる根本的な問いは、「Coderによる自動GUI設計を支援する審判役としてCUAを活用できるか」である。この課題を探るため、我々は多様なドメインにわたる52のアプリケーションを対象とした自動GUI開発ベンチマーク「AUI-Gym」を提案する。言語モデルを用いて現実世界のシナリオを模擬する1560のタスクを合成し、信頼性を確保するため各タスクが環境内で実行可能かどうかをプログラム的に検証する検証器を開発した。さらに「Coder-CUA協働フレームワーク」を構築:Coderはデザイナーとしてウェブサイトの生成と修正を担当し、CUAは審判役として機能性の評価と設計の改良を行う。成功指標は視覚的外観ではなく、タスク解決可能性とCUAナビゲーション成功率で測定する。CUAのフィードバックを実用的な指針に変換するため、多段階ナビゲーション履歴を簡潔な視覚的サマリーに圧縮する「CUAダッシュボード」を設計し、反復的再設計に向けた解釈可能なガイダンスを提供する。エージェントを設計者と審判の両方に位置付ける本フレームワークは、インターフェース設計をエージェント本来の効率性と信頼性に向けて転換する。本研究は、エージェントがデジタル環境で受動的に利用される段階から能動的参加へ移行するための一歩となる。コードとデータセットはhttps://github.com/showlab/AUIで公開されている。
拡散トランスフォーマー(Diffusion Transformer: DiT)は最近、1K解像度でのテキストから画像への生成において優れた性能を示している。しかし、本論文では、これらを様々なアスペクト比(AR)でネイティブ4Kまで拡張すると、位置エンコーディング、VAE圧縮、最適化にまたがる強く結合した失敗モードが顕在化することを示す。これらの要因を個別に取り扱っても、画質の大幅な改善には至らない。そこで我々は、データとモデルの協調設計の観点から、UltraFluxを提案する。これは、FluxベースのDiTをネイティブ4Kで学習させたモデルであり、学習データとしてMultiAspect-4K-1Mを使用する。このデータセットは100万枚の4K画像からなり、制御された多様なARカバレッジ、二言語キャプション、解像度およびARを考慮したサンプリングのための豊富なVLM/IQAメタデータを備えている。モデル側では、UltraFluxは以下の4つの要素を組み合わせている。(i) 4Kにおける学習ウィンドウ・周波数・ARを考慮した位置エンコーディングのための、YaRNを組み合わせたResonance 2D RoPE。(ii) 4K再構成の忠実度を向上させる、単純で敵対的訓練を必要としないVAEの学習後処理スキーム。(iii) タイムステップと周波数帯域にわたって勾配のバランスを再調整するSNRを考慮したHuber Wavelet損失関数。(iv) モデルの事前分布によって支配される高ノイズステップに高審美性の監督信号を集中させる段階的審美性カリキュラム学習戦略。これらのコンポーネントが一体となり、広角、正方形、縦長のARに汎化する、安定したディテール保存性の高い4K DiTが実現する。4096解像度のAesthetic-Evalベンチマークおよび多様なARの4K設定において、UltraFluxは忠実度、審美性、整合性の各指標で強力なオープンソースベースラインを一貫して上回り、LLMプロンプト改良器を組み合わせることで、プロプライエタリモデルであるSeedream 4.0に匹敵する、あるいはそれを上回る性能を達成する。
大規模ビデオ生成モデルは近年、強力な視覚能力を示し、現在の観測に含まれる論理的・物理的手がかりに沿った未来フレームの予測を可能にしている。本研究では、フレーム内に埋め込まれた視覚信号を指示として解釈することで、このような能力が制御可能な画像対ビデオ生成に応用できるかどうかを探求する。この手法を「In-Video Instruction(映像内指示)」と称する。プロンプトベースの制御が本質的に全体的で大まかなテキスト記述を提供するのに対し、In-Video Instructionは、重ね書きされたテキストや矢印、軌道などの要素を通じて、ユーザーの指示を視覚領域に直接符号化する。これにより、異なるオブジェクトに個別の指示を割り当てることで、視覚的主体と意図された動作との間に明示的・空間認識的・曖昧性のない対応関係が実現する。Veo 3.1、Kling 2.5、Wan 2.2を含む3つの最先端生成モデルを用いた広範な実験により、特に複雑な多オブジェクトシナリオにおいて、ビデオモデルがこのような視覚的埋め込み指示を確実に解釈・実行できることが示された。
テスト時の計算量のスケーリングは大規模言語モデル(LLM)における様々なタスクで性能向上をもたらすことが知られており、この考え方はツール拡張エージェントにも拡張されている。これらのエージェントにとって、スケーリングはトークンによる「思考」だけでなく、ツール呼び出しによる「行動」も含む。ツール呼び出し回数は、エージェントの外部環境との相互作用を直接規定する。しかしながら、単にエージェントに大きなツール呼び出し予算を付与しても、彼らが「予算認識」を欠いているため性能向上には至らず、すぐに性能の天井に達することがわかった。この問題に対処するため、我々は明示的なツール呼び出し予算の下で、特にWeb検索エージェントに焦点を当て、如何に効果的にエージェントをスケーリングするかを研究する。まず、軽量プラグインである「予算トラッカー」を導入する。これはエージェントに継続的な予算認識を提供し、シンプルかつ効果的なスケーリングを可能にする。さらに、この認識を活用して動的に計画と検証戦略を適応させ、有望な手がかりを「深く掘り下げる」か、残りリソースに基づいて新しい経路に「方向転換する」かを決定する高度なフレームワーク「BATS(予算認識型テスト時スケーリング)」を開発する。コストと性能のスケーリングを制御された形で分析するため、トークン消費とツール消費を統合的に考慮した統一コスト指標を形式化する。予算制約付きエージェントに関する最初の体系的研究を提供し、予算認識手法がより好ましいスケーリング曲線を生成し、コストと性能のパレートフロンティアを押し上げることを示す。本研究は、ツール拡張エージェントのスケーリングに関するより透明性が高く原則的な理解に向けた実証的知見を提供する。
視覚言語モデル(VLM)は言語空間における推論に優れる一方、空間推論や幾何学的認識など、密な視覚的知覚を要する知覚的理解には課題を抱えています。この制約は、現在のVLMが空間次元にわたる密な視覚情報を捕捉する機構に限界があることに起因します。本論文ではChain-of-Visual-Thought(COVT)を提案します。このフレームワークにより、VLMは単語による推論に加えて、連続的な視覚トークン——豊富な知覚手がかりを符号化したコンパクトな潜在表現——を通じた推論が可能になります。約20トークンという少ないコスト範囲内で、COVTは軽量な視覚専門家モデルから知識を蒸留し、2D外観・3D形状・空間配置・エッジ構造といった相補的特性を捕捉します。訓練時には、COVTを統合したVLMがこれらの視覚トークンを自己回帰的に予測し、密な教師信号(深度、セグメンテーション、エッジ、DINO特徴量など)を再構築します。推論時にはモデルは連続視覚トークン空間で直接推論を行い、効率性を保ちつつ、解釈可能性のために必要に応じて密な予測をデコードします。CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA、HRBenchなど10以上の多様な知覚ベンチマークによる評価では、Qwen2.5-VLやLLaVAといった強力なVLMにCOVTを統合することで、一貫して3%から16%の性能向上が確認され、コンパクトな連続的視覚思考がより精密で接地された解釈可能なマルチモーダル知能を実現することを実証しました。
本論文では、軽量でありながら強力なオープンソース動画生成モデル「HunyuanVideo 1.5」を提案する。本モデルは83億パラメータのみで、最先端の視覚的品質とモーションの一貫性を実現し、コンシューマー向けGPUでの効率的な推論を可能とする。この成果は、入念なデータキュレーション、選択的・スライドタイル注意機構(SSTA)を特徴とする先進的なDiTアーキテクチャ、字形を考慮したテキストエンコーディングによる二言語理解の強化、段階的な事前学習と事後学習、効率的な動画超解像ネットワークといった主要コンポーネントに基づいている。これらの設計を活用し、複数の時間長と解像度にわたって高品質なテキスト→動画および画像→動画生成が可能な統一フレームワークを開発した。 大規模な実験により、このコンパクトで高能力なモデルがオープンソース動画生成モデルにおいて新たな最高性能を確立することを実証した。コードとモデル重みを公開することで、動画作成と研究の参入障壁を下げる高性能な基盤をコミュニティに提供し、先進的な動画生成技術をより広範なユーザーに開放する。すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanVideo-1.5 で公開されている。
信頼性の高い報酬関数は、画像生成における強化学習(RL)に不可欠です。現在のRL手法の多くは、人間の選好を近似するスカラー報酬を出力する事前学習済み選好モデルに依存しています。しかし、これらの報酬は人間の知覚を十分に捉えられず、報酬ハッキングに対して脆弱です。報酬ハッキングでは、高いスコアが必ずしも優れた画像に対応しません。この問題に対処するため、我々は敵対的報酬を用いたRLフレームワークであるAdv-GRPOを提案します。このフレームワークでは、報酬モデルと生成器の両方を反復的に更新します。報酬モデルは参照画像を正例として教師あり学習され、報酬ハッキングを大幅に回避できます。パラメータ更新を制約するKL正則化とは異なり、我々の学習済み報酬は視覚的出力を通じて生成器を直接誘導し、高品質な画像生成を実現します。また、既存の報酬関数を最適化することで報酬ハッキングを緩和できますが、根本的なバイアスは残存します。例えば、PickScoreは画像品質を劣化させることがあり、OCRベースの報酬は審美性を損ないがちです。この課題に対し、我々は画像自体を報酬として扱い、参照画像と視覚基盤モデル(例:DINO)を用いて豊富な視覚的報酬を提供します。単一のスカラー値ではなく、これらの密な視覚信号により、画像品質、審美性、タスク固有指標において一貫した改善が得られます。最後に、参照サンプルと基盤モデル報酬を組み合わせることで、分布変換と柔軟なスタイルカスタマイズが可能となることを示します。人間評価では、本手法はFlow-GRPOおよびSD3を上回り、画像品質と審美性においてそれぞれ70.0%、72.4%の勝率を達成しました。コードとモデルは公開済みです。
放射線学は現代医療において不可欠な役割を果たしているが、画像検査数の増加は人材の成長を遥かに上回っている。基盤モデルは放射線学タスク全体を支援する道筋を示すが、既存の医療モデルには限界がある:体積CTやMRIを低解像度の2Dスライスとして処理し、重要な階調コントラスト情報を破棄し、実際の臨床現場を反映した評価枠組みを欠いている。我々は、大規模学術センターから得た42,990例の腹部骨盤CT、86,411例の胸部CT、14,348例の頭部CT、11,543例の乳房MRIで事前学習された放射線学基盤モデルPillar-0と、LLMを用いて366種類の放射線学的所見に対する構造化ラベルをほぼ完璧な精度で抽出するスケーラブルな枠組みRATEを提案する。14,230例の腹部骨盤CT、10,646例の胸部CT、4,906例の頭部CT、1,585例の乳房MRIからなる内部テストセットにおいて、Pillar-0は平均AUROCが86.4、88.0、90.1、82.9を達成し、新たな性能基準を確立した。これはMedGemma(Google)、MedImageInsight(Microsoft)、Lingshu(Alibaba)、Merlin(Stanford)を7.8-15.8 AUROCポイント上回り、全タスクの87.2%(319/366)で最高の順位を得た。Pillar-0は、Stanford Abdominal CTデータセットを用いた外部検証(Merlin: 82.2 vs 80.6 AUROC)においても、全てのベースラインを同様に凌駕した。Pillar-0は事前学習範囲を超えたタスクにも適用可能であり、長期的な肺癌リスク予測では、NLSTにおいて最新の手法Sybilを3.0 C-indexポイント上回り、MGHで5.9、CGMHで1.9の改善を示して一般性を確認した。脳出血検出では、次に効率的なベースラインの1/20のデータ量のみを使用し、>95のAUROCを達成した。Pillar-0とRATEは、計算資源、データ、評価制約により従来実現が困難だった応用を可能にし、高性能な放射線学システム構築のためのオープンで臨床的に厳密な基盤を提供する。
拡散トランスフォーマーは視覚的合成において顕著な能力を発揮するが、高次セマンティック推論や長期計画の課題に直面することが多い。この制約は特に、複雑なシーン理解、人物と物体の相互作用、多段階アクション、文脈に基づく動作推論を含むシナリオにおいて、視覚的幻覚やユーザー指示との不一致を頻繁に引き起こす。これらの課題に対処するため、我々は高次セマンティック計画を明示的に強化して映像生成プロセスを誘導するフレームワーク「Plan-X」を提案する。その中核には、学習可能なマルチモーダル言語モデルであるセマンティックプランナーが位置し、テキストプロンプトと視覚的文脈からユーザーの意図を推論し、テキストに基づく時空間セマンティックトークンの系列を自己回帰的に生成する。これらのセマンティックトークンは、高次テキストプロンプト指導を補完し、時間経過に伴う構造化された「セマンティックスケッチ」として、高精細な視覚的詳細の合成に強みを持つ映像拡散モデルに機能する。Plan-Xは、マルチモーダル文脈内推論・計画における言語モデルの強みと、写実的映像合成における拡散モデルの強みを効果的に統合する。大規模な実験により、本フレームワークが視覚的幻覚を大幅に低減し、マルチモーダル文脈と整合した細粒度の指示整合型映像生成を実現することを実証する。
マルチエージェントシステムは一般的な推論タスクにおいて優れた性能を発揮する。しかし、専門領域での訓練不足が精度向上の妨げとなっている。現行の訓練手法では、システム内の全エージェントに対して統一的な大規模言語モデル(LLM)を訓練するが、エージェント間で基盤となるデータ分布が異なるため性能が制限される可能性がある。この課題を解決するためには、異なるLLMでマルチエージェントシステムを訓練することが次の段階として求められる。しかし、この手法には最適化上の課題が伴う。例えば、エージェントが異なる頻度で動作すること、ロールアウト時にサブエージェントの呼び出し回数が変動すること、エージェントが別々のサーバーに分散配置されることでエンドツーエンドの勾配フローが断絶することなどが挙げられる。これらの課題に対処するため、本論文ではメインエージェント(プランナー)と複数のサブエージェント(マルチターンツール実行器)で構成される垂直型マルチエージェントシステム向けに、Group Relative Policy Optimizationを階層的に拡張したM-GRPOを提案する。M-GRPOはメインエージェントとサブエージェントの両方に対してグループ相対アドバンテージを計算し、階層的な信用分配を維持する。さらに、サブエージェントの呼び出し回数が変動しても固定サイズのバッチを生成する軌道調整スキームを導入する。分離された訓練パイプラインでは、エージェントを別々のサーバーで実行し、共有ストアを介して最小限の統計情報を交換する。これにより、サーバー間での誤差逆伝播を必要としないスケーラブルな訓練が可能となる。実世界ベンチマーク(GAIA、XBench-DeepSearch、WebWalkerQA)を用いた実験では、M-GRPOが単一エージェントのGRPOおよびサブエージェントを固定したマルチエージェントGRPOを一貫して上回り、改善された安定性とサンプル効率を実証した。これらの結果は、異種混在の軌道を調整し、専門化されたエージェント間で最適化を分離することが、ツール拡張型推論タスクの性能向上に寄与することを示している。
本論文では、モデルコンテキストプロトコルにおけるマルチモーダルツール利用の評価に向けた初のベンチマークであるM^3-Benchを提案する。本ベンチマークは、視覚的基盤付けとテキスト推論、ツール間依存関係、ステップを跨ぐ中間リソースの持続性を必要とする、現実的なマルチホップ・マルチスレッド型ワークフローを対象としている。類似性駆動型アラインメント手法を導入し、各ツール呼び出しを直列化、文エンコーダによる署名埋め込み、類似性バケット付きハンガリアンマッチングを実施することで、監査可能な一対一対応を実現する。このアラインメントに基づき、意味的忠実度とワークフロー一貫性を分離して評価する解釈可能な指標を報告する。ベンチマークは28サーバー・231ツールに及び、Executor & Judgeパイプラインと人的検証による標準化された軌跡を提供する。補助的に4大規模言語モデル(LLM)判定アンサンブルによる最終タスク完了度と情報接地性の評価を実施する。代表的な最先端マルチモーダルLLM(MLLM)の評価により、特に引数忠実性と構造一貫性において、マルチモーダルMCPツール利用に持続的課題が存在することが明らかとなり、画像・テキスト・ツールグラフの統合的な推論手法の必要性が示された。本ベンチマークの匿名リポジトリはhttps://github.com/EtaYang10th/Open-M3-Benchにて公開されている。
我々は、動的4Dコンテンツを同期したRGBフレームとポイントマップとして生成する、4D生成と再構成の統合フレームワーク「One4D」を提案する。統一マスク条件付け(UMC)機構により条件付けフレームの様々な疎性を一貫して処理することで、One4Dは単一画像からの4D生成、完全動画からの4D再構成、疎フレームからの混合生成・再構成へとシームレスに移行できる。本フレームワークは、強力な動画生成モデルをRGBとポイントマップの共同生成向けに適応させ、ネットワーク構造を注意深く設計している。深度マップやポイントマップ再構成における一般的な拡散モデルファインチューニング手法は、RGBとポイントマップの共同生成では基本の動画モデルを急速に劣化させることが多い。この課題に対処するため、我々は分離LoRA制御(DLC)を導入する。これは、RGBフレームとポイントマップに対してそれぞれ専用のLoRAアダプタを用いて分離された計算分支を形成し、軽量なゼロ初期化制御リンクによって相互の画素レベル一貫性を段階的に学習させるものである。合成および実写の4Dデータセットを混合し、適度な計算予算で学習したOne4Dは、生成タスクと再構成タスクの両方において、高品質なRGBフレームと正確なポイントマップを生成する。本研究は、動画拡散モデルを用いた一般的で高品質な幾何学ベースの4D世界モデリングへの一歩を示すものである。プロジェクトページ: https://mizhenxing.github.io/One4D
多肢選択式質問応答(MCQA)は、現代のマルチモーダル言語モデルの評価と強化学習ファインチューニング(RFT)において広く用いられてきた形式である。その制約された出力形式により、簡素化された決定論的な自動検証が可能となる。しかしながら、選択肢が悪用可能な信号を漏洩する可能性があり、これが精度指標の真の能力を示す信頼性を損ない、RFTにおける明示的または暗黙的な回答推測行動を促進することがわかった。我々はReVeL(Rewrite and Verify by LLM)を提案する。これは、可能な限り回答を検証可能に保ちながら、多肢選択式問題を自由回答式問題に書き換えるフレームワークである。本フレームワークは質問を回答タイプに応じて分類し、それぞれ異なる書き換えと検証スキームを適用する。RFTに適用する際、20kのMCQA事例を変換し、GRPOを用いてQwen2.5-VLモデルをファインチューニングした。ReVeL-OpenQAで学習したモデルは、多肢選択式ベンチマークにおいてMCQAと同等の精度を達成し、自由回答式QAの精度を約6ポイント向上させ、MCQAベースの学習よりも優れたデータ効率と堅牢な報酬信号を示した。評価に用いた場合、ReVeLはMCQAベンチマークにおいて最大20ポイントのスコア過大評価(自由回答式QAに対する相対値)を明らかにし、判定精度を向上させ、コストとレイテンシの両方を削減した。コードとデータは公開予定である。
Webデータの品質は大規模言語モデルにおいて重要であるが、多くのデータ選別プロセスはフィルタリングと重複排除に焦点を当て、HTMLからテキストへの抽出を固定の前処理ステップとして扱っている。既存のWebコーパスはTrafilaturaなどのヒューリスティックベースの抽出器に依存しており、文書構造の保持が困難で、数式、コード、表などの構造化要素を頻繁に損なう問題がある。我々は、抽出品質の向上が、下流タスクの性能に対して積極的なフィルタリング戦略と同程度に影響力を持つという仮説を立てる。本論文では、コンテンツ抽出をシーケンスラベリング問題として再定義し、6億パラメータの言語モデルによって解決する新しい抽出パイプライン「MinerU-HTML」を提案する。テキスト密度に基づくヒューリスティック手法とは異なり、MinerU-HTMLは意味的理解を活用し、Markdown変換前に意味的要素を明示的に分類する2段階のフォーマットパイプラインを採用する。重要な点は、モデルベースのアプローチが本質的にスケーラブルであるのに対し、ヒューリスティック手法には改善の道筋が限られていることである。7,887の注釈付きWebページからなるベンチマーク「MainWebBench」において、MinerU-HTMLはROUGE-N F1スコアで81.8%を達成し(Trafilaturaは63.6%)、構造化要素の優れた保持率(コードブロック90.9%、数式94.0%)を示した。MinerU-HTMLを用いて、2回のCommon Crawlスナップショットから7.3兆トークンの多言語コーパス「AICC(AI-ready Common Crawl)」を構築した。AICCとTrafilatura抽出したTfCCに同一のフィルタリングを適用した制御実験では、AICC(620億トークン)で学習したモデルが13のベンチマークで平均精度50.8%を達成し、TfCCを1.08ポイント上回り、抽出品質がモデル能力に大きく影響する直接的な証拠を得た。AICCは主要ベンチマークにおいてRefinedWebおよびFineWebも凌駕する。我々はMainWebBench、MinerU-HTML、AICCを公開し、HTML抽出がWebコーパス構築において過小評価されがちな重要要素であることを実証する。
本論文では、ラスター画像の細粒度かつ制御可能な多層分離を実現する手法であるControllable Layer Decomposition(CLD)を提案する。実用的なワークフローでは、デザイナーは通常、最終的なラスター画像に合成する前に、各RGBAレイヤーを個別に生成および編集する。しかし、このプロセスは不可逆的である。一度合成されると、レイヤーレベルでの編集は不可能になる。既存手法は一般的に画像マッティングやインペインティングに依存しているが、制御性とセグメンテーション精度に限界がある。これらの課題に対処するため、我々は二つの主要モジュールを提案する。画像要素を異なるレイヤーに分離し、細粒度の制御を可能にするLayerDecompose-DiT(LD-DiT)と、ターゲット画像情報を多層トークンに注入して精密な条件付き生成を実現するMulti-Layer Conditional Adapter(MLCA)である。包括的評価を可能にするため、新たなベンチマークを構築し、専用の評価指標を導入した。実験結果は、CLDが分解品質と制御性の両方において、既存手法を一貫して凌駕することを示している。さらに、CLDによって分離されたレイヤーは、PowerPointなどの一般的なデザインツールで直接操作可能であり、実世界の創造的ワークフローにおける実用性と適用性の高さを強調している。
我々は、相互情報量(MI)推定量を設計するための完全データ駆動型アプローチを提案する。あらゆるMI推定量は2つの確率変数からの観測標本の関数であるため、この関数をニューラルネットワーク(MIST)でパラメータ化し、MI値を予測するようにエンドツーエンドで学習させる。学習は、真のMIが既知の62万5,000の合成同時分布からなる大規模メタデータセット上で行う。可変の標本サイズと次元に対処するため、入力標本間の置換不変性を保証する2次元アテンション機構を採用する。不確実性を定量化するため、分位点回帰損失を最適化し、推定量が単一の点推定値を返すのではなく、MIの標本分布を近似できるようにする。この研究プログラムは、普遍的な理論的保証を柔軟性と効率性と交換する、完全に経験的な道筋を取る点で従来研究と一線を画す。実証的に、学習された推定量は、訓練時に未見の同時分布を含む様々な標本サイズと次元において、古典的ベースラインを大幅に上回る性能を示す。得られた分位点ベースの区間は較正が良く、ブートストラップに基づく信頼区間よりも信頼性が高く、推論速度は既存の神経ベースラインよりも数桁高速である。直接的な実証的利点を超えて、この枠組みは学習可能で完全微分可能な推定量を生成し、より大規模な学習パイプラインに組み込むことができる。さらに、MIの可逆変換に対する不変性を利用し、正規化フローを介してメタデータセットを任意のデータモダリティに適応させることで、多様な目標メタ分布に対する柔軟な学習を可能にする。
情報探索はAIエージェントの中核的な能力であり、長い軌道にわたってツールが生成した情報を収集し、推論することを要求する。しかし、このような多段階の情報探索タスクは、言語モデルを基盤とするエージェントにとって依然として課題である。プロセス報酬モデル(PRM)はテスト時に候補となるステップをランク付けすることでエージェントを誘導できるが、既存のPRMは二値判断による短い推論用に設計されており、ツールとの相互作用やツール出力に対する推論といった情報探索ステップのより豊富な次元を捉えることができず、長期的タスクにおいて急速に増大する文脈を扱うこともできない。これらの限界に対処するため、我々は二重の能力で訓練された生成的PRMであるPRInTSを提案する:(1) 複数のステップ品質次元(例:ツール出力の解釈、ツール呼び出しの情報量)にわたるPRM自身の推論に基づく密なスコアリング、および (2) ステップ評価に不可欠な情報を保ちながら増大する文脈を圧縮する軌道要約である。FRAMES、GAIA(レベル1-3)、WebWalkerQA(easy-hard)ベンチマークにおける複数モデルでの広範な評価とアブレーション研究により、PRInTSを用いたbest-of-nサンプリングが、オープンソースモデルおよび専門化されたエージェントの情報探索能力を向上させ、はるかに小規模な基盤エージェントでありながらフロンティアモデルの性能に匹敵あるいは凌駕し、他の強力な報酬モデリングベースラインを上回ることが明らかとなった。
本論文では、低解像度の特徴量をピクセル単位の高解像度出力に復元する、学習を必要としない軽量なテスト時最適化(TTO)フレームワーク「Upsample Anything」を提案する。視覚基盤モデルは多様な下流タスクにおいて強力な汎化性能を示すが、その表現は通常14倍/16倍(例:ViT)にダウンサンプリングされており、ピクセルレベルでの応用を直接制限している。既存の特徴量アップサンプリング手法は、データセット依存の再学習または重い暗黙的最適化に依存しており、拡張性と汎化性を制限する。Upsample Anythingは、空間的手がかりと範囲手がかりを組み合わせた異方性ガウシアンカーネルを学習する、画像ごとの簡素な最適化によりこれらの課題を解決し、ガウシアンスプラッティングとジョイントバイラテラルアップサンプリングを効果的に橋渡しする。学習されたカーネルは、アーキテクチャやモダリティを超えてシームレスに転移する普遍的なエッジ認識演算子として機能し、特徴量、深度、または確率マップの精密な高解像度再構成を可能にする。本手法は224x224画像あたり約0.419秒で動作し、セマンティックセグメンテーション、深度推定、および深度マップと確率マップのアップサンプリングにおいて最先端の性能を達成する。プロジェクトページ: https://seominseok0429.github.io/Upsample-Anything/
視覚言語モデル(VLM)は標準的な映像タスクでは良好な性能を示すが、運動力学や空間的相互作用を含む物理学的推論には課題を抱えている。この制約は、実写またはAI生成コンテンツ(AIGC)映像の解釈や、物理的に一貫性のあるコンテンツの生成能力を低下させる。本研究では、物理世界の文脈手がかりをVLMの知覚・理解・推論に整合した解釈可能な表現へ変換する手法を提案する。具体的には、MASS-Benchを導入する。これは4,350本の実写・AIGC映像と8,361組の自由形式映像質問応答ペアから構成される物理関連理解タスクに特化した総合ベンチマークであり、視覚的検出、部分区間の接地、エンティティの全シーケンスにわたる3D運動追跡を含む詳細な注釈を備える。さらに、深度ベース3D符号化と視覚的接地による時空間信号をVLMの言語空間に注入し、物体動態追跡機能を統合したモデル非依存手法MASSを提案する。クロスモーダル対応と推論能力強化のため、強化学習ファインチューニングを適用する。実験とアブレーション研究により、改良したVLMが同等規模および大規模ベースライン、従来の最先端モデルをそれぞれ8.7%、6.0%上回り、Gemini-2.5-FlashなどのクローズドソースSoTA VLMに匹敵する物理推論・理解性能を達成することを実証する。これらの結果は本手法の有効性を裏付けるものである。
長期的なロボットマニピュレーションは、ゼロショット汎化やシミュレーションから実世界への転移における近年の進歩にもかかわらず、Vision-Language-Action(VLA)モデルにとって依然として課題である。現在のVLAモデルは、エージェントが粗い評価信号を悪用して多段階タスクを短絡させ、実際に完了させずに高い進捗を報告する「ステージ幻覚」に悩まされている。本論文では、この問題を解決する自己教師ありVLAフレームワークであるEvoVLAを提案する。EvoVLAは、以下の3つの相補的コンポーネントから構成される。(1) Geminiによって生成されたハードネガティブを用いたトリプレットコントラスティブ学習により視覚的短絡を防ぐStage-Aligned Reward (SAR)、(2) 生の画素ではなく相対的なオブジェクト-グリッパ姿勢に好奇心を基盤づけるPose-Based Object Exploration (POE)、(3) 選択的文脈保持とゲート融合を用いて長期的ロールアウト中の内発的シェイピングを安定化するLong-Horizon Memoryである。3つの多段階タスクからなる長期的マニピュレーションベンチマークDiscoverse-Lでの大規模な評価により、EvoVLAが最強のベースライン(OpenVLA-OFT)を10.2ポイント上回る69.2%の平均タスク成功率を達成することが示された。EvoVLAはまた、1.5倍のサンプル効率向上を実現し、ステージ幻覚を38.5%から14.8%に低減した。実ロボットを用いた実世界での検証では、4つのマニピュレーションタスクで平均成功率54.6%を達成し、OpenVLA-OFTを11ポイント上回り、効果的なSim-to-Real転移と強力な汎化性能を実証した。コード: https://github.com/AIGeeksGroup/EvoVLA. ウェブサイト: https://aigeeksgroup.github.io/EvoVLA.
最先端のフローモデルは卓越した品質を達成するが、遅い反復的なサンプリングを必要とする。これを加速するため、事前学習済み教師モデルからフローマップを蒸留する手法が用いられるが、従来は外部データセットからのサンプリングを要していた。我々は、このデータ依存性が「教師-データ不整合」の根本的リスクを導入すると主張する。静的データセットは、教師モデルの持つ完全な生成能力を不完全あるいは不適切に表現する可能性があるためである。このことから、フローマップ蒸留の成功にデータへの依存が果たして必要かどうかを問い直す。本研究では、事前分布からのみサンプリングするデータ不要の代替手法を探求する。事前分布はモデル構造上、教師モデルが必ず従う分布であるため、不整合リスクを完全に回避できる。この理念の実用性を実証するため、教師のサンプリング経路を予測しつつ、自らの累積誤差を能動的に補正して高忠実度を確保する、原理に基づいた枠組みを提案する。本手法はデータベースの全ての手法を凌駕し、大幅な差で新たな最先端を確立した。具体的には、SiT-XL/2+REPAから蒸留した場合、ImageNet 256x256で1.45、ImageNet 512x512で1.49という驚異的なFIDを、わずか1サンプリングステップで達成した。本研究が、生成モデル加速のより頑健なパラダイムを確立し、データを必要としないフローマップ蒸留の広範な採用を促進することを期待する。
近年、世界モデルは非常にリアルな動画を生成するが、ロボットの経路計画を実行する能力は不明瞭で定量的に評価されていなかった。本研究では、実世界環境におけるセマンティックターゲットへのマップレス経路計画において、世界モデルを評価するために特別に設計された初のベンチマーク「Target-Bench」を提案する。Target-Benchは、45のセマンティックカテゴリにわたる450のロボット収集ビデオシーケンスと、SLAMベースのグラウンドトゥルース軌跡を提供する。我々の評価パイプラインは、生成された動画からカメラ運動を復元し、ターゲット到達能力、軌跡精度、方向一貫性を定量化する5つの相補的指標を用いて計画性能を測定する。Sora 2、Veo 3.1、Wanシリーズを含む最先端モデルを評価した。最高性能のオフ・ザ・シェルフモデル(Wan2.2-Flash)の総合スコアはわずか0.299であり、ロボット計画タスクにおける現在の世界モデルの重大な限界が明らかになった。オープンソースの5Bパラメータモデルを、データセット内のわずか325シナリオでファインチューニングすると、総合スコア0.345を達成した—これはベースバージョン(0.066)よりも400%以上、最高のオフ・ザ・シェルフモデルよりも15%高い改善である。コードとデータセットはオープンソース化する予定である。
推薦システムにおけるユーザー埋め込みとアイテム埋め込みから、一貫性のある解釈可能な概念と整合する潜在次元として定義される単義的ニューロンを抽出する手法を提案する。本手法は、事前学習済み表現内の意味的構造を明らかにするためにスパース自己符号化器(SAE)を採用する。言語モデルに関する研究とは異なり、推薦システムにおける単義性は、個別のユーザー埋め込みとアイテム埋め込み間の相互作用を保持しなければならない。これを実現するため、凍結された推薦モデルを介した誤差逆伝播を行い、学習された潜在構造をモデルのユーザー-アイテム親和性予測と整合させる、予測を考慮した学習目的関数を導入する。その結果得られるニューロンは、ジャンル、人気度、時間的トレンドなどの特性を捉え、ベースモデルを変更することなく、特定のフィルタリングやコンテンツプロモーションを含む事後制御操作を可能にする。本手法は様々な推薦モデルとデータセットに汎化し、解釈可能かつ制御可能なパーソナライゼーションのための実用的なツールを提供する。コードおよび評価リソースはhttps://github.com/DeltaLabTLV/Monosemanticity4Recで公開されている。
推薦システムにおける説明忠実度、すなわち説明がモデルの真の推論プロセスをどれだけ正確に反映するかを測る指標は、依然として著しく研究が進んでいない。本論文では、SPINRec(ニューラル推薦説明のための確率的経路積分)を提案する。これはモデルに依存しないアプローチであり、経路積分技術を推薦データのスパース性および暗黙的な性質に適応させたものである。既存手法の限界を克服するため、SPINRecは確率的ベースラインサンプリングを採用する。固定された、あるいは非現実的なベースラインから積分する代わりに、実データ分布から複数の妥当なユーザープロファイルをサンプリングし、最も忠実な帰属経路を選択する。この設計は、観測された相互作用と観測されなかった相互作用の両方の影響を捉え、より安定したパーソナライズされた説明を生成する。我々は、3つのモデル(MF、VAE、NCF)、3つのデータセット(ML1M、Yahoo! Music、Pinterest)、およびAUCベースの摂動曲線や固定長診断を含む一連の反事実的指標を用いて、現在までで最も包括的な忠実度評価を実施した。SPINRecは全てのベースライン手法を一貫して上回り、推薦における忠実な説明可能性の新たなベンチマークを確立した。コードおよび評価ツールはhttps://github.com/DeltaLabTLV/SPINRec で公開されている。
手-物体インタラクション(HOI)生成は、アニメーションやロボティクスにおける応用を推進する上で重要な役割を果たす。現在のビデオベースの手法は主に単一視点であり、これが3Dジオメトリの包括的な知覚を妨げ、しばしば幾何学的歪みや非現実的な動作パターンを引き起こす。一方、3D HOI手法は動的に妥当な動作を生成できるが、制御された実験環境で収集された高品質3Dデータへの依存性が、実世界シナリオへの一般化を大きく制限している。これらの課題を克服するため、我々は視覚的プリオール、動作力学、多視点幾何学を統一することで、同期したマルチビューHOIビデオと4D動作を共同生成する初のモデルであるSyncMV4Dを提案する。本フレームワークは二つの核心的革新を特徴とする:(1)HOIビデオと中間動作を共同生成するマルチビュー共同拡散(MJD)モデル、(2)粗い中間動作を大域的に位置合わせされた4Dメトリックポイントトラックに精緻化する拡散ポイント位置合わせ器(DPA)。2D外観と4Dダイナミクスを密結合させるため、閉ループ型の相互強化サイクルを確立する。拡散ノイズ除去プロセスにおいて、生成されたビデオが4D動作の精緻化を条件付けし、位置合わせされた4Dポイントトラックは再投影されて次ステップの共同生成を導く。実験では、本手法が視覚的リアリズム、動作の妥当性、マルチビュー一貫性において、既存の最先端手法を凌駕する性能を示す。
大規模言語モデル(LLM)は、「喘息の治療法は何か」や「ラトビアの首都はどこか」といった事実確認タスクに広く利用されている。しかし、LLMが内部の確率的表現において、真・偽・真偽不明の内容をどの程度安定的に区別して符号化しているかは明らかでない。本研究では、真理の操作的定義に対する摂動に対し、LLMの真偽表現がどの程度頑健であるかを「表現的安定性」として定義する。表現的安定性の評価には、(i)真の陳述と真でない陳述を分離するため、LLMの活性化に基づいて線形プローブを訓練し、(ii)制御されたラベル変更下で学習された決定境界がどの程度変動するかを測定する手法を採用する。16のオープンソースモデルと3つの事実領域から得られた活性化を用いて、2種類の「真偽不明」陳述を比較する。第一は、学習データに存在しないと推定される実体に関する事実風の主張であり、これを「未知の真偽不明陳述」と呼ぶ。第二は、広く知られた虚構文脈から抽出された非事実的主張であり、これを「既知の真偽不明陳述」と呼ぶ。未知陳述は最大の境界変動を誘発し、脆弱な領域(語義定義など)では真偽判断の最大40%が反転したのに対し、既知の虚構陳述はより一貫したクラスタリングを維持し、変動幅も小幅(8.2%以下)に留まった。これらの結果は、表現的安定性が言語形式よりも認識論的親和性に由来することを示唆する。より広義には、本手法は意味論的不確実性下で一貫した真偽判定を保持するようLLMを監査・訓練するための診断枠組みを提供し、出力精度のみの最適化を超えた基盤整備に寄与する。
擬似物体検出は、色や質感、大きさが周囲環境と極めて類似しているため、背景に溶け込んだ物体を識別・セグメンテーションする必要がある、新興かつ困難なコンピュータビジョンタスクである。このタスクは、低照度条件、部分的なオクルージョン、微小な物体サイズ、複雑な背景パターン、複数物体の存在によってさらに困難となる。本タスクに対して多くの高度な手法が提案されているが、既存手法は特に複雑なシナリオにおける微小物体や複数物体の正確な検出に苦戦しており、改善の余地がある。本研究では、マルチスケール再帰的ネットワークを提案する。本ネットワークは、Pyramid Vision Transformer バックボーンによりマルチスケール特徴を抽出し、専用の注意機構ベーススケール統合ユニットを通じてそれらを結合し、選択的な特徴統合を実現する。より正確な物体検出のため、デコーダはマルチ粒度融合ユニットを組み込むことで特徴を再帰的に精緻化する。グローバルな文脈理解を強化し、モデルが本タスクの課題を克服するのを助けるため、新規の再帰的フィードバックデコーディング戦略を開発した。マルチスケール学習と再帰的特徴最適化を共同で活用することにより、提案手法は性能向上を達成し、微小かつ複数の擬似物体の検出に成功する。提案モデルは、擬似物体検出のベンチマークデータセット2つにおいて state-of-the-art の結果を達成し、残り2つのデータセットでは2位の性能を示した。コード、モデル重み、結果は https://github.com/linaagh98/MSRNet で公開している。