翻訳付きの日次キュレーションされたAI研究論文
エージェント的強化学習(Agentic RL)の出現は、大規模言語モデル(LLM)に適用される従来の強化学習(LLM RL)からのパラダイムシフトを意味し、LLMを受動的なシーケンス生成器から、複雑で動的な世界に埋め込まれた自律的な意思決定エージェントへと再定義します。本サーベイでは、LLM-RLの単一ステップのマルコフ決定過程(MDP)と、Agentic RLを定義する時間的に拡張された部分観測マルコフ決定過程(POMDP)を対比することで、この概念的シフトを形式化します。この基盤に基づき、我々は包括的な二重分類法を提案します。一つは、計画、ツール使用、記憶、推論、自己改善、知覚といった中核的なエージェント能力を中心に構成され、もう一つはそれらの能力が多様なタスク領域にわたってどのように応用されるかを整理します。我々の主張の核心は、強化学習がこれらの能力を静的でヒューリスティックなモジュールから、適応的でロバストなエージェント的行動へと変換するための重要なメカニズムとして機能するという点です。今後の研究を支援し加速するため、オープンソースの環境、ベンチマーク、フレームワークを実用的な概要に統合します。500以上の最新研究を統合することで、本サーベイはこの急速に進化する分野の輪郭を描き、スケーラブルで汎用的なAIエージェントの開発を形作る機会と課題を強調します。
グラフィカルユーザーインターフェース(GUI)向け自律エージェントの開発は、人工知能における主要な課題を提起しています。最近のネイティブエージェントモデルの進歩は、エンドツーエンド学習を通じて知覚、推論、行動、記憶を統合することで有望な成果を示していますが、データのスケーラビリティ、マルチターン強化学習(RL)、GUIのみの操作の制限、環境の安定性といった未解決の問題が残っています。本技術レポートでは、これらの課題に対処するネイティブGUI中心のエージェントモデルUI-TARS-2を紹介します。UI-TARS-2は、スケーラブルなデータ生成のためのデータフライホイール、安定化されたマルチターンRLフレームワーク、ファイルシステムとターミナルを統合したハイブリッドGUI環境、大規模ロールアウトのための統一サンドボックスプラットフォームという体系的なトレーニング方法論を採用しています。実証評価により、UI-TARS-2は前身のUI-TARS-1.5を大幅に上回ることが示されました。GUIベンチマークでは、Online-Mind2Webで88.2、OSWorldで47.5、WindowsAgentArenaで50.6、AndroidWorldで73.3を達成し、ClaudeやOpenAIエージェントなどの強力なベースラインを凌駕しました。ゲーム環境では、15ゲームスイート全体で平均正規化スコア59.8を達成し、人間レベルのパフォーマンスの約60%に相当し、LMGame-Benchでは最先端のプロプライエタリモデル(例:OpenAI o3)と競争力を維持しました。さらに、モデルは長期情報探索タスクやソフトウェアエンジニアリングベンチマークにも一般化でき、多様なエージェントタスクにおける堅牢性が強調されています。トレーニングダイナミクスの詳細な分析は、大規模エージェントRLにおける安定性と効率性を達成するための洞察を提供します。これらの結果は、UI-TARS-2がGUIエージェントの状態を進歩させ、現実世界のインタラクティブシナリオへの強力な一般化を示す可能性を裏付けています。
大規模言語モデル(LLMs)は、外部ツールとの相互作用を通じて推論能力を大幅に向上させることができます。このパラダイムは「ツール統合型推論(Tool-Integrated Reasoning, TIR)」として知られています。しかし、強化学習(Reinforcement Learning, RL)を用いてTIRをマルチターンシナリオに拡張する際、訓練の不安定性や性能の崩壊がしばしば障害となります。この不安定性は主に、外部ツールからのフィードバックによる分布のずれが原因で、低確率のトークンが生成されることに起因しています。この問題は連続するターンで累積し、勾配ノルムの爆発的な増大を引き起こし、訓練プロセスを妨げます。 この課題に対処するため、我々はSimpleTIRを導入します。これはプラグアンドプレイ型のアルゴリズムで、マルチターンTIR訓練を安定化します。その核心戦略は、コードブロックも最終回答も生成しない「無効ターン」を含む軌跡を特定し、フィルタリングすることです。これらの問題のある軌跡をポリシー更新から除外することで、SimpleTIRは有害な高振幅の勾配をブロックし、学習ダイナミクスを安定化します。 大規模な実験により、SimpleTIRが難しい数学推論ベンチマークで最先端の性能を達成することが示されました。特に、Qwen2.5-7Bベースモデルから開始した場合、テキストのみのベースラインの22.1からAIME24スコアを50.5に大幅に向上させました。さらに、教師あり微調整の制約を回避することで、SimpleTIRはモデルに多様で洗練された推論パターン(自己修正や相互検証など)を発見することを促します。
視覚言語モデリングにおいて、批評モデルは通常、応答を生成するのではなく、出力を評価するために訓練されます。具体的には、スカラー値のスコアを付与したり、ペアワイズの選好を判断したりします。このような批評モデルと、応答を生成するポリシーモデルとの分離は非常に定着しており、批評モデルが直接ポリシーとして使用されることはほとんどありません。本研究では、この慣習に挑戦します。選好ラベル付きの批評データセットを検証可能な訓練信号に再編成し、ベースとなる生成モデルに対して直接強化学習を行うことで、LLaVA-Critic-R1を提案します。これは、選好判断を最適化しながら完全な生成能力を保持するマルチモーダル批評モデルです。驚くべきことに、LLaVA-Critic-R1は、トップクラスの批評モデルとしてだけでなく、競争力のあるポリシーモデルとしても登場しました。26の視覚的推論と理解のベンチマークにおいて、ドメイン内データで訓練された専門的な推論VLMを匹敵または上回り、ベースモデル(Qwen-2.5-VL-7B)に対して平均+5.7%の向上を示しました。このアプローチを既存の強力な推論VLMに拡張することで、LLaVA-Critic-R1+を開発し、批評品質を犠牲にすることなくポリシーパフォーマンスをさらに向上させ、7BスケールでMMMUにおいて71.9のSoTA性能を達成しました。最後に、強化された批評能力が推論に有益であることを示します。テスト時に自己批評を適用することで、追加の訓練なしに5つの代表的な推論タスクで平均+13.8%の改善が得られました。我々の結果は、批評データに対するRL訓練が、評価と生成の両方に優れた統一モデルを生み出すことができることを明らかにし、スケーラブルで自己改善型のマルチモーダルシステムに向けたシンプルな道筋を提供します。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させることに成功しているが、単一ターンの相互作用に限定されており、ツールの統合が行われていない。一方、最近では多段階のツール相互作用に対応するためのエージェント型強化学習とツール利用(ARLT)アプローチが登場しているが、既存の研究ではタスク固有のコードベースが開発されており、断片化、同期実行のボトルネック、およびドメイン間での拡張性の制限といった問題が生じている。これらの非効率性は、より広範なコミュニティの採用やアルゴリズムの革新を妨げている。本論文では、これらの制限を体系的設計原則を通じて解決する統一されたモジュール型フレームワークであるVerlToolを紹介する。VerlToolは以下の4つの主要な貢献を提供する:(1)VeRLとの上流整合性を確保し、互換性と簡素化されたメンテナンスを実現、(2)コード実行、検索、SQLデータベース、視覚処理など多様なモダリティをサポートする標準化されたAPIによる統一ツール管理、(3)同期ボトルネックを排除することで約2倍の高速化を実現する非同期ロールアウト実行、(4)6つのARLTドメインにわたる競争力のある性能を示す包括的評価。本フレームワークは、ARLTを多段階の軌跡と多モーダルな観測トークン(テキスト/画像/動画)として形式化し、単一ターンのRLVRパラダイムを超える拡張を提供する。数学的推論、知識QA、SQL生成、視覚推論、ウェブ検索、ソフトウェアエンジニアリングタスクにおいてモデルを訓練および評価し、専門化されたシステムに匹敵する結果を達成するとともに、統一された訓練インフラを提供する。モジュール型プラグインアーキテクチャにより、軽量なPython定義のみで迅速なツール統合が可能となり、開発オーバーヘッドを大幅に削減し、ツール拡張型RL研究のためのスケーラブルな基盤を提供する。本コードはhttps://github.com/TIGER-AI-Lab/verl-toolでオープンソースとして公開されている。
ビデオマルチモーダル大規模言語モデル(Video-MLLMs)は、ビデオ理解において顕著な進歩を遂げている。しかし、これらのモデルは、ビデオ入力と一致しない、または無関係な内容を生成する幻覚(hallucination)に対して脆弱である。従来のビデオ幻覚ベンチマークは主に短編ビデオに焦点を当てており、幻覚の原因を強力な言語事前分布、欠落フレーム、または視覚エンコーダによって導入される視覚-言語バイアスなどの要因に帰している。これらの要因は確かに短編ビデオにおける幻覚の大部分を説明するが、幻覚の原因を過度に単純化している。時として、モデルは誤った出力を生成するが、フレームレベルの意味論は正しい場合がある。このタイプの幻覚を「意味的集約幻覚」(Semantic Aggregation Hallucination, SAH)と呼び、これはフレームレベルの意味論をイベントレベルの意味グループに集約する過程で生じる。SAHは、複数のイベントにわたる意味的複雑さが増す長編ビデオにおいて特に重要となるため、このタイプの幻覚の原因を分離し、徹底的に調査することが不可欠である。 上記の問題に対処するため、我々は長編ビデオ幻覚に特化した初のベンチマークであるELV-Hallucを導入し、SAHの体系的な調査を可能にした。我々の実験はSAHの存在を確認し、それが意味的複雑さとともに増加することを示した。さらに、モデルが急速に変化する意味論に対してSAHを起こしやすいことも明らかになった。加えて、SAHを軽減するための潜在的なアプローチについて議論した。位置符号化戦略がSAHの軽減に寄与することを示し、さらにDPO戦略を採用して、モデルがイベント内およびイベント間の意味論を区別する能力を強化した。これを支援するため、8Kの敵対的データペアからなるデータセットをキュレーションし、ELV-HallucとVideo-MMEの両方で改善を達成し、SAH比率を大幅に27.7%削減した。
高品質なラベル付きデータは、特に表、数式、複数列テキストなどの複雑なフォーマットを含むドメインにおいて、正確な文書変換モデルを訓練するために不可欠です。しかし、手動によるアノテーションはコストと時間がかかる一方で、既存のモデルを用いた自動ラベル付けは、このような困難なシナリオを扱う際に精度が不足しがちです。その結果、教師モデルからの出力を蒸留して学生モデルを訓練することは、実世界のアプリケーションにおける性能を大幅に制限する可能性があります。本論文では、多様な文書フォーマットとレイアウトを扱える高品質な文書抽出データセットとモデルを構築するための、完全に自動化された蒸留不要の2段階フレームワークを提案します。第1段階では、大規模で多様な合成データを生成する方法を導入し、モデルが統一されたフォーマットで主要な要素を抽出できるようにし、強力な初期性能を実現します。第2段階では、合成データで初期訓練されたモデルを実世界の文書にさらに適応させる自己改善アプローチを提示します。具体的には、まず微調整されたモデルを使用して実文書にアノテーションを付け、次に一連のフィルタリング戦略を適用してアノテーションの品質を検証し、最後に検証済みのデータセットでモデルを再訓練します。このプロセスを反復的に繰り返すことで、モデルの変換能力と生成データの品質を段階的に向上させます。公開されているPOINTS-1.5モデルを訓練してPOINTS-Readerを取得し、これは多くの既存の公開および専有モデルを上回る性能を発揮します。私たちのモデルはhttps://github.com/Tencent/POINTS-Readerで利用可能です。
大規模言語モデル(LLMs)の会話能力や推論能力が向上するにつれ、医療分野におけるその実用的な応用が重要な研究焦点となっている。しかし、USMLEなどの静的ベンチマークにおける医療LLMsの性能と、実際の臨床意思決定における有用性との間には顕著なギャップが存在する。この乖離は、従来の試験が医療相談の動的でインタラクティブな性質を捉えられないことに起因している。この課題に対処するため、我々は静的解答検証を超えた新たな動的検証フレームワークを導入し、大規模で高忠実度なインタラクティブ強化学習システムを構築した。このフレームワークは、匿名化された医療記録を用いて現実的な臨床環境を生成する「患者シミュレータ」と、多次元的な評価指標を動的に生成する「臨床ルーブリックジェネレータ」の2つの主要コンポーネントで構成される。この基盤を基に、改良されたGroup Relative Policy Optimization(GRPO)アルゴリズムを用いた多段階強化学習戦略を通じて訓練された32Bパラメータの医療拡張推論モデル「Baichuan-M2」を開発した。HealthBenchでの評価において、Baichuan-M2は他のすべてのオープンソースモデルを上回り、ほとんどの先進的なクローズドソースモデルをも凌駕し、困難なHealthBench Hardベンチマークで32以上のスコアを達成した。これは以前、GPT-5のみが達成していた記録である。我々の研究は、LLMの能力を実用的な臨床応用に適合させるためには、堅牢な動的検証システムが不可欠であることを示し、医療AIの性能とパラメータのトレードオフにおいて新たなパレートフロンティアを確立した。
Transformerアーキテクチャは、自己注意機構を基盤としており、シーケンスモデリングタスクにおける事実上の標準となっています。しかし、その中核となる計算プリミティブはシーケンス長に対して二次的にスケールする(O(N^2))ため、長いコンテキストを処理する際に重大なボトルネックを生み出します。本論文では、シーケンス長に対して線形の計算量(O(N))を実現する、新規の完全並列アーキテクチャであるGated Associative Memory(GAM)ネットワークを提案します。GAMブロックは、自己注意層を2つの並列パスに置き換えます。1つは局所的で位置依存のコンテキストを効率的に捕捉する因果畳み込み、もう1つはグローバルで内容ベースのパターンをモデル化する並列連想メモリ検索機構です。これらのパスはゲーティング機構によって動的に融合され、各トークンに対して局所情報とグローバル情報を柔軟に組み合わせることが可能になります。我々はGAMをゼロから実装し、WikiText-2ベンチマークにおいて標準Transformerモデルと最新の線形時間ベースライン(Mamba)に対して、またTinyStoriesデータセットにおいてTransformerに対して厳密な比較分析を行いました。実験の結果、GAMは一貫して高速であり、トレーニング速度において両ベースラインを上回り、全てのデータセットにおいて優れたまたは競争力のある最終検証パープレキシティを達成し、シーケンスモデリングにおける有望で効率的な代替手段として確立されました。
近年、大規模言語モデル(LLMs)の開発が著しく進展し、マルチモーダル大規模言語モデル(MLLMs)を通じてその能力がマルチモーダルタスクに拡張されてきました。しかし、動画の理解は、その動的かつ情報密度の高い性質から、依然として困難な領域です。既存のモデルは、動画コンテンツを処理する際に空間解像度と時間的カバレッジのトレードオフに苦戦しています。本論文では、Keye-VL-1.5を紹介し、動画理解における根本的な課題を3つの主要なイノベーションを通じて解決します。第一に、フレーム間の類似性に基づいて計算リソースを動的に割り当てる新たなSlow-Fast動画エンコーディング戦略を導入します。これにより、視覚的に大きな変化のあるキーフレームを高解像度で処理(Slowパス)し、比較的静的なフレームを低解像度で高い時間的カバレッジで処理(Fastパス)します。第二に、モデルのコンテキスト長を8Kから128Kトークンへと体系的に拡張する4段階のプログレッシブ事前学習手法を実装し、より長い動画や複雑な視覚コンテンツの処理を可能にします。第三に、推論能力の強化と人間の嗜好への適合に焦点を当てた包括的なポストトレーニングパイプラインを開発します。これには、5段階の連鎖思考データ構築プロセス、困難なケースに対するプログレッシブプロンプトヒントを用いた反復的なGSPOベースの強化学習、およびアライメントトレーニングが含まれます。公開ベンチマークでの広範な評価と厳格な内部人間評価を通じて、Keye-VL-1.5は既存のモデルを大幅に上回り、特に動画理解タスクで優れた性能を示しつつ、一般的なマルチモーダルベンチマークでも競争力のある性能を維持しています。
大規模言語モデルは、複雑な推論タスクを習得するために、強化学習などのコストのかかる最適化を必要とすることが多い。本研究では、一度学習された推論能力を、コンパクトなタスクベクトルとしてモデル間で抽出・転移できることを示す。我々は、同一の初期化が施された2つの公開済みQwen2.5モデルを用意し、一方は教師ありファインチューニング(SFT)を、もう一方は同じデータセットに対してグループ相対ポリシー最適化(GRPO)を適用してファインチューニングした。これらから、推論ベクトルv_{reason} = theta_{GRPO} - theta_{SFT}を抽出する。このベクトルは、強化学習によって獲得された推論能力を捉えつつ、SFTプロセスから得られた共有知識を除去していると仮定する。このベクトルを互換性のある指示チューニング済みモデルに単純な算術演算で加えることで、多様な推論ベンチマークで一貫して性能が向上する:GSM8K(+4.9%)、HumanEval(+4.3%)、SciQ(+1.7%)、BigBenchHard(1.5Bモデルで+12.3%)。この性能向上は、敵対的条件下でも持続する。逆に、このベクトルを減算すると、GSM8Kで-11.8%と大幅な性能低下が生じ、ベクトルがモデルの推論能力に大きく寄与していることが示される。本研究は、通常は高コストなトレーニングを通じて開発される推論能力を、既存のオープンソースモデルから抽出し、単純なテンソル演算で再利用できることを示し、過去の計算投資をリサイクルしてモデルを強化する実用的な方法を提供する。
大規模言語モデル(LM)のポストトレーニングでは、多様性を犠牲にして正確性や有用性が優先されることが多い。これにより、ポストトレーニングが応答品質を向上させる一方で、出力分布が鋭くなり、アイデアの範囲が狭まるという緊張関係が生じる。その結果、ブレインストーミング、ストーリーテリング、問題解決などの創造的・探索的タスクにおけるLMの有用性が制限される。本研究では、この課題に対処するため、応答品質と意味的多様性を同時に最適化するフレームワークである「多様性を考慮した強化学習(Diversity-Aware Reinforcement Learning, DARLING)」を提案する。DARLINGの中核では、表面的な語彙の変化を超えた多様性を測定するために学習された分割関数を導入する。この多様性信号は、オンライン強化学習中に品質報酬と組み合わされ、モデルが高品質かつ独自性のある出力を生成するよう促す。複数のモデルファミリーとサイズにわたる実験を通じて、DARLINGが2つの領域に一般化することが示された:検証不可能なタスク(指示追従や創造的ライティング)と検証可能なタスク(競技数学)である。前者の設定における5つのベンチマークでは、DARLINGは品質のみを最適化した強化学習ベースラインを一貫して上回り、より高品質で新奇性のある出力を生成した。後者の設定では、DARLINGはpass@1(解決策の品質)とpass@k(解決策の多様性)の両方で高い成果を達成した。最も注目すべきは、多様性を明示的に最適化することがオンライン強化学習における探索を促進し、それがより高品質な応答として現れる点である。
検証可能な報酬を用いた強化学習(RLVR)の最近の進展により、大規模言語モデル(LLM)が数学やプログラミングなどの難しい推論タスクに取り組む能力が強化されています。RLVRは、検証可能な結果報酬を活用してポリシー最適化を導き、LLMが確実かつ着実に出力品質を向上させることを可能にします。しかし、RLVRのパラダイムは大きな課題も抱えており、既存の手法では特にRLベースのアプローチにおいて、報酬信号が疎でポリシー勾配の更新が不安定になることがしばしば問題となります。これらの課題に対処するため、我々はPACSという新しいRLVRフレームワークを提案します。PACSは、教師あり学習フレームワークを通じて暗黙的なアクター・クリティック結合を実現します。結果報酬を予測可能なラベルとして扱うことで、RLVR問題をポリシーモデルによってパラメータ化されたスコア関数に対する教師あり学習タスクとして再定式化し、交差エントロピー損失を用いて最適化します。詳細な勾配分析により、この教師あり学習の定式化が古典的なポリシー勾配更新を本質的に回復し、アクターとクリティックの役割を暗黙的に結合することで、より安定かつ効率的なトレーニングを実現することが示されています。難しい数学的推論タスクでのベンチマークにおいて、PACSはPPOやGRPOなどの強力なRLVRベースラインを上回り、優れた推論性能を達成しています。例えば、PACSはAIME 2025においてpass@256で59.78%を達成し、PPOとGRPOに対してそれぞれ13.32ポイントと14.36ポイントの改善を示しています。このシンプルでありながら強力なフレームワークは、検証可能な報酬を用いたLLMのポストトレーニングにおいて有望な道筋を提供します。我々のコードとデータはhttps://github.com/ritzz-ai/PACSでオープンソースとして公開されています。
本論文では、OpenVisionのアーキテクチャと損失設計を簡素化し、その学習効率を向上させる手法を提案する。先行研究であるCapPaやAIMv2といった視覚-言語事前学習モデル、およびLLaVAなどの現代的なマルチモーダル設計に倣い、我々の変更はシンプルである:テキストエンコーダ(およびそれに伴うコントラスティブ損失)を除去し、純粋に生成的な学習信号としてキャプション損失のみを保持する。この新バージョンをOpenVision 2と命名する。初期結果は有望であり、この簡素化にもかかわらず、OpenVision 2は幅広いマルチモーダルベンチマークにおいて元のモデルの性能に匹敵しつつ、学習時間とメモリ消費量を大幅に削減している。例えば、ViT-L/14を使用した場合、学習時間は約1.5倍(83時間から57時間)、メモリ使用量は約1.8倍(24.5GBから13.8GB、最大バッチサイズを2kから8kに拡大可能)削減される。この優れた学習効率により、OpenVisionで使用された最大の視覚エンコーダをはるかに超えるスケール、10億パラメータ以上に到達することが可能となった。我々は、この軽量で生成のみに特化したパラダイムが、マルチモーダル基盤モデルにおける将来の視覚エンコーダ開発にとって非常に魅力的であると強く確信している。
ビデオコンポジットは、実写映像を組み合わせて映像制作を行う技術であり、映像制作や映画制作において重要な役割を果たしています。従来の制作プロセスでは、多大な労力と専門家の協力が必要であり、制作期間が長く、人件費も高くなります。この問題を解決するため、我々は生成モデルを用いてこのプロセスを自動化し、生成型ビデオコンポジットと呼んでいます。この新しいタスクは、前景ビデオのID情報とモーション情報をターゲットビデオに適応的に注入し、ユーザーが最終的なビデオに追加する動的要素のサイズやモーショントラジェクトリなどの属性をカスタマイズできるようにすることを目指しています。具体的には、その本質的な特性に基づいて、新しいDiffusion Transformer(DiT)パイプラインを設計しました。編集前後のターゲットビデオの一貫性を保つために、マスクされたトークン注入を用いた軽量なDiTベースの背景保持ブランチを修正しました。他のソースから動的要素を継承するために、完全な自己注意を用いたDiT融合ブロックを提案し、シンプルで効果的な前景拡張をトレーニングに使用しました。さらに、ユーザーの制御に基づいて異なるレイアウトの背景と前景ビデオを融合するために、Extended Rotary Position Embedding(ERoPE)という新しい位置埋め込みを開発しました。最後に、我々はVideoCompという新しいタスクのために、61Kセットのビデオを含むデータセットをキュレーションしました。このデータには、完全な動的要素と高品質のターゲットビデオが含まれています。実験結果は、我々の方法が生成型ビデオコンポジットを効果的に実現し、忠実度と一貫性において既存の可能なソリューションを上回ることを示しています。
大規模言語モデル(LLMs)の最近の発展に伴い、深層学習モデルの損失をより最適化するための新たなアイデアや手法が活発に提案されている。これらの手法が主張する利点は多岐にわたり、収束の高速化から特定のハイパーパラメータへの依存の排除まで様々である。しかし、これらの主張を検証するために用いられる実験プロトコルが多様であるため、手法間の直接的な比較は困難である。本研究では、標準化されたLLM事前学習シナリオにおいて、モデルサイズ、バッチサイズ、および学習期間を系統的に変化させながら、最近の最適化手法を包括的に評価する。各手法を慎重にチューニングすることで、各シナリオに最適なオプティマイザを実践者に示す。研究者にとっては、今後の最適化研究の有望な方向性を明らかにする。最後に、コードを公開し、すべての実験を完全に再現可能にすることで、今後の手法の開発と厳密なベンチマークに貢献することを目指す。
検証可能な報酬からの強化学習(RLVR)は、大規模言語モデルの推論能力を向上させるための有望なフレームワークとして登場した。しかし、GRPOなどの既存のアプローチでは、しばしばゼロ勾配の問題が生じる。この問題は主に、トークンレベルの確率比に対する固定クリッピング範囲と同一報酬の標準化に起因し、効果的な勾配更新の妨げや生成された応答の活用不足を引き起こす可能性がある。本研究では、動的クリッピングポリシー最適化(DCPO)を提案する。DCPOは、トークン固有の事前確率に基づいてクリッピング範囲を適応的に調整する動的クリッピング戦略を導入し、トークンレベルの探索を強化する。さらに、累積トレーニングステップにわたる報酬を標準化するスムーズなアドバンテージ標準化技術を採用し、応答レベルの生成応答の有効活用を改善する。DCPOは、4つの異なるモデルに基づく4つのベンチマークで最先端の性能を達成した。特に、AIME24ベンチマークにおいて、Qwen2.5-Math-7Bモデルで、貪欲デコード下でAvg@1 46.7、32回サンプリング下でAvg@32 38.8を達成し、DAPO(36.7/31.6)とGRPO(36.7/32.1)を上回った。Qwen2.5-14Bに基づくAIME25ベンチマークでは、DCPOは(23.3/19.0)の性能を達成し、GRPO(13.3/10.5)とDAPO(20.0/15.3)を上回った。さらに、DCPOは4つのモデルにおいてGRPOと比較して非ゼロアドバンテージの平均28%の改善を達成し、DAPOと比較してトレーニング効率を2倍に向上させ、GRPOおよびDAPOと比較してトークンクリッピング率を1桁削減しつつ、優れた性能を実現した。これらの結果は、DCPOが大規模言語モデルの強化学習において生成データをより効率的に活用する有効性を強調している。
LLMを活用したGUIエージェントは、多様なデジタル環境とのインタラクションにおいて有望な可能性を示しています。中でも、ビデオゲームはその多様なインターフェースから貴重なテストベッドを提供し、特にアドベンチャーゲームは複雑で物語主導のインタラクションを通じて追加の課題を提示します。しかし、既存のゲームベンチマークは多様性に欠け、エージェントがストーリー全体を完遂する能力を評価することは稀です。この問題に対処するため、我々はFlashAdventureを導入しました。これは34のFlashベースのアドベンチャーゲームからなるベンチマークで、ストーリーアークの完遂をテストし、観察と行動のギャップ(以前のゲームプレイ情報を記憶し、それに基づいて行動する課題)に取り組むことを目的としています。また、自動化されたゲームプレイ評価ツールであるCUA-as-a-Judgeと、長期的な手がかりの記憶を活用して順次タスクを計画・解決するエージェントフレームワークCOASTを提案します。実験結果から、現在のGUIエージェントはストーリーアーク全体の完遂に苦戦している一方で、COASTは観察と行動のギャップを埋めることでマイルストーンの達成率を向上させることが示されました。しかし、人間と最高性能のエージェントとの間には依然として顕著な差があり、このギャップを縮めるための継続的な研究努力が必要です。
ガーディアンモデルは、ユーザー向けチャットボットの出力を監視および調整し、ガードレールを適用して不適切な行動を検出するために使用されます。LlamaGuardのような標準的なガーディアンモデルは、事前に定義された静的な有害カテゴリを検出します。私たちは、ユーザー定義のポリシーに基づいてテキストを評価する動的ガーディアンモデルを提案し、標準的なガーディアンモデルでは対応できないさまざまなアプリケーションドメインで有用となるようにします。私たちの動的ガーディアンモデルは、ポリシー違反の迅速な検出や、モデルの出力を明確に説明し正当化するチェーン・オブ・シンク推論とともに使用できます。私たちの動的ガーディアンモデルは、静的な有害カテゴリの検出精度において静的モデルと同等でありながら、自由形式のポリシー違反を、最先端の推論モデルに匹敵する精度で、はるかに短時間で識別します。
ベクトル埋め込みは、年々増え続ける検索タスクを担ってきましたが、最近では推論、指示追従、コーディングなどへの利用も萌芽的に見られます。これらの新しいベンチマークは、あらゆるクエリと関連性の概念に対して埋め込みが機能することを求めています。先行研究ではベクトル埋め込みの理論的限界が指摘されてきましたが、これらの困難は非現実的なクエリに起因するものであり、そうでないものはより良い訓練データと大規模モデルで克服できるという共通の前提がありました。本研究では、極めて単純なクエリを用いた現実的な設定においても、これらの理論的限界に直面する可能性があることを実証します。学習理論における既知の結果を結びつけ、クエリの結果として返される可能性のあるトップk個の文書サブセットの数が、埋め込みの次元によって制限されることを示します。k=2に限定し、テストセット上で自由にパラメータ化された埋め込みを最適化した場合でも、これが成り立つことを実験的に示します。次に、これらの理論的結果に基づいてモデルをストレステストする現実的なデータセットLIMITを作成し、タスクが単純であるにもかかわらず、最先端のモデルでさえこのデータセットで失敗することを観察します。本研究は、既存の単一ベクトルパラダイム下での埋め込みモデルの限界を示し、この根本的な制限を解決する手法の開発を求めるものです。
大規模言語モデル(LLM)は合成データの生成に優れていますが、その品質と多様性を確保することは依然として課題です。本論文では、遺伝的アルゴリズムとLLMを組み合わせた新たなフレームワーク「Genetic Prompt」を提案します。このアプローチでは、意味的なテキスト属性を遺伝子配列として扱い、LLMを活用して交叉と突然変異の操作をシミュレートします。この遺伝的プロセスにより、新たな属性の組み合わせが生成され、合成データの品質と多様性が向上し、実世界のデータに近い分布が得られます。さらに、親選択を最適化するために、子孫の探索空間を拡張する能動学習スキームも統合しています。複数のNLPタスクでの実験結果から、以下の重要な知見が得られました:Genetic Promptは、最先端のベースラインを大幅に上回るだけでなく、さまざまな生成モデルのサイズやスケールにおいても堅牢な性能を示します。さらに、提案する合成データを元のトレーニングセットと融合させることで、特にクラス不均衡なシナリオにおいて、下流モデルの性能が大幅に向上することが実証されました。これらの結果は、Genetic Promptが幅広いNLPアプリケーション向けに高品質な合成データを生成する効果的な手法であることを裏付けています。
医療画像検索は、臨床意思決定やトランスレーショナルリサーチにおいて不可欠であり、識別可能な視覚的表現に依存しています。しかし、現在の手法は断片的なままであり、2D、3D、およびビデオベースの医療データに対して別々のアーキテクチャとトレーニング戦略に依存しています。このモダリティ固有の設計は、スケーラビリティを妨げ、統一された表現の開発を阻害しています。統一的な学習を可能にするため、私たちは2D X線や超音波、RGB内視鏡ビデオ、3D CTスキャンを含む867,653の医療画像サンプルからなる大規模なハイブリッドモダリティデータセットをキュレーションしました。このデータセットを活用し、モダリティ固有のカスタマイズなしで統一された視覚エンコーダであるM3Retをトレーニングしました。M3Retは、生成的(MAE)および対照的(SimDINO)な自己教師あり学習(SSL)パラダイムを使用して、転移可能な表現を成功裏に学習します。私たちのアプローチは、すべての個別モダリティにおけるゼロショット画像間検索において、DINOv3やテキスト監視型BMC-CLIPなどの強力なベースラインを超える新たな最先端を確立しました。さらに注目すべきは、ペアデータなしで強力なクロスモーダルアライメントが現れ、モデルが未見のMRIタスクに一般化することです。これは、事前学習中にMRIを観察したことがないにもかかわらず、純粋な視覚的自己教師あり学習が未見のモダリティに一般化可能であることを示しています。包括的な分析は、モデルとデータサイズにわたる私たちのフレームワークのスケーラビリティをさらに検証します。これらの発見は、医療画像コミュニティに有望なシグナルを提供し、M3Retをマルチモーダル医療画像理解における視覚的SSLの基盤モデルに向けた一歩として位置づけます。
AdamWは、言語モデルの事前学習において長らく支配的な最適化手法として用いられてきた。しかし、代替の最適化手法が1.4倍から2倍の速度向上を提供するとの主張が数多くあるにもかかわらず、その実用化は進んでいない。本研究では、公平な比較を妨げ、実用的な採用を阻んできた2つの方法論的な欠陥を指摘する:(i) 不均一なハイパーパラメータチューニング、(ii) 限定的または誤解を招く評価設定。これら2つの問題に対処するため、我々は10種類の深層学習最適化手法を、4つのモデル規模(0.1B~1.2Bパラメータ)とデータ対モデル比率(Chinchilla最適値の1~8倍)にわたって体系的に調査した。公平で有益な比較を行うためには、厳密なハイパーパラメータチューニングと、訓練終了時における多様なモデル規模およびデータ対モデル比率にわたる評価が必要であることが明らかとなった。第一に、ある最適化手法にとって最適なハイパーパラメータが、他の手法にとっては最適でない場合があり、盲目的なハイパーパラメータの転用は不公平である。第二に、提案された多くの最適化手法の、十分にチューニングされたベースラインに対する実際の速度向上は、主張された値よりも低く、モデルサイズが大きくなるにつれて減少し、1.2Bパラメータモデルではわずか1.1倍に留まる。第三に、目標の訓練予算に到達する前の中間チェックポイントを比較することは、学習率の減衰により訓練中に2つの最適化手法の順位が逆転する可能性があるため、誤解を招く可能性がある。我々の徹底的な調査を通じて、MuonやSoapなどの最速の最適化手法はすべて、行列を前処理として使用していることが明らかとなった。つまり、勾配を行列で乗算するのではなく、要素ごとのスカラーで乗算する。しかし、行列ベースの最適化手法の速度向上はモデル規模に反比例し、0.1BパラメータモデルではAdamWに対して1.4倍の速度向上があるが、1.2Bパラメータモデルではわずか1.1倍に減少する。
大規模言語モデル(LLMs)は多くのベンチマークで金メダル級の性能を達成しているが、その成功が真の推論能力を反映しているのか、あるいは単なるパターンマッチングに過ぎないのかは依然として不明である。認知科学の観点から、有益なテストは、モデルが明示的なメタ言語的演繹学習を通じて未知の言語を習得できるかどうかである。このパラダイムでは、人間の学習者はメタ言語的推論を通じて文法的体系を確実に内在化することができる。本研究では、Camlangという、自然言語的でありながら未確認の特徴の組み合わせを示す新規の人工言語を用いてこの問題に取り組む。Camlangは、文法書と二言語辞書という2つの明示的なリソースで構成されており、これらは明示的な文法規則と語彙検索を通じた成人の第二言語学習を模倣し、形態統語論、語彙意味論、文レベルの推論における誤りを分離することを可能にする。人間による実験では、これらのリソースが参加者がCamlangを習得し、Camlangのタスクを成功裏に解決するのに十分であることが示された。評価を具体化するために、CommonsenseQAをCamlangに適応させ、Camlang-CSQA-v0を作成した。これは、質問を解決するために文法規則と語彙マッピングを適用する必要がある、より広範なタスクスイートの最初のタスクである。実験結果は、GPT-5が英語では98%のEM精度を達成するが、Camlangでは47%に留まり、人間の87%の性能を大きく下回ることを示している。他の最先端の推論LLMsはさらに低い性能を示す。人間による検証は、モデルの成功のほとんどが浅い語彙の一致に起因していることを明らかにし、GPT-5は限定的な範囲でメタ言語的意識を示すものの、人間のような体系的な文法的習得には至っていないことを示している。Camlangは、現在のモデルと人間のメタ言語的能力との間に存在する根本的なギャップを明らかにする、認知科学的に基づいた評価パラダイムを確立する。
深層研究ツールは、今日最も影響力があり、最も一般的に遭遇するエージェントシステムの一つです。しかし、これまでに導入された各深層研究エージェントは、特定の研究戦略を実行するために固定されたツール選択でハードコードされていることが観察されます。本論文では、ユニバーサル深層研究(UDR)を紹介します。これは、任意の言語モデルをラップする汎用エージェントシステムであり、ユーザーが追加のトレーニングやファインチューニングを必要とせずに、独自の完全にカスタマイズされた深層研究戦略を作成、編集、および改良することを可能にします。本システムの汎用性を示すために、UDRに最小限、拡張的、および集中的な研究戦略の例を装備し、システムの実験を容易にするためのユーザーインターフェースを提供します。
本論文では、カメラの内部パラメータを必要とせずに動作するリアルタイム単眼視覚SLAMシステムであるViSTA-SLAMを提案する。これにより、多様なカメラ設定に広く適用可能である。システムの中核として、軽量な対称的二視点関連付け(STA)モデルをフロントエンドとして採用し、二つのRGB画像のみから相対的なカメラ姿勢を推定し、局所的なポイントマップを回帰する。この設計により、モデルの複雑さが大幅に削減され、フロントエンドのサイズは最新の手法と比較して35%に抑えられながら、パイプラインで使用される二視点制約の品質が向上する。バックエンドでは、累積ドリフトに対処するためにループクロージャを組み込んだ特別に設計されたSim(3)ポーズグラフを構築する。広範な実験により、本手法がカメラトラッキングと密な3D再構成の品質の両面において、現在の手法と比較して優れた性能を発揮することが実証された。Githubリポジトリ: https://github.com/zhangganlin/vista-slam
ビジョン・ランゲージモデル(VLM)の急速な進展に伴い、GUIベースのモバイルエージェントは、インテリジェントモバイルシステムの主要な開発方向として登場してきた。しかし、既存のエージェントモデルは、特に精度と効率の面で、現実世界のタスク実行において依然として大きな課題に直面している。これらの制限に対処するため、我々はMobiAgentを提案する。これは、MobiMindシリーズのエージェントモデル、AgentRR高速化フレームワーク、およびMobiFlowベンチマークスイートの3つのコアコンポーネントから構成される包括的なモバイルエージェントシステムである。さらに、現在のモバイルエージェントの能力が高品質なデータの可用性によって制限されていることを認識し、手動アノテーションのコストを大幅に削減するAI支援型のアジャイルデータ収集パイプラインを開発した。汎用LLMおよび専門的なGUIエージェントモデルと比較して、MobiAgentは現実世界のモバイルシナリオにおいて最先端の性能を達成している。
視覚的自己回帰モデル(VAR)は最近、テキストから画像を生成するタスクにおいて拡散モデルに匹敵する性能を達成し、有望な生成モデルのクラスとして登場しました。条件付き生成は広く研究されていますが、追加の学習なしでプロンプトに基づく画像編集を行う能力も同様に重要であり、多くの実用的な現実世界のアプリケーションをサポートします。本論文では、VARモデルに特化した初のノイズ反転ベースの編集技術であるVisual AutoRegressive Inverse Noise(VARIN)を導入し、VARのテキストから画像編集能力を調査します。VARINは、Location-aware Argmax Inversion(LAI)と呼ばれる新しい疑似逆関数を活用して、逆ガンベルノイズを生成します。これらの逆ノイズにより、ソース画像の正確な再構成が可能となり、テキストプロンプトに沿ったターゲット指向で制御可能な編集を容易にします。大規模な実験により、VARINが指定されたプロンプトに従ってソース画像を効果的に変更しつつ、元の背景や構造的詳細を大幅に保持することが実証され、実用的な編集手法としての有効性が確認されました。
自然言語クエリをSQLクエリに変換することは、データベースや大規模アプリケーションへのアクセスを向上させるために、産業界と学界の両方で重要な課題です。本研究では、in-context learningとchain-of-thoughtを活用して、テキストからSQLへのシステムの堅牢なソリューションを開発する方法を検討します。私たちはSQL-of-Thoughtを提案します。これは、Text2SQLタスクをスキーマリンキング、サブ問題識別、クエリプラン生成、SQL生成、およびガイド付き修正ループに分解するマルチエージェントフレームワークです。従来のシステムが実行ベースの静的な修正にのみ依存していたのに対し、私たちはin-context learningに基づく分類法ガイド付きの動的エラー修正を導入します。SQL-of-Thoughtは、ガイド付きエラー分類法と推論ベースのクエリプランニングを組み合わせることで、Spiderデータセットとそのバリエーションにおいて最先端の結果を達成します。
本研究は、低ビット量子化を用いた大規模言語モデル(LLM)の訓練における根本的な障壁として、異方性パラメータ分布を特定した。少数の支配的特異値が広い数値範囲を生成し、ブロック単位量子化の内在的バイアスと衝突する。このバイアスは、高振幅の値を不釣り合いに保持し、小さな値を破棄するため、訓練の不安定性とモデル性能の低下を引き起こす。本研究では、Metisという訓練フレームワークを提案する。Metisは、(i) ランダム埋め込みを伴うスペクトル分解を用いて、支配的成分とロングテール成分を効率的に分離し、広範な分布を量子化に適した狭い範囲に圧縮する。(ii) スペクトル領域における適応学習率を用いて、過小評価されている方向を増幅し、性能に重要な多様な特徴をより良く捕捉する。(iii) 数値精度とパラメータ範囲分布を共同で制約する二重範囲正則化器を用いて、安定したバイアスのない低ビット訓練を確保する。Metisを用いることで、FP8訓練はFP32ベースラインを上回り、FP4訓練はFP32と同等の精度を達成し、先進的な低ビット量子化下での堅牢かつスケーラブルなLLM訓練の道を開く。Metisのコード実装は以下で利用可能である:https://github.com/typename-yyf/Metis-quantization。
私たちは、多様なマイナー言語に特化した小型自動音声認識(ASR)モデルのスイート「Flavors of Moonshine」を紹介します。従来の知見では、多言語ASRモデルが言語間の音声的類似性を活用することで、単一言語モデルを凌駕するとされてきました。しかし、私たちはこの仮説に異議を唱え、十分に小規模なモデル(2,700万パラメータ)において、高品質な人手ラベルデータ、擬似ラベルデータ、合成データを慎重にバランスさせて訓練した単一言語システムが、大幅に優れた性能を発揮することを示します。平均して、私たちのモデルは同等サイズのWhisper Tinyモデルよりも48%低いエラーレートを達成し、9倍大きいWhisper Smallモデルを上回り、ほとんどの場合において28倍大きいWhisper Mediumモデルに匹敵またはそれを凌駕します。これらの結果は、このサイズのモデルにおける最先端技術を前進させ、これまでサポートが限られていた言語においても、正確なオンデバイスASRを可能にします。私たちは、アラビア語、中国語、日本語、韓国語、ウクライナ語、ベトナム語のMoonshineモデルを、寛容なオープンソースライセンスの下で公開します。
CTおよびMRIスキャンにおける臓器や腫瘍の正確なセグメンテーションは、診断、治療計画、疾患モニタリングにおいて不可欠です。深層学習は自動セグメンテーションを進化させてきましたが、ほとんどのモデルはタスク固有であり、モダリティや機関を超えた汎用性に欠けています。ビジョンファウンデーションモデル(FMs)は、数十億規模の自然画像で事前学習されており、強力で転移可能な表現を提供します。しかし、医療画像への適応には2つの主要な課題があります:(1) ほとんどのファウンデーションモデルのViTバックボーンは、医療画像セグメンテーションにおいて専門的なCNNにまだ及ばないこと、(2) 自然画像と医療画像の間の大きなドメインギャップが転移可能性を制限することです。本論文では、DINOv3を医療セグメンテーションに適応させるためのシンプルで効果的なフレームワークであるMedDINOv3を紹介します。まず、プレーンなViTを再検討し、マルチスケールトークン集約を備えたシンプルで効果的なアーキテクチャを設計します。次に、3.87Mの軸方向CTスライスを精選したCT-3Mデータセットを用いて、ドメイン適応型事前学習を多段階のDINOv3レシピで行い、ロバストな密な特徴を学習します。MedDINOv3は、4つのセグメンテーションベンチマークにおいて、最先端の性能を達成または上回り、ビジョンファウンデーションモデルが医療画像セグメンテーションの統一バックボーンとしての可能性を示しています。コードはhttps://github.com/ricklisz/MedDINOv3で公開されています。
大規模言語モデル(LLM)は、その訓練データに存在する社会的バイアスを無意識に反映し、有害または偏見のある出力を生み出す可能性があります。インドの文脈において、我々の一連のモデルにわたる実証的評価では、カーストや宗教に関するバイアスが特に顕著であることが明らかになりました。しかし、既存の緩和策のほとんどは西洋中心であり、これらの地域特有のニュアンスに対応できていません。我々は、インド憲法の設計者であるB. R. アンベードカール博士の平等主義的ビジョンにインスパイアされたフレームワーク「AMBEDKAR」を提案し、第14条から第17条に沿った公平性、中立性、包括性をLLMの出力に導きます。我々のアプローチでは、インドのAI憲法に基づく「憲法認識デコーディング層」を導入し、推論時にのみ適用し、ベースモデルのパラメータを更新することなく使用します。生成中にカーストやコミュナル(宗教的共同体)のバイアスを積極的に低減する投機的デコーディングアルゴリズムを組み込んでいます。この緩和層はデコーディングプロセス内で直接動作し、モデルの内部構造を変更せず、再訓練に関連する計算コストやインフラコストを削減します。我々は、投機的デコーディングを単なる効率化ツールではなく、公平性を実現するメカニズムとして再解釈します。このフレームワークでは、小型言語モデル(SLM)が潜在的にバイアスを持つ生成器として機能し、憲法に基づいて導かれた大規模言語モデル(LLM)が検証器としての役割を果たします。LLMは生成を加速するのではなく、SLMの出力においてバイアスに強い軌道を強制します。この役割の逆転により、「公平性を投機的に実現する」パラダイムが生まれます。我々のアプローチは、ベースラインと比較して最大26.41%のバイアス絶対低減をもたらします。ソースコード、データセット、結果はhttps://anonymous.4open.science/r/AMBEDKAR-983B/で公開されています。
プロンプト感応性(Prompt Sensitivity)とは、言い換え(すなわち、異なる言葉を用いて書かれたり話されたりした内容を繰り返すこと)が大規模言語モデル(LLM)の性能に大きな変化をもたらす現象を指し、LLMの核心的な制約として広く認識されてきました。本研究では、この問題を再検討し、広く報告されている高いプロンプト感応性は、本当にLLMの本質的な弱点なのか、それとも評価プロセスのアーティファクト(人工的産物)に過ぎないのかを問います。この問いに答えるため、我々は7つのLLM(例えばGPTやGeminiファミリー)を6つのベンチマークで体系的に評価し、12の多様なプロンプトテンプレートを用いて、多肢選択問題と自由回答タスクの両方を実施しました。その結果、プロンプト感応性の多くは、ヒューリスティックな評価方法(例えば、対数尤度スコアリングや厳密な回答マッチング)に起因していることがわかりました。これらの方法は、同義語や言い換えなど、代替的な表現で示された意味的に正しい回答を見落とすことが多いのです。我々がLLM-as-a-Judge(LLMを評価者として用いる)評価を採用すると、性能のばらつきが大幅に減少し、プロンプト間でのモデルランキングの相関が一貫して高くなることが観察されました。我々の知見は、現代のLLMがこれまで考えられていた以上にプロンプトテンプレートに対して頑健であり、プロンプト感応性はモデルの欠陥というよりも評価のアーティファクトである可能性が高いことを示唆しています。
大規模視覚言語モデル(LVLM)の従来のアライメント手法は、主に人間が選別した嗜好データに依存しています。人間が生成する嗜好データはコストがかかり、機械が生成する嗜好データは品質に限界があり、自己教師ありの嗜好データはしばしば幻覚を引き起こします。これらの制約を克服するため、我々は人間の協同学習に着想を得た新たな「パネル・オブ・ピアーズ」学習フレームワークを提案します。このアプローチでは、複数のLVLMからなるパネルを活用し、各モデルが集団的な出力を評価し、反復的な自己改善プロセスを通じて学習します。ピアレビューシステムを模倣することで、我々のモデルは選別されたプロンプトに対して出力を生成、評価、洗練し、教室での学習環境を再現します。この方法論が、大規模な人間によるラベル付けデータセットを必要とせずにモデルの性能を向上させることを実証します。実験結果は、複数のベンチマークで顕著な改善を示し、自己教師ありアライメントに対するスケーラブルな代替手段としてのピア評価の可能性を明らかにします。特に、パネル・オブ・ピアーズが15のベンチマークにおける平均スコアを48%から57%に向上させたことを示します。
レコメンダーシステム(RS)における公平性は、一般的にグループ公平性と個人公平性に分類されます。しかし、これら2種類の公平性の関係について確立された科学的理解は存在しません。なぜなら、これまでの研究では、各公平性タイプに対して異なる評価指標や評価目的が使用されており、両者を適切に比較することができなかったためです。その結果、一方の公平性を高めることが他方にどのような影響を及ぼすかは、現在のところ不明です。このギャップを埋めるため、私たちはグループ公平性と個人公平性の関係を、両方の公平性タイプに適用可能な評価指標の包括的な比較を通じて調査しました。3つのデータセットにわたる8回の実験結果から、グループに対して非常に公平なレコメンデーションが、個人にとっては非常に不公平である可能性があることが示されました。この発見は新規性があり、システムの公平性を向上させようとするRS実務者にとって有用です。私たちのコードは以下で公開されています:https://github.com/theresiavr/stairway-to-fairness。
その大きな可能性にもかかわらず、バーチャル試着技術は現実世界での応用において2つの主要な課題に阻まれている。それは、現在の手法が多参照の服装構成(衣類やアクセサリーを含む)をサポートできないこと、および各ノイズ除去ステップで参照特徴の冗長な再計算が行われることによる著しい非効率性である。これらの課題に対処するため、我々はFastFitを提案する。これは、新たなキャッシュ可能な拡散アーキテクチャに基づく高速多参照バーチャル試着フレームワークである。Semi-Attentionメカニズムを採用し、従来のタイムステップ埋め込みを参照アイテムのクラス埋め込みに置き換えることで、我々のモデルはノイズ除去プロセスから参照特徴エンコーディングを完全に分離し、パラメータオーバーヘッドを無視できるレベルに抑える。これにより、参照特徴は一度だけ計算され、すべてのステップでロスなく再利用されるため、効率のボトルネックを根本的に解消し、比較可能な手法に対して平均3.5倍の高速化を実現する。さらに、複雑な多参照バーチャル試着の研究を促進するため、我々はDressCode-MRという新たな大規模データセットを導入する。これは、5つの主要カテゴリ(トップス、ボトムス、ドレス、靴、バッグ)をカバーする28,179組の高品質なペア画像から構成され、専門家モデルと人間のフィードバックを組み合わせたパイプラインを通じて構築された。VITON-HD、DressCode、および我々のDressCode-MRデータセットでの広範な実験により、FastFitが主要な忠実度指標において最先端の手法を凌駕し、推論効率においてもその大きな優位性を提供することが示された。
点群学習、特に手動ラベルなしの自己教師あり学習は、幅広い応用分野での潜在的な有用性から、視覚と学習コミュニティの両方で注目を集めています。既存の点群自己教師あり学習のための生成アプローチの多くは、単一ビュー内の可視点からマスクされた点を復元することに焦点を当てています。二つのビューを用いた事前学習パラダイムは、本質的に多様性と分散を増大させるため、より挑戦的で有益な事前学習を可能にする可能性があります。これに着想を得て、我々はこの領域における二ビュー学習の可能性を探求します。本論文では、Point-PQAEを提案します。これは、最初に二つの分離された点群/ビューを生成し、その後、一方から他方を再構築するクロス再構築生成パラダイムです。この目標を達成するために、我々は初めて点群ビュー生成のためのクロップメカニズムを開発し、さらに二つの分離されたビュー間の3D相対位置を表現する新しい位置エンコーディングを提案します。クロス再構築は、自己再構築と比較して事前学習の難易度を大幅に増加させ、これにより我々の手法は3D自己教師あり学習における従来の単一モーダル自己再構築手法を凌駕します。具体的には、Mlp-Linear評価プロトコルを用いたScanObjectNNの3つのバリエーションにおいて、自己再構築ベースライン(Point-MAE)を6.5%、7.0%、6.7%上回ります。コードはhttps://github.com/aHapBean/Point-PQAEで公開されています。
車両損傷評価のような困難な視覚領域における細粒度の物体検出は、人間の専門家にとっても信頼性を持って解決することが難しい課題である。DiffusionDetは条件付きノイズ除去拡散を通じて最先端の技術を進展させたが、その性能は文脈依存のシナリオにおける局所的特徴の条件付けに制限されている。本研究では、この根本的な制限に対処するため、クロスアテンションメカニズムを活用してグローバルなシーンコンテキストと局所的な提案特徴を直接統合するContext-Aware Fusion(CAF)を導入する。グローバルコンテキストは、包括的な環境情報を捕捉する別個の専用エンコーダを使用して生成され、各物体提案がシーンレベルの理解に注意を向けることを可能にする。本フレームワークは、各物体提案が包括的な環境情報に注意を向けることを可能にすることで、生成的検出パラダイムを大幅に強化する。実験結果は、CarDDベンチマークにおいて最先端のモデルを上回る改善を示し、細粒度領域における文脈認識物体検出の新しい性能基準を確立する。