翻訳付きの日次キュレーションされたAI研究論文
画像拡散モデルは、GANベースの手法における過度な平滑化の問題に対処するために、実世界のビデオ超解像度に適応されてきました。ただし、これらのモデルは静止画像でトレーニングされているため、時間的一貫性を維持するのに苦労しており、時間的ダイナミクスを効果的に捉える能力が制限されています。テキストからビデオ(T2V)モデルをビデオ超解像度に統合して時間モデリングを改善することは容易です。ただし、2つの主要な課題が残っています。実世界のシナリオにおける複雑な劣化によって導入されるアーティファクトと、強力なT2Vモデル(例:CogVideoX-5B)の強い生成能力による忠実度の損なわれた点です。修復されたビデオの空間的・時間的品質を向上させるために、私たちは\name(実世界のビデオ超解像度のためのT2Vモデルを活用した空間的・時間的拡張)という新しいアプローチを導入します。これにより、現実的な空間の詳細と堅牢な時間的一貫性が実現されます。具体的には、グローバルアテンションブロックの前にローカル情報強化モジュール(LIEM)を導入して、局所の詳細を豊かにし、劣化アーティファクトを軽減します。さらに、異なる拡散ステップで異なる周波数成分に焦点を当てるようにモデルを誘導するダイナミック周波数(DF)損失を提案します。包括的な実験により、\name が合成および実世界のデータセットの両方で最先端の手法を上回ることが示されました。
複雑な推論におけるo1モデルの卓越した性能は、テスト時の計算スケーリングがモデルの潜在能力をさらに引き出し、強力なシステム2の思考を可能にすることを示しています。ただし、テスト時の計算スケーリングに関する包括的な調査がまだ不足しています。私たちは、テスト時の計算の概念をシステム1モデルに遡って追跡します。システム1モデルでは、テスト時の計算は分布のシフトに対処し、パラメータの更新、入力の修正、表現の編集、および出力のキャリブレーションを通じて堅牢性と汎化性能を向上させます。システム2モデルでは、反復サンプリング、自己修正、および木探索を通じて、複雑な問題を解決するためのモデルの推論能力を向上させます。私たちは、システム1からシステム2の思考へのトレンドに従ってこの調査を整理し、システム1モデルから弱いシステム2モデル、そして強いシステム2モデルへの移行におけるテスト時の計算の重要な役割を強調します。また、いくつかの可能性のある将来の方向性も指摘します。
最先端の大規模言語モデル(LLMs)は、分割統治パイプラインとインコンテキストラーニング(ICL)例の支援により、複雑な数学問題の解決で有望なパフォーマンスを示しています。ただし、ICL例内の2つの重要な問題、つまり粒度不一致とそれに続く負の影響ノイズ問題によって、その改善可能性は限られています。具体的には、LLMsは分割プロセスを行うことができますが、征服ステップの内での不正確な推論によって失敗することが多いです。一方、質問単位で取得されるICL例は、特定の難しい推論ステップに対する関連ステップが欠けていることがあります。さらに、この不一致は関連性の欠如によって正しい推論を妨げる可能性があります。このため、私たちは各ステップ内の推論品質を向上させることに焦点を当て、BoostStepを提案します。BoostStepは、取得と推論の粒度を整合させ、各推論ステップに対して新しい「最初の試み」戦略を用いて高度に関連するICL例を提供します。BoostStepは、粗い質問単位戦略よりもより関連性の高い例を提供し、各ステップ内のモデル推論品質を着実に向上させます。BoostStepは、スタンドアロンの推論パフォーマンスを向上させるだけでなく、モンテカルロ木探索法(MCTS)とシームレスに統合して候補生成と意思決定の両方を洗練させる汎用かつ堅牢な推論向上手法です。定量的には、さまざまな数学ベンチマークでGPT-4oとQwen2.5-Math-72Bをそれぞれ3.6\%と2.0\%向上させ、MCTSと組み合わせることで7.5\%の利益をもたらします。
ビデオLLMとのアクティブなリアルタイムインタラクションは、ユーザーの意図を理解するだけでなく、ストリーミングビデオをリアルタイムで処理しながら応答するモデルを導入し、人間とコンピュータのインタラクションに新たなパラダイムをもたらします。オフラインのビデオLLMが質問に答える前にビデオ全体を分析するのに対し、アクティブなリアルタイムインタラクションでは、3つの能力が必要です。1)知覚:リアルタイムのビデオモニタリングとインタラクションの捕捉。2)決定:適切な状況での積極的なインタラクションの提供。3)反応:ユーザーとの継続的なインタラクション。ただし、望ましい能力の間には相反するものが存在します。決定と反応は、逆の知覚スケールと粒度を必要とし、自己回帰デコーディングはリアルタイムの知覚と決定を反応中に妨げます。矛盾する能力を調和のとれたシステム内で統一するために、私たちはDispiderを提案します。Dispiderは、知覚、決定、反応を分離するシステムであり、ビデオストリームを追跡し、インタラクションの最適なタイミングを特定する軽量の積極的なストリーミングビデオ処理モジュールを特徴としています。インタラクションがトリガーされると、非同期インタラクションモジュールが詳細な応答を提供し、同時に処理モジュールがビデオを監視し続けます。私たちの分離された非同期設計は、タイムリーで文脈に即した、計算効率の良い応答を保証し、長時間のビデオストリームにおけるアクティブなリアルタイムインタラクションに最適なDispiderを実現します。実験では、Dispiderが従来のビデオQAタスクで強力なパフォーマンスを維持するだけでなく、ストリーミングシナリオの応答において以前のオンラインモデルを大幅に上回り、私たちのアーキテクチャの効果を検証しています。コードとモデルはhttps://github.com/Mark12Ding/Dispider で公開されています。
大規模言語モデル(LLM)が進化するにつれ、個別化およびコンテキストに敏感な応答を提供する能力は、ユーザーエクスペリエンスの向上に革新的な可能性をもたらします。しかしながら、既存の個別化アプローチは、しばしばプロンプトを拡張するためにユーザー履歴にのみ頼るため、特にデータがまばらなコールドスタートシナリオにおいて、適合した出力を生成する効果が制限されることがあります。これらの制限に対処するために、私たちはPersonalized Graph-based Retrieval-Augmented Generation(PGraphRAG)を提案します。このフレームワークは、ユーザーセントリックな知識グラフを活用して個別化を豊かにします。構造化されたユーザー知識を直接リトリーバルプロセスに統合し、プロンプトにユーザーに関連するコンテキストを付加することで、PGraphRAGはコンテキスト理解と出力品質を向上させます。また、ユーザー履歴がまばらまたは利用できない実世界の環境で個別化テキスト生成タスクを評価するために設計されたPersonalized Graph-based Benchmark for Text Generationを紹介します。実験結果は、PGraphRAGが多様なタスクにおいて最先端の個別化手法を大幅に上回り、個別化のためのグラフベースのリトリーバルの独自の利点を示しています。
テキストからビデオへの生成モデルは、エンターテイメント、広告、教育など幅広い分野での応用を可能にするために、大きな進展を遂げています。ただし、透過性のためのアルファチャンネルを含むRGBAビデオの生成は、限られたデータセットと既存のモデルの適応の難しさにより、依然として課題となっています。アルファチャンネルはビジュアルエフェクト(VFX)において重要であり、煙や反射などの透明な要素をシーンにシームレスに溶け込ませることが可能となります。本研究では、TransPixarという手法を導入し、事前学習されたビデオモデルをRGBA生成に拡張すると同時に、元のRGB機能を維持します。TransPixarは、拡散トランスフォーマー(DiT)アーキテクチャを活用し、アルファ専用のトークンを組み込み、LoRAベースのファインチューニングを使用して、RGBとアルファチャンネルを高い一貫性で共同生成します。注目メカニズムを最適化することで、TransPixarは元のRGBモデルの強みを維持し、限られたトレーニングデータにもかかわらずRGBとアルファチャンネルの強力な整合性を実現します。このアプローチにより、多様で一貫性のあるRGBAビデオを効果的に生成し、VFXやインタラクティブコンテンツの創造の可能性を前進させます。
低精度トレーニングは、トレーニングおよびその後の推論コストの両方を削減するための効果的な戦略と見なされています。従来の精度に関するスケーリング則は、主に整数量子化に焦点を当てており、浮動小数点量子化の構成要素にあまり注意を払っていないため、このシナリオでLLM損失に適切に適合していません。一方、浮動小数点量子化トレーニングは、一般的には実装されていますが、その研究は比較的浅いです。本論文では、LLMモデルの浮動小数点量子化ターゲット、指数ビット、仮数ビット、および浮動小数点量子化トレーニングのスケーリングファクターの計算粒度がパフォーマンスに与える影響を徹底的に探究します。正確な浮動小数点量子化統一スケーリング則を提示すると同時に、コミュニティに有益な提案を行います:(1) 指数ビットは仮数ビットよりもわずかにモデルのパフォーマンスに貢献します。異なるビット数に対して最適な指数-仮数ビット比率を提供し、ハードウェアメーカーが将来の参考資料として利用できます。(2) 低精度LLMトレーニングにおける臨界データサイズの形成を発見しました。臨界データサイズを超える過剰なトレーニングデータは、逆にLLMのパフォーマンスの低下をもたらします。(3) 最適な浮動小数点量子化精度は、計算能力に比例しますが、広範囲の計算能力範囲内では、最適なコストパフォーマンス精度は4〜8ビットの間にあると推定されます。
私たちは、画像から動画(I2V)の生成というタスクを考えます。これは、静止画像をテキストの説明に基づいてリアルなビデオシーケンスに変換することを含みます。最近の進歩により、写実的な出力が生み出されていますが、特に複数のオブジェクトが存在するシナリオにおいて、正確で一貫したオブジェクトの動きを作成することが難しいことがよくあります。これらの制限に対処するために、私たちは、I2V生成を2段階の構成フレームワークに分解することを提案します:(i)明示的な中間表現生成段階、続いて(ii)この表現に依存するビデオ生成段階。私たちの主要な革新点は、セマンティックなオブジェクト情報と動きの両方を捉えるマスクベースの動き軌跡を中間表現として導入することであり、これにより動きとセマンティクスの表現が表現豊かでコンパクトになります。第2段階で学習された表現を組み込むために、オブジェクトレベルの注意目的を利用します。具体的には、空間的な、オブジェクトごとの、マスクされたクロスアテンション目的を考慮し、対応する潜在空間領域にオブジェクト固有のプロンプトを統合し、マスクされた時空間自己アテンション目的を考慮し、各オブジェクトに対してフレーム間の一貫性を確保します。私たちは、複数のオブジェクトや高い動きのシナリオでの厳しいベンチマークで当社の手法を評価し、提案手法が時間的な一貫性、動きのリアリズム、およびテキストプロンプトの忠実さにおいて最先端の結果を達成することを経験的に示します。さらに、単一オブジェクトおよび複数オブジェクトのI2V生成のための新しい厳しいベンチマークである\benchmark を紹介し、このベンチマークでの当社の手法の優越性を示します。プロジェクトページはhttps://guyyariv.github.io/TTM/ でご覧いただけます。
我々は、新しいコーパスである多様なメタゲノムDNAおよびRNA配列からなる1.5兆塩基対以上から構成されるMETAGENE-1と呼ばれる70億パラメータの自己回帰トランスフォーマーモデルを事前学習します。このデータセットは、人間の下水から収集された大規模なサンプルから取得され、深層メタゲノミクス(次世代)シーケンシング手法を用いて処理およびシーケンスされています。個々のゲノムまたは特定の種の編成されたセットに焦点を当てるゲノムモデルとは異なり、METAGENE-1の目的は、この下水中に存在するゲノム情報の全体的な分布を捉え、パンデミック監視や病原体検出に関連するタスクを支援することです。我々は、メタゲノミクス配列に適したデータセットに対してバイトペアエンコーディング(BPE)トークン化を実施し、その後モデルを事前学習します。本論文では、事前学習データセット、トークン化戦略、およびモデルアーキテクチャについて詳細に説明し、メタゲノミクスデータの効果的なモデリングを可能にする考慮事項と設計選択を強調します。次に、このモデルをメタゲノミクスデータセットで事前学習した結果を示し、事前学習の過程での損失、システムメトリクス、およびトレーニングの安定性に関する詳細を提供します。最後に、METAGENE-1のパフォーマンスを示し、ゲノムベンチマークおよびヒト病原体検出、ゲノム配列埋め込みに焦点を当てた新しい評価において最先端の結果を達成し、パンデミック監視、生物監視、および新興の健康脅威の早期検出に向けた公衆衛生アプリケーションにおける潜在能力を示します。
自動化されたレッドチーミングは、大規模言語モデル(LLMs)における脆弱性の発見において重要な手法となっています。しかしながら、既存のほとんどの手法は孤立した安全性の欠陥に焦点を当てており、動的な防御に適応し、効率的に複雑な脆弱性を発見する能力が制限されています。この課題に対処するために、私たちはAuto-RTという強化学習フレームワークを提案します。このフレームワークは、悪意のあるクエリを通じてセキュリティの脆弱性を効果的に発見するために、複雑な攻撃戦略を自動的に探索および最適化します。具体的には、探索の複雑さを軽減し戦略の最適化を向上させるために、2つの主要なメカニズムを導入しています。1つ目は「早期終了探索」であり、高い潜在的攻撃戦略に焦点を当てることで探索を加速します。2つ目は、中間ダウングレードモデルを使用した「プログレッシブリワードトラッキングアルゴリズム」であり、成功した脆弱性の悪用に向けて探索軌跡を動的に洗練します。様々なLLMsを対象とした包括的な実験により、Auto-RTは探索効率を大幅に向上させ、攻撃戦略を自動的に最適化することで、既存の手法と比較してより幅広い範囲の脆弱性を検出し、より速い検出速度と16.63%高い成功率を達成しています。
4Dビデオ制御は、マルチカメラ撮影やドリーズームなどの高度なレンズテクニックを可能にするため、ビデオ生成において不可欠です。これらのテクニックは、現行の方法ではサポートされていません。ビデオディフュージョントランスフォーマー(DiT)を直接4Dコンテンツの制御にトレーニングするには、高価なマルチビューのビデオが必要です。Monocular Dynamic novel View Synthesis(MDVS)に着想を得て、4D表現を最適化し、カメラの位置やオブジェクトの動きの編集など、異なる4D要素に従ってビデオをレンダリングするMDVSを用い、擬似4Dガウス場をビデオ生成に導入します。具体的には、密な3Dポイントトラッキングで擬似4Dガウス場を構築し、すべてのビデオフレームに対してガウス場をレンダリングする新しいフレームワークを提案します。その後、事前にトレーニングされたDiTを微調整して、レンダリングされたビデオのガイダンスに従ってビデオを生成するGS-DiTを提案します。GS-DiTのトレーニングを強化するために、擬似4Dガウス場の構築のための効率的な密な3Dポイントトラッキング(D3D-PT)メソッドも提案します。D3D-PTは、最先端の疎な3DポイントトラッキングメソッドであるSpatialTrackerを精度で上回り、推論速度を2桁向上させます。推論段階では、GS-DiTは同じ動的コンテンツを持ちながら異なるカメラパラメータに従うビデオを生成でき、現行のビデオ生成モデルの重要な制約を解決します。GS-DiTは強力な汎化能力を示し、Gaussian splattingの4D制御性をカメラ位置だけでなくビデオ生成にまで拡張します。ガウス場とカメラ固有の効果を操作することで、高度な映画効果をサポートし、クリエイティブなビデオ制作の強力なツールとなります。デモはhttps://wkbian.github.io/Projects/GS-DiT/でご覧いただけます。
拡散-ノイズ低減パラダイム内の単眼の深度推定は、印象的な汎化能力を示しますが、推論速度が低いという課題があります。最近の手法では、推論効率を向上させつつ、同等の性能を維持するために、単一段階の決定論的パラダイムを採用しています。しかし、これらの手法は生成的特徴と識別的特徴の間のギャップを見落としており、最適でない結果につながっています。本研究では、生成的特徴を識別的深度推定タスクに適応させるために設計された単一段階の拡散モデルであるDepthMasterを提案します。まず、生成的特徴によって導入されるテクスチャの詳細に過剰適合を緩和するために、高品質の意味的特徴を取り入れてノイズ低減ネットワークの表現能力を向上させるFeature Alignmentモジュールを提案します。次に、単一段階の決定論的フレームワークにおける微細な詳細の不足に対処するために、低周波構造と高周波詳細を適応的にバランスさせるFourier Enhancementモジュールを提案します。我々は、2つのモジュールの潜在能力を十分に活用するための2段階のトレーニング戦略を採用しています。第1段階では、Feature Alignmentモジュールを使用してグローバルなシーン構造を学習し、第2段階では、Fourier Enhancementモジュールを活用して視覚的品質を向上させます。これらの取り組みにより、当社のモデルは、汎化性能と詳細の保存において最先端の性能を達成し、さまざまなデータセットで他の拡散ベースの手法を凌駕しています。プロジェクトページは、https://indu1ge.github.io/DepthMaster_page でご覧いただけます。
プロセスレベルリワードモデル(PRMs)は、各中間ステップが推論プロセスで重要な役割を果たす複雑な推論および意思決定タスクにおいて重要です。言語モデルは推論プロセス中にさまざまなタイプのエラーに弱いため、PRMsは現実世界のシナリオでさまざまな暗黙のエラータイプを検出する微妙な能力を持つ必要があります。ただし、現在のベンチマークは主にステップの正確性に焦点を当てており、PRMsのパフォーマンスを体系的に評価していません。このギャップを埋めるために、PRMsの微細なエラー検出能力を評価するために特別に設計されたプロセスレベルベンチマークであるPRMBenchを紹介します。PRMBenchには、6,216の慎重に設計された問題と83,456のステップレベルのラベルが含まれており、モデルを単純さ、正確さ、感度を含む複数の次元で評価します。15のモデルについての実験では、オープンソースのPRMsとクローズドソースの大規模言語モデルがクリティックモデルとして提示され、現在のPRMsの重要な弱点が明らかになりました。これらの知見は、プロセスレベルの評価に固有の課題を強調し、将来の研究の重要な方向性を示しています。PRMBenchがPRMの評価と開発の研究を推進するための堅牢なベンチとなることを期待しています。
大規模言語モデル(LLM)の理解、推論、および機能呼び出し能力を分析するためには、マルチホップツールの効果的な評価が重要です。しかし、信頼性のある評価データセットの不足により、進展が妨げられてきました。この課題に対処するために、厳密な評価のために特別に設計された995のユーザークエリと3,912の関連ツールからなるデータセットであるToolHopを提案します。ToolHopは、多様なクエリ、意味のある相互依存関係、ローカルで実行可能なツール、詳細なフィードバック、および検証可能な回答を確実にするために、新しいクエリ駆動型データ構築アプローチを採用しています。このアプローチには、ツールの作成、文書の改良、およびコード生成が含まれます。LLMの14モデルを5つのモデルファミリー(すなわち、LLaMA3.1、Qwen2.5、Gemini1.5、Claude3.5、およびGPT)で評価し、マルチホップツールの使用シナリオの取り扱いにおける重要な課題を明らかにしました。トップモデルであるGPT-4oは、49.04%の精度を達成し、改善の余地が大きいことを示しています。さらなる分析により、さまざまなファミリーにおけるツールの使用戦略の違いが明らかになり、より効果的なアプローチの開発を導くための実用的な洞察が得られます。コードとデータは、https://huggingface.co/bytedance-research/ToolHop で入手できます。
我々は、新しいMambaアーキテクチャをエンコーダーおよびデコーダーとして活用する、最先端の自動音声認識(ASR)モデルであるSamba ASRを提案します。このモデルは、状態空間モデル(SSM)を基盤として構築されており、従来のtransformerベースのASRモデルとは異なり、自己注意メカニズムに依存せず、効率的な状態空間ダイナミクスを使用して、ローカルおよびグローバルな時間依存関係を効果的にモデル化します。これにより、入力長との二次的スケーリングや長距離依存関係の取り扱いの難しさなど、transformerの制約を克服し、優れた精度と効率を実現します。 実験結果は、Samba ASRが標準ベンチマーク全般で既存のオープンソースのtransformerベースのASRモデルを上回り、ASRの最先端技術として確立されていることを示しています。ベンチマークデータセットでの包括的な評価により、単語誤り率(WER)で著しい改善が示され、リソースが限られた状況でも競争力のある性能が確認されます。さらに、Mambaアーキテクチャの計算効率とパラメータ最適化により、Samba ASRは多様なASRタスクに対するスケーラブルで堅牢なソリューションとなっています。 本研究の貢献は以下の通りです: 音声シーケンス処理においてSSMの優越性を示す新しいSamba ASRアーキテクチャ。最先端のパフォーマンスを示す公開ベンチマークの包括的評価。計算効率、ノイズへの頑健性、シーケンスの汎化能力の分析。この研究は、効率的かつ正確なASRのためのtransformerフリーな選択肢としてのMamba SSMの実現可能性を示しています。状態空間モデリングの進歩を活用することで、Samba ASRはASRパフォーマンスと将来の研究における新たな基準を確立しています。
この論文では、複数の特定のアイデンティティ(ID)写真を取り入れたビデオ作成をカスタマイズするための強力なフレームワークが提示されます。このフレームワークは、ビデオ拡散TransformerによってIngredientsと呼ばれる特定の要素を組み込むことで構成されています。一般的に、当社の手法は、次の3つの主要モジュールで構成されています:(i) 各人のIDごとにグローバルおよびローカルの視点から多目的かつ正確な顔の特徴を捉える顔抽出器;(ii) 顔の埋め込みをビデオ拡散Transformer内の画像クエリのコンテキスト空間にマッピングするマルチスケールプロジェクタ;(iii) 複数のID埋め込みを動的に組み合わせ、対応する空間-時間領域に割り当てるIDルータ。入念に選定されたテキスト-ビデオデータセットとマルチステージトレーニングプロトコルを活用することで、Ingredientsはカスタム写真をダイナミックで個人的なビデオコンテンツに変換する際に優れたパフォーマンスを発揮します。定性的評価は、提案された手法の利点を強調し、既存の手法と比較してTransformerベースのアーキテクチャにおけるより効果的な生成ビデオ制御ツールへの重要な進展と位置付けています。データ、コード、およびモデルの重みは以下で公開されています:https://github.com/feizc/Ingredients.
コミュニケーションのニーズには、プレゼンテーションスライドなどの構造化されたビジュアルデザインが不可欠であり、コンテンツ作成とビジュアルプランニングのスキルが必要とされます。本研究では、自然言語(NL)の指示からスライドプレゼンテーションを生成する自動化スライド生成の課題に取り組みます。まず、SlidesBenchベンチマークを紹介し、これは10のドメインから派生した310のスライドデッキから7,000のトレーニング例と585のテスト例を持つ、スライド生成のための初のベンチマークです。SlidesBenchは、(i)ターゲットスライドとの類似性を測定するためのリファレンスベースの評価、および(ii)生成されたスライドのデザイン品質を単独で測定するためのリファレンスフリーな評価をサポートしています。我々は、様々なモデルを用いてエンドツーエンドの画像生成とプログラム生成方法をベンチマークし、プログラム的な方法がユーザーが操作可能な形式でより高品質なスライドを生成することを発見しました。プログラム生成の成功を受けて、スライド生成のために7,000の指示とコードがペアになった8B LlamaベースのAutoPresentモデルを作成し、GPT-4oというクローズドソースモデルと比較可能な結果を達成しました。さらに、モデルに自身の出力を自己改善させるように課題を与える反復的なデザイン改善を探求し、このプロセスがスライドの品質を向上させることを見出しました。私たちの研究が構造化されたビジュアルを生成するための将来の研究の基盤となることを期待しています。
ビジョン言語モデル(VLMs)の急速な発展には、厳密で信頼性のある評価が求められます。ただし、現在のビジュアル質問応答(VQA)ベンチマークはしばしばオープンエンドの質問に依存しており、自然言語応答の変動があるため正確な評価が困難です。この問題に対処するために、我々はAutoConverterを導入します。これは、これらのオープンエンドの質問を自動的に多肢選択形式に変換するエージェントフレームワークであり、客観的な評価を可能にし、かつコストのかかる質問作成プロセスを削減します。私たちの実験では、AutoConverterが正確で challenging な多肢選択問題を生成できることを示し、VLMsがこれらの質問に対して人間が作成したものと比較して一貫して類似または低い精度を示すことを示しました。AutoConverterを使用して、20の既存のVQAデータセットを統一された多肢選択形式に変換して作成したベンチマークであるVMCBenchを構築し、合計9,018の質問が含まれています。我々はVMCBenchで33の最先端のVLMsを包括的に評価し、スケーラブルで一貫性があり再現性のあるVLMの評価の新基準を設定しました。
本論文では、ProTrackerという新しいフレームワークを提案し、動画内の任意のポイントの堅牢で正確な長期密なトラッキングを行います。当方法の主要なアイデアは、確率的統合を取り入れることで、光学フローと意味的特徴の両方からの複数の予測を洗練し、堅牢な短期および長期のトラッキングを実現することです。具体的には、光学フローの推定を確率的に統合し、各予測の尤度を最大化することで、滑らかで正確な軌跡を生成します。遮蔽によって消えたり再出現したりする難しいポイントを効果的に再ローカライズするために、長期特徴対応を光学フローの予測にさらに組み込み、連続的な軌跡生成を行います。広範な実験により、ProTrackerが教師なしおよび自己教師付きアプローチの中で最先端の性能を達成し、いくつかのベンチマークで教師付き方法を上回ることが示されました。当コードとモデルは、公開される予定です。