翻訳付きの日次キュレーションされたAI研究論文
画像とテキストのペアデータと比較して、交互に配置されたコーパスは、ビジョン・ランゲージ・モデル(VLM)が人間のように世界をより自然に理解するのを可能にします。ただし、既存のこれらのデータセットはウェブページからクロールされており、知識密度が低い、画像とテキストの関係が緩やかである、画像間の論理的な整合性が低いなどの課題に直面しています。一方、インターネットには広範囲にわたる指導ビデオ(例:オンライン幾何学コース)があり、これらは人間が基礎科目を学ぶために広く利用されていますが、VLMのトレーニングにおいては未だ未開拓の貴重なリソースです。本論文では、VLMの事前トレーニングにより豊富な基礎知識を提供する高品質なマルチモーダル教科書コーパスを紹介します。これは、2.5年以上にわたる指導ビデオを収集し、合計22,000時間の授業を提供しています。まず、LLMが提案するタクソノミーを使用して、指導ビデオを体系的に収集します。その後、ビデオから視覚的な知識(キーフレーム)、音声(ASR)、およびテキストの知識(OCR)を段階的に抽出および洗練し、時間的順序に基づいて画像とテキストが交互に配置されたコーパスとして整理します。他の類似物と比較して、当社のビデオ中心の教科書は、より整合性のあるコンテキスト、豊富な知識、およびより良い画像とテキストの整列を提供します。実験により、その優れた事前トレーニングパフォーマンスが示され、特にScienceQAやMathVistaなどの知識と推論が必要なタスクにおいて優れた結果を達成します。さらに、当社の教科書で事前トレーニングされたVLMは、タスク解決のためのフューショットコンテキストで視覚的およびテキストの手がかりを活用した優れた交互配置コンテキスト認識を示します。当社のコードは\url{https://github.com/DAMO-NLP-SG/multimodal_textbook}で入手可能です。
ビデオ生成の大幅な進歩があるにもかかわらず、特定のオブジェクトをビデオに挿入することは依然として難しい課題です。その難しさは、参照オブジェクトの外観詳細を保持し、同時に一貫した動きを正確にモデリングすることにあります。本論文では、高忠実度の詳細保存と正確なモーション制御を備えたゼロショットビデオオブジェクト挿入フレームワークであるVideoAnydoorを提案します。テキストからビデオモデルを起点とし、ID抽出器を使用してグローバルなアイデンティティを注入し、ボックスシーケンスを活用して全体の動きを制御します。詳細な外観を保存し、同時に細かいモーション制御をサポートするために、ピクセルワーパーを設計します。これは、任意のキーポイントを持つ参照画像と対応するキーポイントの軌跡を入力として受け取ります。軌跡に従ってピクセルの詳細を変形させ、変形した特徴を拡散U-Netと融合させることで、詳細の保存を向上させ、モーション軌跡の操作を支援します。さらに、ビデオと静止画の両方を使用し、再重み付け再構成損失を含むトレーニング戦略を提案して、挿入品質を向上させます。VideoAnydoorは、既存の手法に比べて著しい優位性を示し、タスク固有の微調整なしで、トーキングヘッド生成、ビデオ仮想試着、マルチリージョン編集など、さまざまな下流アプリケーションを自然にサポートします。
既存の大規模言語モデル(LLM)のコード推論能力の向上やOpenAI o1およびo3のような推論モデルのブレークスルーにより、彼らの高度な競技レベルのコーディング能力を効果的にテストするより困難で包括的なベンチマークを開発する必要性が高まっています。LiveCodeBenchやUSACOなどの既存のベンチマークは、非公開のテストケースが利用できないこと、特別なジャッジのサポートが不足していること、および実行環境が整合していないことから、不十分である。このギャップを埋めるために、私たちはCodeEloを導入しました。これは、初めてこれらの課題に効果的に対処する標準化された競技レベルのコード生成ベンチマークです。CodeEloベンチマークは、主に公式のCodeForcesプラットフォームに基づいており、プラットフォームとできるだけ整合するようにしています。CodeForcesの直近6ヶ月間のコンテスト問題を、コンテストの部門、問題の難易度評価、問題のアルゴリズムタグなどの詳細な情報とともに収集しました。問題はプラットフォームに直接提出され、プラットフォームと整合し、人間の参加者と比較可能でありながら分散が低い信頼性のあるEloレーティング計算システムを開発しました。CodeEloでのテストにより、30の既存の人気オープンソースLLMと3つのプロプライエタリLLMのEloレーティングを初めて提供します。その結果、o1-miniとQwQ-32B-Previewが著しく優れており、それぞれ1578と1261のEloレーティングを達成している一方、他のモデルは最も簡単な問題でも苦戦し、すべての人間参加者の最下位20%に位置しています。C++とPythonの使用を比較することで、アルゴリズム全体のパフォーマンスや将来の研究の方向性を示唆する、詳細な分析実験も実施されています。
最近、ビデオ大規模言語モデル(Video LLMs)は一般的なビデオ理解において顕著な能力を示しています。しかしながら、これらは主に包括的な理解に焦点を当てており、細かい空間的および時間的な詳細を捉えるのに苦労しています。さらに、高品質のオブジェクトレベルのビデオ指示データや包括的なベンチマークの欠如が彼らの進歩を妨げています。これらの課題に対処するために、私たちはVideo LLMをより細かい空間的-時間的なビデオ理解に向けて強化するために、VideoRefer Suiteを導入します。つまり、ビデオ全体を通じて任意のオブジェクトに対する知覚と推論を可能にします。特に、私たちはデータセット、モデル、およびベンチマークの3つの重要な側面にわたってVideoRefer Suiteを徹底的に開発しています。まず、多様なエージェントデータエンジンを導入して、大規模で高品質なオブジェクトレベルのビデオ指示データセットであるVideoRefer-700Kを入念にキュレーションします。次に、正確な地域的および連続的な表現を捉える汎用的な空間-時間オブジェクトエンコーダを備えたVideoReferモデルを提案します。最後に、Video LLMの空間-時間理解能力を包括的に評価するVideoRefer-Benchを入念に作成します。包括的な実験と分析により、私たちのVideoReferモデルがビデオ参照ベンチマークで有望なパフォーマンスを達成するだけでなく、一般的なビデオ理解能力を促進することが示されています。
LTX-Videoは、ホリスティックなアプローチを採用し、Video-VAEとdenoising transformerの責務をシームレスに統合する、トランスフォーマーベースの潜在拡散モデルです。これらのコンポーネントを独立したものとして扱う既存の手法とは異なり、LTX-Videoは相互作用を最適化して効率と品質を向上させることを目指しています。その中心には、高い圧縮比率である1:192を達成するように慎重に設計されたVideo-VAEがあり、32 x 32 x 8ピクセルごとの空間的時間的ダウンスケーリングをトークンごとに可能にするため、パッチ化操作をトランスフォーマーの入力からVAEの入力に移動させました。この高度に圧縮された潜在空間での動作により、トランスフォーマーは高解像度のビデオを時間的一貫性を持って生成するために不可欠な完全な空間時間的セルフアテンションを効率的に実行できます。ただし、高い圧縮は微細な詳細の表現を制限します。この問題に対処するため、VAEデコーダーは潜在からピクセルへの変換と最終的なノイズ除去ステップの両方を担当し、ピクセル空間で直接クリーンな結果を生成します。このアプローチにより、別個のアップサンプリングモジュールのランタイムコストを負担することなく、微細な詳細を生成する能力が維持されます。当モデルは、テキストからビデオや画像からビデオの生成など、さまざまなユースケースをサポートし、両方の機能を同時にトレーニングします。Nvidia H100 GPU上で、768x512解像度の24 fpsの5秒ビデオをわずか2秒で生成し、同様のスケールの既存モデルを凌駕する、リアルタイムよりも高速な生成を実現します。ソースコードと事前トレーニング済みモデルは一般に公開されており、利用可能でスケーラブルなビデオ生成の新たなベンチマークを設定しています。
トランスフォーマーアーキテクチャを用いた潜在拡散モデルは、高品質な画像生成に優れています。しかしながら、最近の研究では、この二段階設計における最適化のジレンマが明らかになっています。視覚トークナイザー内のトークンごとの特徴次元を増やすと再構成品質が向上する一方で、同等の生成性能を達成するには、大幅に大きな拡散モデルとより多くの訓練イテレーションが必要となります。その結果、既存のシステムはしばしば、視覚トークナイザー内の情報損失による視覚的なアーティファクトを生じるか、高コンピューテーションコストによる完全な収束を達成できない、サブオプティマルな解決策に妥協せざるを得ません。このジレンマは、制約のない高次元の潜在空間を学習することの困難性に起因すると主張します。この問題に対処するため、我々は、視覚トークナイザーの訓練時に潜在空間を事前学習されたビジョン基盤モデルと整合させることを提案します。提案されたVA-VAE(Vision foundation model Aligned Variational AutoEncoder)は、潜在拡散モデルの再構成-生成フロンティアを大幅に拡張し、高次元の潜在空間におけるDiffusion Transformers(DiT)の収束を迅速化します。VA-VAEの潜在能力を最大限に引き出すために、改良された訓練戦略とアーキテクチャ設計を備えた強化されたDiTベースラインであるLightningDiTを構築します。統合システムは、ImageNet 256x256生成においてFIDスコア1.35で最先端のパフォーマンスを達成し、64エポックでFIDスコア2.11に到達することで、元のDiTと比較して21倍以上の収束速度向上を実現します。モデルとコードは以下で入手可能です:https://github.com/hustvl/LightningDiT.
画像コンテンツの安全性は、オンラインプラットフォーム上での視覚メディアの台頭とともに重要な課題となっています。一方、AIによる生成コンテンツ(AIGC)の時代において、多くの画像生成モデルが性的または暴力的なコンテンツを含む有害なコンテンツを生成する能力を持っています。したがって、確立された安全ルールに基づいてこのような危険な画像を特定することが重要となります。事前学習された多モーダル大規模言語モデル(MLLMs)は、その強力なパターン認識能力から、この点で潜在的な可能性を提供しています。既存のアプローチでは、通常、人間によってラベル付けされたデータセットでMLLMsを微調整しますが、これにはいくつかの欠点があります。まず、複雑で詳細なガイドラインに従ってデータにラベルを付けるために人間の注釈者に依存することは、コストがかかり、労力がかかります。さらに、安全判断システムのユーザーは安全ルールを頻繁に更新する必要があるため、人間ベースの注釈による微調整がより困難になります。このことから、研究課題が提起されます:事前定義された安全憲法(安全ルールのセット)を用いて、ゼロショット設定でMLLMsにクエリを送信することで、危険な画像を検出することは可能でしょうか?私たちの研究では、単に事前学習されたMLLMsにクエリを送信するだけでは満足のいく結果が得られないことが示されました。この効果の不足は、安全ルールの主観性、長大な憲法の複雑さ、モデルの固有のバイアスなどの要因に起因しています。これらの課題に対処するために、私たちはMLLMに基づく手法を提案しています。この手法は、安全ルールを客観化し、ルールと画像との関連性を評価し、デバイアスされたトークン確率に基づいて論理的かつ簡素化された事前条件チェーンを使用して迅速な判断を行い、必要に応じて連鎖的な思考プロセスでより深い推論を行います。実験結果は、私たちの手法がゼロショット画像安全性判断タスクに非常に効果的であることを示しています。
自己訂正は、大規模言語モデル(LLM)が外部フィードバックなしで初期応答を自己検証および自己改善することを目指しています。しかし、LLMはしばしば効果的に自己検証を行い、正しいフィードバックを生成することに失敗し、誤ったフィードバックによる誤導が進行し、特に複雑な推論タスクでは自己訂正の失敗につながります。本論文では、プログラム駆動型自己訂正(ProgCo)を提案します。まず、プログラム駆動型検証(ProgVe)は、自己生成、自己実行検証疑似プログラムを介して複雑な検証ロジックと包括的な検証を実現します。次に、プログラム駆動型改善(ProgRe)は、ProgVeからフィードバックを受け取り、複雑な推論タスクにおける不正確なフィードバックの誤導を緩和するために、応答と検証プログラムの両方に対して二重の反映と改善を行います。3つの命令従属および数学的ベンチマークでの実験結果は、ProgCoが効果的な自己訂正を達成し、実際のプログラムツールと組み合わせることでパフォーマンスをさらに向上させることができることを示しています。
近年、大規模言語モデル(LLM)分野の重要な進歩により、AIエージェントがますます普及しています。モバイルGUIエージェントは、モバイルデバイス上でタスクを自律的に実行するよう設計されたAIエージェントのサブセットです。多くの研究がエージェント、データセット、およびベンチマークを導入してモバイルGUIエージェントの研究を推進していますが、既存のデータセットの多くは静的フレーム評価に焦点を当てており、実世界のタスクに対するパフォーマンスを包括的に評価するためのプラットフォームを提供していません。このギャップを埋めるために、私たちはAndroid Agent Arena(A3)という新しい評価プラットフォームを提案します。既存の実世界システムとは異なり、A3は次のような特長を備えています:(1)リアルタイムのオンライン情報検索や操作手順など、意味のある実用的なタスク;(2)より大きく柔軟なアクションスペースで、どのデータセットでトレーニングされたエージェントとも互換性があります;(3)自動化されたビジネスレベルのLLMベースの評価プロセス。A3には、一般的に使用されている21のサードパーティアプリと、一般的なユーザシナリオを代表する201のタスクが含まれており、実世界の状況でモバイルGUIエージェントを評価するための堅固な基盤と、より少ない人的労力とコーディングの専門知識での新しい自律評価プロセスを提供しています。プロジェクトはhttps://yuxiangchai.github.io/Android-Agent-Arena/ で入手可能です。
最近の基盤モデルの進歩により、AIシステムの自律的なツール使用と推論能力が向上しました。ただし、日常生活を最適化し、ナビゲーションを改善し、リソースの発見を容易にし、物流を効率化することで向上する、位置や地図ベースの推論能力は、系統的に研究されていませんでした。このギャップを埋めるために、地理空間推論を用いた多様で複雑な地図ベースのユーザークエリを評価するために設計されたベンチマークであるMapEvalを紹介します。MapEvalには、地図ツールを使用して世界情報を収集し、異種の地理空間コンテキスト(例:固有名詞、移動距離、ユーザーレビューや評価、画像)を処理し、合成推論を行うという3つのタスクタイプ(テキスト、APIベース、ビジュアル)が特徴として含まれています。これらは、すべての最先端の基盤モデルが難しいと認識しています。180の都市と54の国にまたがる場所に関する700のユニークな多肢選択問題を含むMapEvalは、基盤モデルが空間関係、地図インフォグラフィック、旅行計画、およびナビゲーションの課題を処理する能力を評価します。MapEvalを使用して、28の主要な基盤モデルの包括的な評価を実施しました。すべてのタスクで卓越したパフォーマンスを発揮した単一のモデルはありませんでしたが、Claude-3.5-Sonnet、GPT-4o、Gemini-1.5-Proが全体的に競争力のあるパフォーマンスを達成しました。ただし、特にMapEvalでは、Claude-3.5-Sonnetを使用したエージェントがGPT-4oとGemini-1.5-Proをそれぞれ16%と21%上回り、オープンソースのLLMと比較した際に差がさらに拡大しました。詳細な分析により、現在のモデルの強みと弱みについての洞察が提供されますが、すべてのモデルは、複雑な地図画像と厳密な地理空間推論に苦労しており、平均20%以上の人間のパフォーマンスには及んでいません。このギャップは、MapEvalが一般的な基盤モデルをより強力な地理空間理解に進化させる上で重要な役割を果たしていることを強調しています。
最近、大規模言語モデル(LLM)の登場により、ビデオに洗練された推論能力をもたらすVideo Large Language Models(VideoLLMs)が登場しました。ただし、VideoLLMsは現在、すべての視覚処理に1つのビジョンエンコーダーを使用しており、LLMに伝達できる視覚情報の量と種類が制限されています。私たちの手法、MERV(Multi-Encoder Representation of Videos)は、代わりに複数の凍結ビジュアルエンコーダーを活用してビデオの統一された表現を作成し、VideoLLMに包括的な専門的な視覚知識を提供します。各エンコーダーからの特徴を時空的に整列させることで、私たちは幅広いオープンエンドおよび多肢選択のビデオ理解の質問に取り組み、従来の最先端の作品を上回る成績を収めます。MERVは、標準的なビデオ理解ベンチマーク全体で、Video-LLaVAよりも最大3.7%の精度が向上し、さらに優れたVideo-ChatGPTスコアを持っています。また、ゼロショット知覚テストの精度において、以前の最高記録であるSeViLAを2.2%上回ります。MERVは、最小限の追加パラメータを導入し、同等の単一エンコーダーメソッドよりも高速にトレーニングを行いながら、視覚処理を並列化します。最後に、MERVが各エンコーダーからドメイン知識を成功補足していることを定性的に証明します。私たちの結果は、包括的なビデオ理解のために複数のビジョンエンコーダーを活用する有望な方向を示しています。
現在の大規模言語モデル(LLM)は、コード生成などの複雑な推論タスクにおいて、初回の試行で正確な応答を生成することが難しいことがよくあります。これに対処する先行研究では、複数の候補解を生成し、LLMが生成した単体テストでそれらを検証することでこの課題に取り組んでいます。単体テストの実行結果は、正しい解を特定するための報酬信号として機能します。LLMは常に自信を持って間違いを com するため、これらの単体テストは信頼性に欠け、報酬信号の品質が低下します。解の数をスケーリングすることがLLMのパフォーマンスを向上させることを示す観察に基づき、報酬信号の品質を向上させるために単体テストのスケーリングの影響を探究します。当初の実験では、単体テストの数と報酬信号の品質との間に正の相関があり、より困難な問題ではより大きな利益が観察されました。これらの知見に基づき、効率的で高品質な単体テストのスケーリングを可能にする軽量な単体テストジェネレータであるCodeRM-8Bを提案します。さらに、問題の難易度に基づいて単体テストの数を適応させる動的スケーリングメカニズムを実装し、効率をさらに向上させます。実験結果は、当社の手法がさまざまなモデルで性能を大幅に向上させることを示し、3つのベンチマーク(例:Llama3-8Bで18.43%、GPT-4o-miniで3.42%の向上)でその効果が確認されました。
特定の被写体の画像を生成するためにテキストから画像モデルを個人化することは、多様なシーンやスタイルにわたって急速に進化している分野です。現在の手法は、しばしばアイデンティティの保存と入力テキストプロンプトとの整合性のバランスを保つことに課題を抱えています。一部の手法は、被写体を表すために単一のテキストトークンに依存しており、表現力が制限されますが、他の手法はより豊かな表現を用いていますが、モデルの事前情報を乱し、プロンプトの整合性を低下させます。本研究では、新しいメカニズムであるNested Attentionを導入し、モデルの既存のクロスアテンション層に豊かで表現力豊かな画像表現を注入します。主要なアイデアは、生成された画像の各領域に対して関連する被写体の特徴を選択することを学習するネストされたアテンション層から派生した、クエリ依存の被写体値を生成することです。これらのネストされた層をエンコーダベースの個人化手法に統合し、高いアイデンティティの保存を可能にしつつ、入力テキストプロンプトに忠実であることを示します。この手法は一般的であり、さまざまなドメインで訓練できます。さらに、その事前情報の保存により、異なるドメインからの複数の個人化された被写体を単一の画像に組み合わせることができます。
ビデオの修復は、未知の劣化から時間的に一貫した詳細を回復しながら忠実性を維持するという非トリビアルな課題を抱えています。拡散に基づく修復の最近の進歩にもかかわらず、これらの方法はしばしば生成能力とサンプリング効率に制限を受けます。本研究では、SeedVRと呼ばれる拡散トランスフォーマーを提案し、任意の長さと解像度のリアルワールドのビデオ修復を処理するよう設計されています。SeedVRの中核設計は、効果的な修復を可能にするシフトされたウィンドウアテンションにあります。SeedVRは、従来のウィンドウアテンションの解像度制約を克服するために、空間および時間の次元の両方の境界近くに可変サイズのウィンドウをサポートしています。因果関係のあるビデオオートエンコーダー、混合画像とビデオのトレーニング、およびプログレッシブトレーニングを含む現代的な手法を備えたSeedVRは、合成およびリアルワールドのベンチマーク、およびAI生成のビデオで非常に競争力のあるパフォーマンスを達成しています。包括的な実験は、SeedVRが一般的なビデオ修復の既存の方法に対して優位性を示しています。
Google マップ、Apple マップ、OpenStreet マップなどのマッピングおよびナビゲーションサービスは、さまざまな位置情報データにアクセスするために不可欠ですが、自然言語の地理空間クエリを処理するのに苦劦することがよくあります。最近の大規模言語モデル(LLM)の進歩は、質問応答(QA)において希望を示していますが、地図サービスから信頼性の高い地理空間QAデータセットを作成することは依然として難しいです。私たちは、MapQaTorというWebアプリケーションを紹介します。これは再現可能で追跡可能な地図ベースのQAデータセットの作成を効率化します。プラグアンドプレイのアーキテクチャにより、MapQaTorはどんな地図APIともシームレスに統合でき、ユーザーは最小限のセットアップでさまざまなソースからデータを収集し、可視化できます。APIのレスポンスをキャッシュすることで、プラットフォームは一貫したグラウンドトゥルースを確保し、現実世界の情報が進化してもデータの信頼性を向上させます。MapQaTorはデータの取得、注釈付け、可視化を1つのプラットフォーム内で集約し、LLMに基づく地理空間推論の現状を評価する独自の機会を提供しつつ、その機能を向上させることで地理空間理解を向上させます。評価メトリクスによると、MapQaTorは手動方法と比較して少なくとも30倍の速さで注釈付けプロセスを加速させることが示され、複雑な地図推論データセットなどの地理空間リソースの開発における潜在能力を強調しています。ウェブサイトはこちらでご覧いただけます:https://mapqator.github.io/、デモ動画はこちらでご覧いただけます:https://youtu.be/7_aV9Wmhs6Q。
構造化状態空間モデル(SSM)は、トランスフォーマーの代替手段として登場しています。SSMはしばしば長いシーケンスの依存関係を捉えるのに効果的であるとされていますが、我々は厳密に証明することで、SSMが強い最近傾向バイアスによって本質的に制限されていることを明らかにします。我々の実証研究では、このバイアスがモデルの遠い情報を思い出す能力を損ない、頑健性の問題を導入することがわかりました。スケーリング実験では、SSM内のより深い構造が長い文脈の学習を促進できることが発見されました。しかし、後続の理論的分析では、SSMが深くなるにつれて、別の避けられない過度な平滑化の傾向が現れることが明らかになりました。たとえば、トークン表現がますます区別できなくなるというものです。この最近性と過度な平滑化の基本的なジレンマは、既存のSSMの拡張性を妨げています。理論的な発見に触発され、我々はSSM内の状態遷移行列の2つのチャンネルを極性化することを提案し、それぞれをゼロと1に設定することで、最近性バイアスと過度な平滑化の両方に同時に対処します。実験では、この極性化技術が一貫して長距離トークンの連想的な思い出し精度を向上させ、SSMがさらに深いアーキテクチャからさらなる恩恵を受けることを示しています。すべてのソースコードはhttps://github.com/VITA-Group/SSM-Bottleneckで公開されています。
拡散モデルは、高品質な時系列(TS)データを生成する能力を示しています。初期の成功にもかかわらず、既存の研究は主に個々のデータの信頼性に焦点を当てており、データ全体の人口レベルの特性を保持することにはあまり注意が払われていません。このような人口レベルの特性には、各次元の値分布や異なる次元間の特定の機能的依存関係(例:クロス相関、CC)の分布が含まれます。例えば、家庭のエネルギー消費のTSデータを生成する際には、外気温とキッチン温度の値分布、およびそれらの間のCCの分布を保持する必要があります。このようなTSの人口レベルの特性を保持することは、データセットの統計的洞察を維持し、モデルのバイアスを軽減し、TS予測などの下流タスクを強化する上で重要です。しかし、これは既存のモデルではしばしば見過ごされています。したがって、既存のモデルによって生成されたデータは、元のデータからの分布シフトを持つことがよくあります。私たちは、時系列(TS)データの人口レベルの特性をよりよく保持する新しいTS生成モデルであるPopulation-aware Diffusion for Time Series(PaD-TS)を提案します。PaD-TSの主な特長は、1) TSの人口レベルの特性の保存を明示的に組み込んだ新しいトレーニング方法、および2) TSデータ構造をよりよく捉える新しいデュアルチャンネルエンコーダーモデルアーキテクチャです。主要なベンチマークデータセットでの実証結果は、PaD-TSが、実データと合成データの平均CC分布シフトスコアを5.9倍改善し、個別レベルの信頼性に関して最先端のモデルと同等の性能を維持できることを示しています。
トランスフォーマーは、予測を行うためにコンテンツベースと位置ベースのアドレッシングメカニズムの両方に依存していますが、既存の位置符号化技術はしばしば位置ベースのアドレッシングの効果を低下させます。多くの現行手法は、注意マップに厳格なパターンを強制し、長距離依存関係をモデル化する能力を制限し、さまざまなタスクに適応する能力を制限しています。さらに、ほとんどの位置符号化は一般的なバイアスとして学習されており、データセット内の異なるインスタンスに必要な特殊化が欠けています。この問題に対処するために、我々はコンテキストに依存した同変位置埋め込み(TAPE)という新しいフレームワークを提案します。TAPEは、シーケンスのコンテンツをレイヤー全体にわたって組み込むことで位置埋め込みを強化します。TAPEは、動的でコンテキストに敏感な位置符号化を導入し、従来の固定パターンの制約を克服します。順列と直交同変性を強制することで、TAPEは位置符号化の安定性を保ち、更新中にロバスト性と適応性を向上させます。我々の手法は、事前学習されたトランスフォーマーに簡単に統合でき、最小限のオーバーヘッドでパラメータ効率の良いファインチューニングを提供します。広範な実験により、TAPEが既存の位置埋め込み技術と比較して言語モデリング、算術推論、および長いコンテキストの検索タスクで優れたパフォーマンスを達成することが示されています。
人間の行動理解は、マルチモーダルシステムの進歩にとって重要です。最近の進展は、強力な大規模言語モデル(LLMs)によって推進され、広範なカテゴリをカバーするために一般的であることを目指していますが、より具体的な能力の必要性をしばしば見落としています。本研究では、より困難なFine-grained Action Recognition(FAR)のタスクに取り組みます。これは、より短い時間的期間内で詳細な意味ラベルに焦点を当てています(例:「1回転を伴う後方宙返り」)。細かいラベルの注釈付けの高コストと、LLMsの微調整に必要な大規模なデータのため、半教師あり学習(SSL)を採用することを提案します。当社のフレームワーク、SeFARは、これらの課題に取り組むためにいくつかの革新的な設計を組み込んでいます。具体的には、十分な視覚的詳細を捉えるために、より効果的な表現としてデュアルレベルの時間要素を構築し、これに基づいてTeacher-Student学習パラダイムのための新しい強力な拡張戦略を設計するために、適度な時間的摂動を取り入れます。さらに、FARのための教師モデルの予測における高い不確実性を処理するために、学習プロセスを安定化させるためのAdaptive Regulationを提案します。実験結果は、SeFARがFineGymとFineDivingの2つのFARデータセットで最先端の性能を達成し、さまざまなデータスコープで他の半教師あり手法を上回っていることを示しています。さらに、UCF101とHMDB51の2つの古典的な粗いデータセットで、他の半教師あり手法を凌駕しています。さらなる分析と削除研究は、当社の設計の有効性を検証しています。さらに、SeFARによって抽出された特徴が、マルチモーダル基盤モデルが細かい意味やドメイン固有の意味を理解する能力を大幅に向上させることを示しています。