翻訳付きの日次キュレーションされたAI研究論文
本論文では、法律分野に特化した2つの大規模言語モデル(LLM)、SaulLM-54BとSaulLM-141Bを紹介する。これらのモデルは、それぞれ540億と1410億のパラメータを備えたMixtralアーキテクチャを基盤としている。SaulLM-54BとSaulLM-141Bの開発は、大規模なドメイン適応に基づいており、以下の3つの戦略に分けられる:(1) 5400億以上の法律関連トークンを含む基本コーパスを用いた継続的な事前学習の活用、(2) 法律分野に特化した指示追従プロトコルの実装、(3) 法律解釈におけるモデル出力と人間の選好の整合。第2および第3のステップでは、合成生成データを統合することで、法律文書の解釈と処理におけるモデルの能力が向上し、LegalBench-Instructにおいて最先端の性能を達成し、従来のオープンソースモデルを凌駕した。本研究は、この規模でのドメイン特化適応に伴うトレードオフを探り、強力なデコーダモデルを用いたドメイン適応に関する将来の研究に役立つ知見を提供する。SaulLM-7Bを基盤として、本研究は法律タスクに適したLLMを生成するためのアプローチを洗練させた。再利用と共同研究を促進するため、SaulLM-54BとSaulLM-141Bの基本版、指示版、および整合版をMITライセンスの下で公開する。
大うつ病性障害(MDD)は、世界中で3億人に影響を及ぼす広範な精神疾患です。本研究では、臨床面接記録からうつ病を二値分類するための、BiLSTMベースの新規なトリモーダルモデルレベル融合アーキテクチャを提案します。提案アーキテクチャは、メル周波数ケプストラム係数、顔面動作単位を組み込み、テキストデータ処理には2ショット学習ベースのGPT-4モデルを使用します。本タスクにおいて大規模言語モデルをマルチモーダルアーキテクチャに組み込んだ初めての研究であり、DAIC-WOZ AVEC 2016チャレンジのクロスバリデーション分割およびLeave-One-Subject-Outクロスバリデーション分割において、全てのベースラインモデルおよび複数の最先端モデルを上回る印象的な結果を達成しました。Leave-One-Subject-Outテストでは、精度91.01%、F1スコア85.95%、適合率80%、再現率92.86%を記録しています。
大規模言語モデル(LLMs)は様々なタスクで顕著な能力を示してきたが、その開発は主に英語や中国語といった高リソース言語に集中しており、低リソース言語は十分な支援を受けていない。この格差を解消するため、我々は東南アジア言語に特化したSeaLLMsモデルファミリーの最新版であるSeaLLMs 3を提案する。この地域は豊かな言語的多様性を特徴とするが、適切な言語技術支援が不足している。SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される広範な言語をカバーすることで、このギャップを埋めることを目指している。効率的な言語強化技術と特別に構築された指示チューニングデータセットを活用することで、SeaLLMs 3は高い性能と汎用性を維持しながら、トレーニングコストを大幅に削減している。我々のモデルは、世界知識、数学的推論、翻訳、指示追従などのタスクで優れた性能を発揮し、同規模のモデルの中で最先端の性能を達成している。さらに、一般的な考慮事項と文化固有の考慮事項の両方に対処し、幻覚を減らすメカニズムを組み込むことで、安全性と信頼性を優先した。この研究は、包括的なAIの重要性を強調し、先進的なLLMの能力が支援を受けていない言語的・文化的コミュニティにも恩恵をもたらし得ることを示している。
ビデオ拡散モデルは、様々なビデオ生成アプリケーションにおいて大幅な進展を遂げてきました。しかし、長いビデオ生成タスクのためのモデルを訓練するには、多大な計算リソースとデータリソースが必要であり、長いビデオ拡散モデルの開発に課題を投げかけています。本論文では、既存の短いビデオ拡散モデル(例えば、16フレームのビデオで事前訓練されたモデル)を一貫した長いビデオ生成(例えば、128フレーム)に拡張するための、シンプルで訓練不要なアプローチを探求します。我々の予備的な観察では、短いビデオ拡散モデルを直接長いビデオ生成に適用すると、ビデオ品質の大幅な劣化が生じることがわかりました。さらに調査を進めた結果、この劣化は主に長いビデオにおける高周波成分の歪みによるものであり、空間的な高周波成分の減少と時間的な高周波成分の増加が特徴であることが明らかになりました。これに動機づけられて、我々は、長いビデオの特徴量の周波数分布をノイズ除去プロセス中にバランスさせるための新しい解決策「FreeLong」を提案します。FreeLongは、ビデオシーケンス全体を包含するグローバルなビデオ特徴量の低周波成分と、より短いフレームのサブシーケンスに焦点を当てたローカルなビデオ特徴量の高周波成分をブレンドします。このアプローチは、グローバルな一貫性を維持しながら、ローカルなビデオから多様で高品質な時空間的詳細を取り入れ、長いビデオ生成の一貫性と忠実度を向上させます。我々は、複数のベースビデオ拡散モデルに対してFreeLongを評価し、大幅な改善を確認しました。さらに、我々の手法は、視覚的な一貫性とシーン間のシームレスな遷移を保証する、コヒーレントなマルチプロンプト生成をサポートします。
視覚に基づくロボットポリシー学習は、視覚入力を行動にマッピングするために、分類やセグメンテーションといった単一タスクのニーズを超えた多様な視覚タスクの包括的な理解を必要とします。これに着想を得て、我々はTheiaを提案します。Theiaは、様々な視覚タスクで訓練された複数の既存の視覚基盤モデルを蒸留した、ロボット学習のための視覚基盤モデルです。Theiaの豊富な視覚表現は多様な視覚知識を符号化し、下流のロボット学習を強化します。大規模な実験により、Theiaは教師モデルや従来のロボット学習モデルを上回り、より少ない訓練データとより小さいモデルサイズで優れた性能を発揮することが示されました。さらに、事前訓練された視覚表現の品質を定量化し、特徴量ノルム分布のエントロピーが高いほどロボット学習の性能が向上するという仮説を立てました。コードとモデルはhttps://github.com/bdaiinstitute/theiaで公開されています。
情報探索と統合は、膨大な時間と労力を要する複雑な認知タスクです。大規模言語モデル(LLM)の目覚ましい進歩に触発され、最近の研究ではLLMと検索エンジンを組み合わせてこのタスクを解決しようと試みています。しかし、これらの手法は依然として満足のいく性能を達成できていません。その理由は3つの課題にあります:(1)複雑なリクエストは、しばしば検索エンジンによって正確かつ完全に検索されないこと、(2)統合すべき対応する情報が複数のウェブページに分散しており、大量のノイズが含まれていること、(3)長い内容を持つ多数のウェブページがLLMの最大コンテキスト長をすぐに超えてしまうことです。これらの問題を人間が解決する際の認知プロセスに着想を得て、我々はウェブ情報の探索と統合において人間の思考を模倣するMindSearchを提案します。これは、シンプルでありながら効果的なLLMベースのマルチエージェントフレームワークとして具現化されます。WebPlannerは、多段階の情報探索を人間の思考としてモデル化し、それを動的なグラフ構築プロセスとして表現します。ユーザークエリをグラフのノードとしての原子サブ質問に分解し、WebSearcherからの検索結果に基づいてグラフを段階的に拡張します。各サブ質問を担当するWebSearcherは、検索エンジンを用いた階層的な情報検索を実行し、WebPlannerにとって価値ある情報を収集します。MindSearchのマルチエージェント設計により、フレームワーク全体が大規模な(例えば300以上)ウェブページから並列的に情報を探索・統合することが可能となり、3分間で人間の3時間分の労力を節約できます。MindSearchは、閉じたQA問題と開いたQA問題の両方において、深さと広さの観点で応答品質の大幅な向上を示しています。さらに、InternLM2.5-7Bに基づくMindSearchの応答は、ChatGPT-WebやPerplexity.aiアプリケーションよりも人間に好まれることが示されており、MindSearchが既にプロプライエタリなAI検索エンジンに対して競争力のあるソリューションを提供できることを示唆しています。
大規模言語モデル(LLM)の最近の進歩により、人間のようなエージェントとしての能力を評価するための包括的なベンチマークの需要が高まっています。既存のベンチマークは有用ではあるものの、特定のアプリケーションシナリオに焦点を当てることが多く、タスクの完了を重視する一方で、これらの結果を支える基盤となるスキルを詳細に分析することには失敗しています。この粒度の欠如は、失敗の原因を深く理解することを困難にしています。さらに、これらの環境を設定するには多大な労力が必要であり、特にインタラクティブなタスクでは、信頼性や再現性の問題が生じることがあります。これらの制限に対処するため、我々はMassive Multitask Agent Understanding(MMAU)ベンチマークを導入します。これは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としており、モデルを5つのドメイン(\teal{ツール使用}、\teal{有向非巡回グラフ(DAG)QA}、\teal{データサイエンスと機械学習コーディング}、\teal{コンテストレベルのプログラミング}、\teal{数学})で評価し、5つの重要な能力(\orange{理解}、\orange{推論}、\orange{計画}、\orange{問題解決}、\orange{自己修正})をカバーします。合計20の綿密に設計されたタスクと3,000以上の異なるプロンプトを含むMMAUは、LLMエージェントの強みと限界を評価するための包括的なフレームワークを提供します。18の代表的なモデルをMMAUでテストすることで、深く洞察に満ちた分析を提供します。最終的に、MMAUはLLMエージェントの能力と限界を明らかにするだけでなく、そのパフォーマンスの解釈可能性を高めます。MMAUのデータセットと評価スクリプトはhttps://github.com/apple/axlearn/docs/research/mmauで公開されています。
コントラスティブ言語-画像事前学習(CLIP)は、ドメインやモダリティを超えたオープンワールド表現を抽象化する能力に優れており、様々な視覚およびマルチモーダルタスクの基盤となっています。しかし、最近の研究では、CLIPには方向性、数量、色、構造などをほとんど区別できないといった深刻な視覚的欠点があることが明らかになっています。これらの視覚的欠点は、CLIPを基盤としたマルチモーダル大規模言語モデル(MLLMs)の知覚能力も制限しています。その主な理由は、CLIPの訓練に使用される画像-テキストペアが、テキストの明確さや画像の多様性の欠如により、本質的に偏っているためと考えられます。本研究では、CLIPモデルの視覚的欠点を自己教師あり拡散プロセスを通じて大幅に克服する、シンプルな事後訓練アプローチを提案します。我々は、DIffusionモデルをCLIPのVisual Assistantとして利用するDIVAを紹介します。具体的には、DIVAはテキストから画像への拡散モデルからの生成的フィードバックを活用し、対応するテキストなしで画像のみを用いてCLIP表現を最適化します。DIVAが、細かな視覚能力を大きく評価するMMVP-VLMベンチマークにおいてCLIPの性能を大幅に向上させること(例:3-7%)、およびMLLMsや視覚モデルのマルチモーダル理解とセグメンテーションタスクにおける性能を向上させることを実証します。29の画像分類および検索ベンチマークでの広範な評価により、我々のフレームワークがCLIPの強力なゼロショット能力を維持していることが確認されました。コードはhttps://github.com/baaivision/DIVAで公開予定です。
視覚メディア(画像と動画)は、本質的に大量の情報冗長性を含んでおり、処理効率を活用するための大きな機会を提供します。Vision Transformer (ViT) ベースのモデルは大規模なデータレジームに効果的にスケールしますが、この内在的な冗長性を活用できず、計算コストが高くなります。Mixture of Experts (MoE) ネットワークは、推論時のコストを維持しながらスケーラビリティを示しますが、より大きなパラメータフットプリントを伴います。本論文では、Mixture of Nested Experts (MoNE) を提案します。MoNE は、ネストされた構造をエキスパートに利用し、個々のエキスパートが計算精度曲線に沿って配置されます。与えられた計算予算のもと、MoNE はトークンを優先順位に従って動的に選択し、冗長なトークンはより低コストのネストされたエキスパートを通じて処理されます。このフレームワークを使用することで、ベースラインモデルと同等の性能を達成しつつ、推論時の計算量を2倍以上削減します。我々のアプローチを、標準的な画像および動画データセット(ImageNet-21K、Kinetics400、Something-Something-v2)で検証します。さらに、MoNE の適応性を強調するために、単一の訓練済みモデルを使用して、異なる推論時の計算予算においても動画に対して強力な性能を維持できることを示します。
数学的推論タスクにおける言語モデル(LM)の効果的な訓練には、高品質な教師付きファインチューニングデータが必要です。人間の専門家によるアノテーションを取得する以外に、一般的な代替手段として、より大規模で強力なLMからのサンプリングがあります。しかし、この知識蒸留アプローチはコストがかかり不安定であり、特にGPT-4のようなクローズドソースのプロプライエタリLMに依存する場合、その挙動が予測不能であることが多いです。本研究では、小規模なLMの推論能力が、モデルが自身の出力から学習するセルフトレーニングを通じて向上することを示します。また、従来のセルフトレーニングを、Direct Preference Optimization(DPO)と呼ばれる選好学習アルゴリズムによってさらに強化できることも示します。DPOをセルフトレーニングに統合することで、選好データを活用してLMをより正確で多様な連鎖的思考(chain-of-thought)推論に導きます。さまざまな数学的推論タスクにおいて異なるベースモデルを使用して本手法を評価します。実験結果から、このアプローチがLMの推論性能を向上させるだけでなく、大規模なプロプライエタリLMに依存するよりもコスト効率が高くスケーラブルなソリューションを提供することが示されました。
近年の3D大規模再構成モデルは、通常2段階のプロセスを採用しています。まず、マルチビューディフュージョンモデルによってマルチビュー画像を生成し、その後フィードフォワードモデルを用いて画像を3Dコンテンツに再構成します。しかし、マルチビューディフュージョンモデルはしばしば低品質で一貫性のない画像を生成し、最終的な3D再構成の品質に悪影響を及ぼします。この問題を解決するため、我々はCycle3Dと呼ばれる統一された3D生成フレームワークを提案します。これは、マルチステップのディフュージョンプロセス中に2Dディフュージョンベースの生成モジュールとフィードフォワード3D再構成モジュールを循環的に利用するものです。具体的には、2Dディフュージョンモデルは高品質なテクスチャ生成に適用され、再構成モデルはマルチビュー一貫性を保証します。さらに、2Dディフュージョンモデルは生成されるコンテンツをさらに制御し、未見のビューに対して参照ビュー情報を注入することができ、これによりノイズ除去プロセス中の3D生成の多様性とテクスチャ一貫性が向上します。大規模な実験により、我々の手法が最先端のベースラインと比較して、高品質かつ一貫性のある3Dコンテンツを作成する優れた能力を有していることが実証されました。
誰かが腕をかいているのを見かけたとしよう。その理由を理解するためには、追加の文脈が必要となる。しかし、近くに蚊がいることに気づけば、その人の不快感の理由として即座に納得のいく説明が得られ、それ以上の情報を必要としなくなる。この例は、微妙な視覚的手掛かりが私たちの認知能力に挑戦し、視覚的シナリオを解釈することの複雑さを示している。これらのスキルを研究するために、私たちは「Visual Riddles」というベンチマークを提示する。これは、常識や世界知識を必要とする視覚的ななぞなぞにおいて、視覚と言語モデルをテストすることを目的としている。このベンチマークは、400の視覚的ななぞなぞで構成されており、それぞれが様々なテキストから画像を生成するモデルによって作成されたユニークな画像、質問、正解、テキストのヒント、および帰属情報を含んでいる。人間による評価では、既存のモデルは82%の精度を持つ人間のパフォーマンスに大きく遅れをとっており、Gemini-Pro-1.5が40%の精度でトップとなっている。私たちのベンチマークは、評価をスケーラブルにするための自動評価タスクを備えている。これらの発見は、Visual Riddlesが複雑な視覚的シナリオを解釈するための視覚と言語モデルの能力を向上させるための貴重なリソースとしての可能性を強調している。
3Dマルチモーダル質問応答(MQA)は、インテリジェントエージェントが3D環境内で周囲を理解することを可能にすることで、シーン理解において重要な役割を果たします。既存の研究は主に屋内の家庭用タスクや屋外の道路沿いの自動運転タスクに焦点を当ててきましたが、都市レベルのシーン理解タスクの探求は限られています。さらに、既存の研究は、都市レベルでの空間的意味情報や人間と環境の相互作用情報の欠如により、都市シーンの理解に課題を抱えています。これらの課題に対処するため、我々はデータセットと手法の両方の観点から3D MQAを調査します。データセットの観点から、我々は都市レベルのシーン理解のための新しい3D MQAデータセット「City-3DQA」を導入します。これは、都市内でのシーン意味と人間と環境の相互作用タスクを組み込んだ初めてのデータセットです。手法の観点から、我々はシーングラフを活用して空間的意味を導入する「Scene graph enhanced City-level Understanding method(Sg-CityU)」を提案します。新しいベンチマークが報告され、我々が提案するSg-CityUは、City-3DQAの異なる設定で63.94%と63.76%の精度を達成しました。屋内3D MQA手法や先進的な大規模言語モデル(LLM)を使用したゼロショットと比較して、Sg-CityUはロバスト性と汎化性能において最先端(SOTA)の性能を示しています。
古典アラビア語は、アラブ文化、哲学、科学文献の黄金時代を包括する重要な時代を表しています。これらの文献を翻訳し、知識の普及を促進することの重要性については広く合意が得られており、大規模言語モデル(LLMs)や翻訳システムの登場は、この目標を達成するための有望なツールを提供しています。しかし、古典アラビア語の翻訳データセットが不足しており、その範囲やトピックが限られていることが、高品質な翻訳システムの開発を妨げていることが明らかになりました。これに対応して、私たちはATHARデータセットを提示します。このデータセットは、科学、文化、哲学など多岐にわたる主題をカバーする66,000の高品質な古典アラビア語から英語への翻訳サンプルで構成されています。さらに、現在の最先端のLLMsの性能をさまざまな設定で評価し、現在のシステムにはこのようなデータセットが必要であると結論付けました。私たちの調査結果は、モデルがこのデータセットをファインチューニングしたり、事前学習パイプラインに組み込むことでどのように恩恵を受けるかを強調しています。このデータセットは、HuggingFace Data Hubで公開されており、以下のURLからアクセスできます:https://huggingface.co/datasets/mohamed-khalil/ATHAR。
大規模言語モデル(LLMs)は多くの領域で人間の知識を急速に凌駕しつつある。これらのモデルを改善する従来の方法は、高コストな人間によるデータに依存していたが、最近の自己報酬メカニズム(Yuan et al., 2024)により、LLMsが人間のラベラーに頼らずに自身の応答を評価することで改善できることが示された。しかし、既存の手法は主にモデルの応答能力の改善に焦点を当てており、判断能力の向上には至らず、反復的なトレーニング中に急速に飽和してしまうという課題があった。この問題を解決するため、我々は自己改善プロセスに新たな「メタ報酬」ステップを導入し、モデルが自身の判断を評価し、そのフィードバックを用いて判断能力を洗練させる方法を提案する。驚くべきことに、この教師なしアプローチは、モデルの指示を判断し従う能力を向上させることが実証され、Llama-3-8B-InstructのAlpacaEval 2における勝率が22.9%から39.4%に、Arena-Hardでは20.6%から29.1%に向上した。これらの結果は、人間の監督なしで自己改善するモデルの可能性を強く示唆している。
拡散モデル(DMs)、変分自己符号化器(VAEs)、生成的敵対ネットワーク(GANs)などの生成モデルは、本物の写真や芸術作品とほとんど見分けがつかないほどのリアリティを持つ画像を生成します。この能力は多くの産業にとって有益ですが、合成画像を識別する難しさにより、オンラインメディアプラットフォームはなりすましや誤情報の試みに対して脆弱になっています。防御手法の開発を支援するため、既存のリソースにおける潜在的なバイアスを軽減するために設計された、高解像度でバランスの取れた合成画像検出用データセット「ImagiNet」を紹介します。ImagiNetは20万の例を含み、写真、絵画、顔、未分類の4つのコンテンツカテゴリにまたがっています。合成画像はオープンソースおよびプロプライエタリな生成器で生成され、同じコンテンツタイプの本物の画像は公開データセットから収集されています。ImagiNetの構造により、二つの評価システムが可能です:i) 本物または合成の分類、ii) 生成モデルの識別。ベースラインを確立するため、各トラックに対して自己教師ありコントラスティブ目的関数(SelfCon)を使用してResNet-50モデルを学習させました。このモデルは、確立されたベンチマークにおいて最先端の性能と高い推論速度を示し、AUCが最大0.99、バランス精度が86%から95%の範囲を達成しました。これは、圧縮やリサイズを含むソーシャルネットワークの条件下でも同様です。データとコードはhttps://github.com/delyan-boychev/imaginetで公開されています。
感情分析は、自然言語処理(NLP)分野において広く研究されている領域であり、自動化ソリューションの登場により大きな関心を集めています。しかし、言語の本質的な複雑さと感情の主観的な性質により、このタスクは依然として困難です。特に、リトアニア語のような研究が少なくリソースが限られた言語では、その難易度はさらに高まります。既存のリトアニア語NLP研究をレビューした結果、従来の機械学習手法や分類アルゴリズムはこのタスクに対して限定的な効果しかないことが明らかになりました。本研究では、複数のドメインから収集しクリーニングしたリトアニア語の5段階評価に基づくオンラインレビューを対象に、感情分析を行います。このタスクに初めてトランスフォーマーモデルを適用し、事前学習済みの多言語大規模言語モデル(LLM)の能力を探求します。具体的には、BERTモデルとT5モデルのファインチューニングに焦点を当てます。タスクの本質的な難しさを考慮すると、ファインチューニングされたモデルは特に感情が曖昧でない場合に良好な性能を示し、最も一般的な1段階評価と5段階評価のレビューに対するテスト認識精度はそれぞれ80.74%と89.61%でした。これらのモデルは、現在の商用汎用LLMであるGPT-4を大幅に上回る性能を示しました。ファインチューニングされたLLMはオンラインで公開しています。
従来、個人向けのフォトリアルなアバターを作成するには、LightStageシステムのような複雑で高価なスタジオ機器を用いた大規模なキャプチャセッションが必要でした。最近のニューラル表現の進歩により、スマートフォンでの簡単なスキャンからフォトリアルでアニメーション可能な3Dアバターを生成できるようになりましたが、キャプチャ時の照明が焼き付けられていたり、顔のディテールが不足していたり、耳の後ろなどの領域が欠落していたりするため、スタジオでキャプチャされたアバターに比べて品質が劣っていました。本論文では、短時間の単眼スマートフォンキャプチャからスタジオのような照明のテクスチャマップを生成することで、このギャップを埋める手法を提案します。これを行うために、StyleGAN2のW^+空間を使用してスマートフォンのテクスチャマップをパラメータ化し、ほぼ完璧な再構成を可能にします。次に、非常に少数のスタジオキャプチャされたテクスチャを敵対的学習信号として使用して、W^+パラメータ化空間でサンプリングすることでStyleGAN2を微調整します。顔のディテールのリアリズムと精度をさらに向上させるために、スマートフォンキャプチャされたテクスチャマップの画像勾配に基づいてガイドされた、慎重に設計された拡散モデルを使用してStyleGAN2の出力を超解像します。一度訓練されると、本手法はカジュアルな単眼スマートフォンビデオからスタジオのような顔のテクスチャマップを生成するのに優れています。その能力を示すために、単眼スマートフォンキャプチャからフォトリアルで均一に照明された完全なアバターを生成するデモンストレーションを行います。 http://shahrukhathar.github.io/2024/07/22/Bridging.html{プロジェクトページはこちらからご覧いただけます。}
我々は、キャラクターの形態や骨格構造に依存せずに、モーションデータセットの周期性構造と意味論を理解するための新しいアプローチを提案します。既存の手法では過度に疎な高次元潜在空間を使用するのに対し、我々は複数の閉曲線からなる位相多様体を提案します。各曲線は潜在的な振幅に対応しています。提案するベクトル量子化周期オートエンコーダを用いることで、人間や犬など複数のキャラクターに対して、教師なしで共有の位相多様体を学習します。これは、離散構造と浅いネットワークをボトルネックとして活用することで実現され、意味的に類似したモーションが多様体の同じ曲線にクラスタリングされ、同じ成分内のモーションは位相変数によって時間的に整列されます。改良されたモーションマッチングフレームワークと組み合わせることで、モーション検索、転送、スタイライゼーションを含むいくつかのアプリケーションにおいて、タイミングと意味論の整列能力を実証します。本論文のコードと事前学習済みモデルはhttps://peizhuoli.github.io/walkthedogで公開されています。
ドメイン汎化性能は、深層学習モデルにとって重要な側面であり、未見のドメインからのデータに対しても良好な性能を発揮する能力を決定します。しかし、視覚言語タスクにおける深層学習モデルのドメイン汎化性能に関する研究は、必要なデータセットの不足から限定的な状況にあります。これらの課題に対処するため、我々はVolDoGer: Vision-Language Dataset for Domain Generalizationを提案します。これは、ドメイン汎化に特化したデータセットであり、画像キャプショニング、視覚的質問応答、視覚的含意という3つの視覚言語タスクに対応しています。VolDoGerは、LLMベースのデータアノテーション技術を視覚言語タスクに拡張することで構築され、人間のアノテーターを募集する負担を軽減しています。我々は、ファインチューニングされたモデルから最近のマルチモーダル大規模言語モデルまで、様々なモデルのドメイン汎化性能をVolDoGerを通じて評価しました。
本論文では、Tracking Any Point (TAP) タスクを解決するために、TAPTR を基盤とした Transformer ベースのアプローチである TAPTRv2 を提案する。TAPTR は DEtection TRansformer (DETR) の設計を借用し、各追跡ポイントをポイントクエリとして定式化することで、DETR のようなアルゴリズムでよく研究された操作を活用することを可能にしている。TAPTRv2 は、コストボリュームへの依存に関わる重要な問題に対処することで TAPTR を改善する。この依存は、ポイントクエリのコンテンツ特徴を汚染し、可視性予測とコストボリューム計算の両方に悪影響を及ぼす。TAPTRv2 では、新しいアテンションベースの位置更新 (APU) 操作を提案し、キーを意識した変形可能アテンションを用いてこれを実現する。各クエリに対して、この操作はキーを意識したアテンション重みを使用して、対応する変形可能なサンプリング位置を組み合わせ、新しいクエリ位置を予測する。この設計は、ローカルアテンションが本質的にコストボリュームと同じであり、どちらもクエリとその周辺特徴とのドット積によって計算されるという観察に基づいている。この新しい操作を導入することで、TAPTRv2 はコストボリューム計算の余分な負担を取り除くだけでなく、大幅な性能向上をもたらす。TAPTRv2 は TAPTR を上回り、多くの挑戦的なデータセットで最先端の性能を達成し、その優位性を実証している。