翻訳付きの日次キュレーションされたAI研究論文
近年の進歩は、テキストから画像(T2I)生成を強化する上で、GRPOベースの強化学習手法とベンチマークの重要性を浮き彫りにしています。しかし、生成された画像をスコアリングするためにポイントワイズ報酬モデル(RM)を使用する現在の手法は、報酬ハッキングの影響を受けやすいことが明らかになっています。これは、画像間の最小限のスコア差が正規化後に増幅され、モデルが些細な利得を過剰に最適化することを促す幻の優位性を生み出し、最終的に画像生成プロセスを不安定にするためです。この問題に対処するため、我々はPref-GRPOを提案します。これは、ペアワイズ選好報酬に基づくGRPO手法であり、最適化の目的をスコア最大化から選好適合にシフトし、より安定したトレーニングを保証します。Pref-GRPOでは、各グループ内で画像をペアワイズ比較し、選好RMを使用して勝率を報酬信号として利用します。大規模な実験により、PREF-GRPOが微妙な画像品質の違いを識別し、より安定した優位性を提供し、報酬ハッキングを軽減することが実証されています。さらに、既存のT2Iベンチマークは粗い評価基準に制限されており、包括的なモデル評価を妨げています。これを解決するため、我々はUniGenBenchを導入します。これは、5つの主要テーマと20のサブテーマにわたる600のプロンプトから構成される統一されたT2Iベンチマークです。MLLMを活用してベンチマークの構築と評価を行い、10の主要基準と27のサブ基準を通じて意味的一貫性を評価します。我々のベンチマークは、オープンソースおよびクローズドソースのT2Iモデルの長所と短所を明らかにし、Pref-GRPOの有効性を検証します。
我々は、エージェント型強化学習を用いて訓練された14Bパラメータの数学推論モデル「rStar2-Agent」を紹介する。このモデルは最先端の性能を達成するだけでなく、現在の長いChain-of-Thought(CoT)を超え、Pythonコーディングツールを使用する前に慎重に思考し、コード実行のフィードバックを反映して自律的に探索、検証、および複雑な問題解決の中間ステップを洗練させるといった高度な認知行動を示す。この能力は、以下の3つの主要なイノベーションによって実現されている:(i) 高スループット実行をサポートし、高コストなロールアウトを軽減する信頼性の高いPythonコード環境を備えた効率的なRLインフラストラクチャ。これにより、限られたGPUリソース(64 MI300X GPU)での訓練が可能となる。(ii) GRPO-RoC。コーディングツールからの環境ノイズに対処するResample-on-Correctロールアウト戦略を採用したエージェント型RLアルゴリズム。これにより、モデルはコード環境でより効果的に推論できる。(iii) 非推論型SFTから始まり、複数のRLステージを経て進化する効率的なエージェント訓練レシピ。これにより、最小限の計算コストで高度な認知能力を獲得する。その結果、rStar2-Agentは事前訓練済みの14Bモデルをわずか510 RLステップで1週間以内に最先端に引き上げ、AIME24で80.6%、AIME25で69.8%の平均pass@1スコアを達成し、DeepSeek-R1(671B)を大幅に短い応答で上回った。数学を超えて、rStar2-Agent-14Bはアラインメント、科学的推論、およびエージェント型ツール使用タスクへの強い汎化能力も示す。コードと訓練レシピはhttps://github.com/microsoft/rStarで公開されている。
既存の研究では、スタイル主導の生成と主題主導の生成は通常、二つの独立したタスクとして扱われてきた。前者はスタイルの類似性を優先し、後者は主題の一貫性を重視するため、明らかな対立関係が生じている。我々は、これらの目的は単一のフレームワークの下で統合可能であると主張する。なぜなら、それらは最終的にはコンテンツとスタイルの分離と再構成に関わるものであり、これはスタイル主導の研究における長年のテーマだからである。この目的のために、我々はUSO(Unified Style-Subject Optimized customization model)を提案する。まず、コンテンツ画像、スタイル画像、およびそれらに対応するスタイル化されたコンテンツ画像からなる大規模なトリプレットデータセットを構築する。次に、スタイルアライメントトレーニングとコンテンツ-スタイル分離トレーニングという二つの補完的な目的を通じて、スタイル特徴を整列させると同時にコンテンツとスタイルを分離する分離学習スキームを導入する。さらに、SRL(Style Reward-Learning)と呼ばれるスタイル報酬学習パラダイムを組み込み、モデルの性能をさらに向上させる。最後に、スタイルの類似性と主題の忠実度を複数のメトリクスで共同評価する最初のベンチマークであるUSO-Benchを公開する。広範な実験により、USOがオープンソースモデルの中で主題の一貫性とスタイルの類似性の両方の次元において最先端の性能を達成することが実証された。コードとモデルは以下で公開されている:https://github.com/bytedance/USO
我々はMCP-Benchを紹介する。これは、ツールの使用、ツール間の連携、精密なパラメータ制御、および課題解決のための計画/推論を必要とする現実的な多段階タスクにおいて、大規模言語モデル(LLM)を評価するためのベンチマークである。Model Context Protocol(MCP)に基づいて構築されたMCP-Benchは、LLMを28の代表的なライブMCPサーバーに接続し、金融、旅行、科学計算、学術検索などの分野にわたる250のツールを網羅している。従来のAPIベースのベンチマークとは異なり、各MCPサーバーは連携して動作するように設計された補完的なツールセットを提供し、豊富な入出力結合を伴う本格的な多段階タスクの構築を可能にする。MCP-Benchのタスクは、明示的なツール名なしに曖昧な指示から関連するツールを取得する能力、複雑な目的のためのマルチホップ実行軌跡を計画する能力、中間ツール出力に基づいて応答を接地する能力、およびクロスドメインワークフローを調整する能力をテストする。これらは、明示的なツール仕様、浅い数ステップのワークフロー、および孤立したドメイン操作に依存する既存のベンチマークでは十分に評価されていない能力である。我々は、ツールレベルのスキーマ理解と使用、軌跡レベルの計画、およびタスク完了をカバーする多面的な評価フレームワークを提案する。20の先進的なLLMを用いた実験により、MCP-Benchにおける持続的な課題が明らかになった。コードとデータはhttps://github.com/Accenture/mcp-benchで公開されている。
実践からの学習パラダイムは、有能なエージェンシーAIシステムを開発する上で極めて重要であるが、非効率的な経験生成によって大きく妨げられており、GAIAのような複雑なベンチマークでは特にそのボトルネックが顕著である。この問題に対処するため、我々は大規模なエージェント-環境相互作用を目的としたオープンソースシステム「AWorld」を導入した。クラスタ全体にタスクを分散させることで、AWorldは標準的なシングルノードの逐次実行と比較して、経験収集を14.6倍高速化する。この重要な高速化により、大規模な強化学習が実用的かつスケーラブルになる。この能力を活用し、我々はQwen3-32Bベースのエージェントを訓練し、ベースモデルを大幅に上回る性能を達成した。GAIAの総合精度は21.59%から32.23%に向上し、ベンチマークの最も困難なレベルでは16.33%のスコアを達成し、主要なプロプライエタリモデルの性能を凌駕した。我々のオープンソースシステムとその結果得られたエージェントは、効率的な相互作用から実証可能なモデル改善に至る、完全なエージェンシーAIトレーニングパイプラインの実用的な青写真を提供する。
長尺動画生成は本質的に長文脈記憶の問題である:モデルは、崩壊やドリフトを起こすことなく、長い範囲にわたって重要なイベントを保持し、検索できなければならない。しかし、拡散トランスフォーマーをスケーリングして長文脈の動画を生成することは、自己注意の二次コストによって根本的に制限されており、長いシーケンスに対してメモリと計算が扱いにくく、最適化が困難である。我々は、長文脈動画生成を内部情報検索タスクとして再定義し、効果的な長期記憶検索エンジンとして、学習可能なスパース注意ルーティングモジュールであるMixture of Contexts(MoC)を提案する。MoCでは、各クエリが動的にいくつかの情報豊富なチャンクと必須のアンカー(キャプション、ローカルウィンドウ)を選択して注意を向け、ループクロージャを防ぐ因果ルーティングを行う。データをスケーリングし、ルーティングを徐々にスパース化するにつれて、モデルは計算を重要な履歴に割り当て、数分にわたるコンテンツの中でアイデンティティ、アクション、シーンを保持する。効率性は検索の副産物として得られ(ほぼ線形スケーリング)、実用的なトレーニングと合成を可能にし、数分スケールでの記憶と一貫性の出現を可能にする。
多様な指示データは、大規模言語モデルの効果的な指示チューニングにおいて極めて重要です。なぜなら、モデルが異なるタイプの入力に対して一般化することを可能にするからです。このプロセスにおいて、多様化された指示データセットを構築することは不可欠なステップです。既存のアプローチでは、大規模言語モデルを活用して多様な指示を自動的に探索・生成し、データの多様性と品質を確保することが一般的です。しかし、これらのアプローチは現実世界のアプリケーションにおける重要な要素、すなわち「タスク関連性」を見落としがちです。実際には、真に汎用的なモデルを必要とする現実世界のアプリケーションはごく一部であり、ほとんどの場合、特定のユースケースに特化したタスク固有の知識が有益です。したがって、多様性を維持しつつ、特定の現実世界のシナリオに最適化された指示拡張手法を開発することが重要です。 そこで我々は、**タスク中心指示拡張(Task Centric Instruction Augmentation, TCIA)**というフレームワークを提案します。TCIAは、多様性とタスク整合性の両方を維持しながら、指示を体系的に拡張します。指示を離散的なクエリ制約空間で表現することで、TCIAはタスクに関連する豊富な指示セットを生成し、モデルが全体的な性能を犠牲にすることなく、これらのタスク固有の指示に一般化することを可能にします。実験結果によると、TCIAはオープンソースの大規模言語モデルの性能を、4つの現実世界のタスク特化型アプリケーションにおいて平均8.7%向上させ、場合によっては主要なクローズドソースモデルを上回ることも示されました。これらの改善は、一般的な指示追従能力を損なうことなく達成されており、TCIAは大規模言語モデルを現実世界のタスク指向アプリケーションに適応させるためのスケーラブルで効率的なソリューションとなっています。
我々は、複数のカメラビューを用いて動的シーン中の任意の点を追跡する、初のデータ駆動型マルチビュー3Dポイントトラッカーを紹介する。既存の単眼トラッカーは深度の曖昧さやオクルージョンに悩まされ、従来のマルチカメラ手法では20台以上のカメラとシーケンスごとの煩雑な最適化が必要であった。これに対し、我々のフィードフォワードモデルは実用的な数のカメラ(例えば4台)を用いて直接3D対応関係を予測し、堅牢かつ正確なオンライン追跡を可能にする。既知のカメラポーズとセンサーベースまたは推定されたマルチビュー深度を前提として、我々のトラッカーはマルチビューの特徴を統合された点群に融合し、k近傍相関とトランスフォーマーベースの更新を適用することで、オクルージョン下でも長距離の3D対応関係を確実に推定する。5,000の合成マルチビューKubricシーケンスで学習し、Panoptic StudioとDexYCBという2つの実世界ベンチマークで評価を行い、それぞれ3.1 cmと2.0 cmの中央軌道誤差を達成した。我々の手法は、1~8台のカメラセットアップと24~150フレームのビデオ長において、様々な視点に対して良好な汎用性を示す。トレーニングおよび評価データセットと共にトラッカーを公開することで、マルチビュー3D追跡研究の新たな基準を確立し、実世界アプリケーションのための実用的なツールを提供することを目指す。プロジェクトページはhttps://ethz-vlg.github.io/mvtrackerで公開中。
大規模言語モデル(LLM)の安全性アライメントは、有害なリクエストを拒否するために内部表現を仲介することが多い。最近の研究では、モデル内の特定の表現方向を除去または削除することで、これらの安全機構を回避できることが示されている。本論文では、逆のアプローチを提案する:Rank-One Safety Injection(ROSI)という、モデルの活性化を拒否を仲介する部分空間に向けて恒久的に誘導することで、モデルの安全性アライメントを増幅するホワイトボックス手法である。ROSIは、すべての残差ストリーム書き込み行列に適用される、シンプルでファインチューニング不要なランク1の重み修正として機能する。必要な安全性方向は、少数の有害および無害な指示ペアから計算できる。Llama Guard 3による評価では、ROSIが安全性拒否率を一貫して向上させつつ、MMLU、HellaSwag、Arcなどの標準ベンチマークにおけるモデルの有用性を維持することを示す。さらに、ROSIは「検閲されていない」モデルを再アライメントすることもでき、効果的な最終段階の安全手順としての有用性を実証する。我々の結果は、ターゲットを絞った解釈可能な重み誘導が、リソース集約的なファインチューニングパラダイムを補完する、安価で強力なLLM安全性向上メカニズムであることを示唆している。
本論文では、OneRewardを紹介する。これは、単一の報酬モデルを用いて、異なる評価基準下での複数タスクにおけるモデルの生成能力を強化する統一的な強化学習フレームワークである。単一の視覚言語モデル(VLM)を生成報酬モデルとして採用することで、与えられたタスクと評価基準に対して勝者と敗者を識別し、多様なデータと異なるタスク目的を持つ文脈において、特にマルチタスク生成モデルに効果的に適用できる。OneRewardをマスク誘導画像生成に利用し、これはさらに画像補完、画像拡張、オブジェクト除去、テキストレンダリングなどのサブタスクに分割され、編集領域としてバイナリマスクを伴う。これらのドメイン固有のタスクは同じ条件付けパラダイムを共有しているが、基盤となるデータ分布と評価指標は大きく異なる。既存の手法はタスク固有の教師あり微調整(SFT)に依存することが多く、汎化性と学習効率が制限される。OneRewardを基盤として、事前学習済みのベースモデル上で直接マルチタスク強化学習により訓練されたマスク誘導生成モデルであるSeedream 3.0 Fillを開発し、タスク固有のSFTの必要性を排除した。実験結果は、我々の統一編集モデルが、Ideogram、Adobe Photoshop、FLUX Fill [Pro]などの商用およびオープンソースの競合モデルを、複数の評価次元で一貫して上回ることを示している。コードとモデルは以下で公開されている:https://one-reward.github.io
最近のVision-Language-Action(VLA)モデルは、事前学習済みのVision-Language Models(VLMs)を基盤として構築されていますが、大規模な追加学習を必要とし、その結果、高い計算コストがかかり、スケーラビリティと展開が制限されています。本論文では、CogVLAというCognition-Aligned Vision-Language-Actionフレームワークを提案します。このフレームワークは、指示駆動型のルーティングとスパース化を活用して、効率と性能の両方を向上させます。CogVLAは、人間のマルチモーダル協調からインスピレーションを得て、3段階のプログレッシブアーキテクチャを導入しています。1) Encoder-FiLMベースのAggregation Routing(EFA-Routing)は、指示情報をビジョンエンコーダに注入し、デュアルストリームのビジュアルトークンを選択的に集約・圧縮して、指示を意識した潜在表現を形成します。2) このコンパクトなビジュアルエンコーディングを基盤として、LLM-FiLMベースのPruning Routing(LFP-Routing)は、指示に関連しない視覚的基盤トークンを刈り込むことで、アクション意図を言語モデルに導入し、トークンレベルのスパース性を実現します。3) 圧縮された知覚入力が、正確で一貫したアクション生成をサポートできるようにするために、V-L-A Coupled Attention(CAtten)を導入します。これは、因果的なビジョン-言語アテンションと双方向のアクションパラレルデコーディングを組み合わせたものです。LIBEROベンチマークと実世界のロボットタスクでの広範な実験により、CogVLAがOpenVLAと比較して、トレーニングコストを2.5倍削減し、推論遅延を2.8倍減少させながら、それぞれ97.4%と70.0%の成功率で最先端の性能を達成することが実証されました。CogVLAはオープンソース化されており、https://github.com/JiuTian-VL/CogVLAで公開されています。
大規模言語モデル(LLMs)は、説得的な対話において、誤情報への信じやすさと有効な修正への抵抗のバランスを取ることに苦戦することがあり、信頼性のある展開における重要な課題となっています。本論文では、DuET-PD(説得的対話における信頼のための二重評価)を紹介します。これは、二つの次元(修正型/誤導型の説得タイプと、MMLU-Proによる知識ドメイン、SALAD-Benchによる安全性ドメイン)にわたる多ターンのスタンス変化のダイナミクスを評価するフレームワークです。我々の調査では、GPT-4oのような最先端のモデルでさえ、持続的な誤導説得下でのMMLU-Proの精度が27.32%に留まることが明らかになりました。さらに、新しいオープンソースモデルにおいて、シコファンシー(迎合的態度)が増加するという懸念すべき傾向も見られました。この問題に対処するため、我々はHolistic DPOを提案します。これは、肯定的な説得例と否定的な説得例のバランスを取るトレーニング手法です。プロンプティングや抵抗のみのトレーニングとは異なり、Holistic DPOは誤情報に対する頑健性と修正への受容性の両方を向上させ、Llama-3.1-8B-Instructの安全性コンテキストにおける誤導説得下の精度を4.21%から76.54%に改善しました。これらの貢献は、多ターン対話のためのより信頼性が高く適応性のあるLLMsを開発するための道筋を提供します。コードはhttps://github.com/Social-AI-Studio/DuET-PDで公開されています。
ツール拡張型言語モデルは、検索機能、メモリ、または外部APIを備えることでAIを再構築していますが、その理論的な利点はまだ十分に探究されていません。本論文では、事実の想起において、ツール内学習(外部検索)が重み内学習(記憶)よりも優れていることを示すことで、この問題に取り組みます。モデルが重みのみで記憶できる事実の数は、そのパラメータ数によって根本的に制限されることを示します。一方で、ツールの使用により、単純で効率的な回路構成を通じて無制限の事実想起が可能になることを証明します。これらの結果は、制御された実験で検証され、ツールを使用するモデルが記憶に頼るモデルを一貫して上回ることが示されました。さらに、事前学習済みの大規模言語モデルにおいて、ツールの使用法や一般的なルールを教えることが、事実を記憶に微調整するよりも効果的であることを示します。本研究は、ツール拡張型のワークフローが実用的であるだけでなく、理論的にもスケーラブルであることを確立する、理論的および実証的な基盤を提供します。
ビデオオブジェクト除去は、最近のビデオ生成モデルの成功により高度な性能を達成しています。しかし、オブジェクトの副作用(例えば、影や反射)に対処する際、既存の研究は、監視データとしてのペアビデオの不足により、これらの効果を完全に除去するのに苦労しています。本論文では、ROSE(Remove Objects with Side Effects)と呼ばれるフレームワークを提案します。このフレームワークは、オブジェクトが環境に及ぼす影響を体系的に研究し、それらを影、反射、光、半透明、鏡の5つの一般的なケースに分類します。前述の効果を示すペアビデオをキュレーションする難しさを考慮し、3Dレンダリングエンジンを活用して合成データを生成します。データ準備のための完全自動化パイプラインを慎重に構築し、多様なシーン、オブジェクト、撮影角度、カメラ軌跡を含む大規模なペアデータセットをシミュレートします。ROSEは、拡散トランスフォーマーに基づくビデオインペインティングモデルとして実装されます。すべてのオブジェクト関連領域をローカライズするために、ビデオ全体をモデルに入力し、参照ベースの消去を行います。さらに、ペアビデオ間の差分マスクを通じて明らかになる副作用の影響を受ける領域を明示的に予測するための追加の監視を導入します。さまざまな副作用除去におけるモデルの性能を完全に調査するために、一般的なシナリオと5つの特殊な副作用を含む新しいベンチマーク、ROSE-Benchを提示します。実験結果は、ROSEが既存のビデオオブジェクト消去モデルと比較して優れた性能を達成し、実世界のビデオシナリオにもうまく一般化することを示しています。プロジェクトページはhttps://rose2025-inpaint.github.io/です。
本論文では、FakePartsと呼ばれる新しいクラスのディープフェイクを紹介する。これは、本来は本物の動画に対して、特定の空間領域や時間セグメントに微妙で局所的な操作を加えたものである。完全に合成されたコンテンツとは異なり、表情の変更から物体の置き換え、背景の修正に至るまでの部分的な操作が、実際の要素とシームレスに融合しており、特に欺瞞的で検出が困難である。この検出能力における重大なギャップに対処するため、部分的なディープフェイクの全スペクトルを捉えるために特別に設計された初の大規模ベンチマークデータセットであるFakePartsBenchを提案する。ピクセルレベルおよびフレームレベルの操作アノテーションを含む25,000以上の動画から構成される本データセットは、検出手法の包括的な評価を可能にする。ユーザー調査の結果、FakePartsは従来のディープフェイクと比較して人間の検出精度を30%以上低下させることが示され、最先端の検出モデルにおいても同様の性能低下が観察された。本研究は、現在のディープフェイク検出アプローチにおける緊急の脆弱性を明らかにし、部分的な動画操作に対するより堅牢な手法を開発するために必要なリソースを提供するものである。
本論文では、Dress&Danceを紹介します。これは、ユーザーが所望の衣装を着用し、与えられた参照映像に従って動く高品質な5秒間24FPSのバーチャル試着動画を1152x720解像度で生成するビデオ拡散フレームワークです。本手法は単一のユーザー画像を必要とし、トップス、ボトムス、ワンピースの衣装、およびトップスとボトムスの同時試着を単一パスでサポートします。本フレームワークの鍵となるのは、CondNetという新しい条件付けネットワークです。CondNetはアテンションを活用してテキスト、画像、ビデオといったマルチモーダル入力を統合し、衣装の登録と動きの忠実度を向上させます。CondNetは、限られたビデオデータとより大規模で容易に利用可能な画像データセットを組み合わせた異種混合のトレーニングデータを用いて、多段階のプログレッシブな方法で学習されます。Dress&Danceは既存のオープンソースおよび商用ソリューションを上回り、高品質で柔軟な試着体験を実現します。
3Dコンテンツは本質的にマルチモーダルな特性を包含しており、様々なモダリティ(例:RGB画像、RGBD、ポイントクラウド)に投影することが可能です。各モダリティは3Dアセットモデリングにおいて異なる利点を示します:RGB画像は鮮やかな3Dテクスチャを含み、一方でポイントクラウドは細かな3Dジオメトリを定義します。しかし、既存の3Dネイティブ生成アーキテクチャの多くは、単一モダリティのパラダイム内で主に動作するため、マルチモーダルデータの相補的な利点を見落とすか、3D構造に制限されることで利用可能なトレーニングデータセットの範囲を限定しています。3Dモデリングにおいてマルチモーダルを包括的に活用するために、我々はTriMMを提案します。TriMMは、基本的なマルチモーダル(例:RGB、RGBD、ポイントクラウド)から学習する最初のフィードフォワード型3Dネイティブ生成モデルです。具体的には、1) TriMMはまず、モダリティ固有の特徴を統合しながらその独自の表現力を保持する協調的マルチモーダルコーディングを導入します。2) さらに、補助的な2Dおよび3Dの監視を導入して、マルチモーダルコーディングの堅牢性と性能を向上させます。3) 埋め込まれたマルチモーダルコードに基づいて、TriMMはトライプレーン潜在拡散モデルを採用し、テクスチャとジオメトリの詳細を強化した高品質の3Dアセットを生成します。複数の有名なデータセットでの広範な実験により、TriMMがマルチモーダルを効果的に活用することで、大規模データセットでトレーニングされたモデルと競争力のある性能を達成し、少量のトレーニングデータを利用しているにもかかわらず、その有効性が実証されました。さらに、最近のRGB-Dデータセットでの追加実験を行い、他のマルチモーダルデータセットを3D生成に組み込むことの実現可能性を検証しました。
大規模言語モデル(LLM)との多ターン対話が長く複雑になるにつれ、ユーザーはどのようにして会話の目標に対する進捗をより適切に評価し、レビューできるでしょうか?本論文では、ユーザーが目標の進捗をより良く管理できるLLMチャットインターフェース「OnGoal」を提案します。OnGoalは、LLMを活用した評価を通じて目標との整合性に関するリアルタイムフィードバックを提供し、評価結果の説明と具体例、および時間経過に伴う目標の進捗概要を提示することで、ユーザーが複雑な対話をより効果的に進められるようにします。20名の参加者を対象にした執筆タスクを用いた調査では、OnGoalを目標追跡機能のないベースラインのチャットインターフェースと比較しました。OnGoalを使用した参加者は、目標を達成するために費やす時間と労力を削減しつつ、誤解を解消するための新しいプロンプト戦略を探求し、目標の追跡と可視化がLLM対話におけるエンゲージメントとレジリエンスを向上させる可能性を示唆しました。本研究の結果から、目標のコミュニケーションを改善し、認知負荷を軽減し、インタラクティブ性を高め、LLMのパフォーマンス向上に役立つフィードバックを可能にする、将来のLLMチャットインターフェースの設計指針が得られました。
人間の社会的行動は本質的にマルチモーダルであるため、その知覚のための強力な視聴覚モデルの開発が求められています。本論文では、拡張版のContrastive Audio-Visual Masked Auto-Encoder(CAV-MAE)に基づく事前学習済み視聴覚モデルであるSocial-MAEを提案します。具体的には、CAV-MAEをより多くのフレームを入力として受け取るように修正し、人間の社会的相互作用の大規模データセット(VoxCeleb2)を用いて自己教師あり学習を行いました。このモデルの有効性を、感情認識、笑い検出、外見的パーソナリティ推定といった様々な社会的・感情的下流タスクにおいてファインチューニングと評価を行うことで実証しました。その結果、マルチモーダル感情認識と笑い認識において最先端の結果を達成し、外見的パーソナリティ推定においても競争力のある結果を示し、ドメイン内での自己教師あり事前学習の有効性を実証しました。コードとモデルウェイトはこちらで公開しています https://github.com/HuBohy/SocialMAE。