翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)エージェントは、対話環境における複雑なタスクに取り組む際にますます重要となっています。既存の研究は、主に性能を向上させるために、より強力な専門家からの振る舞いクローンを通じて焦点を当てていますが、このようなアプローチは現実世界のアプリケーションではしばしば失敗することがあり、それは主にエラーからの回復能力の欠如によるものです。しかし、ステップレベルの批評データを収集することは困難でコストがかかります。そのため、自己批評データセットの自動化および動的構築が、モデルに知的エージェント機能を付与する上で重要です。本研究では、エージェントがリアルタイムで反省することを可能にする反復的な自己トレーニングフレームワークであるAgent-Rを提案します。正確性に基づいて行動を報酬または罰する従来の方法とは異なり、Agent-RはMCTSを活用して、誤った軌道から正しい軌道を回復するためのトレーニングデータを構築します。エージェントの反省の主な課題は、ロールアウトの最後まで待つのではなく、適時な修正が必要であることにあります。このため、我々は、モデルによって誘導される批評構築メカニズムを導入します。アクターモデルは、失敗した軌道の中で(現在の能力範囲内で)最初のエラーステップを特定します。それを起点に、同じ親ノードを共有する隣接する正しい経路と結合します。この戦略により、モデルは現在のポリシーに基づいて反省を学習し、したがってより良い学習効率をもたらします。この自己改善パラダイムのスケーラビリティをさらに探るために、エラー訂正能力とデータセット構築の反復的な改良を調査します。我々の調査結果は、Agent-Rがモデルのエラーからの回復能力を持続的に向上させ、適時なエラー訂正を可能にすることを示しています。3つの対話環境での実験では、Agent-Rがエージェントに誤った行動を修正する能力を効果的に装備し、ループを回避しつつ、基準方法に比べて優れたパフォーマンスを達成しています(+5.59%)。
MMVU(Multi-discipline Multimodal Video Understanding)は、ビデオ理解の基盤モデルを評価するための包括的な専門家レベルのベンチマークです。MMVUには、科学、医療、人文社会科学、エンジニアリングの4つの主要な分野にまたがる27の科目にわたる3,000の専門家によるアノテーション付き質問が含まれています。従来のベンチマークと比較して、MMVUには3つの主要な進歩があります。まず、モデルに特定のドメイン知識を適用し、専門家レベルの推論を行い、通常のビジュアル認識にとどまらない専門ドメインのビデオを分析することを求めています。第二に、各例は人間の専門家によってゼロからアノテーションされています。データの高品質を確保するために厳格なデータ品質管理を実施しています。最後に、各例には専門家による推論の根拠と関連するドメイン知識が付加されており、深い分析を容易にしています。我々は32の最先端のマルチモーダル基盤モデルをMMVUで広範な評価を行いました。最新のSystem-2対応モデルであるo1とGemini 2.0 Flash Thinkingが、テストされたモデルの中で最高の性能を達成しています。ただし、それらは依然として人間の専門知識には及んでいません。詳細なエラー分析と事例研究を通じて、専門家レベルでの知識集約型ビデオ理解の将来の進展に向けた具体的な洞察を提供しています。
この論文では、Mixture-of-Experts(MoEs)モデルのトレーニング時にLoad-balancing Loss(LBL)の実装を再検討します。具体的には、MoEsのためのLBLは、N_Eがエキスパートの総数であり、f_iがエキスパートiが選択される頻度を表し、p_iがエキスパートiの平均ゲーティングスコアを示すと定義されます。既存のMoEトレーニングフレームワークは通常、並列トレーニング戦略を採用しており、f_iとLBLがマイクロバッチ内で計算され、それから並列グループ全体で平均化されます。本質的に、10億スケールのLLMsのトレーニング用のマイクロバッチには通常、非常に少数のシーケンスが含まれています。そのため、マイクロバッチのLBLはほぼシーケンスレベルであり、ルーターは各シーケンス内でトークンを均等に分配するようにプッシュされます。この厳格な制約の下では、ドメイン固有のシーケンス(例:コード)からのトークンさえもすべてのエキスパートに均等にルーティングされ、エキスパートの特殊化が抑制されます。本研究では、この制約を緩和するためにグローバルバッチを使用してLBLを計算することを提案しています。グローバルバッチにはマイクロバッチよりも多様なシーケンスが含まれるため、コーパスレベルでの負荷分散が促進されます。具体的には、エキスパート間のf_iをマイクロバッチ間で同期させるための追加の通信ステップを導入し、それを使用してLBLを計算します。MoEsベースのLLMs(合計42.8Bのパラメータと400Bのトークンまで)のトレーニング実験を通じて、グローバルバッチLBL戦略が事前トレーニングのパープレキシティとダウンストリームタスクの両方で優れたパフォーマンス向上をもたらすことが驚くほど明らかになりました。当社の分析によれば、グローバルバッチLBLはMoEエキスパートのドメイン特殊化も大幅に改善します。
本論文では、UI-TARSを紹介します。これは、スクリーンショットのみを入力として認識し、人間のようなインタラクション(キーボードやマウス操作など)を実行するネイティブGUIエージェントモデルです。従来のエージェントフレームワークとは異なり、UI-TARSは専門家によって作成されたプロンプトやワークフローに依存しないエンドツーエンドモデルであり、これらの洗練されたフレームワークを凌駕しています。実験により、その優れた性能が示されています。UI-TARSは、認識、グラウンディング、およびGUIタスクの実行を評価する10以上のGUIエージェントベンチマークでSOTAのパフォーマンスを達成しています。特に、OSWorldベンチマークでは、UI-TARSは50ステップで24.6、15ステップで22.7のスコアを達成し、Claude(それぞれ22.0と14.9)を凌駕しています。AndroidWorldでは、UI-TARSは46.6を達成し、GPT-4o(34.5)を上回っています。UI-TARSにはいくつかの主要な革新が組み込まれています。1つ目は、大規模なGUIスクリーンショットデータセットを活用した「強化認識」であり、UI要素のコンテキストを理解し、正確なキャプション付けを実現しています。2つ目は「統一されたアクションモデリング」であり、アクションをプラットフォーム間で統一された空間に標準化し、大規模なアクショントレースを通じて正確なグラウンディングとインタラクションを実現しています。3つ目は「System-2 Reasoning」であり、複数の推論パターン(タスク分解、反射思考、マイルストーン認識など)を含む、多段階の意思決定に熟慮した推論を組み込んでいます。4つ目は「反射的オンライントレースによる反復的トレーニング」であり、数百の仮想マシン上で新しいインタラクショントレースを自動的に収集し、フィルタリングし、反射的に洗練することでデータボトルネックに対処しています。反復的なトレーニングと反射的な調整を通じて、UI-TARSは継続的に自らの間違いから学び、最小限の人間介入で予期せぬ状況に適応しています。また、GUIエージェントの進化経路を分析し、この分野のさらなる発展を指針として示しています。
私たちは、事前にトレーニングされたテキストから画像への拡散モデルを活用した、マルチコンセプトのパーソナライゼーション手法であるTokenVerseを提案します。当フレームワークは、1枚の画像から複雑な視覚要素や属性を分離し、複数の画像から抽出された複数のコンセプトの組み合わせをシームレスに生成することが可能です。既存の研究とは異なり、TokenVerseは複数の画像とそれぞれの複数のコンセプトを処理でき、オブジェクト、アクセサリー、素材、ポーズ、照明など幅広いコンセプトをサポートします。当研究では、入力テキストが生成に注意と変調(シフトとスケール)の両方を介して影響を与えるDiTベースのテキストから画像へのモデルを活用しています。変調空間が意味論的であり、複雑なコンセプトに対して局所的な制御を可能にします。この洞察を基に、画像とテキストの説明を入力とし、各単語に対して変調空間内の異なる方向を見つける最適化ベースのフレームワークを考案しました。これらの方向は、学習されたコンセプトを所望の構成で組み合わせた新しい画像を生成するために使用できます。TokenVerseの効果を、困難なパーソナライゼーション設定で実証し、既存の手法に対する利点を紹介しています。プロジェクトのウェブページはhttps://token-verse.github.io/ にあります。
大規模ビジョン言語モデル(LVLMs)の視覚理解における有望な性能にもかかわらず、時折誤った出力を生成することがあります。強化学習やテスト時スケーリングを用いた報酬モデル(RMs)は生成品質の向上の可能性を提供しますが、重要な課題が残っています。それは、LVLMs向けの公開されているマルチモーダルRMsが少なく、プロプライエタリなモデルの実装詳細がしばしば不明瞭であることです。私たちは、InternLM-XComposer2.5-Reward(IXC-2.5-Reward)というシンプルで効果的なマルチモーダル報酬モデルを導入し、LVLMsを人間の選好と調整します。IXC-2.5-Rewardの堅牢性と汎用性を確保するために、指示の従うこと、一般的な理解、テキスト豊かな文書、数学的推論、ビデオ理解など、さまざまなドメインにまたがるテキスト、画像、ビデオ入力をカバーする高品質なマルチモーダル選好コーパスを設定しました。IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークで優れた結果を達成し、テキストのみの報酬モデルベンチマークでも競争力のあるパフォーマンスを示します。さらに、IXC-2.5-Rewardの3つの主要な応用を示します:(1)RLトレーニングのための監督信号の提供。IXC-2.5-RewardをProximal Policy Optimization(PPO)と統合することで、指示の従うこととマルチモーダルなオープンエンドダイアログで一貫した改善を示すIXC-2.5-Chatを生成します;(2)テスト時スケーリングのための候補応答から最適な応答を選択すること;および(3)既存の画像とビデオ指示チューニングトレーニングデータから外れ値やノイズのあるサンプルをフィルタリングすること。再現性を確保し、さらなる研究を促進するために、すべてのモデルの重みとトレーニングレシピをhttps://github.com/InternLM/InternLM-XComposerでオープンソース化しています。
Hunyuan3D 2.0は、高解像度のテクスチャ付き3Dアセットを生成するための先進的な大規模3D合成システムです。このシステムには、大規模な形状生成モデルであるHunyuan3D-DiTと、大規模なテクスチャ合成モデルであるHunyuan3D-Paintの2つの基本コンポーネントが含まれています。スケーラブルなフローベースの拡散トランスフォーマーに基づく形状生成モデルは、与えられた条件画像と適切に整合するジオメトリを作成し、下流のアプリケーションのための堅固な基盤を築きます。強力な幾何学的および拡散事前確率に恩恵を受けるテクスチャ合成モデルは、生成されたメッシュまたは手作りのメッシュ用に高解像度で鮮やかなテクスチャマップを生成します。さらに、Hunyuan3D-Studioを構築しました。これは汎用性が高く、ユーザーフレンドリーな制作プラットフォームであり、3Dアセットの再作成プロセスを簡素化します。これにより、プロフェッショナルおよびアマチュアのユーザーが効率的にメッシュを操作したり、アニメーション化したりできます。我々はモデルを体系的に評価し、Hunyuan3D 2.0が従来の最先端モデル、オープンソースモデル、およびクローズドソースモデルを凌駕していることを示しています。ジオメトリの詳細、条件の整合性、テクスチャの品質などにおいて、Hunyuan3D 2.0は優れています。Hunyuan3D 2.0は、大規模な基盤生成モデルのオープンソースコミュニティにおける空白を埋めるために公開されています。当該モデルのコードと事前学習済みの重みは以下から入手可能です:https://github.com/Tencent/Hunyuan3D-2
推論言語モデル(RLM)、またはLarge Reasoning Models(LRMs)としても知られるOpenAIのo1およびo3、DeepSeek-V3、AlibabaのQwQなどのようなモデルは、高度な推論メカニズムを備えた大規模言語モデル(LLMs)を拡張することで、AIの問題解決能力を再定義しています。しかし、これらのモデルは高コスト、独自性、複雑なアーキテクチャ(強化学習、探索ヒューリスティクス、LLMsの組み合わせ)により、アクセシビリティとスケーラビリティの課題があります。これらに対処するために、我々はRLMコンポーネントをモジュラーフレームワークに整理する包括的な設計図を提案します。これは、すべてのRLM作業の調査と分析に基づいており、多様な推論構造(チェーン、木、グラフ、およびネスト形式)、推論戦略(例:モンテカルロ木探索、ビーム探索)、RLの概念(ポリシー、価値モデルなど)、および監督スキーム(出力ベースおよびプロセスベースの監督)を組み込んでいます。また、RLMの実装を簡素化するための詳細な数学的定式化とアルゴリズム仕様も提供しています。LLaMA-Berry、QwQ、Journey Learning、Thoughtsのグラフなどのスキームが特殊なケースとしてどのように適合するかを示すことで、設計図の柔軟性と統一性を実証しています。その有用性を示すために、迅速なRLMプロトタイピングと実験のためのモジュラー実装であるx1を紹介します。x1と文献レビューを使用して、ポリシーと価値モデルのための多段階トレーニングや、トレーニング分布の理解の重要性など、重要な洞察を提供しています。最後に、ツールやデータベースを含む広範なLLMエコシステムとの統合方法について概説します。我々の研究はRLMの構築を解明し、高度な推論能力を民主化し、革新を促進し、RLMの開発と実験の障壁を下げることで、「豊かなAI」と「貧しいAI」の間のギャップを緩和することを目指しています。
現代社会において、スマートフォンは欠かせない存在となっていますが、モバイルデバイス上での複雑なタスクの操作はしばしばストレスを与えます。大規模なマルチモーダルモデル(LMM)に基づくモバイルエージェントの最近の進歩により、モバイル環境での知覚と行動が可能となりました。しかしながら、現行のアプローチには重要な制約があります。それらは、現実世界の人間のニーズに対処するのに不十分であり、推論集約型および長期的なタスクに苦労し、以前の経験から学習し改善するメカニズムが欠如しています。これらの課題を克服するために、私たちはMobile-Agent-Eを導入します。これは、過去の経験を通じて自己進化することができる階層的なマルチエージェントフレームワークです。階層的とは、高レベルの計画と低レベルのアクション実行を明示的に分離することを意味します。このフレームワークには、複雑なタスクをサブゴールに分解して全体の計画を立案するManagerと、細かい視覚認識、即時のアクション実行、エラー検証、情報集約を担当するPerceptor、Operator、Action Reflector、Notetakerの4つの従属エージェントが含まれています。Mobile-Agent-Eには、過去のタスクから学んだ一般的なガイダンスや教訓であるTipsからなる持続的な長期記憶と、特定のサブルーチンに適した再利用可能なアトミック操作のシーケンスであるShortcutsからなる革新的な自己進化モジュールも備わっています。TipsとShortcutsの組み込みにより、パフォーマンスと効率の継続的な改善が促進されます。このフレームワークに加えて、長期的でマルチアプリ間の相互作用を必要とする複雑なモバイルタスクを特徴とする新しいベンチマークMobile-Eval-Eを紹介します。実証結果によると、Mobile-Agent-Eは、3つの基本モデルバックボーン全体で従来の最先端アプローチに比べて22%の絶対的な改善を達成しています。プロジェクトページ:https://x-plug.github.io/MobileAgent。
大規模言語モデル(LLM)によって駆動される自律エージェントは、電子メールの送信からデータ解析の実行までのデジタルタスクを支援し、人間の能力を向上させる潜在能力を持っています。既存のLLMがこれらのタスクでの能力を発揮することがしばしば妨げられるのは、それらが相互作用する環境からの高品質なエージェントデータが不足しているためです。本研究では、人間の注釈なしでLLMエージェントを任意の環境に適応させるためのデータ中心のフレームワークである「Learn-by-interact」を提案します。Learn-by-interactは、エージェント-環境の相互作用の軌跡を文書に基づいて合成し、相互作用履歴を要約または抽象化して指示を構築する、逆構築と呼ばれるプロセスを行います。我々は、これらの合成データの品質を、トレーニングベースのシナリオとトレーニングフリーのインコンテキストラーニング(ICL)の両方で使用することによって評価します。ここでは、エージェントに最適化された革新的なリトリーバルアプローチを作成します。SWE-bench、WebArena、OSWorld、およびSpider2-Vにまたがる実在のコーディング、Web、およびデスクトップ環境での幅広い実験により、Learn-by-interactの効果が示されました。ICLではClaude-3.5に対して最大12.2\%、Codestral-22Bに対してトレーニングでは最大19.5\%のベースライン結果が改善されました。さらに、逆構築が提供する効果の重要性を示し、トレーニングに対して最大14.0\%の改善が得られました。また、私たちの合成データによるICLにおける効率性と、代替手法である従来のリトリーバル拡張生成(RAG)に対する私たちのリトリーバルパイプラインの優越性を示す消去研究を行いました。我々は、Learn-by-interactが、LLMが実世界環境でますます展開される中で、エージェントデータ合成の基盤として機能すると期待しています。
Depth Anythingは、単眼の深度推定において顕著な成功を収めており、強力な汎化能力を持っています。しかしながら、ビデオにおいて時間的な不整合が発生し、その実用的な応用を妨げています。ビデオ生成モデルを活用したり、光学フローやカメラの位置情報から事前情報を導入することで、この問題を緩和するための様々な手法が提案されています。しかしながら、これらの手法は短いビデオ(< 10秒)にのみ適用可能であり、品質と計算効率とのトレードオフが必要です。私たちは、効率性を犠牲にすることなく、超長いビデオ(数分以上)において高品質で一貫した深度推定を行うためのVideo Depth Anythingを提案します。私たちは、Depth Anything V2をベースにし、そのヘッドを効率的な空間-時間ヘッドに置き換えます。時間的な深度勾配を制約する直感的で効果的な時間的一貫性損失を設計し、追加の幾何学的事前情報が不要となります。モデルは、Depth Anything V2と同様に、ビデオ深度と未ラベルの画像の共同データセットで訓練されます。さらに、長いビデオ推論のための新しいキーフレームベースの戦略が開発されています。実験結果は、私たちのモデルが品質、一貫性、汎化能力を損なうことなく、任意の長さのビデオに適用可能であることを示しています。複数のビデオベンチマークでの包括的な評価は、当社の手法がゼロショットビデオ深度推定において新たな最先端を確立していることを示しています。さまざまなシナリオをサポートするために、異なるスケールのモデルを提供し、最小のモデルでも30 FPSでリアルタイムの性能を発揮できます。
生成モデリングは、ランダムなノイズを構造化された出力に変換することを目指しています。 本研究では、動きを制御するために構造化された潜在ノイズサンプリングを許可することで、ビデオ拡散モデルを強化します。これは、データの変更だけで達成されます。トレーニングビデオを前処理して構造化されたノイズを生成します。その結果、当該手法は拡散モデルの設計に無関係であり、モデルのアーキテクチャやトレーニングパイプラインの変更は必要ありません。具体的には、我々は新しいノイズ変形アルゴリズムを提案しており、リアルタイムで実行可能な高速なもので、光流場から導かれた相関変形ノイズにランダムな時間的ガウシアン性を置き換え、空間的ガウシアン性を保持します。我々のアルゴリズムの効率性により、最小限のオーバーヘッドで変形ノイズを使用して最新のビデオ拡散ベースモデルを微調整し、ユーザーフレンドリーな動き制御の幅広い範囲に対するワンストップソリューションを提供します。我々の変形ノイズにおける時間的一貫性と空間的ガウシアン性の調和は、フレームごとのピクセル品質を維持しながら、効果的な動き制御につながります。包括的な実験とユーザースタディにより、当該手法の利点が示され、ビデオ拡散モデルにおける動きの制御に対する堅牢でスケーラブルなアプローチとなります。ビデオの結果は、弊社のウェブページでご覧いただけます: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow。ソースコードとモデルのチェックポイントはGitHubで入手可能です: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow。
写真のメタデータに含まれるGPSタグが、画像生成のための有用な制御信号を提供することを示します。GPSから画像へのモデルを訓練し、都市内で画像がどのように変化するかを細かく理解する必要があるタスクに使用します。特に、GPSとテキストの両方に依存した画像を生成するために拡散モデルを訓練します。学習されたモデルは、異なる地区、公園、名所の特徴的な外観を捉えた画像を生成します。また、GPSによる制約を使用して、各視点からの再構成の外観を制約するために、2D GPSから画像へのモデルから3Dモデルを抽出します。評価から、GPSによる条件付けされたモデルが、位置に基づいて画像を生成することを成功裏に学習し、GPSによる条件付けが推定された3D構造を向上させることが示唆されます。
監督されたファインチューニング(SFT)データの品質は、大規模言語モデル(LLM)の会話能力を向上させる上で重要な役割を果たします。しかし、LLMがより高度になるにつれて、高品質な人手によるアノテーションされたSFTデータの入手可能性が著しく制約されるようになり、合成トレーニングデータへの依存がますます必要とされています。本研究では、World Knowledge TreeとSelf-Reflection Refinementを組み込んだ新しい二段階合成データ生成フレームワークであるCondorを紹介し、規模の大きな高品質なSFTデータを生成します。実験結果は、Condorで生成された20Kのサンプルのみでファインチューニングされたベースモデルが、他のモデルと比較して優れたパフォーマンスを達成することを示しています。Condorの追加のリファインメント段階は、LLMのさまざまなスケール(最大72B)で反復的な自己改善を可能にし、アプローチの有効性を実証しています。さらに、後段の合成データに対するスケーリングの調査では、パフォーマンス向上の未開拓の可能性が明らかになり、将来の研究に向けた有望な道筋を開いています。
本論文では、高度な表情と手のジェスチャーを同時に生成することができる革新的な音声駆動の話し手メソッドを提案します。全身または半身のポーズを生成する既存の手法とは異なり、共話ジェスチャー生成の課題を調査し、音声特徴と全身ジェスチャーとの弱い対応関係を主要な制約として特定します。これを解決するために、このタスクを2段階のプロセスとして再定義します。最初の段階では、音声入力から手のポーズを直接生成し、音声信号と手の動きとの強い相関関係を活用します。2段階目では、拡散モデルを使用してビデオフレームを合成し、最初の段階で生成された手のポーズを取り入れてリアルな表情と体の動きを生成します。実験結果は、提案手法が視覚的品質と同期精度の両方において、CyberHostやVloggerなどの最先端手法を上回ることを示しています。この研究は、音声駆動のジェスチャー生成に新しい視点を提供し、表現豊かで自然な話し手アニメーションを作成するための堅牢なフレームワークを提供しています。
MAGIというハイブリッドビデオ生成フレームワークを紹介します。このフレームワークは、イントラフレーム生成のためのマスクモデリングと、次フレーム生成のための因果モデリングを組み合わせています。主要な革新であるComplete Teacher Forcing(CTF)は、マスクされたフレームをマスクされたものではなく完全な観測フレームに依存させます(つまり、マスクされたTeacher Forcing、MTFではなく)。これにより、トークンレベル(パッチレベル)からフレームレベルの自己回帰生成へのスムーズな移行が可能となります。CTFは、MTFを大幅に上回り、最初のフレーム条件付きビデオ予測においてFVDスコアで+23%の改善を達成します。露出バイアスなどの問題に対処するために、ターゲット指向のトレーニング戦略を採用し、自己回帰的ビデオ生成の新たな基準を設定しています。実験では、MAGIが16フレームのみでトレーニングされていても、100フレームを超える長く一貫したビデオシーケンスを生成できることが示され、スケーラブルで高品質なビデオ生成の可能性が強調されています。
トークン埋め込みの幾何学とトランスフォーマーモデル内での次のトークン予測における役割との関係を調査します。この接続の重要な側面は、トークンの点群の分布を符号化し、平均場相互作用の視点でトークン表現の進化を促す経験的測定の概念を使用します。我々は、固有次元、近傍重複、コサイン類似度などのメトリクスを使用して、これらの経験的測定を層を横断して観察的に探索します。我々のアプローチを検証するために、トークンがシャッフルされたデータセットとこれらのメトリクスを比較します。これにより、構文および意味構造が崩れるデータセットが得られます。我々の調査結果は、トークン埋め込みの幾何学的特性と次のトークン予測の交差エントロピー損失との相関を明らかにしました。これは、損失値が高いプロンプトは、高次元空間で表現されるトークンを持っていることを意味しています。
画像とテキストの入力を処理するビジョン言語モデル(VLM)は、チャットアシスタントや他の消費者向けAIアプリケーションにますます統合されています。しかしながら、適切な保護措置がないと、VLMは有害なアドバイス(たとえば、自傷行為の方法)を提供したり、安全でない行動(たとえば、薬物摂取を勧める)を促したりする可能性があります。これらの明確な危険性にもかかわらず、VLMの安全性や多モーダル入力によって生じる新たなリスクを評価した研究はほとんど行われていませんでした。このギャップを埋めるために、VLM向けのマルチモーダル安全性テストスイートであるMSTSを紹介します。MSTSには40の細分化された危険カテゴリにまたがる400のテストプロンプトが含まれています。各テストプロンプトは、テキストと画像が組み合わさることで初めてその完全な安全でない意味が明らかになります。MSTSを用いて、いくつかのオープンなVLMに明確な安全上の問題があることがわかりました。また、いくつかのVLMは偶然安全であることもわかりました。つまり、彼らは単純なテストプロンプトさえ理解できないために安全であるということです。MSTSを10の言語に翻訳し、英語以外のプロンプトを表示することで、安全でないモデルの反応率を高めました。また、テキストのみを使用した場合に比べて、マルチモーダルプロンプトでテストした場合にモデルがより安全であることを示しました。最後に、VLMの安全性評価の自動化を探求し、最高の安全分類器でさえ不十分であることがわかりました。
個別化されたニュース見出し生成は、ユーザーの好みに合わせた注意を引く見出しを提供することを目指しています。従来の手法はユーザー志向のコンテンツの好みに焦点を当てていますが、多くの手法は、多様なスタイルの好みがユーザーの全体的な興味に不可欠であることを見落としており、最適な個別化が行われていません。この点を考慮し、我々は新しいスタイル・コンテンツに配慮した個別化された見出し生成(SCAPE)フレームワークを提案します。SCAPEは、大規模言語モデル(LLM)の協力を得て、見出しからコンテンツとスタイルの特徴を抽出します。さらに、コントラスト学習ベースの階層的融合ネットワークを介して、ユーザーの長期および短期の興味を適応的に統合します。全体的な興味を見出し生成器に取り込むことで、SCAPEはユーザーのスタイル・コンテンツの好みを反映させます。実世界のデータセットPENSにおける広範な実験により、SCAPEのベースラインに対する優越性が示されました。
大規模ビジョン言語モデル(LVLMs)は、視覚コンテンツの理解と記述において顕著な能力を示し、さまざまなビジョン言語タスクで最先端のパフォーマンスを達成しています。しかし、これらのモデルはしばしば幻覚行動を示し、入力画像に存在しないオブジェクトや詳細を含む記述を生成します。本研究では、トランスフォーマーレイヤーとヘッド全体での注意パターンを分析することによって、幻覚はしばしばより深いレイヤーでの視覚の基盤の進行的な劣化から生じることを明らかにしました。我々は、視覚の基盤を生成プロセス全体で維持するために、選択的トークン強調とヘッド固有の調整を組み合わせた新しい注意修正アプローチを提案しています。我々の手法は、次の2つの主要なコンポーネントを導入します:(1)局所的に情報提供があり、空間的に重要な視覚的トークンを識別し優先順位付けするデュアルストリームトークン選択メカニズム、および(2)個々の注意ヘッドの測定された視覚感受性に基づいて視覚情報処理を差別的に増幅する注意ヘッド固有の調整戦略。MSCOCOデータセットでの広範な実験を通じて、我々のアプローチが、基準モデルと比較して幻覚発生率を最大62.3%削減し、同等のタスクパフォーマンスを維持することを示しました。我々の分析は、視覚感受性の異なる注意ヘッド全体でトークンを選択的に調整することが、モデルの再トレーニングを必要とせずに視覚の基盤を大幅に改善できることを示しています。