翻訳付きの日次キュレーションされたAI研究論文
最近のビジョン言語モデルの進歩により、視覚トークンの長さが増加し、テキストトークンよりもはるかに長くなり、計算コストが大幅に増加してパフォーマンスが向上しました。しかし、一般的なビジョンエンコーダーで生成される視覚トークン(例:CLIPやSigLIP)には、かなりの冗長性が含まれていることが観察されています。この問題に対処するために、視覚トークンの冗長性を減らし、モデルのパフォーマンスを維持しながら効率を向上させる一方で、情報量の多いトークンのセットを選択するシンプルかつ効果的な方法であるVisionZipを提案します。提案されたVisionZipは、画像やビデオ理解のタスクに広く適用でき、従来の方法が性能を発揮しない実世界のマルチターンダイアログに適しています。実験結果によると、VisionZipは、ほぼすべての設定で、従来の最先端の方法よりも少なくとも5%のパフォーマンス向上を達成しています。さらに、当社の手法はモデルの推論速度を大幅に向上させ、プリフィリング時間を8倍に短縮し、LLaVA-Next 13BモデルをLLaVA-Next 7Bモデルよりも速く推論させながらより良い結果を達成しています。さらに、この冗長性の原因を分析し、コミュニティに対して、単なるトークンの長さを増やすのではなく、より良い視覚特徴を抽出することに焦点を当てるよう奨励しています。当社のコードはhttps://github.com/dvlab-research/VisionZip で入手可能です。
私たちは、多目的で高品質な3Dアセット作成のための革新的な3D生成手法を紹介します。その基盤となるのは、異なる出力形式(例:Radiance Fields、3D Gaussians、およびメッシュ)へのデコーディングを可能にする統一された構造化LATent(SLAT)表現です。これは、強力なビジョン基盤モデルから抽出された密なマルチビュー視覚特徴と疎に配置された3Dグリッドを統合することにより実現され、デコーディング中に柔軟性を維持しながら、構造(幾何学)とテクスチャ(外観)の両方の情報を包括的に捉えます。私たちは、SLAT向けに調整された修正フロー変換器を使用して3D生成モデルを構築し、50万の多様なオブジェクトからなる大規模な3Dアセットデータセットで最大20億のパラメータを持つモデルを訓練します。当社のモデルは、テキストや画像条件で高品質の結果を生成し、同様のスケールでの最近の手法を含む既存の手法を大幅に上回っています。以前のモデルでは提供されていなかった柔軟な出力形式の選択とローカルな3D編集機能を紹介します。コード、モデル、およびデータは公開されます。
グラフィカルユーザーインターフェース(GUI)は人間とコンピュータの相互作用において重要ですが、視覚環境の複雑さと変動性のため、GUIタスクの自動化は依然として困難です。既存のアプローチは、GUIのテキスト表現に依存することが一般化、効率、拡張性に制限をもたらします。本論文では、様々なプラットフォームで運用される自律GUIエージェントのための統一された純粋なビジョンベースのフレームワークであるAguvisを紹介します。当該アプローチは、画像ベースの観測を活用し、自然言語での指示を視覚要素に結びつけ、一貫したアクション空間を用いてクロスプラットフォームの一般化を確保します。以前の研究の制限に対処するために、明示的な計画と推論をモデルに統合し、複雑なデジタル環境での自律的なナビゲーションと相互作用能力を向上させます。GUIエージェントの軌跡の大規模データセットを構築し、多モーダルな推論と結びつけを組み込み、一般的なGUI結びつけに焦点を当てた2段階のトレーニングパイプラインを採用します。包括的な実験を通じて、Aguvisがオフラインおよびリアルワールドのオンラインシナリオの両方で以前の最先端手法を凌駕し、外部のクローズドソースモデルとの協力なしに独立してタスクを実行できる初の完全自律純粋ビジョンGUIエージェントを達成したことを示します。すべてのデータセット、モデル、トレーニング手順をオープンソース化し、今後の研究を促進するためにhttps://aguvis-project.github.io/で公開しています。
新しいマルチモーダル大規模言語モデル(MLLMs)であるFlorence-VLを提案します。このモデルは、生成ビジョン基盤モデルであるFlorence-2によって生成された豊かなビジュアル表現を持っています。広く使用されているコントラスト学習によってトレーニングされたCLIPスタイルのビジョントランスフォーマーとは異なり、Florence-2は異なるレベルや側面のビジュアル特徴を捉えることができ、さまざまな下流タスクに適応しやすくなっています。私たちは、Florence-2のビジュアル特徴をPhi 3.5やLLama 3などの事前学習済みLLMsに効果的に統合するための新しい特徴融合アーキテクチャと革新的なトレーニング手法を提案しています。特に、異なる深さから抽出されたビジュアル特徴と複数のプロンプトからのビジュアル特徴を融合するための「深さ幅融合(DBFusion)」を提案しています。私たちのモデルトレーニングは、全体モデルのエンドツーエンドの事前学習に続いて、射影層とLLMのファインチューニングを、高品質な画像キャプションや指示チューニングペアを含む様々なオープンソースデータセットの慎重に設計されたレシピで行います。Florence-VLのビジュアル特徴の定量的分析と可視化は、豊かな深さと幅が重要な役割を果たすビジョン言語アライメントにおいて、一般的なビジョンエンコーダーに対する優位性を示しています。Florence-VLは、一般的なVQA、知識密集型理解などをカバーするさまざまなマルチモーダルおよびビジョン中心のベンチマークにおいて、既存の最先端MLLMsに対して著しい改善を達成しています。将来の研究を支援するために、私たちのモデルと完全なトレーニングレシピはオープンソースで提供されています。 https://github.com/JiuhaiChen/Florence-VL
最近、視覚言語モデル(VLMs)は精度の面で大きな進歩を遂げています。しかし、その効率性にはあまり注目されていません。本論文では、効率性と精度の両方を最適化するために設計されたオープンなVLMsファミリーであるNVILAを紹介します。VILAをベースに構築し、まず空間的および時間的解像度を拡大し、次に視覚トークンを圧縮することで、そのモデルアーキテクチャを改善します。この「拡大してから圧縮する」アプローチにより、NVILAは高解像度画像や長時間のビデオを効率的に処理できます。また、トレーニングやファインチューニングから展開まで、NVILAの効率性を向上させるための体系的な調査も行います。NVILAは、多くの主要なオープンソースおよびプロプライエタリなVLMsに対して、幅広い画像およびビデオのベンチマークで精度を上回るか、それに匹敵します。同時に、トレーニングコストを4.5倍、ファインチューニングのメモリ使用量を3.4倍、プリフィルのレイテンシを1.6〜2.2倍、デコードのレイテンシを1.2〜2.8倍削減します。我々は近日中にコードとモデルを公開し、再現性を促進します。
言語モデル(LM)の事後トレーニングにおける合成データの利用が増加していることから、高品質なデータを生成するLMの能力は、問題を直接解決する能力とほぼ同じくらい重要になっています。これまでの研究は効果的なデータ生成手法の開発に焦点を当ててきましたが、異なるLMをデータ生成器として統一された環境で系統的に比較することが欠如しています。このギャップに対処するために、標準化された設定と評価基準を提供するベンチマークであるAgoraBenchを提案します。6つのLMを使用して1.26百万のトレーニングインスタンスを合成し、99の学習モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにします。まず、LMには異なる強みがあることが観察されます。たとえば、GPT-4oは新しい問題を生成するのに優れていますが、Claude-3.5-Sonnetは既存の問題をより良く改善します。さらに、分析から、LMのデータ生成能力が必ずしも問題解決能力と相関しないことが明らかになります。代わりに、応答品質、パープレキシティ、指示の難易度など、データ品質の複数の固有の特徴がより良い指標として機能します。最後に、出力形式とコスト意識のモデル選択における戦略的選択がデータ生成の効果に大きな影響を与えることを示します。
閉ループロボットシステムにおいて、オープンセットの障害の自動検出と予防は重要です。最近の研究では、予期せぬ障害をリアクティブに特定したり、予測可能な障害をプロアクティブに防止したりすることが難しいことがよくあります。このため、我々は「Code-as-Monitor(CaM)」という新しいパラダイムを提案します。このパラダイムは、ビジョン-言語モデル(VLM)を活用してオープンセットのリアクティブおよびプロアクティブな障害検出を行います。当方法の中核は、両方のタスクを統一された時空間制約充足問題のセットとして定式化し、VLMが生成したコードを使用してリアルタイムモニタリングを行うことです。モニタリングの精度と効率を向上させるために、制約関連のエンティティやそれらの部分をコンパクトな幾何学的要素に抽象化する制約要素をさらに導入します。このアプローチは、より一般的で、トラッキングを簡素化し、これらの要素を視覚的なプロンプトとして活用することで、制約に意識したビジュアルプログラミングを容易にします。実験結果によると、CaMは、3つのシミュレータと実世界の環境でのベースラインと比較して、激しい乱れがある場合において成功率が28.7%高く、実行時間が31.8%短縮されることが示されました。さらに、CaMはオープンループ制御ポリシーと統合して閉ループシステムを形成することができ、混雑したシーンやダイナミックな環境での長期タスクを可能にします。
拡散モデルは高品質な画像生成に優れています。ただし、現在の拡散モデルは、分類器フリーガイダンス(CFG)などのガイダンス手法なしでは信頼性の高い画像を生成するのに苦労しています。ガイダンス手法は本当に必要なのでしょうか?拡散反転によって得られるノイズがガイダンスなしで高品質な画像を再構築できることを観察し、私たちはノイズリダクションパイプラインの初期ノイズに焦点を当てます。ガウスノイズを「ガイダンスフリーノイズ」にマッピングすることで、小さな低振幅低周波成分がノイズリダクションプロセスを大幅に向上させ、ガイダンスの必要性を取り除き、推論スループットとメモリの両方を向上させることがわかります。さらに、私たちは、初期ノイズの単一のリファインメントでガイダンス手法を置き換える新しい手法「\ours」を提案します。このリファインされたノイズにより、同じ拡散パイプライン内でガイダンスなしで高品質な画像生成が可能となります。私たちのノイズリファイニングモデルは効率的なノイズ空間学習を活用し、わずか50Kのテキスト画像ペアで迅速な収束と高いパフォーマンスを実現します。様々なメトリクスでその効果を検証し、リファインされたノイズがガイダンスの必要性を排除する方法を分析します。プロジェクトページはこちら:https://cvlab-kaist.github.io/NoiseRefine/。
既存の多視点画像生成手法は、事前に学習されたテキストから画像への変換(T2I)モデルに侵入的な変更を加え、完全なファインチューニングが必要とされるため、(1)大規模なベースモデルや高解像度の画像に特に高い計算コストがかかり、(2)最適化の困難さや高品質な3Dデータの不足により画像品質が低下することがあります。本論文では、初めてアダプターをベースとした多視点画像生成の解決策を提案し、T2Iモデルおよびその派生物を強化する汎用的なプラグアンドプレイのアダプターであるMV-Adapterを紹介します。MV-Adapterは、元のネットワーク構造や特徴空間を変更せずに、より少ないパラメータの更新により効率的なトレーニングを可能にし、事前に学習されたモデルに埋め込まれた事前知識を保持し、過学習のリスクを軽減します。アダプター内で3Dジオメトリ知識を効率的にモデル化するために、自己注意レイヤーを複製し並列注意アーキテクチャを含む革新的な設計を導入します。これにより、アダプターは事前に学習されたモデルの強力な事前知識を継承し、新しい3D知識をモデル化することが可能となります。さらに、カメラパラメータと幾何学情報をシームレスに統合する統一された条件エンコーダを提供し、テキストおよび画像ベースの3D生成やテクスチャリングなどのアプリケーションを容易にします。MV-Adapterは、Stable Diffusion XL(SDXL)上で768解像度で多視点生成を達成し、適応性と汎用性を示します。また、任意の視点生成にも拡張可能であり、より広範なアプリケーションが可能となります。MV-Adapterは、多視点画像生成において新たな品質基準を設定し、その効率性、適応性、汎用性により新たな可能性を切り拓くことを示しています。
最近の拡散モデルに基づくテキストと画像プロンプトからの衣類中心の画像生成の進歩は印象的です。ただし、既存の手法は様々な衣装の組み合わせをサポートせず、衣服の詳細を保持しながらテキストプロンプトに忠実であることに苦労し、多様なシナリオでのパフォーマンスを制限しています。本論文では、新しいタスクであるマルチガーメント仮想ドレッシングに焦点を当て、任意の衣装の組み合わせと任意の個人用テキストプロンプトに基づいてキャラクターをカスタマイズするための新しいAnyDressing手法を提案します。AnyDressingには、詳細な衣服の特徴を抽出するGarmentsNetとカスタマイズされた画像を生成するDressingNetという2つの主要なネットワークが含まれています。具体的には、GarmentsNet内のGarment-Specific Feature Extractorという効率的でスケーラブルなモジュールを提案し、衣服のテクスチャを個別に並列にエンコードします。この設計により、ネットワークの効率性を確保しつつ、衣服の混乱を防ぎます。一方、DressingNet内のDressing-AttentionメカニズムとInstance-Level Garment Localization Learning戦略を設計し、複数の衣装の特徴を正確に対応する領域に注入します。このアプローチにより、複数の衣装のテクスチャの手がかりを生成された画像に効率的に統合し、さらにテキストと画像の整合性を向上させます。さらに、Garment-Enhanced Texture Learning戦略を導入して、衣服の細かいテクスチャの詳細を向上させます。私たちの精巧な設計のおかげで、AnyDressingは拡散モデルのコミュニティ制御拡張と簡単に統合できるプラグインモジュールとして機能し、合成された画像の多様性と制御可能性を向上させます。幅広い実験により、AnyDressingが最先端の結果を達成していることが示されています。
テキストベースの敵対的なガイダンスは、望ましくない概念から出力特徴を遠ざけるための広く採用されているアプローチとして登場しています。有用ではありますが、テキストだけを使用して敵対的なガイダンスを行うことは、複雑な視覚的概念を捉えたり、著作権のあるキャラクターなどの望ましくない視覚的要素を避けるには不十分かもしれません。本論文では、初めて、参照画像やバッチ内の他の画像からの視覚的特徴を直接使用して敵対的なガイダンスを行う方向に取り組みます。具体的には、負のトークンマージング(NegToMe)という、トレーニング不要のシンプルで効果的なアプローチを紹介します。このアプローチは、逆拡散プロセス中に参照と出力生成の間の一致する意味的特徴を選択的に遠ざけることで敵対的なガイダンスを行います。同じバッチ内の他の画像を対象とする場合、NegToMeを使用すると、出力の多様性(人種、性別、視覚的)が著しく向上し、出力画像の品質を損なうことなく、著作権、商標などの視覚的類似性を34.57%削減することが観察されます。NegToMeは、わずか数行のコードを使用して簡単に実装でき、推論時間がわずかに(<4%)増加し、Fluxなどの別個の負のプロンプトの使用をネイティブでサポートしていない異なる拡散アーキテクチャにも一般化されます。コードはhttps://negtome.github.io で入手可能です。
大規模言語モデル(LLM)は、人工知能における画期的な進展として登場し、その性能はモデルのサイズが増加するにつれて向上する可能性があります。ただし、このスケーリングには、特にリソースに制約のある環境でLLMを展開する際に、トレーニングおよび推論の効率に大きな課題が生じます。そして、このスケーリングの傾向はますます持続不可能になっています。本論文では、「容量密度」という概念を導入し、異なるスケールでのLLMの品質を評価する新しい尺度として紹介し、LLMの傾向を効果と効率の両面で記述します。特定の対象LLMの容量密度を計算するために、まず一連の基準モデルを導入し、これらの基準モデルのパラメータサイズに基づいて下流のパフォーマンスを予測するスケーリング則を開発します。次に、対象LLMの有効パラメータサイズを、同等のパフォーマンスを達成するために基準モデルが必要とするパラメータサイズと定義し、容量密度を対象LLMの実際のパラメータサイズに対する有効パラメータサイズの比率として形式化します。容量密度は、モデルの効果と効率の両方を評価するための統一された枠組みを提供します。最近のオープンソースの基本LLMに関するさらなる分析により、LLMの容量密度が指数関数的に成長する経験則(密度則)が明らかになりました。具体的には、一部の広く使用されているベンチマークを使用して評価すると、LLMの容量密度は約3ヶ月ごとに倍増します。この法則は、将来のLLMの開発を指針とする新しい視点を提供し、最適な結果を最小限の計算オーバーヘッドで達成するために容量密度の向上の重要性を強調しています。
多言語データセットにおける文化的偏りは、グローバルな基準としての効果に対して重要な課題を提起します。これらの偏りは、言語だけでなく、質問を解釈するために必要な文化的知識からも生じます。これにより、MMLUなどの翻訳されたデータセットの実用性が低下します。さらに、翻訳はしばしば質問の意味や明瞭さを歪める可能性がある人工物を導入します。多言語評価における一般的な慣行は、機械翻訳された評価セットに依存することですが、データセットを単に翻訳するだけではこれらの課題に対処するのに不十分です。本研究では、これらの問題が多言語評価とその後のモデルの性能に与える影響を追跡します。最先端のオープンおよびプロプライエタリなモデルの大規模な評価により、MMLUにおける進展は西洋中心の概念を学ぶことに大きく依存していることが示され、すべての質問の28%が文化的に敏感な知識を必要とすることが明らかになりました。さらに、地理的知識が必要な質問に関しては、驚異的な84.9%が北米またはヨーロッパ地域に焦点を当てています。モデルの評価ランキングは、文化的に敏感とアジャイルとして注釈付けされた質問の全体またはサブセットで評価されるかによって変化し、翻訳されたMMLUに盲目的に依存することでモデルのランキングが歪むことが示されます。私たちは、改良されたMMLUであるGlobal-MMLUをリリースしました。このGlobal-MMLUは42言語で評価カバレッジを持ち、翻訳品質を検証するために補償された専門家やコミュニティの注釈付け者と積極的に関わりながら、元のデータセットに存在する文化的偏りを厳密に評価することで全体的な品質を向上させました。この包括的なGlobal-MMLUセットには、文化的に敏感なおよび文化的に中立なサブセットが指定されており、より包括的で完全な評価を可能にしています。
私たちは、言語指示に従って高解像度で写実的な画像を生成することができるビット単位の視覚自己回帰モデリングであるInfinityを提案します。Infinityは、無限語彙のトークナイザー&分類器とビット単位の自己修正メカニズムを備えたビット単位のトークン予測フレームワークの下で視覚自己回帰モデルを再定義し、生成能力と詳細を著しく向上させます。トークナイザーの語彙サイズを理論的に無限にスケーリングし、同時にトランスフォーマーサイズをスケーリングすることで、当社の手法はバニラVARと比較して強力なスケーリング能力を大幅に発揮します。Infinityは、SD3-MediumやSDXLなどのトップティアの拡散モデルを上回る、自己回帰的なテキストから画像へのモデルにおいて新記録を樹立します。特に、Infinityは、GenEvalベンチマークスコアを0.62から0.73、ImageRewardベンチマークスコアを0.87から0.96に向上させ、勝率66%を達成することで、SD3-Mediumを凌駕します。追加の最適化なしで、Infinityは0.8秒で高品質の1024x1024画像を生成し、SD3-Mediumより2.6倍速く、最速のテキストから画像へのモデルとして確立されます。モデルとコードは公開され、視覚生成および統一されたトークナイザーモデリングのさらなる探求を促進するために提供されます。
私たちは、高品質かつ人間に報酬を与えられたデータセットであるHumanEditを提案します。このデータセットは、開かれた形式の言語命令を通じて正確かつ多様な画像操作を可能にするために特別に設計されています。従来の大規模な編集データセットは、しばしば最小限の人間のフィードバックしか組み込まれておらず、データセットを人間の好みに合わせることに課題がありました。HumanEditは、人間の注釈者によってデータペアを構築し、管理者によってフィードバックを提供することで、このギャップを埋めています。入念なキュレーションにより、HumanEditは5,751枚の画像からなり、4つの段階で2,500時間以上の人間の労力を必要とし、幅広い画像編集タスクにおいて精度と信頼性の両方を確保しています。このデータセットには、Action、Add、Counting、Relation、Remove、Replaceの6つの異なるタイプの編集命令が含まれており、幅広い実世界のシナリオを網羅しています。データセット内のすべての画像にはマスクが付属しており、一部のデータについては、命令がマスクなしの編集をサポートするために十分に詳細であることを確認しています。さらに、HumanEditは、さまざまなドメインからの包括的な多様性と高解像度の1024×1024コンテンツを提供し、指示付き画像編集データセットの新しい多目的なベンチマークを設定しています。画像編集の分野で将来の研究を推進し、評価基準を確立することを目的として、私たちはHumanEditを次のURLから公開しています:https://huggingface.co/datasets/BryanW/HumanEdit.
マルチモーダル大規模言語モデル(MLLMs)は、最先端の性能と複数のデータモダリティ(テキスト、画像、音声など)を統合して高い精度で複雑なタスクを実行する能力から、ますます重要性を増しています。本論文では、個別のマルチモーダル大規模言語モデルに焦点を当て、そのアーキテクチャ、トレーニング方法、および応用について包括的な調査を行います。個々のユーザーに適応させるための技術を分類する直感的なタクソノミを提案し、それに基づいて技術を議論します。さらに、適切な場合にはこれらの技術を組み合わせたり適応したりする方法について議論し、その利点と根本的な理論を強調します。既存の研究で調査された個別化タスクと、一般的に使用される評価メトリクスについて簡潔にまとめます。さらに、個別化されたMLLMsのベンチマークに役立つデータセットをまとめます。最後に、重要な未解決課題を概説します。この調査は、個別化されたマルチモーダル大規模言語モデルの開発を理解し推進する研究者や実務家にとって貴重なリソースとなることを目指しています。
大規模言語モデル(LLM)の内部計算を理解することは、それらを人間の価値と一致させ、有害な行動(例:有毒コンテンツの生成)を防ぐために重要です。しかし、機械的な解釈可能性は、個々のニューロンが複数の無関係な概念に反応する多義性によって妨げられています。Sparse Autoencoders(SAEs)は、疎な辞書学習を通じてこれらの特徴を分離しようと試みてきましたが、事後再構成損失に依存することでLLMのパフォーマンスが損なわれてきました。この問題に対処するために、私たちはTransformers向けのMixture of Monosemantic Experts(Monet)アーキテクチャを導入します。Monetは、疎な辞書学習をエンドツーエンドの専門家の混合事前トレーニングに直接組み込むものです。私たちの新しい専門家分解手法により、各層あたりの専門家数を262,144までスケーリングし、合計パラメータは専門家数の平方根に比例してスケーリングします。私たちの分析は、専門家間の知識の相互排他性を示し、個々の専門家に包括されたパラメトリックな知識を披露しています。さらに、Monetは、一般的なパフォーマンスを低下させることなく、ドメイン、言語、有害性の緩和にわたる知識操作を可能にします。透明なLLMの追求は、専門家数をスケーリングして機械的な解釈可能性を向上させ、内部知識を直接切り取ってモデルの振る舞いを根本的に調整する可能性を示しています。ソースコードと事前トレーニング済みのチェックポイントは、https://github.com/dmis-lab/Monet で入手可能です。
OmniFlowは、テキストから画像、テキストから音声、音声から画像など、任意の入出力タスク向けに設計された革新的な生成モデルです。OmniFlowは、テキストから画像へのモデルで使用されている修正フロー(RF)フレームワークを発展させ、複数のモダリティの同時分布を処理します。これにより、従来の任意の入出力モデルよりもテキストから画像やテキストから音声の合成など、幅広いタスクで優れた性能を発揮します。本研究の主な貢献は次の3つです。まず、RFをマルチモーダル設定に拡張し、異なるモダリティ間の生成された出力の整合性を柔軟に制御できる新しいガイダンスメカニズムを導入します。第二に、Stable Diffusion 3のテキストから画像のMMDiTアーキテクチャを拡張し、音声とテキストの生成を可能にする新しいアーキテクチャを提案します。拡張モジュールは効率的に個別に事前学習され、バニラのテキストから画像のMMDiTとマージして微調整できます。最後に、大規模な音声とテキスト生成向けの修正フロー変換器の設計選択に関する包括的な研究を行い、さまざまなモダリティ間でのパフォーマンス最適化に関する貴重な知見を提供します。コードはhttps://github.com/jacklishufan/OmniFlowsで入手可能です。
サッカーは世界的に賞賛されるスポーツであり、世界中のファンから広範な関心を集めています。本論文では、サッカー映像の包括的なマルチモーダルフレームワークを開発することを目的としています。具体的には、本論文では以下の貢献を行います:(i) 自動注釈パイプラインを備えた、1,988試合の完全な試合からのビデオと詳細な注釈を特徴とする、これまでで最大のマルチモーダルサッカーデータセットであるSoccerReplay-1988を紹介します;(ii) サッカー分野における初のビジュアル言語基盤モデルであるMatchVisionを提案し、サッカー映像全体での時空間情報を活用し、さまざまな下流タスクで優れた性能を発揮します;(iii) イベント分類、解説生成、およびマルチビュー反則認識に関する包括的な実験と削減研究を実施します。MatchVisionは、これらすべてで最先端の性能を発揮し、既存のモデルを大幅に上回り、提案されたデータとモデルの優越性を強調しています。この研究がスポーツ理解研究の標準的なパラダイムを提供すると信じています。
コントラスト学習されたビジョン言語モデル(VLM)のようなCLIPは、識別的なビジョン言語表現学習の事実上のアプローチとなっています。しかしながら、これらのモデルは言語理解が限られており、しばしば「単語の袋」の振る舞いを示します。同時に、ビジョンエンコーダーとLLMを組み合わせた大規模ビジョン言語モデル(LVLM)は、詳細なビジョン言語推論が可能であることが示されていますが、自己回帰的な性質から、識別的なタスクにはあまり適していません。 本研究では、「両方の利点を組み合わせる」新しいLVLMの識別的微調整のためのトレーニングアプローチを提案し、強力な識別的および構成能力を実現します。基本的に、我々のアプローチは生成的LVLMを識別的なものに変換し、強力な画像テキストの識別能力と強化された言語理解能力を引き出します。 我々の貢献は以下を含みます:(1)可変長および粒度の異なる画像テキストペアを使用してモデルをトレーニングするための対照的および次トークン予測損失を両方利用する、慎重に設計されたトレーニング/最適化フレームワーク。これには、当該フレームワークの構成要素の必要性を正当化する消去研究が伴います。 (2)ソフトプロンプティングとLoRAアダプターの組み合わせを使用したパラメータ効率の適応方法。 (3)同様のサイズの最先端のCLIPのようなモデルに比べて、標準の画像テキスト検索ベンチマークでの著しい改善と、構成能力の顕著な向上が含まれます。
近年、大規模言語モデル(LLMs)は著しい進歩を遂げていますが、その優れた性能は主に英語などの主要世界言語に限定されています。多くのLLMsは、特に低リソース言語に関わる多言語タスクにおいて依然として課題に直面しています。この問題に対処するために、私たちはMarco-LLMを導入しました:クロスリンガル強化LLMのための大規模多言語トレーニング。私たちはいくつかの低リソース言語向けに大量の多言語データを収集し、Qwen2モデルを用いた包括的な継続的事前トレーニングを行いました。この取り組みにより、Marco-LLMという多言語LLMが生まれました。MMMLU、AGIEval、Belebele、Flores-200、XCOPAなどのさまざまな多言語ベンチマークで包括的な評価を行った結果、Marco-LLMは最先端のLLMsに比べて著しい改善を示しました。さらに、Marco-LLMはany-to-any機械翻訳タスクにおいて著しい向上を達成し、当社の多言語LLMの効果を示しました。Marco-LLMは、多言語タスク(低リソース言語を含む)で優れたパフォーマンスを発揮するだけでなく、英語や他の主要言語でも強力なパフォーマンスを維持し、高リソース言語と低リソース言語の性能差を縮小することを目指した先駆的な多言語LLMです。言語をつなぐことで、この取り組みは、LLMsが様々な言語で正確に機能することを確実にするための私たちの献身を示しています。
最近のビデオ拡散モデルの進歩により、リアルな音声駆動型の話すビデオ生成に新たな可能性が開かれました。ただし、シームレスな音声と口の同期、長期的なアイデンティティの一貫性の維持、生成された話すビデオでの自然で音声に合わせた表現の実現は、依然として重要な課題です。これらの課題に対処するために、私たちはMemory-guided EMOtion-aware diffusion(MEMO)を提案します。これは、エンドツーエンドの音声駆動の肖像アニメーションアプローチで、アイデンティティの一貫性と表現豊かな話すビデオを生成します。当社のアプローチは、2つの主要モジュールを中心に構築されています:(1)メモリガイドの時間モジュールは、線形注意を介して時間モデリングをガイドするために、長期的なアイデンティティの一貫性と動きの滑らかさを向上させるために、長い過去のコンテキストから情報を保存するメモリ状態を開発します。そして(2)感情認識オーディオモジュールは、伝統的なクロスアテンションをマルチモーダルアテンションに置き換え、音声から感情を検出して、感情適応的なレイヤーノームを介して表情を洗練させることで、オーディオとビデオの相互作用を向上させます。幅広い定量的および定性的結果は、MEMOが多様な画像と音声タイプにわたるよりリアルな話すビデオを生成し、全体的な品質、音声と口の同期、アイデンティティの一貫性、表現と感情の整合性において、最先端の手法を凌駕していることを示しています。
本論文では、自己回帰(AR)ビジュアル生成を加速するためのトレーニング不要でプラグアンドプレイな並列デコーディングフレームワークであるZipARを提案します。この動機は、画像が局所構造を示し、空間的に離れた領域が最小限の相互依存関係を持つという観察に基づいています。視覚トークンの部分的にデコードされたセットが与えられた場合、行次元での元の次トークン予測スキームに加えて、列次元で空間的に隣接する領域に対応するトークンを並列にデコードすることで、「次のセット予測」パラダイムが可能となります。単一のフォワードパスで複数のトークンを同時にデコードすることにより、画像を生成するために必要なフォワードパスの数が大幅に削減され、生成効率が著しく向上します。実験では、ZipARがEmu3-Genモデルにおいて、追加の再トレーニングを必要とせずに、モデルのフォワードパスの数を最大91%削減できることが示されています。
現在の大規模言語モデルは、主にデコード専用構造のトランスフォーマーに基づいており、これには優れた文脈学習(ICL)能力があります。一般的に、ICL能力の重要な基盤は導入ヘッドメカニズムであり、少なくとも2層の注意が必要です。モデルの導入能力をより効率的に実装するために、導入ヘッドメカニズムを再検討し、KVシフトアテンションを提案しました。KVシフトアテンションは、理論的にモデルの導入ヘッドメカニズムの深さと幅に対する要件を低減することを証明しています。実験結果は、KVシフトアテンションが導入ヘッドと言語モデリングの学習に有益であり、おもちゃのモデルから1兆パラメータ以上の事前学習モデルに至るまで、より良い性能やより速い収束をもたらすことを示しています。
4Real-Videoという4Dビデオを生成するための新しいフレームワークを提案します。このフレームワークは、時間軸と視点軸を持つビデオフレームのグリッドとして構成されています。このグリッドでは、各行には同じタイムステップを共有するフレームが含まれ、各列には同じ視点からのフレームが含まれています。新しい二つのストリームアーキテクチャを提案しています。1つのストリームは列の視点の更新を行い、もう1つのストリームは行の時間的な更新を行います。各拡散トランスフォーマーレイヤーの後、同期レイヤーが2つのトークンストリーム間で情報を交換します。同期レイヤーの2つの実装を提案しており、ハード同期またはソフト同期のいずれかを使用します。このフィードフォワードアーキテクチャは、以前の研究に比べて3つの点で改善されています。推論速度が向上し、視覚品質が向上しています(FVD、CLIP、およびVideoScoreによって測定)、および時間的および視点の一貫性が向上しています(VideoScoreおよびDust3R-Confidenceによって測定)。
多様なタスクにおける多モーダル大規模言語モデル(MLLMs)の優れた性能にもかかわらず、膨大なトレーニングおよび推論コストがその進歩を妨げています。計算の大部分は、トランスフォーマーデコーダーによって処理される圧倒的な量のビジョントークンから生じています。本論文では、各トランスフォーマーデコーダーレイヤーが重要なビジョントークンを選択し、冗長なものをスキップするMixture-of-Depths(MoD)メカニズムを活用して効率的なMLLMsを構築することを提案します。ただし、MoDをMLLMsに統合することは容易ではありません。トレーニングおよび推論の安定性、および限られたトレーニングデータの課題に対処するために、TanhNorm(tanhゲート付き重み正規化)およびSTRing(対称トークン再重み付け)の2つの新しい設計を持つMoDモジュールを適応させます。さらに、ビジョントークンはより深いレイヤーでより高い冗長性を示すことを観察し、段階的な比率減衰(PRD)戦略を設計します。これにより、トークン保持率を段階的にレイヤーごとに減少させ、シフトされたコサインスケジュールを使用します。この重要な設計により、MoDの潜在能力が十分に発揮され、モデルの効率と性能が大幅に向上します。アプローチの有効性を検証するために、14のベンチマークで2つのベースラインモデルとの広範な実験を実施します。推論時には55.6%のTFLOPsと53.8%のKVキャッシュストレージ、トレーニング時には77.7%のGPU時間のみを使用する当社のモデルであるp-MoDは、ベースラインモデルの性能に追いつくか、それを上回ります。
ビジョン言語モデル(VLM)の重要な進展にもかかわらず、推論時の計算をスケーリングして応答品質を向上させる効果的なアプローチが不足しています。この能力は、最近の大規模言語モデルの研究において、自己改善モデルに向けた中核的なステップであるとされています。本論文では、ビジョン価値モデル(VisVM)を提案し、VLMの推論時検索を誘導して、視覚理解がより良い応答を生成することができます。具体的には、VisVMは、現在の検索ステップで生成された文章の品質を評価するだけでなく、現在のステップから生じるかもしれない後続の文章の品質を予測し、長期的な価値を提供します。このようにして、VisVMは、幻覚や詳細不足に陥りやすい文章を生成するVLMを避け、より高品質な応答を生成します。実験結果は、VisVMによる誘導検索が、貪欲なデコーディングや他の視覚報酬信号を用いた検索方法と比較して、より豊かな視覚詳細と幻覚が少ない記述的なキャプションを生成するVLMの能力を著しく向上させることを示しています。さらに、VisVMによるキャプションでモデルを自己学習させることで、多様なマルチモーダルベンチマーク全体でVLMの性能が向上することがわかり、自己改善型VLMの開発の可能性を示しています。当社の価値モデルとコードは、https://github.com/si0wang/VisVM で入手可能です。
最近、深層ニューラルネットワークを用いた医用画像セグメンテーションは印象的な進歩を示していますが、異種モダリティとマスク注釈の不足が未注釈モダリティ上でのセグメンテーションモデルの開発を制限しています。本論文では、医療応用における生成モデルを活用する新しいパラダイムを検討し、未注釈モダリティ向けにデータを制御可能に合成する手法を調査します。具体的には、本論文では以下の貢献を行います:(i) モダリティラベル、属性、領域、器官情報、および一部の器官マスク注釈を含む大規模な放射線画像テキストデータセットMedGen-1Mを収集・整備し、制御可能な医用画像生成の研究を支援します;(ii) ディフュージョンベースのデータエンジンであるMRGenを提案し、テキストプロンプトとマスクによる条件付き生成を可能とし、マスク注釈のない多様なモダリティ向けにMR画像を合成し、未注釈モダリティ上でのセグメンテーションモデルのトレーニングを行います;(iii) 様々なモダリティにわたる包括的な実験を実施し、当該データエンジンが効果的にトレーニングサンプルを合成し、MRIセグメンテーションを未注釈モダリティに拡張できることを示します。
文書画像からの表抽出は、困難なAI課題であり、多くのコンテンツ領域におけるラベル付きデータは入手困難です。既存の表抽出データセットは、利用可能な多数の学術論文とそれらのソースコードによる科学的な表に焦点を当てています。しかし、科学的、財務、その他の領域にまたがる表には、レイアウトや活字の違いが著しくあります。現在のデータセットには、表内に含まれる単語とその位置が欠落しており、代わりに信頼性の低いOCRに依存してこれらの特徴を抽出し、最新の自然言語処理タスクの機械学習モデルのトレーニングに使用しています。したがって、ラベル付きデータをより一般的に取得する方法が必要です。私たちはSynFinTabsを提案し、合成された財務表の大規模なラベル付きデータセットを提示します。私たちの希望は、これらの合成表を生成する方法が他の領域にも応用可能であることです。表画像から情報を抽出するモデルをトレーニングするために、抽出型質問応答タスクでトレーニングされたレイアウト大規模言語モデルであるFinTabQAを作成し、実世界の財務表を使用してモデルをテストし、最先端の生成モデルと比較し、結果について議論します。データセット、モデル、およびデータセット生成コードを一般に公開します。
Chatbot Arenaなどのオープンなコミュニティ主導のプラットフォームは、サイト訪問者からのユーザーの選好データを収集し、LLMのパフォーマンスの信頼性を評価するための最も信頼性の高い一般公開ベンチマークの1つとして評価されています。現在は標準となっていますが、効果的なガードレールを実装して高品質な注釈を人間から収集することは難しいです。本論文では、悪意のあるものおよびそうでないものを含む3つの種類の悪質な注釈が、オープンなリーダーボードのランキングの信頼性を損なう可能性があることを示します。特に、無関心な(正しい投票を行うために適切なインセンティブを受けていないサイト訪問者)または敵対的な(対象モデルのランキングを操作しようとする悪意のある行為者)注釈者による質の低い投票のわずか10%が、モデルのランキングをリーダーボード上で最大5つまで変更する可能性があることを示します。最後に、高品質な人間の注釈を確保するためのオープンな課題について議論します。
私たちは、タスクのスケーリング則とモデルラダーを開発し、過学習設定で事前学習された言語モデル(LMs)の個々のタスクパフォーマンスを予測します。言語モデリング損失に対する標準的なべき乗則は、タスクパフォーマンスを正確にモデル化することができません。そのため、私たちは2段階の予測アプローチを活用しています:まず、モデルとデータサイズを使用してタスク固有の損失を予測し、次にこのタスク損失を使用してタスクパフォーマンスを予測します。私たちは、一連の小規模な「ラダー」モデルを訓練し、2つの予測ステップのパラメータ化された関数に適合するデータポイントを収集し、2つのターゲットモデルの予測を行います:4Tトークンに訓練された7Bモデルと5Tトークンに訓練された13Bモデル。ラダーモデルの訓練にかかるコンピュートは、ターゲットモデルに使用されるコンピュートの1%にすぎません。ランク付け分類形式で書かれた4つの多肢選択タスクにおいて、両方のターゲットモデルの精度を絶対誤差2ポイント以内で予測できます。他の4つのタスクでは予測誤差が大きく(平均絶対誤差6.9)、これらはしばしばタスクメトリクスの分散が大きいタスクであることがわかります。また、より少ないラダーモデルを訓練するためにより少ないコンピュートを使用すると、予測が悪化する傾向があることを見つけます。最後に、設計選択肢と2段階アプローチがスケーリング則の確立において優れたパフォーマンスをもたらすことを実証的に示します。