翻訳付きの日次キュレーションされたAI研究論文
我々は、AI研究のマイルストーンとなる汎用AIアシスタントのベンチマーク「GAIA」を提案する。GAIAは、推論能力、マルチモーダル処理、ウェブ閲覧、一般的なツール使用技能といった基礎能力を必要とする現実世界の質問を提示する。GAIAの質問は人間にとって概念的には単純であるが、最先端のAIの多くにとっては挑戦的である。人間の回答正解率が92%であるのに対し、プラグイン装備のGPT-4では15%に留まることを示す。この顕著な性能差は、法律や化学などの専門技能を要する課題で大規模言語モデルが人間を凌駕する最近の傾向とは対照的である。GAIAの哲学は、人間にとってますます困難な課題を標的とする現在のAIベンチマークの潮流とは一線を画す。我々は、人工汎用知能(AGI)の到来は、こうした質問に対して平均的な人間と同レベルの堅牢性をシステムが示せるかにかかっていると主張する。GAIAの手法に基づき、466問の質問と回答を設計。回答を非公開とした300問を含む全質問を公開し、https://huggingface.co/gaia-benchmark でリーダーボードを運用する。
マルチメディア生成手法は、人工知能研究において重要な位置を占めている。テキストから画像を生成するモデルは、過去数年間で高品質な結果を達成してきた。しかし、ビデオ合成手法の本格的な発展は最近始まったばかりである。本論文では、テキストから画像を生成する拡散モデルを基盤とした、新しい2段階潜在拡散テキスト-to-ビデオ生成アーキテクチャを提案する。第一段階はビデオのストーリーラインを構築するキーフレーム合成を、第二段階はシーンやオブジェクトの動きを滑らかにする補間フレーム生成を担当する。キーフレーム生成において複数の時間的条件付け手法を比較した結果、ビデオ生成品質の側面を反映する指標と人間の選好度の両方において、時間層を使用するよりも独立した時間ブロックを利用する利点が示された。提案する補間モデルの設計は、他のマスクフレーム補間手法と比較して計算コストを大幅に削減する。さらに、一貫性を改善しより高いPSNR、SSIM、MSE、LPIPSスコアを達成するため、MoVQベースのビデオ復号化スキームの様々な構成を評価した。最終的に、既存のソリューションと提案パイプラインを比較した結果、総合でトップ2、オープンソースソリューションの中ではトップ1のスコア(CLIPSIM = 0.2976、FVD = 433.054)を達成した。プロジェクトページ:https://ai-forever.github.io/kandinsky-video/
VRデバイスとコンテンツの普及に伴い、3Dシーン生成技術への需要が高まっています。しかし、既存の3Dシーン生成モデルは、現実世界からかけ離れた3Dスキャンデータセットを用いた学習戦略により、対象シーンを特定領域に限定しがちです。この制約を解決するため、我々は既存の大規模拡散ベース生成モデルの能力を最大限に活用した、領域非依存のシーン生成パイプライン「LucidDreamer」を提案します。LucidDreamerは「Dreaming」と「Alignment」という2つの交互ステップで構成されます。まず、入力から多視点整合性のある画像を生成するため、点群を各画像生成の幾何学的ガイドラインとして設定します。具体的には、点群の一部を所望の視点に投影し、生成モデルを用いたインペインティングのガイダンスとして提供します。インペインティングされた画像は深度マップと共に3D空間に変換され、新たな点群を構成します。次に、新規生成された3Dシーンの統合において、調和的な統合を実現する位置合わせアルゴリズムを提案します。最終的に得られた3Dシーンは、ガウススプラッティング最適化の初期点として機能します。LucidDreamerは、対象シーンの領域制約なく、従来の3Dシーン生成手法よりも精細なガウススプラッティングを生成します。
大規模言語モデル(LLM)は、人間の選好に適合させるため、人間の比較データを用いた強化学習(RLHF)手法によってファインチューニングが行われている。これに対し、テキストから画像への拡散モデルにおける人間の選好学習は広く研究されていない。現状で最も優れた手法は、視覚的魅力とテキストの整合性を向上させるために、厳選された高品質な画像とキャプションを用いて事前学習済みモデルをファインチューニングするものである。我々は、人間の比較データに対して直接最適化を行うことで拡散モデルを人間の選好に適合させる手法、Diffusion-DPOを提案する。Diffusion-DPOは、最近開発された直接選好最適化(DPO)を応用したものである。DPOはRLHFに代わるより簡潔な手法であり、分類目的の下で人間の選好を最も満たすポリシーを直接最適化する。我々は、拡散モデルの尤度概念を考慮してDPOを再定式化し、エビデンス下限を利用して微分可能な目的関数を導出した。85万1千件のクラウドソーシングによるペアワイズ選好データセットであるPick-a-Picを用いて、最先端のStable Diffusion XL(SDXL)-1.0のベースモデルをDiffusion-DPOでファインチューニングした。我々のファインチューニングされたベースモデルは、追加の精緻化モデルを含むより大規模なSDXL-1.0モデルとベースSDXL-1.0の両方を人間による評価で有意に上回り、視覚的魅力とプロンプトの整合性を向上させた。また、AIフィードバックを利用し、人間の選好による学習と同等の性能を示すバリアントも開発し、拡散モデルの適合手法のスケーリングへの道を開いた。
概念駆動パーソナライゼーションのための生成モデルファインチューニング手法は、一般に被写体駆動またはスタイル駆動生成において強力な結果を達成する。近年、低ランク適応(LoRA)がパラメータ効率の良い概念駆動パーソナライゼーション実現法として提案されている。学習済みスタイルと被写体の統合生成を実現するために個別のLoRAを組み合わせる近年の研究が進む中、既存技術はこの問題を確実に解決できておらず、被写体の再現性またはスタイルの再現性のいずれかを損なう場合が多い。本論文では、ユーザーが提供した任意の被写体を任意のスタイルで生成するために、独立して学習したスタイルLoRAと被写体LoRAを低コストかつ効果的に統合する手法ZipLoRAを提案する。多様な被写体とスタイルの組み合わせによる実験結果から、ZipLoRAが文脈再構成能力を維持しつつ、被写体とスタイルの再現性においてベースラインを上回る有意な改善を示し、説得力のある結果を生成できることが実証された。プロジェクトページ:https://ziplora.github.io
人間のフィードバックを用いた強化学習(RLHF)は、拡散モデルのファインチューニングにおいて大きな可能性を示しています。従来の手法では、人間の選好に沿った報酬モデルを学習した後、強化学習技術を活用して基盤モデルのファインチューニングを行います。しかし、効率的な報酬モデルの構築には大規模なデータセット、最適なアーキテクザ、手動によるハイパーパラメータ調整が必要であり、プロセスが時間とコストの両面で負担となっていました。大規模言語モデルのファインチューニングで効果的な直接選好最適化(DPO)手法は、報酬モデルを必要としませんが、拡散モデルのノイズ除去プロセスにおける大量のGPUメモリ要件がDPO手法の直接的な適用を妨げています。この問題を解決するため、我々は拡散モデルを直接ファインチューニングするD3PO(Direct Preference for Denoising Diffusion Policy Optimization)手法を提案します。理論分析により、D3POは報酬モデルの学習を省略しながらも、人間のフィードバックデータを用いて学習プロセスを導く最適な報酬モデルとして機能することが示されています。このアプローチは報酬モデルの学習を必要とせず、より直接的でコスト効率が高く、計算オーバーヘッドを最小化します。実験では、本手法は目的関数の相対的な尺度を人間の選好の代理として用いることで、真の報酬を用いる手法に匹敵する結果を達成しました。さらにD3POは、画像の歪み率を低減し、より安全な画像を生成する能力を示し、堅牢な報酬モデルが不足する課題を克服しています。
画像ベースの大規模マルチモーダルモデル(LMM)を動画に拡張することは、動画データの本質的な複雑さから困難な課題です。既存の動画拡張手法(VideoChat、Video-ChatGPT、Video-LLaMAなど)は、グラウンディング機能を欠いているか、動画理解向上のための音声信号を活用していません(Video-ChatGPTなど)。こうした課題を解決するため、我々はピクセルレベルのグラウンディング機能を備え、音声手がかりをテキストに変換して動画コンテキスト理解を強化する初のLMMであるVideo-LLaVAを提案します。本フレームワークは市販のトラッカーと新規開発のグラウンディングモジュールを採用し、ユーザーの指示に従って動画内のオブジェクトを空間的・時間的に位置特定できるようにしました。動画ベースの生成タスクおよび質問応答ベンチマークを用いた評価に加え、動画におけるプロンプトベースのオブジェクトグラウンディング性能を測定する新規ベンチマークを導入しました。さらに、Video-ChatGPTで使用されているGPT-3.5の代替としてVicunaを採用し、プロプライエタリな性質を持つGPT-3.5の課題である結果の再現性を確保しました。本フレームワークは画像ベースの最先端LLaVAモデルを基盤とし、その優位性を動画領域に拡張することで、動画会話およびグラウンディングタスクにおいて有望な性能向上を実現しています。プロジェクトページ:https://github.com/mbzuai-oryx/Video-LLaVA
大規模言語モデル(LLM)におけるインコンテキストプロンプティングは、ゼロショット能力を向上させるための一般的なアプローチとなっていますが、このアイデアは視覚領域ではあまり探求されていません。既存の視覚プロンプティング手法は、最も関連性の高いオブジェクトをセグメント化する参照セグメンテーションに焦点を当てており、オープンセットセグメンテーションや検出などの多くの汎用視覚タスクに対応するには至っていません。本論文では、これらのタスクの両方に対応する汎用的な視覚インコンテキストプロンプティングフレームワークを提案します。特に、エンコーダ-デコーダアーキテクチャを基盤とし、ストローク、ボックス、ポイントなどの多様なプロンプトをサポートする汎用プロンプトエンコーダを開発します。さらに、任意の数の参照画像セグメントをコンテキストとして取り込むように拡張します。私たちの広範な実験により、提案する視覚インコンテキストプロンプティングが、参照および汎用セグメンテーション能力を引き出し、クローズセットのドメイン内データセットで競争力のある性能を発揮し、多くのオープンセットセグメンテーションデータセットで有望な結果を示すことが明らかになりました。COCOとSA-1Bでの共同トレーニングにより、私たちのモデルはCOCOで57.7 PQ、ADE20Kで23.2 PQを達成しました。コードはhttps://github.com/UX-Decoder/DINOvで公開予定です。
これは拡散モデルに基づく360度パノラマ画像生成タスクに関する技術報告書である。通常の2D画像とは異なり、360度パノラマ画像は360度×180度の視野全体を捉える。そのため、360度パノラマ画像の最右端と最左端は連続している必要があり、これがこの分野の主な課題となっている。しかし、現在の拡散パイプラインは、このようなシームレスな360度パノラマ画像を生成するには適していない。この問題を解決するため、我々は幾何学的連続性を維持するために、ノイズ除去とVAEデコードの両段階で円形ブレンディング戦略を提案する。これに基づき、テキストから360度パノラマへの変換と、単一画像から360度パノラマへの変換の2つのモデルを提示する。コードはオープンソースプロジェクトとして以下で公開されている。 https://github.com/ArcherFMY/SD-T2I-360PanoImage および https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary