翻訳付きの日次キュレーションされたAI研究論文
私たちは、General AI Assistants(汎用AIアシスタント)のためのベンチマーク「GAIA」を紹介します。GAIAが解決されれば、AI研究における重要なマイルストーンとなるでしょう。GAIAは、推論、マルチモーダル処理、ウェブブラウジング、そして一般的なツール使用の熟練度など、一連の基本的な能力を必要とする現実世界の質問を提案します。GAIAの質問は、人間にとっては概念的には単純ですが、最先端のAIの多くにとっては挑戦的です。私たちは、人間の回答者が92%の正答率を達成するのに対し、プラグインを装備したGPT-4は15%の正答率しか得られないことを示しています。この顕著な性能差は、最近のLLM(大規模言語モデル)が法律や化学などの専門スキルを必要とするタスクで人間を凌駕する傾向とは対照的です。GAIAの哲学は、人間にとってますます困難なタスクをターゲットとする現在のAIベンチマークの潮流とは異なります。私たちは、人工汎用知能(AGI)の到来は、そのような質問に対して平均的な人間と同様の堅牢性を示すシステムの能力にかかっていると主張します。GAIAの方法論を用いて、私たちは466の質問とその回答を考案しました。私たちは質問を公開し、そのうち300の回答を保留して、https://huggingface.co/gaia-benchmark で利用可能なリーダーボードを提供します。
マルチメディア生成手法は人工知能研究において重要な位置を占めています。テキストから画像を生成するモデルはここ数年で高品質な結果を達成してきました。しかし、ビデオ合成手法は最近になって発展し始めました。本論文では、テキストから画像を生成する拡散モデルに基づいた新しい2段階の潜在拡散テキストからビデオ生成アーキテクチャを提案します。第1段階ではビデオのストーリーラインを構築するためのキーフレーム合成を行い、第2段階ではシーンやオブジェクトの動きを滑らかにするための補間フレーム生成に専念します。キーフレーム生成のための複数の時間的コンディショニング手法を比較し、ビデオ生成品質の側面と人間の好みを反映するメトリクスにおいて、時間的レイヤーよりも個別の時間的ブロックを使用することの優位性を示します。私たちの補間モデルの設計は、他のマスク付きフレーム補間手法と比較して計算コストを大幅に削減します。さらに、MoVQベースのビデオデコードスキームの異なる構成を評価し、一貫性を向上させ、より高いPSNR、SSIM、MSE、およびLPIPSスコアを達成します。最後に、私たちのパイプラインを既存のソリューションと比較し、全体でトップ2、オープンソースソリューションの中ではトップ1のスコアを達成しました:CLIPSIM = 0.2976、FVD = 433.054。プロジェクトページ:https://ai-forever.github.io/kandinsky-video/
VRデバイスとコンテンツの普及に伴い、3Dシーン生成技術への需要が高まっています。しかし、既存の3Dシーン生成モデルは、現実世界からかけ離れた3Dスキャンデータセットを使用したトレーニング戦略のため、特定のドメインに限定されています。この制限を解決するため、我々は既存の大規模拡散ベース生成モデルの力を最大限に活用したドメインフリーのシーン生成パイプラインであるLucidDreamerを提案します。LucidDreamerは、DreamingとAlignmentという2つの交互のステップで構成されています。まず、入力から多視点一貫性のある画像を生成するために、点群を各画像生成の幾何学的ガイドラインとして設定します。具体的には、点群の一部を所望の視点に投影し、その投影を生成モデルを用いたインペインティングのガイダンスとして提供します。インペインティングされた画像は、推定された深度マップと共に3D空間にリフトされ、新しい点群を構成します。次に、新しく生成された3Dシーンの部分を調和して統合するアラインメントアルゴリズムを提案し、新しい点群を3Dシーンに集約します。最終的に得られた3Dシーンは、ガウススプラットを最適化するための初期点として機能します。LucidDreamerは、従来の3Dシーン生成方法と比較して非常に詳細なガウススプラットを生成し、対象シーンのドメインに制約がありません。
大規模言語モデル(LLMs)は、人間の比較データを用いて「人間のフィードバックからの強化学習(RLHF)」手法でファインチューニングされ、ユーザーの嗜好により適合するように調整されています。これに対して、テキストから画像への拡散モデルにおける人間の嗜好学習は広く研究されておらず、現状では事前学習済みモデルを高品質な画像とキャプションで慎重に調整し、視覚的魅力とテキストの整合性を向上させる手法が最良とされています。本研究では、人間の比較データを直接最適化することで拡散モデルを人間の嗜好に適合させる手法「Diffusion-DPO」を提案します。Diffusion-DPOは、最近開発された「直接嗜好最適化(DPO)」を基にしています。DPOはRLHFの代替として、分類目的の下で人間の嗜好を最も満たすポリシーを直接最適化する簡潔な手法です。本手法では、DPOを拡散モデルの尤度概念に適合させるため、証拠下界を利用して微分可能な目的関数を導出します。851Kのクラウドソーシングによるペアワイズ嗜好データセット「Pick-a-Pic」を用いて、最先端のStable Diffusion XL(SDXL)-1.0モデルのベースモデルをDiffusion-DPOでファインチューニングしました。その結果、ファインチューニングされたベースモデルは、ベースSDXL-1.0および追加の精緻化モデルを含む大規模SDXL-1.0モデルを人間評価において大幅に上回り、視覚的魅力とプロンプトの整合性が向上しました。また、人間の嗜好データと同等の性能を発揮するAIフィードバックを用いたバリアントも開発し、拡散モデルの適合手法のスケーリングへの道を開きました。
概念駆動型パーソナライゼーションのための生成モデルのファインチューニング手法は、一般的に被写体駆動またはスタイル駆動の生成において強力な結果を達成します。最近、低ランク適応(LoRA)が、概念駆動型パーソナライゼーションを効率的に実現する方法として提案されました。最近の研究では、学習されたスタイルと被写体の共同生成を達成するために、個別のLoRAを組み合わせる方法が探求されていますが、既存の技術はこの問題を確実に解決するものではありません。それらはしばしば被写体の忠実度またはスタイルの忠実度のいずれかを犠牲にします。我々は、ZipLoRAを提案します。これは、独立して訓練されたスタイルと被写体のLoRAを安価かつ効果的に統合し、ユーザーが提供した任意の被写体を任意のスタイルで生成することを可能にする方法です。さまざまな被写体とスタイルの組み合わせに関する実験では、ZipLoRAがベースラインを上回る被写体とスタイルの忠実度を維持しつつ、再文脈化の能力を保持した説得力のある結果を生成できることが示されています。プロジェクトページ:https://ziplora.github.io
人間のフィードバックを用いた強化学習(RLHF)は、拡散モデルのファインチューニングにおいて大きな可能性を示しています。従来の手法では、まず人間の選好に沿った報酬モデルを訓練し、その後RL技術を活用して基盤となるモデルを微調整します。しかし、効率的な報酬モデルの構築には大規模なデータセット、最適なアーキテクチャ、手動のハイパーパラメータ調整が必要であり、このプロセスは時間とコストの両面で負担が大きいという課題があります。大規模言語モデルのファインチューニングに有効な直接選好最適化(DPO)手法は、報酬モデルの必要性を排除しますが、拡散モデルのノイズ除去プロセスに伴う膨大なGPUメモリ要件がDPO手法の直接的な適用を妨げています。この問題を解決するため、我々は拡散モデルを直接ファインチューニングするための直接選好型ノイズ除去拡散ポリシー最適化(D3PO)手法を提案します。理論的な分析により、D3POは報酬モデルの訓練を省略するものの、人間のフィードバックデータを用いて訓練された最適な報酬モデルとして機能し、学習プロセスを効果的に導くことが示されています。このアプローチは報酬モデルの訓練を必要とせず、より直接的でコスト効率が高く、計算オーバーヘッドを最小化します。実験では、我々の手法は人間の選好の代理として目的関数の相対的な尺度を使用し、真の報酬を用いる手法と同等の結果を達成しました。さらに、D3POは画像の歪み率を低減し、より安全な画像を生成する能力を示し、堅牢な報酬モデルが不足している課題を克服しています。
大規模言語モデル(LLM)におけるインコンテキストプロンプティングは、ゼロショット能力を向上させるための一般的なアプローチとなっていますが、このアイデアは視覚領域ではあまり探求されていません。既存の視覚プロンプティング手法は、最も関連性の高いオブジェクトをセグメント化する参照セグメンテーションに焦点を当てており、オープンセットセグメンテーションや検出などの多くの汎用視覚タスクに対応するには至っていません。本論文では、これらのタスクの両方に対応する汎用的な視覚インコンテキストプロンプティングフレームワークを提案します。特に、エンコーダ-デコーダアーキテクチャを基盤とし、ストローク、ボックス、ポイントなどの多様なプロンプトをサポートする汎用プロンプトエンコーダを開発します。さらに、任意の数の参照画像セグメントをコンテキストとして取り込むように拡張します。私たちの広範な実験により、提案する視覚インコンテキストプロンプティングが、参照および汎用セグメンテーション能力を引き出し、クローズセットのドメイン内データセットで競争力のある性能を発揮し、多くのオープンセットセグメンテーションデータセットで有望な結果を示すことが明らかになりました。COCOとSA-1Bでの共同トレーニングにより、私たちのモデルはCOCOで57.7 PQ、ADE20Kで23.2 PQを達成しました。コードはhttps://github.com/UX-Decoder/DINOvで公開予定です。
画像ベースの大規模マルチモーダルモデル(LMM)を動画に拡張することは、動画データの本質的な複雑さから課題となっています。最近の画像ベースLMMを動画に拡張するアプローチは、グラウンディング能力を欠いている(例:VideoChat、Video-ChatGPT、Video-LLaMA)か、動画理解を向上させるために音声信号を活用していない(例:Video-ChatGPT)かのいずれかです。これらのギャップを埋めるため、我々はピクセルレベルのグラウンディング能力を備えた初のLMMであるVideo-LLaVAを提案し、音声の手がかりをテキストに変換して動画コンテキストの理解を豊かにします。我々のフレームワークは、既存のトラッカーと新規のグラウンディングモジュールを使用し、ユーザーの指示に従って動画内のオブジェクトを空間的および時間的にローカライズすることを可能にします。Video-LLaVAを動画ベースの生成および質問応答ベンチマークで評価し、動画内でのプロンプトベースのオブジェクトグラウンディング性能を測定するために特別に設計された新しいベンチマークを導入します。さらに、Video-ChatGPTで使用されているGPT-3.5の代わりにVicunaを使用することを提案し、GPT-3.5のプロプライエタリな性質による結果の再現性の問題を解決します。我々のフレームワークは、SoTAの画像ベースLLaVAモデルを基盤とし、その利点を動画領域に拡張し、動画ベースの会話およびグラウンディングタスクにおいて有望な成果を提供します。プロジェクトページ:https://github.com/mbzuai-oryx/Video-LLaVA
これは拡散モデルに基づく360度パノラマ画像生成タスクに関する技術報告書である。通常の2D画像とは異なり、360度パノラマ画像は360度×180度の視野全体を捉える。そのため、360度パノラマ画像の最右端と最左端は連続している必要があり、これがこの分野の主な課題となっている。しかし、現在の拡散パイプラインは、このようなシームレスな360度パノラマ画像を生成するには適していない。この問題を解決するため、我々は幾何学的連続性を維持するために、ノイズ除去とVAEデコードの両段階で円形ブレンディング戦略を提案する。これに基づき、テキストから360度パノラマへの変換と、単一画像から360度パノラマへの変換の2つのモデルを提示する。コードはオープンソースプロジェクトとして以下で公開されている。 https://github.com/ArcherFMY/SD-T2I-360PanoImage および https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary