翻訳付きの日次キュレーションされたAI研究論文
我々は、AI研究のマイルストーンとなる汎用AIアシスタントのベンチマーク「GAIA」を提案する。GAIAは、推論能力、マルチモーダル処理、ウェブ閲覧、一般的なツール使用技能といった基礎能力を必要とする現実世界の質問を提示する。GAIAの質問は人間にとって概念的には単純であるが、最先端のAIの多くにとっては挑戦的である。人間の回答正解率が92%であるのに対し、プラグイン装備のGPT-4では15%に留まることを示す。この顕著な性能差は、法律や化学などの専門技能を要する課題で大規模言語モデルが人間を凌駕する最近の傾向とは対照的である。GAIAの哲学は、人間にとってますます困難な課題を標的とする現在のAIベンチマークの潮流とは一線を画す。我々は、人工汎用知能(AGI)の到来は、こうした質問に対して平均的な人間と同レベルの堅牢性をシステムが示せるかにかかっていると主張する。GAIAの手法に基づき、466問の質問と回答を設計。回答を非公開とした300問を含む全質問を公開し、https://huggingface.co/gaia-benchmark でリーダーボードを運用する。
大規模言語モデル(LLM)は、人間の選好に適合させるため、人間の比較データを用いた強化学習(RLHF)手法によってファインチューニングが行われている。これに対し、テキストから画像への拡散モデルにおける人間の選好学習は広く研究されていない。現状で最も優れた手法は、視覚的魅力とテキストの整合性を向上させるために、厳選された高品質な画像とキャプションを用いて事前学習済みモデルをファインチューニングするものである。我々は、人間の比較データに対して直接最適化を行うことで拡散モデルを人間の選好に適合させる手法、Diffusion-DPOを提案する。Diffusion-DPOは、最近開発された直接選好最適化(DPO)を応用したものである。DPOはRLHFに代わるより簡潔な手法であり、分類目的の下で人間の選好を最も満たすポリシーを直接最適化する。我々は、拡散モデルの尤度概念を考慮してDPOを再定式化し、エビデンス下限を利用して微分可能な目的関数を導出した。85万1千件のクラウドソーシングによるペアワイズ選好データセットであるPick-a-Picを用いて、最先端のStable Diffusion XL(SDXL)-1.0のベースモデルをDiffusion-DPOでファインチューニングした。我々のファインチューニングされたベースモデルは、追加の精緻化モデルを含むより大規模なSDXL-1.0モデルとベースSDXL-1.0の両方を人間による評価で有意に上回り、視覚的魅力とプロンプトの整合性を向上させた。また、AIフィードバックを利用し、人間の選好による学習と同等の性能を示すバリアントも開発し、拡散モデルの適合手法のスケーリングへの道を開いた。
人間のフィードバックを用いた強化学習(RLHF)は、拡散モデルのファインチューニングにおいて大きな可能性を示しています。従来の手法では、人間の選好に沿った報酬モデルを学習した後、強化学習技術を活用して基盤モデルのファインチューニングを行います。しかし、効率的な報酬モデルの構築には大規模なデータセット、最適なアーキテクザ、手動によるハイパーパラメータ調整が必要であり、プロセスが時間とコストの両面で負担となっていました。大規模言語モデルのファインチューニングで効果的な直接選好最適化(DPO)手法は、報酬モデルを必要としませんが、拡散モデルのノイズ除去プロセスにおける大量のGPUメモリ要件がDPO手法の直接的な適用を妨げています。この問題を解決するため、我々は拡散モデルを直接ファインチューニングするD3PO(Direct Preference for Denoising Diffusion Policy Optimization)手法を提案します。理論分析により、D3POは報酬モデルの学習を省略しながらも、人間のフィードバックデータを用いて学習プロセスを導く最適な報酬モデルとして機能することが示されています。このアプローチは報酬モデルの学習を必要とせず、より直接的でコスト効率が高く、計算オーバーヘッドを最小化します。実験では、本手法は目的関数の相対的な尺度を人間の選好の代理として用いることで、真の報酬を用いる手法に匹敵する結果を達成しました。さらにD3POは、画像の歪み率を低減し、より安全な画像を生成する能力を示し、堅牢な報酬モデルが不足する課題を克服しています。
大規模言語モデル(LLM)におけるインコンテキストプロンプティングは、ゼロショット能力を向上させるための一般的なアプローチとなっていますが、このアイデアは視覚領域ではあまり探求されていません。既存の視覚プロンプティング手法は、最も関連性の高いオブジェクトをセグメント化する参照セグメンテーションに焦点を当てており、オープンセットセグメンテーションや検出などの多くの汎用視覚タスクに対応するには至っていません。本論文では、これらのタスクの両方に対応する汎用的な視覚インコンテキストプロンプティングフレームワークを提案します。特に、エンコーダ-デコーダアーキテクチャを基盤とし、ストローク、ボックス、ポイントなどの多様なプロンプトをサポートする汎用プロンプトエンコーダを開発します。さらに、任意の数の参照画像セグメントをコンテキストとして取り込むように拡張します。私たちの広範な実験により、提案する視覚インコンテキストプロンプティングが、参照および汎用セグメンテーション能力を引き出し、クローズセットのドメイン内データセットで競争力のある性能を発揮し、多くのオープンセットセグメンテーションデータセットで有望な結果を示すことが明らかになりました。COCOとSA-1Bでの共同トレーニングにより、私たちのモデルはCOCOで57.7 PQ、ADE20Kで23.2 PQを達成しました。コードはhttps://github.com/UX-Decoder/DINOvで公開予定です。
これは拡散モデルに基づく360度パノラマ画像生成タスクに関する技術報告書である。通常の2D画像とは異なり、360度パノラマ画像は360度×180度の視野全体を捉える。そのため、360度パノラマ画像の最右端と最左端は連続している必要があり、これがこの分野の主な課題となっている。しかし、現在の拡散パイプラインは、このようなシームレスな360度パノラマ画像を生成するには適していない。この問題を解決するため、我々は幾何学的連続性を維持するために、ノイズ除去とVAEデコードの両段階で円形ブレンディング戦略を提案する。これに基づき、テキストから360度パノラマへの変換と、単一画像から360度パノラマへの変換の2つのモデルを提示する。コードはオープンソースプロジェクトとして以下で公開されている。 https://github.com/ArcherFMY/SD-T2I-360PanoImage および https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary