翻訳付きの日次キュレーションされたAI研究論文
大規模データによる事前学習を原動力として、Segment Anything Model(SAM)は強力でプロンプト可能なフレームワークとして実証され、セグメンテーションモデルに革命をもたらしました。その汎用性にもかかわらず、人手によるプロンプトなしで特定の視覚概念にSAMをカスタマイズする方法は十分に探求されていません。例えば、異なる画像でペットの犬を自動的にセグメント化するといったケースです。本論文では、SAMのためのトレーニング不要のパーソナライゼーションアプローチを提案し、PerSAMと名付けました。参照マスク付きの単一画像のみが与えられた場合、PerSAMはまず位置の事前情報を用いてターゲット概念を特定し、ターゲット誘導型アテンション、ターゲット意味的プロンプティング、およびカスケード型後処理リファインメントという3つの技術を介して、他の画像や動画内でそれをセグメント化します。これにより、トレーニングを一切行わずにSAMを個人使用に適応させます。さらに、マスクの曖昧さを軽減するために、効率的なワンショットファインチューニングバリアントであるPerSAM-Fを提示します。SAM全体を凍結し、マルチスケールマスクのための2つの学習可能な重みを導入し、わずか10秒で2つのパラメータをトレーニングして性能を向上させます。我々の有効性を実証するために、パーソナライゼーション評価のための新しいセグメンテーションデータセットPerSegを構築し、競争力のある性能でビデオオブジェクトセグメンテーションに我々の手法をテストしました。さらに、我々のアプローチはDreamBoothを強化し、Stable Diffusionをテキストから画像生成のためのパーソナライゼーションに活用し、背景の干渉を排除してターゲットの外観学習を改善します。コードはhttps://github.com/ZrrSkywalker/Personalize-SAMで公開されています。
ChatGPTのような大規模言語モデルの出力を特定のユーザーニーズに合わせて調整することは、その高い生成品質にもかかわらず依然として課題となっている。本論文では、生成出力のカスタマイズを強化するため、ジェネレータ、インストラクタ、エディタからなる3エージェント生成パイプラインを提案する。ジェネレータが初期出力を生成し、ユーザー固有のインストラクタが編集指示を生成し、エディタがユーザーの好みに沿った修正出力を生成する。推論専用の大規模言語モデル(ChatGPT)はジェネレータとエディタの両方として機能し、より小規模なモデルがユーザー固有のインストラクタとして生成プロセスをユーザーニーズに向けて誘導する。インストラクタは、大規模エディタモデルからのフィードバックを活用したエディタ主導の強化学習を用いて訓練され、指示生成を最適化する。2つの要約データセットを用いた実験結果は、本アプローチがユーザーの期待をより良く満たす出力を生成する上で有効であることを示している。
本論文では、3Dアセットのための条件付き生成モデルであるShap-Eを紹介します。最近の3D生成モデルの研究では単一の出力表現を生成するものが主流ですが、Shap-Eはテクスチャ付きメッシュとニューラルラジアンスフィールドの両方としてレンダリング可能な陰関数のパラメータを直接生成します。Shap-Eのトレーニングは2段階で行われます。まず、3Dアセットを陰関数のパラメータに確定的にマッピングするエンコーダをトレーニングし、次に、そのエンコーダの出力に対して条件付き拡散モデルをトレーニングします。大規模な3Dとテキストのペアデータセットでトレーニングを行うことで、複雑で多様な3Dアセットを数秒で生成可能なモデルを実現しました。点群を明示的に生成するモデルであるPoint-Eと比較すると、Shap-Eはより高次元で多表現な出力空間をモデル化しているにもかかわらず、より速く収束し、同等または優れたサンプル品質を達成しています。モデルの重み、推論コード、サンプルはhttps://github.com/openai/shap-eで公開しています。
最近のAIアシスタントエージェント、例えばChatGPTは、主に人間によるアノテーションを用いた教師ありファインチューニング(SFT)と、人間のフィードバックからの強化学習(RLHF)に依存しており、大規模言語モデル(LLM)の出力を人間の意図に合わせることで、有用性、倫理性、信頼性を確保しています。しかし、この依存性は、人間の監督を取得するための高コストや、品質、信頼性、多様性、自己一貫性、望ましくないバイアスに関する問題により、AIアシスタントエージェントの真の潜在能力を大きく制約する可能性があります。これらの課題に対処するため、我々はSELF-ALIGNと呼ばれる新しいアプローチを提案します。これは、原則駆動型の推論とLLMの生成能力を組み合わせ、最小限の人間の監督でAIエージェントの自己整合を実現するものです。我々のアプローチは4つの段階で構成されます。まず、LLMを使用して合成プロンプトを生成し、トピックガイド法を用いてプロンプトの多様性を拡張します。次に、AIモデルが従うべき少数の人間が書いた原則を使用し、原則適用のデモンストレーションを通じてコンテキスト内学習をガイドし、ユーザーのクエリに対して有用で倫理的かつ信頼性の高い応答を生成します。第三に、自己整合された高品質な応答を用いて元のLLMをファインチューニングし、原則セットやデモンストレーションなしで各クエリに対して望ましい応答を直接生成できるモデルを作成します。最後に、過度に簡潔または間接的な応答の問題に対処するための改良ステップを提供します。SELF-ALIGNをLLaMA-65bベースの言語モデルに適用し、DromedaryというAIアシスタントを開発しました。200未満のシードプロンプト、16の一般的な原則、およびコンテキスト学習のための5つの例を含む、300行未満の人間によるアノテーションを使用して、Dromedaryは、Text-Davinci-003やAlpacaを含むいくつかの最先端AIシステムの性能を、さまざまな設定のベンチマークデータセットで大幅に上回りました。