翻訳付きの日次キュレーションされたAI研究論文
効率的な自動コンテンツ作成を追求する中で、変更可能なパラメータとルールベースのシステムを活用したプロシージャル生成は、有望なアプローチとして浮上しています。しかしながら、その複雑な性質から、ルール、アルゴリズム、パラメータに対する深い理解を必要とするため、多大な労力を要する可能性があります。作業負荷を軽減するため、我々は大規模言語モデル(LLMs)を活用した指示駆動型3Dモデリングのフレームワークである3D-GPTを提案します。3D-GPTは、LLMsを熟練した問題解決者として位置づけ、プロシージャル3Dモデリングタスクをアクセス可能なセグメントに分解し、各タスクに適したエージェントを任命します。3D-GPTは、タスクディスパッチエージェント、コンセプト化エージェント、モデリングエージェントという3つのコアエージェントを統合しています。これらは協力して2つの目的を達成します。まず、簡潔な初期シーン記述を強化し、詳細な形式に進化させるとともに、後続の指示に基づいてテキストを動的に適応させます。次に、プロシージャル生成を統合し、強化されたテキストからパラメータ値を抽出して、3Dソフトウェアとシームレスに連携し、アセット作成を行います。我々の実証研究により、3D-GPTが指示を解釈し実行して信頼性の高い結果を提供するだけでなく、人間のデザイナーと効果的に協力することが確認されました。さらに、Blenderとシームレスに統合し、拡張された操作の可能性を解き放ちます。我々の研究は、3DモデリングにおけるLLMsの可能性を強調し、シーン生成とアニメーションの将来の進展に向けた基本的なフレームワークを提供します。
様々なタスクで優れた性能を発揮するオープンな大規模言語モデル(LLM)は、LLMの開発を大きく前進させてきました。しかし、現実世界の複雑なタスクに取り組むエージェントとして機能する場合、ChatGPTやGPT-4などの商用モデルには遠く及びません。これらのエージェントタスクでは、LLMを計画、記憶、ツール利用を担う中央制御装置として使用し、満足のいく性能を達成するためには、細かなプロンプト手法と堅牢なLLMの両方が必要です。特定のエージェントタスクを完了するための多くのプロンプト手法が提案されていますが、LLMの一般的な能力を損なうことなく、そのエージェント能力自体を向上させることに焦点を当てた研究は不足しています。本研究では、LLMの一般的な能力を維持しながら、そのエージェント能力を強化するシンプルで汎用的な手法であるAgentTuningを提案します。高品質なインタラクショントラジェクトリを含む軽量な指示チューニングデータセットであるAgentInstructを構築し、AgentInstructと一般ドメインのオープンソース指示を組み合わせたハイブリッド指示チューニング戦略を採用します。AgentTuningを使用してLlama 2シリーズを指示チューニングし、AgentLMを生成します。評価結果から、AgentTuningはLLMの一般的な能力を損なうことなく、そのエージェント能力を可能にすることが示されています。AgentLM-70Bは、未見のエージェントタスクにおいてGPT-3.5-turboに匹敵し、汎用的なエージェント能力を実証しています。AgentInstructとAgentLM-7B、13B、70Bモデルをhttps://github.com/THUDM/AgentTuningでオープンソースとして公開し、エージェントタスクにおける商用LLMに対するオープンで強力な代替手段を提供します。
大規模言語モデル(LLM)の発展に伴い、AIシステムの性能と安全性のバランスを取ることがこれまで以上に重要となっています。しかし、有用性と無害性という目的の間には本質的な緊張関係があり、LLMの訓練において大きな課題となっています。この問題に対処するため、我々はSafe Reinforcement Learning from Human Feedback(Safe RLHF)という新しい人間の価値観に沿ったアルゴリズムを提案します。Safe RLHFは、有用性と無害性に関する人間の選好を明示的に分離し、クラウドワーカーがこの緊張関係に混乱することを効果的に回避し、個別の報酬モデルとコストモデルを訓練することを可能にします。我々はLLMの安全性の問題を、指定されたコスト制約を満たしながら報酬関数を最大化する最適化タスクとして形式化します。ラグランジュ法を活用してこの制約付き問題を解決し、Safe RLHFはファインチューニング中に二つの目的のバランスを動的に調整します。Safe RLHFを用いた3回のファインチューニングを通じて、既存の価値観に沿ったアルゴリズムと比較して、有害な応答を軽減しつつモデルの性能を向上させる優れた能力を実証しました。実験的には、Safe RLHFを用いてAlpaca-7Bをファインチューニングし、収集した人間の選好に沿わせることで、人間の評価に基づいてその有用性と無害性を大幅に改善しました。
大規模言語モデル(LLMs)は、逐次的意思決定タスクにおける高レベルの意味論的プランナーとして優れた性能を発揮してきた。しかし、複雑な低レベルの操作タスク(例えば、巧みなペン回し)を学習させるための活用は、未解決の問題として残されている。我々はこの根本的なギャップを埋め、LLMsを活用した人間レベルの報酬設計アルゴリズム「Eureka」を提案する。Eurekaは、GPT-4などの最先端LLMsが持つ驚異的なゼロショット生成、コード記述、および文脈内改善能力を活用し、報酬コードに対する進化的最適化を実行する。これにより生成された報酬は、強化学習を通じて複雑なスキルの獲得に利用できる。タスク固有のプロンプトや事前定義された報酬テンプレートを一切必要とせず、Eurekaは人間の専門家が設計した報酬を上回る報酬関数を生成する。10種類の異なるロボット形態を含む29のオープンソースRL環境において、Eurekaは83%のタスクで人間の専門家を上回り、平均52%の正規化改善をもたらした。Eurekaの汎用性は、人間のフィードバックからの強化学習(RLHF)に対する新しい勾配なし文脈内学習アプローチも可能にし、モデルの更新なしに人間の入力を容易に取り入れて生成される報酬の品質と安全性を向上させる。最後に、カリキュラム学習の設定でEurekaの報酬を使用することで、シミュレーション環境下で初めて、高速でペンを円を描くように巧みに操作するShadow Handのペン回しトリックを実証した。
強化学習(RL)では、報酬関数を手動で指定する必要がありますが、これはしばしば実現不可能です。あるいは、大量の人間のフィードバックから報酬モデルを学習する方法もありますが、これは非常にコストがかかります。本研究では、よりサンプル効率の良い代替手段として、事前学習済みの視覚言語モデル(VLM)をゼロショット報酬モデル(RM)として使用し、自然言語を通じてタスクを指定する方法を検討します。我々は、VLMを報酬モデルとして使用するための自然で汎用的なアプローチを提案し、これをVLM-RMと呼びます。我々は、CLIPベースのVLM-RMを使用して、MuJoCoのヒューマノイドに、手動で指定された報酬関数なしに、跪く、開脚する、蓮華座を組むなどの複雑なタスクを学習させました。これらの各タスクについて、我々は最小限のプロンプトエンジニアリングで、望ましいタスクを説明する単一の文のテキストプロンプトを提供しました。訓練されたエージェントの動画は、https://sites.google.com/view/vlm-rm で公開しています。性能を向上させるために、第二の「ベースライン」プロンプトを提供し、目標とベースラインを区別するために不要なCLIP埋め込み空間の部分を投影除去することができます。さらに、VLM-RMには強いスケーリング効果があることがわかりました:より多くの計算リソースとデータで訓練された大規模なVLMは、より良い報酬モデルとなります。我々が遭遇したVLM-RMの失敗モードは、現在のVLMの既知の能力制限、例えば限られた空間推論能力や、VLMの分布から大きく外れた視覚的に非現実的な環境などに関連しています。VLMが十分に大規模であれば、VLM-RMは驚くほど頑健であることがわかりました。これは、将来のVLMが、幅広いRLアプリケーションにとってますます有用な報酬モデルになることを示唆しています。
音楽制作は反復的なプロセスであり、各段階で多様な手法を必要とします。しかし、既存のAI音楽システムは、多様なニーズに対応するために複数のサブシステムを調整する点で不十分です。このギャップを埋めるため、我々はLoop Copilotを提案します。これは、インタラクティブな多回対話型インターフェースを通じて、ユーザーが音楽を生成し反復的に改良できる新しいシステムです。本システムは、大規模言語モデルを使用してユーザーの意図を解釈し、タスク実行に適したAIモデルを選択します。各バックエンドモデルは特定のタスクに特化しており、それらの出力を統合してユーザーの要求を満たします。音楽的な一貫性を保つため、重要な属性は中央集約型のテーブルで管理されます。提案システムの有効性は、半構造化インタビューとアンケートを通じて評価され、音楽制作を容易にするだけでなく、より広範な応用の可能性も示されています。
大規模言語モデル(LLM)は現在、クラウドAPIプロバイダーから様々なサイズと構成で提供されています。この多様性は幅広い選択肢を提供しますが、計算コストとパフォーマンスを最適化するためにこれらのオプションを効果的に活用することは依然として困難です。本研究では、AutoMixというアプローチを提案します。これは、より小さなLLMからの出力の近似正しさに基づいて、クエリをより大きなLLMに戦略的にルーティングするものです。AutoMixの中核となるのは、トレーニングを必要とせずに自身の出力の信頼性を推定する少数ショットの自己検証メカニズムです。検証がノイズを含む可能性があることを考慮し、AutoMixではメタ検証器を採用してこれらの評価の精度を向上させます。LLAMA2-13/70Bを使用した5つの文脈に基づく推論データセットでの実験により、AutoMixが既存のベースラインを上回り、コストあたりの増分利益を最大89%向上させることが実証されました。私たちのコードとデータはhttps://github.com/automix-llm/automixで公開されています。
広く使用されている言語モデル(LM)は、通常、2段階のトレーニングパイプラインをスケールアップして構築されます。その第一段階は、非常に大規模で多様なテキストデータセットを使用した事前学習であり、第二段階は、目的の動作を指定したターゲット例やその他の仕様を使用したファインチューニング(場合によっては「アライメント」)です。知識とスキルは事前学習から得られ、ファインチューニングは主にその知識とスキルセットをフィルタリングするものであると仮説が立てられていますが、この直感は広範に検証されていません。これを支援するため、我々はこれら2つの段階で得られる知識とスキルを分離する新しい技術を導入し、「大規模モデルが事前学習中に獲得した知識と、小規模モデルがファインチューニング中に獲得した知識を組み合わせた場合(またはその逆の場合)、何が起こるか?」という問いに直接答えることを可能にします。人間の選好から学ぶ最近の進展に基づいたRLベースのフレームワークを使用して、我々はエミュレーテッド・ファインチューニング(EFT)を導入します。これは、異なるスケールでの事前学習とファインチューニングの結果を近似(または「エミュレート」)する分布からサンプリングするための原理的で実用的な方法です。EFTを用いた実験では、ファインチューニングをスケールアップすると有用性が向上する傾向があり、事前学習をスケールアップすると事実性が向上する傾向があることが示されました。スケールの分離を超えて、EFTは追加のトレーニングなしに、有用性と無害性といった競合する行動特性をテスト時に調整することを可能にします。最後に、エミュレーテッド・ファインチューニングの特殊なケースとして、我々がLMアップスケーリングと呼ぶ方法は、大規模な事前学習モデルのリソース集約的なファインチューニングを回避し、小規模なファインチューニングモデルとアンサンブルすることで、大規模な事前学習モデルをファインチューニングした結果を本質的にエミュレートします。アップスケーリングは、Llama、Llama-2、Falconファミリーの指示追従モデルの有用性と事実性を、追加のハイパーパラメータやトレーニングなしに一貫して向上させます。
テクスチャル・インバージョンは、プロンプト学習手法の一つであり、新しい「単語」のための単一の埋め込みを学習することで、画像のスタイルや外観を表現し、それを自然言語文に統合して新たな合成画像を生成することを可能にします。しかし、個々の概念の埋め込みが得られる場合でも、一つのシーン内で複数のオブジェクトレベルの概念を識別し統合することは大きな課題となります。これは私たちの実証実験によっても確認されています。この課題に対処するため、私たちはマルチコンセプト・プロンプト学習(MCPL)のフレームワークを導入し、単一の文-画像ペアから複数の新しい「単語」を同時に学習します。単語と概念の関連性の精度を向上させるために、以下の3つの正則化手法を提案します:関連領域に学習を集中させるためのアテンション・マスキング(AttnMask)、異なる概念の埋め込みを分離するためのプロンプト対比損失(PromptCL)、そして新しい「単語」を既知の単語と関連付けるための形容詞バインド(Bind adj.)です。私たちは、多様な画像を用いた画像生成、編集、およびアテンションの可視化を通じて評価を行いました。広範な定量的比較により、私たちの手法がより意味的に分離された概念を学習し、単語と概念の関連性を強化できることが示されています。さらに、この新しいオブジェクトレベルの概念学習タスクに特化した新しいデータセットと評価プロトコルを導入しました。
高解像度3Dオブジェクト生成は、主に包括的な注釈付きトレーニングデータの限られた可用性により、依然として困難な課題です。最近の進展では、Score Distillation Sampling(SDS)などの知識転移技術を用いて、広範にキュレーションされたウェブデータセットで事前学習された画像生成モデルを活用することで、この制約を克服しようとしています。高解像度レンダリングの要件を効率的に満たすためには、Latent Diffusion Model(LDM)などの潜在表現ベースのモデルを採用することがしばしば必要です。このフレームワークにおいて、重要な課題が生じます:個々の画像ピクセルの勾配を計算するためには、指定された潜在空間から画像モデルの凍結されたコンポーネント(LDM内で使用されるVAEエンコーダなど)を通じて勾配を逆伝播する必要があります。しかし、この勾配伝播経路は最適化されておらず、トレーニング中に制御されないままです。我々は、この制御されない勾配が、画像生成モデルからテクスチャ関連情報を取得する3Dモデルの能力に悪影響を及ぼし、品質の低い外観合成を引き起こすことを発見しました。この包括的な課題に対処するため、我々は既存の3D生成モデルにシームレスに統合可能なPixel-wise Gradient Clipping(PGC)という革新的な操作を提案し、それによって合成品質を向上させます。具体的には、確率的勾配の大きさを制御するために、ピクセル単位の勾配を効率的にクリッピングしつつ、重要なテクスチャ関連の勾配方向を保持します。このシンプルさと最小限の追加コストにもかかわらず、広範な実験により、既存の3D生成モデルの高解像度オブジェクトレンダリング性能を向上させるPGCの有効性が実証されています。