翻訳付きの日次キュレーションされたAI研究論文
本論文では、テキストから画像を生成するための潜在拡散モデルであるSDXLを紹介します。従来のStable Diffusionと比較して、SDXLは3倍大きなUNetバックボーンを採用しています。モデルパラメータの増加は、主により多くのアテンションブロックと、第2のテキストエンコーダを使用することによるより大きなクロスアテンションコンテキストに起因しています。我々は複数の新しい条件付けスキームを設計し、SDXLを複数のアスペクト比で学習させました。また、SDXLによって生成されたサンプルの視覚的忠実度を向上させるために、ポストホックな画像間変換技術を使用するリファインメントモデルを導入しました。SDXLは、従来のStable Diffusionと比較して大幅に性能が向上し、ブラックボックスの最先端画像生成モデルと競合する結果を達成することを実証しました。大規模モデルの学習と評価における透明性を促進し、オープンな研究を推進する精神に基づき、コードとモデルウェイトをhttps://github.com/Stability-AI/generative-modelsで公開しています。
大規模言語モデルの時代において、シーケンス長のスケーリングは重要な要求となっている。しかし、既存の手法は計算複雑性かモデルの表現力のいずれかに苦戦しており、最大シーケンス長が制限されている。本研究では、LongNetを紹介する。これは、より短いシーケンスでの性能を犠牲にすることなく、シーケンス長を10億トークン以上にスケールできるTransformerの変種である。具体的には、距離が増すにつれて注意範囲を指数関数的に拡大するdilated attentionを提案する。LongNetには以下の重要な利点がある:1) 線形の計算複雑性とトークン間の対数依存性を持つ、2) 極めて長いシーケンスの分散トレーニングとして機能できる、3) dilated attentionは標準的なattentionの代替としてドロップイン可能で、既存のTransformerベースの最適化とシームレスに統合できる。実験結果は、LongNetが長いシーケンスのモデリングと一般的な言語タスクの両方で強力な性能を発揮することを示している。本研究は、例えばコーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスのモデリングに新たな可能性を開くものである。
既存の大規模なテキストから画像(T2I)生成モデルは、詳細なテキスト記述から高品質な画像を生成する能力を有しているものの、生成された画像や実画像を精密に編集する能力に欠けていることが多い。本論文では、Dragスタイルの操作をDiffusionモデルに可能にする新しい画像編集手法、DragonDiffusionを提案する。具体的には、Diffusionモデルの中間特徴の強い対応関係に基づいて分類器ガイダンスを構築する。これにより、編集信号を特徴対応損失を介して勾配に変換し、Diffusionモデルの中間表現を修正することができる。このガイダンス戦略に基づき、セマンティックおよびジオメトリックなアラインメントを考慮したマルチスケールガイダンスも構築する。さらに、オリジナル画像と編集結果の一貫性を維持するために、クロスブランチ自己注意機構を追加する。本手法は、効率的な設計により、生成画像や実画像に対して、オブジェクトの移動、サイズ変更、外観の置換、コンテンツのドラッグなど、さまざまな編集モードを実現する。注目すべきは、すべての編集およびコンテンツ保存信号が画像自体から得られ、モデルのファインチューニングや追加モジュールを必要としない点である。ソースコードはhttps://github.com/MC-E/DragonDiffusionで公開予定である。
最近、INSTRUCTEVALのリリースにより、エンコーダ-デコーダまたはデコーダのみのアーキテクチャを利用する大規模言語モデル(LLMs)の性能に関する貴重な知見が得られました。興味深いことに、4年前に導入されたT5ベースのLLMs(例えばFLAN-T5)は、一般的な問題解決スキルを必要とするタスクにおいて、最新のデコーダベースのLLMs(例えばLLAMAやVICUNA)を依然として凌駕しています。この性能差は、以下の3つの主要な要因に起因すると考えられます:(1)事前学習データ、(2)バックボーンアーキテクチャ、(3)指示データセット。本技術レポートでは、ChatGPTの会話データに基づいてファインチューニングされたLLAMAベースの大規模言語モデルであるVICUNAを活用し、第3の要因の影響を調査することに焦点を当てています。この目的を達成するため、我々はFLANMINIと呼ばれるカスタマイズされた指示データセットコレクションを使用してVICUNAをファインチューニングしました。このコレクションには、大規模な指示データセットであるFLANのサブセット、およびChatGPT/GPT-4から派生したさまざまなコード関連データセットと会話データセットが含まれています。このデータセットは、問題解決スキルを要求する多数のタスクで構成されています。我々の実験結果は、FLANデータセットでVICUNAをファインチューニングすることにより、我々のモデルFLACUNAの問題解決能力が向上し、INSTRUCTEVALの多数のベンチマークデータセットにおいて大幅な改善が見られることを強く示唆しています。FLACUNAはhttps://huggingface.co/declare-lab/flacuna-13b-v1.0で公開されています。
ドキュメント理解とは、ウェブページなどの様々な種類のデジタル文書から情報を自動的に抽出、分析、理解することを指します。既存のマルチモーダル大規模言語モデル(MLLMs)、例えばmPLUG-Owlは、浅いOCR不要のテキスト認識において有望なゼロショット能力を示しており、OCR不要のドキュメント理解の可能性を示唆しています。しかし、ドメイン内でのトレーニングなしでは、これらのモデルは洗練された表や大きなテキストブロックなどの細かいOCR特徴を無視する傾向があり、これらはOCR不要のドキュメント理解に不可欠です。本論文では、OCR不要のドキュメント理解のためにmPLUG-Owlを基にしたmPLUG-DocOwlを提案します。具体的には、まず、幅広い視覚テキスト理解タスクを特徴とする指示チューニングデータセットを構築します。次に、言語のみ、一般的な視覚と言語、およびドキュメント指示チューニングデータセットを統合した指示チューニング戦略でモデルを共同トレーニングすることで、OCR不要のドキュメント理解能力を強化します。また、指示遵守とドキュメント理解におけるモデルの能力をより良く比較するために、OCR不要のドキュメント指示理解評価セットLLMDocを構築します。実験結果は、我々のモデルが既存のマルチモーダルモデルを上回り、ドキュメント理解の強力な能力を示しています。さらに、特定のファインチューニングなしで、mPLUG-DocOwlは様々な下流タスクで良好に汎化します。我々のコード、モデル、トレーニングデータ、および評価セットはhttps://github.com/X-PLUG/mPLUG-DocOwlで利用可能です。
安全性と無害性を目的に訓練された大規模言語モデルは、依然として敵対的な悪用に対して脆弱である。これは、初期リリースのChatGPTに対する「ジェイルブレイク」攻撃の蔓延と、それによって引き起こされる望ましくない振る舞いがその証拠となっている。本論文では、この問題を認識するだけでなく、なぜそのような攻撃が成功するのか、そしてそれらがどのように作成されるのかを調査する。我々は、安全性訓練における2つの失敗モードを仮説として提示する:競合する目的と不一致な汎化である。競合する目的は、モデルの能力と安全性の目標が衝突するときに生じ、不一致な汎化は、安全性訓練が能力が存在する領域に汎化しないときに発生する。これらの失敗モードをガイドとしてジェイルブレイクの設計を行い、その後、OpenAIのGPT-4やAnthropicのClaude v1.3などの最先端モデルを、既存の攻撃と新たに設計した攻撃に対して評価する。その結果、これらのモデルが背後に持つ広範なレッドチーミングと安全性訓練の努力にもかかわらず、脆弱性が残存していることが明らかとなった。特に、我々の失敗モードを利用した新しい攻撃は、モデルのレッドチーミング評価セットからの安全でないリクエストのコレクションにおいて、すべてのプロンプトで成功し、既存のアドホックなジェイルブレイクを上回る性能を示した。我々の分析は、安全性と能力のパリティ(安全性メカニズムが基盤となるモデルと同程度に洗練されているべきこと)の必要性を強調し、スケーリングだけでこれらの安全性の失敗モードを解決できるという考えに反論するものである。
GPT4のような大規模言語モデル(LLM)の最近の進展は、画像を伴うオープンエンドな指示に従う際に卓越したマルチモーダル能力を示しています。しかし、これらのモデルの性能は、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に大きく依存しており、これらの選択は文献で十分に議論されていないため、この分野の進歩を定量化することが困難です。この問題に対処するため、本論文では、そのようなモデルのトレーニングについて、定量的かつ定性的に体系的かつ包括的な研究を提示します。我々は、制御された設定で20以上のバリエーションを実装しました。具体的には、ネットワーク構造については、異なるLLMバックボーンとモデル設計を比較します。トレーニングデータについては、データとサンプリング戦略の影響を調査します。指示については、多様化されたプロンプトがトレーニングされたモデルの指示追従能力に及ぼす影響を探ります。ベンチマークについては、我々の知る限り、画像とビデオタスクを含む初の包括的な評価セットをクラウドソーシングを通じて提供します。我々の調査結果に基づき、既存のオープンソースのGPT4スタイルモデルと比較して、最も正確なマルチモーダル理解を実現しつつ、最高のマルチモーダル生成能力を保持するLynxを紹介します。
大規模言語モデル(LLMs)は、さまざまな領域における単一エージェントの具現化タスクにおいて、印象的な計画能力を示してきました。しかし、多エージェント協調における計画とコミュニケーション能力については、これらが知的な具現化エージェントにとって重要なスキルであるにもかかわらず、まだ明らかになっていません。本論文では、LLMsを多エージェント協調に活用する新しいフレームワークを提案し、さまざまな具現化環境でテストします。私たちのフレームワークは、具現化エージェントが他の具現化エージェントや人間と計画し、コミュニケーションを取り、協力して長期的なタスクを効率的に達成することを可能にします。GPT-4のような最近のLLMsが、ファインチューニングや少数ショットプロンプトを必要とせずに、私たちのフレームワークを使用して強力な計画ベースの手法を上回り、効果的なコミュニケーションを発現できることを示します。また、自然言語でコミュニケーションを行うLLMベースのエージェントが、人間からの信頼をより多く獲得し、より効果的に協力できることを発見しました。私たちの研究は、LLMsの具現化AIにおける可能性を強調し、多エージェント協調の将来の研究の基盤を築きます。ビデオはプロジェクトウェブサイトhttps://vis-www.cs.umass.edu/Co-LLM-Agents/でご覧いただけます。
大規模言語モデル(LLMs)は、段階的な計画立案から常識推論まで、ロボットにとって有用な幅広い能力を示すが、自信を持って誤った予測を生成する傾向がある。本論文では、KnowNoを提案する。これは、LLMベースのプランナーの不確実性を測定し、整合させるためのフレームワークであり、モデルが自身の知識の限界を認識し、必要な時に助けを求めることを可能にする。KnowNoは、コンフォーマル予測の理論に基づいて、複雑な多段階計画設定において人間の助けを最小化しつつ、タスク完了に対する統計的保証を提供する。空間的不確実性から数値的不確実性、人間の選好からウィノグラードスキーマまで、様々な曖昧さを伴うタスクを含むシミュレーションおよび実ロボット環境での実験により、KnowNoは、効率性と自律性の向上において、アンサンブルや大規模なプロンプトチューニングを含む現代的なベースラインを上回り、形式的な保証を提供することが示された。KnowNoは、モデルのファインチューニングなしにLLMをそのまま使用でき、ファウンデーションモデルの能力向上に伴って拡張可能な、軽量な不確実性モデリングアプローチの可能性を示唆している。ウェブサイト: https://robot-help.github.io
最近のDiffusion Transformer(例:DiT)は、高品質な2D画像生成においてその強力な効果を実証しています。しかし、Transformerアーキテクチャが3D形状生成においても同等の性能を発揮するかどうかはまだ不明です。なぜなら、これまでの3D拡散法は主にU-Netアーキテクチャを採用していたからです。このギャップを埋めるため、我々は3D形状生成のための新たなDiffusion Transformer、すなわちDiT-3Dを提案します。DiT-3Dは、プレーンなTransformerを使用してボクセル化された点群のノイズ除去プロセスを直接操作することができます。既存のU-Netアプローチと比較して、我々のDiT-3Dはモデルサイズにおいてよりスケーラブルであり、はるかに高品質な生成を実現します。具体的には、DiT-3DはDiTの設計哲学を採用していますが、3D位置埋め込みとパッチ埋め込みを組み込むことで、ボクセル化された点群からの入力を適応的に集約するように変更しています。3D形状生成におけるセルフアテンションの計算コストを削減するため、我々はTransformerブロックに3Dウィンドウアテンションを組み込みました。これは、ボクセルの追加次元による3Dトークン長の増加が高い計算量を引き起こす可能性があるためです。最後に、線形層とデボクセル化層を使用してノイズ除去された点群を予測します。さらに、我々のTransformerアーキテクチャは2Dから3Dへの効率的なファインチューニングをサポートしており、ImageNetで事前学習されたDiT-2DチェックポイントがShapeNet上のDiT-3Dを大幅に改善することができます。ShapeNetデータセットでの実験結果は、提案されたDiT-3Dが高忠実度かつ多様な3D点群生成において最先端の性能を達成することを示しています。特に、我々のDiT-3Dは、Chamfer Distanceで評価した場合、最先端手法の1-Nearest Neighbor Accuracyを4.59減少させ、Coverageメトリックを3.51増加させました。
Vision Transformersへの入力トークンは、入力画像の内容に関わらず、均等なサイズのパッチとして定義されるため、ほとんど意味的な情報を持ちません。しかし、画像の均一な背景領域を処理するのに、密集した複雑な領域と同程度の計算量を必要とすべきではありません。この問題に対処するため、ViT向けの動的混合スケールトークン化手法であるMSViTを提案します。本手法では、各画像領域に対して最適なトークンスケールを選択する条件付きゲーティング機構を導入し、入力ごとにトークン数を動的に決定します。提案するゲーティングモジュールは軽量で、Transformerバックボーンの選択に依存せず、わずかなトレーニングオーバーヘッドで数エポック(例:ImageNetで20エポック)で学習可能です。さらに、トレーニング中のゲートの条件付き動作を強化するため、バッチシェイピング損失の新しい一般化を導入します。本ゲーティングモジュールは、粗いパッチレベルで局所的に動作するにもかかわらず、意味のあるセマンティクスを学習できることを示します。MSViTを分類とセグメンテーションのタスクで検証し、精度と複雑性のトレードオフが改善されることを確認しました。
本研究では、テキストアノテーションタスクにおけるオープンソースの大規模言語モデル(LLM)の性能を検証し、ChatGPTのようなプロプライエタリモデルやMTurkなどの人間ベースのサービスと比較する。先行研究では、ChatGPTが多くの自然言語処理(NLP)タスクで高い性能を発揮することが示されているが、HugginChatやFLANのようなオープンソースLLMは、コスト効率の良さ、透明性、再現性、優れたデータ保護の観点から注目を集めている。我々は、これらのモデルをゼロショットおよび少数ショットのアプローチとさまざまな温度パラメータを用いて、多様なテキストアノテーションタスクで評価した。その結果、ChatGPTがほとんどのタスクで最高の性能を達成する一方で、オープンソースLLMはMTurkを上回るだけでなく、特定のタスクではChatGPTに対しても競争力のある潜在能力を示すことが明らかになった。
アバターは仮想世界におけるインタラクティブで没入感のある体験を創出する上で重要です。これらのキャラクターをユーザーの動きに合わせてアニメーションさせる際の課題の一つは、市販のAR/VR製品がヘッドセットとコントローラーのみで構成されており、ユーザーの姿勢に関するセンサーデータが非常に限られていることです。もう一つの課題は、アバターが人間とは異なる骨格構造を持つ可能性があり、それらの間のマッピングが明確でないことです。本研究では、これらの両方の課題に取り組みます。我々は、まばらな人間のセンサーデータから様々な形態のキャラクターへリアルタイムでモーションをリターゲットする手法を提案します。この手法では、物理シミュレータ内でキャラクターを制御するためのポリシーを強化学習を用いて訓練します。訓練には人間のモーションキャプチャデータのみを必要とし、各アバターごとにアーティストが生成したアニメーションに依存しません。これにより、大規模なモーションキャプチャデータセットを使用して、リアルタイムで実際のまばらなデータから未見のユーザーを追跡できる汎用的なポリシーを訓練することが可能になります。我々は、恐竜、ネズミのような生物、人間という異なる骨格構造を持つ3つのキャラクターに対して、このアプローチの実現可能性を実証します。下半身のセンサー情報が利用できないにもかかわらず、アバターのポーズがユーザーと驚くほどよく一致することを示します。我々は、フレームワーク内の重要なコンポーネント、具体的にはキネマティックリターゲティングステップ、模倣、接触、アクション報酬、および非対称なアクター-クリティック観測について議論し、アブレーションを行います。さらに、バランスを崩す動作、ダンス、スポーツの動きを含む様々な設定において、本手法の堅牢性を探ります。
本論文は、既存のDecision Transformer(DT)とその派生モデルを大幅に進化させたElastic Decision Transformer(EDT)を紹介する。DTは最適な軌道を生成することを謳っているが、実証的な証拠から、最適または準最適な軌道を複数の準最適な軌道の最良の部分から生成する「軌道縫合(trajectory stitching)」に苦戦していることが示されている。提案するEDTは、テスト時の行動推論において軌道縫合を促進することで差別化を図り、これはDTで維持される履歴長を調整することで実現される。さらに、EDTは、前の軌道が最適な場合には長い履歴を保持し、準最適な場合には短い履歴を保持することで軌道を最適化し、より最適な軌道と「縫合」することを可能にする。大規模な実験により、EDTがDTベースのアプローチとQ学習ベースのアプローチの性能差を埋める能力を実証している。特に、EDTはD4RLロコモーションベンチマークとAtariゲームにおけるマルチタスク環境において、Q学習ベースの手法を上回る性能を示す。動画は以下で閲覧可能:https://kristery.github.io/edt/
エンボディドエージェントに常識を備えることは、一般的な環境において複雑な人間の指示を成功裏に完了するために重要です。最近の大規模言語モデル(LLM)は、複雑なタスクの計画生成においてエージェントに豊富な意味的知識を埋め込むことができますが、現実世界の情報が不足しており、実行不可能なアクションシーケンスを生成することがよくあります。本論文では、物理的なシーン制約を考慮したグラウンディング計画のためのTAsk Planing Agent(TaPA)を提案します。このエージェントは、LLMを視覚知覚モデルと整合させることで、シーン内に存在するオブジェクトに基づいて実行可能な計画を生成します。具体的には、まず、室内シーン、指示、およびアクションプランのトリプレットを含むマルチモーダルデータセットを構築します。ここでは、設計されたプロンプトとシーン内の既存オブジェクトのリストをGPT-3.5に提供し、多数の指示と対応する計画されたアクションを生成します。生成されたデータは、事前学習済みLLMのグラウンディング計画チューニングに活用されます。推論時には、達成可能な異なる位置で収集されたマルチビューRGB画像に対して、オープン語彙オブジェクト検出器を拡張してシーン内のオブジェクトを発見します。実験結果は、我々のTaPAフレームワークから生成された計画が、LLaVAやGPT-3.5よりも大幅に高い成功率を達成できることを示しており、一般的で複雑な環境におけるエンボディドタスク計画の実用性を示しています。
音楽は感情を伝えるために用いられるため、感情を伴った音楽を自動生成することは重要である。これまでの感情音楽生成の研究では、注釈付けされた感情ラベルを直接制御信号として使用してきたが、これには主観的バイアスが伴う問題があった。つまり、同じ音楽に対して異なる人が異なる感情を注釈付けすることがあり、また同じ人でも状況によって異なる感情を抱くことがある。そのため、感情ラベルを音楽シーケンスに直接エンドツーエンドでマッピングしようとすると、学習プロセスが混乱し、一般的な感情を伴った音楽の生成が妨げられる。本論文では、EmoGenという感情音楽生成システムを提案する。EmoGenは、感情と音楽の橋渡しとして感情関連の音楽属性セットを活用し、生成プロセスを2段階に分ける。第1段階では、教師ありクラスタリングを用いて感情から属性へのマッピングを行い、第2段階では、自己教師あり学習を用いて属性から音楽を生成する。両段階とも有益である。第1段階では、クラスタリング中心周辺の属性値がサンプルの一般的な感情を表し、感情ラベルの主観的バイアスの影響を排除するのに役立つ。第2段階では、生成プロセスが感情ラベルから完全に切り離されるため、主観的バイアスから解放される。主観的および客観的評価の両方において、EmoGenは感情制御の精度と音楽品質の点で従来の手法を上回り、感情音楽生成における優位性が示された。EmoGenによって生成された音楽サンプルは以下のリンクから入手可能である: https://ai-muzic.github.io/emogen/、またコードは以下のリンクで公開されている: https://github.com/microsoft/muzic/。