翻訳付きの日次キュレーションされたAI研究論文
拡散モデルは高品質な画像や動画を生成するための事実上の標準手法となっているが、高次元モデルの学習は計算量と最適化の課題から依然として困難な課題である。既存の手法では、ピクセル空間でカスケードモデルを訓練するか、別途訓練されたオートエンコーダのダウンサンプリングされた潜在空間を使用することが多い。本論文では、高解像度の画像および動画合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Models(MDM)を提案する。我々は、複数の解像度で入力を同時にノイズ除去する拡散プロセスと、小規模な入力の特徴とパラメータが大規模なものにネストされたNestedUNetアーキテクチャを提案する。さらに、MDMは低解像度から高解像度へと段階的に進む訓練スケジュールを可能にし、高解像度生成の最適化において大幅な改善をもたらす。我々は、クラス条件付き画像生成、高解像度テキストから画像、テキストから動画への応用など、様々なベンチマークで本手法の有効性を実証する。特に、わずか1200万枚の画像を含むCC12Mデータセットを使用して、1024x1024ピクセルの解像度で単一のピクセル空間モデルを訓練し、強力なゼロショット汎化性能を示すことができる。
大規模言語モデル(LLMs)は、視覚モデルと整合させて視覚言語モデル(VLMs)に統合された後、画像推論タスクにおいて印象的な改善をもたらすことができます。これは、最近リリースされたGPT-4V(ison)やLLaVA-1.5などによって示されました。しかし、これらの最先端のLVLMsにおける強力な言語事前知識は諸刃の剣となり得ます:画像の文脈を無視し、言語事前知識(たとえ矛盾していても)のみに依存して推論を行う可能性があります。一方で、VLMsの視覚モジュールはLLMsよりも弱く、誤った視覚表現を生成する可能性があり、それがLLMsによって自信を持った誤りに変換されることがあります。これらの2種類のVLMの誤り、すなわち言語幻覚と視覚錯覚を研究するために、私たちはHallusionBenchを策定しました。これは、GPT-4VやLLaVA-1.5にとってもまだ挑戦的な画像文脈推論ベンチマークです。HallusionBenchの例を詳細に分析し、VLMsの錯覚や幻覚について新たな洞察を提供し、将来の改善方法を示します。ベンチマークとコードベースはhttps://github.com/tianyi-lab/HallusionBenchで公開されます。
我々は、視覚デザインシナリオに特化したテキストから画像(T2I)生成ベンチマークであるDEsignBenchを紹介する。DALL-E 3をはじめとする最近のT2Iモデルは、テキスト入力と密接に一致するフォトリアルな画像を生成する際に顕著な能力を示している。視覚的に魅力的な画像を作成する魅力は否定できないが、我々の焦点は単なる美的満足を超えている。我々は、これらの強力なモデルを実際のデザインコンテキストで使用する可能性を探ることを目指している。この目標を追求するために、我々はDEsignBenchを開発し、「デザイン技術能力」と「デザイン応用シナリオ」の両方を評価するために設計されたテストサンプルを組み込んだ。これら2つの次元は、多様な特定のデザインカテゴリによってサポートされている。我々は、DALL-E 3と他の主要なT2IモデルをDEsignBench上で探索し、並列比較のための包括的なビジュアルギャラリーを作成した。DEsignBenchのベンチマークにおいて、我々はDEsignBenchギャラリー内の生成画像に対して、画像とテキストの整合性、視覚的美学、デザインの創造性という基準に基づいて人間による評価を行った。また、テキストレンダリング、レイアウト構成、色彩調和、3Dデザイン、メディアスタイルといった他の専門的なデザイン能力も評価に含めた。人間による評価に加えて、我々はGPT-4Vを活用した初の自動画像生成評価ツールを導入した。この評価ツールは、人間の判断とよく一致する評価を提供し、再現性が高く、コスト効率が良い。高解像度版は以下で利用可能である: https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
大規模なビデオデータセットの利用可能性と拡散モデルの進展に伴い、テキスト駆動型のビデオ生成は大きな進歩を遂げています。しかし、既存のビデオ生成モデルは通常、限られたフレーム数で訓練されており、推論時に高忠実度の長尺ビデオを生成することができません。さらに、これらのモデルは単一のテキスト条件のみをサポートしており、現実のシナリオではビデオ内容が時間とともに変化するため、複数のテキスト条件が必要となることが多いです。これらの課題に対処するため、本研究では、複数のテキストに条件付けられた長尺ビデオを生成するためのテキスト駆動能力の拡張可能性を探ります。1) まず、ビデオ拡散モデルにおける初期ノイズの影響を分析します。次に、ノイズに関する観察に基づいて、事前訓練済みのビデオ拡散モデルの生成能力を向上させながら内容の一貫性を保つ、チューニング不要で時間効率の良いパラダイムであるFreeNoiseを提案します。具体的には、すべてのフレームに対してノイズを初期化する代わりに、長距離相関のためにノイズのシーケンスを再スケジュールし、ウィンドウベースの関数を用いてそれらに対して時間的注意を実行します。2) さらに、複数のテキストプロンプトに条件付けられたビデオの生成をサポートするための新しいモーション注入方法を設計します。広範な実験により、ビデオ拡散モデルの生成能力を拡張するための我々のパラダイムの優位性が検証されました。特に、従来の最良の手法が255%の追加時間コストをもたらしたのに対し、我々の方法は約17%の無視できる時間コストしか発生しないことが注目に値します。生成されたビデオサンプルは、当社のウェブサイト(http://haonanqiu.com/projects/FreeNoise.html)でご覧いただけます。
近年の汎用大規模言語モデル(LLM)の成功は、自然言語処理のパラダイムをドメインやアプリケーションを横断する統一的な基盤モデルへと大きく変革しました。本論文では、これまでで最も優れたLLMであるGPT-4の性能を、放射線レポートのテキストベースアプリケーションにおいて評価し、最先端(SOTA)の放射線学特化モデルと比較します。様々なプロンプト戦略を探索し、GPT-4を多様な一般的な放射線学タスクで評価した結果、GPT-4は現在のSOTA放射線学モデルを上回るか、少なくとも同等の性能を示すことがわかりました。ゼロショットプロンプティングでは、GPT-4はすでに、時間的文類似性分類(精度)および自然言語推論(F_1スコア)において、放射線学モデルに対して大幅な改善(約10%の絶対的向上)を達成しています。データセット固有のスタイルやスキーマを学習する必要があるタスク(例えば所見の要約)では、GPT-4は例ベースのプロンプティングにより改善し、教師ありSOTAと同等の性能を発揮します。ボード認定放射線科医との詳細なエラー分析により、GPT-4は十分なレベルの放射線学知識を有しており、微妙なドメイン知識を必要とする複雑な文脈でのみ稀にエラーが発生することが示されました。所見の要約において、GPT-4の出力は既存の手書きの印象と全体的に同等であることが確認されました。
Habitat 3.0を紹介します。これは、家庭環境における人間とロボットの協調タスクを研究するためのシミュレーションプラットフォームです。Habitat 3.0は、以下の3つの次元で貢献を提供します。(1) 正確なヒューマノイドシミュレーション:複雑な変形可能な身体や外観・動作の多様性をモデル化する課題に対処しつつ、高いシミュレーション速度を確保します。(2) 人間をループに組み込んだインフラストラクチャー:マウス/キーボードまたはVRインターフェースを介して、実在の人間がシミュレーションされたロボットと対話できるようにし、人間の入力によるロボットポリシーの評価を容易にします。(3) 協調タスク:2つの協調タスク、Social NavigationとSocial Rearrangementを研究します。Social Navigationは、未知の環境でヒューマノイドアバターを見つけて追従するロボットの能力を調査し、Social Rearrangementは、シーンを再配置する際のヒューマノイドとロボットの協力を扱います。これらの貢献により、人間とロボットの協力に関するエンドツーエンド学習ベースラインとヒューリスティックベースラインを詳細に研究し、人間をループに組み込んで評価することが可能になります。私たちの実験では、学習されたロボットポリシーが、未知のヒューマノイドエージェントや、ロボットが以前に見たことのない行動を示す可能性のある人間パートナーと協力する際に、効率的なタスク完了をもたらすことが示されています。さらに、協調タスク実行中に、ロボットがヒューマノイドエージェントの進行を妨げている場合にスペースを譲るといった創発的な行動が観察され、これによりヒューマノイドエージェントがタスクを効果的に完了できるようになります。また、人間をループに組み込んだツールを使用した実験では、ヒューマノイドを用いた自動評価が、実在の人間との協力で評価された際の異なるポリシーの相対的な順序を示すことができることが実証されています。Habitat 3.0は、Embodied AIのシミュレーターに新たな興味深い機能を提供し、人間とAIの具現化された相互作用能力の新たなフロンティアを切り開くことを期待しています。
大規模言語モデル(LLM)は、複雑なユーザー制約を満たすことや、複数の側面や基準を考慮する多面的な言語生成および評価タスクに頻繁に使用されます。しかし、モデルの一貫性の欠如や問題の計画・分解能力の不足により、その性能が不十分になることがあります。我々は、このような難しい自然言語タスクに対処するための大規模言語モデルプログラムであるBranch-Solve-Merge(BSM)を提案します(Schlag et al., 2023)。BSMは、ベースLLMに対する特定のプロンプトでパラメータ化されたbranch、solve、mergeモジュールで構成されています。これら3つのモジュールは、タスクを複数の並列サブタスクに分解し、それらを独立して解決し、サブタスクの解を融合します。我々は、LLM応答評価と制約付きテキスト生成のタスクにこの手法を適用し、Vicuna、LLaMA-2-chat、GPT-4を含む複数のLLMでその有効性を評価しました。BSMは、人間とLLMの一致率を最大26%向上させ、長さとペアワイズ位置バイアスを最大50%削減し、LLaMA-2-chatがほとんどのドメインでGPT-4に匹敵または優る性能を発揮することで、各LLMの評価の正確性と一貫性を向上させました。制約付きストーリー生成タスクでは、BSMはストーリーの一貫性を向上させると同時に、制約満足度を12%向上させました。
本論文では、大規模なテキストガイド付き画像拡散モデルを用いて、与えられた3Dジオメトリのテクスチャを合成する新しい手法であるTexFusion(Texture Diffusion)を提案します。最近の研究では、2Dのテキストから画像への拡散モデルを活用して、遅くて脆弱な最適化プロセスを通じて3Dオブジェクトを蒸留する手法が用いられていますが、TexFusionは、異なる2Dレンダリングビューに対して通常の拡散モデルサンプリングを適用する、テクスチャ合成に特化した新しい3D整合性生成技術を導入します。具体的には、潜在拡散モデルを活用し、3Dオブジェクトの一連の2Dレンダリングに対して拡散モデルのデノイザーを適用し、異なるデノイジング予測を共有の潜在テクスチャマップに集約します。最終的なRGBテクスチャは、潜在テクスチャの2Dレンダリングのデコードに対して中間ニューラルカラーフィールドを最適化することで生成されます。TexFusionを徹底的に検証し、多様で高品質かつグローバルに一貫したテクスチャを効率的に生成できることを示します。画像拡散モデルのみを使用して、テキストガイド付きテクスチャ合成において最先端の性能を達成し、従来の蒸留ベースの手法の欠点を回避します。テキスト条件付けにより詳細な制御が可能であり、トレーニングに実際の3Dテクスチャデータを必要としません。これにより、本手法は多様なジオメトリとテクスチャタイプに適用可能な汎用性を備えています。TexFusionが、仮想現実、ゲームデザイン、シミュレーションなどのアプリケーションにおける3DアセットのAIベースのテクスチャリングを進展させることを期待しています。
Stable-DiffusionやImagenなどのText-to-Image Diffusion Modelは、MS-COCOやその他の生成ベンチマークにおいて、最先端のFIDスコアを達成し、これまでにない写実的な品質を実現しています。キャプションが与えられた場合、画像生成には、オブジェクトの構造、スタイル、視点などの属性に関する細かな知識が必要です。この情報は、テキストから画像を生成するモデルのどこに存在するのでしょうか?本論文では、この疑問に取り組み、大規模なテキストから画像を生成するDiffusion Modelにおいて、異なる視覚的属性に対応する知識がどのように保存されているかを理解します。我々は、テキストから画像を生成するモデルに対してCausal Mediation Analysisを適用し、異なる視覚的属性に関する知識を、(i) UNetおよび(ii) Diffusion Modelのテキストエンコーダ内の様々な(因果的)コンポーネントにトレースします。特に、生成型大規模言語モデルとは異なり、異なる属性に関する知識は孤立したコンポーネントに局在化されず、代わりに条件付きUNet内の一連のコンポーネントに分散されていることを示します。これらのコンポーネントのセットは、異なる視覚的属性に対してしばしば異なります。注目すべきは、Stable-Diffusionなどの公開されているテキストから画像を生成するモデルにおいて、CLIPテキストエンコーダは異なる視覚的属性に対してたった一つの因果的状態しか含まないことです。そして、それはキャプション内の属性の最後の主語トークンに対応する最初のself-attention層です。これは、しばしば中間のMLP層である他の言語モデルの因果的状態とは対照的です。テキストエンコーダ内にたった一つの因果的状態しか存在しないという観察に基づき、我々は、テキストから画像を生成するモデル内の概念を効果的に編集する高速でデータ不要なモデル編集手法Diff-QuickFixを導入します。DiffQuickFixは、閉形式の更新により1秒未満で概念を編集(除去)することができ、既存のファインチューニングベースの編集手法と同等の編集性能を提供しつつ、1000倍の高速化を実現します。
文脈内学習(ICL)をデータ生成に活用することで、Self-Instruct(Wang et al., 2023)やその後継であるAlpaca(Taori et al., 2023)などの手法は、わずかな人間の監督のみで強力な対話エージェントを訓練することが可能です。これらのアプローチの制約の一つは、非常に大規模な言語モデル(約175Bパラメータ)に依存している点であり、これらはプロプライエタリで非公開でもあります。本稿では、これらの手法をはるかに小規模(約10B〜40Bパラメータ)で許諾ライセンスを持つ言語モデルに適用することを探求します。Self-Instructアプローチはこの規模では効果が低いことがわかり、新しいICL手法を提案します。その主なアイデアは次の2つです:(a) ICLテンプレートの分類と簡素化により、言語モデル(LM)がプロンプト学習を容易に行えるようにすること、(b) 複数のLM出力をアンサンブルして、高品質な合成例を選択するのに役立てることです。我々のアルゴリズムは、175のSelf-Instructシードタスクを活用し、入力が必要な指示と不要な指示に対して別々のパイプラインを採用します。異なるLMを用いた実証研究により、以下の結果が得られました:(1) 提案手法はSelf-Instructよりも高品質な指示チューニングデータを生成する、(2) バニラLMと指示チューニング済みLMの両方の性能を大幅に向上させる、(3) 小規模な指示チューニング済みLMは、大規模な未チューニングのLMよりも有用な出力を生成する。我々のコードベースはhttps://github.com/IBM/ensemble-instructで公開されています。
人間のフィードバックは、会話モデルにおける露骨に有害な発言を防ぐことができますが、自己保存や権力への欲求のような微妙な問題行動を自動的に緩和するわけではありません。憲法AIはこれに代わるアプローチを提供し、人間のフィードバックを、書かれた原則のリストに基づいて条件付けられたAIモデルからのフィードバックに置き換えます。このアプローチは、そのような行動の表現を効果的に防ぐことがわかっています。単純な原則の成功は、次の問いを投げかけます:モデルは、たった一つの書かれた原則から一般的な倫理的行動を学ぶことができるのか?これを検証するため、「人類にとって最善のことを行う」という大まかに述べられた原則を用いて実験を行いました。その結果、最大規模の対話モデルはこの短い憲法から一般化することができ、権力のような特定の動機に対する興味を示さない無害なアシスタントを生み出すことがわかりました。したがって、一般的な原則は、潜在的に有害な行動を対象とした長い憲法リストの必要性を部分的に回避できる可能性があります。しかし、より詳細な憲法は、特定の種類の害に対するきめ細かい制御を向上させます。これは、一般的な原則と具体的な原則の両方が、AIを安全に導くために価値があることを示唆しています。
大規模言語モデル(LLM)の進化に伴い、スプレッドシートを含む様々なドメインにおいて、ますます複雑な自然言語処理(NLP)タスクを解決できるようになってきています。本研究では、LLMが自然言語によるユーザー指示からExcel固有のタスクを解決するコード(Excel OfficeScripts、Excelで多くのタスクを実行するためのTypeScript API)を生成できるかどうかを調査します。そのために、Excelの「Automate」機能を活用してユーザーの操作から自動的にOfficeScriptsを生成し、新たな大規模ベンチマーク「InstructExcel」を導入しました。このベンチマークには、2,000以上の公開されているExcelスプレッドシートにわたる170以上のExcel操作をカバーする10,000以上のサンプルが含まれています。ゼロショットや少数ショットの様々な設定での実験により、InstructExcelがGPT-4のような最先端モデルにとっても難しいベンチマークであることが示されました。観察された結果として、(1) GPT-3.5ではなくGPT-4を使用すること、(2) より多くの文脈内の例を提供すること、(3) 動的なプロンプティングを行うことが、このベンチマークでのパフォーマンス向上に役立つことがわかりました。