翻訳付きの日次キュレーションされたAI研究論文
ディープラーニング技術を用いたエンドツーエンドの音楽オーディオ生成は、近年爆発的な進展を見せています。しかし、ほとんどのモデルは抽象的な条件付け情報に応答して完全にミックスされた音楽を生成することに集中しています。本研究では、音楽的コンテキストを聴き、それに応答する音楽生成モデルを作成するための代替パラダイムを提案します。非自己回帰型のTransformerベースのモデルアーキテクチャを使用してそのようなモデルを構築する方法を説明し、いくつかの新しいアーキテクチャとサンプリングの改善を提示します。提案されたアーキテクチャをオープンソースのデータセットと独自のデータセットの両方で学習させます。生成されたモデルを標準的な品質指標と、音楽情報検索記述子に基づく新しいアプローチを用いて評価します。その結果、このモデルはテキスト条件付きの最先端モデルと同等のオーディオ品質を達成し、コンテキストとの強い音楽的整合性を示しました。
小規模モデルは様々な計算上の利点を提供するが、問題解決能力においてサイズがどの程度重要であるかは未解決の問題である。特に小学校レベルの算数を解く場合、GSM8Kベンチマークで80%の壁を突破するために必要な最小モデルサイズは依然として340億パラメータである。本研究では、高品質なデータセットが小規模言語モデルが数学的推論能力を獲得する鍵となる可能性を探る。GPT-3.5によって完全に生成された、1,230万件の小学校算数問題とPythonによる解法をペアにした合成データセットTinyGSMを導入する。TinyGSMでファインチューニングを行った結果、13億パラメータの生成モデルと13億パラメータの検証モデルのペアが81.5%の精度を達成し、桁違いに大規模な既存モデルを凌駕することがわかった。これはまた、本モデルの学習データを生成したGPT-3.5「教師」モデルの性能(77.4%)にも匹敵する。我々のアプローチはシンプルで、2つの重要な要素からなる:1)高品質なデータセットTinyGSM、2)複数の候補生成から最終出力を選択する検証モデルの使用である。
人々はグラフィカルユーザーインターフェース(GUI)、例えばコンピュータやスマートフォンの画面を通じて、デジタルデバイスに膨大な時間を費やしています。ChatGPTのような大規模言語モデル(LLM)は、メールの作成などのタスクで人々を支援できますが、GUIを理解し操作するのに苦労し、自動化レベルの向上の可能性を制限しています。本論文では、GUIの理解とナビゲーションに特化した180億パラメータの視覚言語モデル(VLM)であるCogAgentを紹介します。低解像度と高解像度の画像エンコーダを活用することで、CogAgentは1120*1120の解像度での入力をサポートし、小さなページ要素やテキストを認識することが可能です。汎用視覚言語モデルとして、CogAgentはVQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPEを含む5つのテキストリッチおよび4つの一般的なVQAベンチマークで最先端の性能を達成しています。CogAgentは、スクリーンショットのみを入力として使用し、PCおよびAndroidのGUIナビゲーションタスク(Mind2WebおよびAITW)において、抽出されたHTMLテキストを消費するLLMベースの手法を上回り、最先端の技術を進化させています。モデルとコードはhttps://github.com/THUDM/CogVLMで公開されています。
一貫性モデルは、効率的な画像生成においてその強力な能力を実証し、拡散モデルにおける高い計算コストを軽減しながら、わずかなサンプリングステップでの合成を可能にしてきました。しかし、より困難でリソースを消費するビデオ生成における一貫性モデルは、まだ十分に探求されていません。本報告では、このギャップを埋めるためにVideoLCMフレームワークを提案します。このフレームワークは、画像生成における一貫性モデルの概念を活用し、最小限のステップで高品質なビデオを効率的に合成します。VideoLCMは、既存の潜在ビデオ拡散モデルを基盤とし、潜在一貫性モデルのトレーニングに一貫性蒸留技術を組み込んでいます。実験結果は、計算効率、忠実度、および時間的一貫性の観点から、VideoLCMの有効性を示しています。特に、VideoLCMはわずか4つのサンプリングステップで高忠実度かつ滑らかなビデオ合成を実現し、リアルタイム合成の可能性を示しています。VideoLCMが、今後の研究のためのシンプルで効果的なベースラインとして役立つことを期待しています。ソースコードとモデルは公開される予定です。
大規模な視覚言語データセットのキュレーション手法は、データセットのサイズと品質の間でトレードオフを行います。しかし、利用可能な最高品質のキュレーションされたキャプションでさえ、画像の豊かな視覚的詳細を捉えるにはあまりにも短いのが現状です。密で高度に整合した画像-テキストペアの価値を示すため、私たちはDensely Captioned Images(DCI)データセットを収集しました。このデータセットには、平均1000語以上のマスク整合型の説明文が人間によって注釈された8012枚の自然画像が含まれています。画像の特定の部分に関連付けられた正確で信頼性の高いキャプションを用いることで、視覚言語モデル(VLM)の画像内容理解を評価する新しいタスクを提案します。このタスクでは、各キャプションを対応する部分画像とマッチングさせます。現在のモデルはしばしば77テキストトークンに制限されているため、各キャプションの長さを制限した要約版(sDCI)も導入しました。標準ベンチマークで進展を示す現代の技術が、私たちのsDCIベースのベンチマークでは大きな改善につながらないことを示します。最後に、sDCIを使用してCLIPをファインチューニングし、小さなトレーニングセットにもかかわらずベースラインを大幅に改善することを示します。人間が注釈した最初の密な画像キャプションデータセットを公開することで、次世代のVLMのための新しいベンチマークやファインチューニング手法の開発を促進することを期待しています。
現在の3D形状のための拡散モデルまたはフローベース生成モデルは、事前学習済みの2D画像拡散モデルを蒸留する方法と、3D形状に対して直接学習を行う方法の2つに大別されます。3D形状に対して拡散モデルまたはフローモデルを学習する際、重要な設計上の選択肢は形状表現です。効果的な形状表現は、以下の3つの設計原則に従う必要があります:大規模な3Dデータセットをその表現形式に効率的に変換できること、近似能力とパラメータ数の間で良好なトレードオフを提供すること、そして既存の強力なニューラルネットワークアーキテクチャと互換性のある単純なテンソル形式を持つことです。ボクセルグリッドや点群といった標準的な3D形状表現は、これらの原則を同時に満たすことはありませんが、本論文ではそれらを満たす新しい表現を提案します。我々はMosaic-SDF(M-SDF)を紹介します:これは、与えられた形状の符号付き距離関数(SDF)を、形状の境界付近に広がる一連のローカルグリッドを用いて近似する、シンプルな3D形状表現です。M-SDF表現は、各形状に対して個別に高速に計算可能であり、容易に並列化できること、形状の境界周辺の空間のみをカバーするためパラメータ効率が良いこと、そしてTransformerベースのアーキテクチャと互換性のある単純な行列形式を持つことが特徴です。我々は、M-SDF表現の有効性を、3D Warehouseデータセットを用いたクラス条件付き生成を含む3D生成フローモデルの学習、および約60万のキャプション-形状ペアからなるデータセットを用いたテキストから3Dへの生成を通じて実証します。
大規模言語モデルは近年大きな成功を収めており、視覚分野におけるその変種も同様です。既存の視覚言語モデルは、画像を自然言語で説明したり、視覚関連の質問に答えたり、画像に関する複雑な推論を行ったりすることができます。しかし、単語のグラウンディングや参照ローカライゼーションなどのローカライゼーションタスクを大規模言語モデルを用いてどのように実行できるかはまだ明らかではありません。本研究では、位置情報(例えば、点の集合やボックス)を入力または出力として扱うことができる視覚言語モデルの開発を目指しています。位置情報を入力として扱う場合、モデルは位置条件付きキャプション生成を行い、指定されたオブジェクトや領域のキャプションを生成します。位置情報を出力として生成する場合、モデルは言語モデルによって生成された各出力単語に対してピクセル座標を回帰し、密な単語グラウンディングを実行します。私たちのモデルは、人間の注意に基づくピクセルと単語が整列したキャプションを含むLocalized Narrativeデータセットで事前学習されています。本モデルが、参照ローカライゼーション、位置条件付きキャプション生成、密なオブジェクトキャプション生成など、さまざまな位置認識視覚言語タスクに適用可能であり、RefCOCOおよびVisual Genomeにおいて最先端の性能を達成することを示します。プロジェクトページ: https://jerryxu.net/PixelLLM。
本論文は、大規模なテキストシーケンスの処理と理解において、大規模言語モデル(LLMs)の能力を向上させる新たなアプローチを紹介する。これは、大量の情報の深い理解と統合を必要とするアプリケーションにおいて重要な側面である。Transformerアーキテクチャを基盤とするLLMsのコンテキストウィンドウを拡張する際の本質的な課題を認識し、我々はZebraと呼ばれる新しいモデルアーキテクチャを提案する。このアーキテクチャは、Transformerにおける完全な注意機構に伴う二次的な時間とメモリの複雑性の問題を、グループ化された局所的・大域的注意層を採用することで効率的に管理する。シマウマの交互に並ぶ縞模様に似たこのモデルは、局所的注意層と大域的注意層をバランスよく配置し、計算要件とメモリ消費を大幅に削減する。Zebraの性能を評価するため、ゼロからの事前学習、長いコンテキスト適応訓練の継続、長い指示チューニングを含む包括的な実験が行われた。その結果、Zebraは短いシーケンスと長いシーケンスの両方のベンチマークにおいて同等または優れた性能を達成し、訓練と推論の効率も向上させることが示された。
大規模なテキストから画像生成モデルを活用したテキストから3Dアバター生成は、有望な進展を見せています。しかし、ほとんどの手法は、不正確な形状と低品質な外観に制限され、フォトリアルな結果を生成することに失敗しています。より実用的なアバター生成を目指して、本論文ではSEEAvatarを提案します。これは、形状と外観を分離した自己進化制約(SElf-Evolving constraints)を用いて、テキストからフォトリアルな3Dアバターを生成する手法です。形状に関しては、最適化されたアバターをテンプレートアバターを用いて適切なグローバル形状に制約します。テンプレートアバターは人間の事前知識で初期化され、最適化されたアバターによって定期的に更新される進化型テンプレートとして機能し、より柔軟な形状生成を可能にします。さらに、顔や手などの局所的な部分では、静的な人間の事前知識によって形状が制約され、繊細な構造が維持されます。外観生成に関しては、プロンプトエンジニアリングによって強化された拡散モデルを使用し、物理ベースのレンダリングパイプラインを導いてリアルなテクスチャを生成します。アルベドテクスチャには明度制約を適用し、誤った照明効果を抑制します。実験結果は、本手法がグローバルおよびローカルの形状と外観品質において、従来の手法を大きく上回ることを示しています。本手法は高品質なメッシュとテクスチャを生成できるため、これらのアセットは古典的なグラフィックスパイプラインに直接適用可能で、任意の照明条件下でのリアルなレンダリングが可能です。プロジェクトページは以下をご覧ください:https://seeavatar3d.github.io。
豊かで開放的な環境において多様な目標を達成できる汎用エージェントの構築は、強化学習の研究フロンティアの一つです。強化学習を用いた汎用エージェント構築における主要な制約要因は、異なる目標を達成するために多数の報酬関数が必要とされることでした。本研究では、既存の視覚言語モデル(VLM)を強化学習エージェントの報酬源として利用する可能性を探ります。特に、CLIPファミリーモデルから多様な言語目標の視覚的達成に対する報酬を導出し、それらを用いて様々な言語目標を達成できる強化学習エージェントを訓練する方法を示します。このアプローチを2つの異なる視覚領域で実証し、より大規模なVLMが視覚的目標達成のためのより正確な報酬を生み出し、結果としてより有能な強化学習エージェントを生成するというスケーリングトレンドを提示します。
最近導入されたControlNetは、人間の2Dポーズやエッジ特徴などの幾何学的入力を用いて、テキスト駆動型画像生成プロセスを制御する能力を有している。ControlNetは生成画像内のインスタンスの幾何学的形状を制御するが、各インスタンスの視覚的外観を指定する能力は欠けている。本研究では、FineControlNetを提案し、正確なポーズ制御能力を維持しながら、各インスタンスの外観を細かく制御する機能を提供する。具体的には、人間のポーズ画像による幾何学的制御と、インスタンスレベルのテキストプロンプトによる外観制御を用いてFineControlNetを開発し、その性能を実証する。潜在空間内でのインスタンス固有のテキストプロンプトと2Dポーズの空間的アラインメントにより、FineControlNetの細かい制御能力が実現される。我々は、最先端のポーズ条件付きテキスト-to-画像拡散モデルとの厳密な比較を通じて、FineControlNetの性能を評価する。FineControlNetは、既存の手法と比較して、ユーザーが提供したインスタンス固有のテキストプロンプトとポーズに従った画像生成において優れた性能を達成する。プロジェクトウェブページ: https://samsunglabs.github.io/FineControlNet-project-page
拡散モデル(DMs)は、高品質で多様な画像を生成する能力により注目を集めており、特に最近のテキストから画像への生成技術の進展がその背景にある。現在の研究焦点は、DMsの制御可能性に向かってシフトしている。この領域における重要な課題の一つは、画像の特定の領域を編集しつつ、他の部分に影響を与えない局所的な編集である。本論文では、ユーザー指定の関心領域(RoI)や追加のテキスト入力を必要としない、拡散モデルにおける局所的な画像編集手法「LIME」を提案する。我々の手法は、事前学習済みの手法から得られた特徴と単純なクラスタリング技術を用いて、精密な意味的分割マップを取得する。次に、クロスアテンションマップを活用して、これらのセグメントを局所的な編集のために洗練する。最後に、ノイズ除去ステップ中にRoI内の無関係なクロスアテンションスコアをペナルティ化する新たなクロスアテンション正則化技術を提案し、局所的な編集を保証する。我々のアプローチは、再学習やファインチューニングを必要とせず、様々な編集ベンチマークにおいて既存手法の性能を一貫して向上させる。
本論文では、画像や動画における物体の位置特定と識別を行うための物体レベルの基盤モデルであるGLEEを提案する。GLEEは統一されたフレームワークを通じて、オープンワールドシナリオにおける任意の物体の検出、セグメンテーション、追跡、グラウンディング、識別を実現し、様々な物体認識タスクに対応する。一貫した学習戦略を採用することで、GLEEは多様なデータソースから異なる監督レベルで知識を獲得し、一般的な物体表現を形成し、新しいデータやタスクへのゼロショット転移において優れた性能を発揮する。具体的には、画像エンコーダ、テキストエンコーダ、ビジュアルプロンプターを活用してマルチモーダル入力を処理し、様々な物体中心の下流タスクを同時に解決しながら、最先端の性能を維持する。多様なベンチマークから500万枚以上の画像を用いた大規模なトレーニングを通じて、GLEEは驚異的な汎用性と改善された一般化性能を示し、タスク固有の適応を必要とせずに下流タスクを効率的に処理する。自動ラベル付けされた大量のデータを統合することで、さらにゼロショット一般化能力を向上させる。加えて、GLEEは大規模言語モデルに統合可能であり、マルチモーダルタスクに普遍的な物体レベルの情報を提供する基盤モデルとして機能する。本手法の汎用性と普遍性が、AGIシステムのための効率的な視覚基盤モデルの開発において重要な一歩となることを期待する。モデルとコードはhttps://glee-vision.github.ioで公開予定である。
本研究では、GPTQなどの4ビット量子化手法を大規模言語モデル(LLM)において検証し、GPTQがZero-Shotタスクにおいて過学習を起こし、性能向上が限定的であることを明らかにしました。先行研究がZero-Shot評価に焦点を当てていたのに対し、我々はコード生成や抽象的要約といったより生成的なタスクカテゴリに範囲を拡大し、INT4量子化が著しく性能を低下させることを発見しました。しかし、FP6のような高精度フォーマットへの単純な移行は、現在のAIハードウェア上での洗練された統合とシステム加速戦略の欠如による性能の低さから、特に困難であり、見過ごされてきました。我々の結果は、FP6が粗粒度の量子化スキームであっても、様々なアルゴリズムとタスクにおいて堅牢に機能し、精度と汎用性の優位性を示すことを明らかにしています。特に、FP6量子化により、\codestar-15Bモデルはコード生成においてFP16版と同等の性能を発揮し、406Mのような小型モデルでは要約タスクでベースラインに匹敵する結果を示しました。これらはINT4では達成できませんでした。様々なAIハードウェアに適応し、最適なシステム性能を実現するため、我々はFP6に対して新たな4+2設計を提案し、最先端のINT4細粒度量子化と同等のレイテンシを実現しました。この設計により、FP6はLLMで使用される現在の4ビット量子化手法に対する有望な解決策となり得ます。
報酬モデルは、言語モデルのアプリケーションを人間の好みに合わせる上で重要な役割を果たします。しかし、この設定は言語モデルが報酬モデルの誤りを利用して高い推定報酬を達成するインセンティブを生み出し、この現象はしばしば「報酬ハッキング」と呼ばれます。この問題を緩和する自然な方法は、複数の報酬モデルをアンサンブルし、モデルの出力を集約してよりロバストな報酬推定を得ることです。本論文では、報酬アンサンブルを訓練時(強化学習を通じて)と推論時(リランキングを通じて)の両方でのアライメントに適用する方法を探ります。まず、報酬モデルが未特定化されていることを示します:分布内で同様の性能を示す報酬モデルでも、分布シフトが起こるとアライメントに使用した際に非常に異なる報酬を生成することがあります。次に、この未特定化は過最適化を引き起こし、一つの報酬モデルに対するアライメントが、同じデータで訓練された別の報酬モデルで測定した報酬を改善しないことを示します。第三に、報酬アンサンブルの使用によって過最適化が緩和され、事前学習のシードによって異なるアンサンブルは、ファインチューニングのシードのみが異なるアンサンブルよりも一般化性能が高く、どちらも単一の報酬モデルを上回ります。しかし、事前学習の報酬アンサンブルでさえ報酬ハッキングを完全に排除することはできません:アンサンブル内のすべての報酬モデルが同様の誤りパターンを示すため、アンサンブルによって緩和されないいくつかの定性的な報酬ハッキング現象を示します。
近年のテキストから3D生成技術の進展により、テキスト記述から想像力豊かで幾何学的に整った、細やかなテクスチャを持つ3Dオブジェクトへの変換が大幅に進化しました。しかしながら、これらの進展にもかかわらず、拡散モデルや再構成モデルにおけるRGBデータの使用に起因する制約が顕著です。これにより、モデルには現実感を損なう照明や影の効果が内在し、正確な再照明能力を要求するアプリケーションでの有用性が制限されています。このギャップを埋めるため、我々はUniDreamを提案します。これは、統一された拡散事前分布を組み込んだテキストから3D生成フレームワークです。我々のアプローチは、以下の3つの主要なコンポーネントで構成されています:(1)アルベドと法線が整合した多視点拡散および再構成モデルを得るための二段階トレーニングプロセス、(2)トレーニング済みの再構成モデルと拡散モデルを用いたスコア蒸留サンプリング(SDS)に基づくジオメトリとアルベドテクスチャの段階的生成手順、(3)Stable Diffusionモデルに基づいて固定されたアルベドを保持しながら、PBR生成を最終化するためのSDSの革新的な適用です。広範な評価により、UniDreamが既存の手法を凌駕し、より明確なアルベドテクスチャ、滑らかな表面、強化された現実感、そして優れた再照明能力を持つ3Dオブジェクトを生成することが実証されています。
本研究では、視覚と言語のデータを同時に認識・生成する能力に優れたトランスフォーマーモデルであるVision-Language Generative Pre-trained Transformer(VL-GPT)を紹介します。VL-GPTは、シンプルな自己回帰目的関数を用いることで、画像とテキストの両モダリティに対する統一的な事前学習アプローチを実現し、言語モデルがテキストを処理するのと同様に、画像とテキストをシームレスに処理できるようにします。これを実現するため、我々はまず、生の画像を連続的な埋め込みのシーケンスに変換し、それに応じて再構築するために特別に設計された、視覚データ向けの新しい画像トークナイザー・デトークナイザーフレームワークを提案します。このフレームワークは、既存のテキストトークナイザーおよびデトークナイザーと組み合わせることで、画像とテキストが交互に現れるデータをマルチモーダルシーケンスにエンコードし、それをトランスフォーマーモデルに入力できるようにします。その結果、VL-GPTは、統一的な自己回帰目的関数(すなわち、次のトークンの予測)を用いて、マルチモーダルコーパスに対する大規模な事前学習を実行できます。事前学習を完了したVL-GPTは、画像キャプショニング、視覚的質問応答、テキストから画像への生成など、多様な視覚と言語の理解および生成タスクにおいて、優れたゼロショットおよび少数ショットの性能を示します。さらに、事前学習済みモデルは、マルチモーダルプロンプトが与えられた場合に、コンテキスト内学習能力を保持します。我々はさらに、VL-GPTに対して指示チューニングを行い、マルチモーダルアシスタンスとしての卓越した可能性を強調します。ソースコードとモデルウェイトは公開される予定です。
我々はShap-Editorと呼ばれる新しいフィードフォワード型3D編集フレームワークを提案する。これまでの3Dオブジェクト編集に関する研究は、主に既存の2D画像編集ネットワークを活用して個々のオブジェクトを編集することに焦点を当ててきた。これは蒸留と呼ばれるプロセスを通じて実現され、2Dネットワークから3Dアセットへ知識を転送する。蒸留では、満足のいく編集結果を得るために少なくとも数十分かかるため、実用的とは言い難い。対照的に、我々はテスト時の最適化を避け、フィードフォワードネットワークによって直接3D編集が可能かどうかを問う。特に、3Dオブジェクトを適切な潜在空間にエンコードすることで編集が大幅に簡素化されると仮説を立てた。我々はShap-Eの潜在空間を基盤としてこの仮説を検証し、この空間での直接的な3D編集が可能かつ効率的であることを示す。具体的には、編集ごとに約1秒しか必要としないフィードフォワード型エディタネットワークを構築した。実験の結果、Shap-Editorは異なるプロンプトに対して、分布内および分布外の3Dアセットにうまく一般化し、編集インスタンスごとにテスト時の最適化を行う手法と同等の性能を示すことが確認された。
私たちは、TigerBotファミリーの大規模言語モデル(LLM)をリリースし、紹介します。このファミリーは、ベースモデルとチャットモデルで構成され、7B、13B、70B、180Bのパラメータサイズを備えています。私たちのモデルは、Llama-2とBLOOMを出発点として開発され、データ、トレーニングアルゴリズム、インフラストラクチャ、アプリケーションツールの面でさらに限界を押し広げています。私たちのモデルは、SOTA(State-of-the-Art)のオープンソースモデル、特にLlama-2に対して、英語で6%、中国語で20%の有意な性能向上をもたらします。TigerBotモデルファミリーは、主要な学術および産業のベンチマークやリーダーボードでもトップクラスの性能を達成しています。私たちは、TigerBotがLLMオープンソースコミュニティにおける急速な進化の一瞬を捉えたものであると信じています。そのため、私たちはモデルを公開し、その背後にあるアプローチを報告することで、SOTA LLMを民主的な方法で構築し、LLMを現実世界のアプリケーションで活用することを強調しながら、コミュニティに還元できることを嬉しく思います。