翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の印象的な創発的能力の一つに、データベース用の構造化照会言語(SQL)を含むコード生成があります。自然言語テキストからSQLクエリへの変換タスクであるText-to-SQLにおいて、LLMの適応は、使用される適応データの量に応じて、インコンテキスト学習とファインチューニングの両方の設定で極めて重要です。本論文では、PaLM-2を活用したLLMベースのText-to-SQLモデルであるSQL-PaLMを提案し、両方の設定で最先端を押し上げます。Few-shot SQL-PaLMは、Text-to-SQL用に設計された実行ベースの自己一貫性プロンプティングアプローチに基づいており、Spiderデータセットにおいてテストスイート精度で77.3%を達成します。これは、私たちの知る限り、ファインチューニングによる従来の最先端を4%という大きな差で上回る初めての成果です。さらに、ファインチューニングされたSQL-PaLMがそれをさらに1%上回ることを示します。SQL-PaLMを実世界のシナリオに適用するために、Spiderの他の挑戦的なバリエーションでの堅牢性をさらに評価し、SQL-PaLMの優れた一般化能力を実証します。加えて、広範なケーススタディを通じて、LLMベースのText-to-SQLの印象的な知的能力とさまざまな成功要因を実証します。
テキストから画像を生成する拡散モデルは、プロのアーティストや写真家の作品に匹敵する高品質な画像を自然言語の記述から作成することができます。しかし、これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十回のノイズ除去イテレーションを必要とするため、計算コストが高く、実行速度が遅いという課題があります。その結果、拡散モデルを大規模に実行するためには、高性能なGPUやクラウドベースの推論が必要となります。これはコストがかかるだけでなく、特にユーザーデータが第三者に送信される場合、プライバシーの問題も引き起こします。これらの課題を克服するため、我々は初めて、テキストから画像を生成する拡散モデルをモバイルデバイス上で2秒未満で実行可能にする汎用的なアプローチを提案します。これを実現するために、効率的なネットワークアーキテクチャを導入し、ステップ蒸留を改善しました。具体的には、元のモデルの冗長性を特定し、データ蒸留を通じて画像デコーダの計算量を削減することで、効率的なUNetを提案します。さらに、トレーニング戦略を探求し、クラスファリーフリーガイダンスからの正則化を導入することで、ステップ蒸留を強化しました。MS-COCOでの大規模な実験により、8回のノイズ除去ステップで実行する我々のモデルが、50ステップのStable Diffusion v1.5よりも優れたFIDおよびCLIPスコアを達成することが示されました。我々の研究は、強力なテキストから画像を生成する拡散モデルをユーザーの手元に届けることで、コンテンツ作成の民主化を実現します。
我々は、テキストから画像への合成において競争力のある性能と前例のないコスト効率性、そして制約のあるハードウェアでの学習の容易さを兼ね備えた新技術「Wuerstchen」を紹介する。機械学習の最近の進歩を基盤として、我々のアプローチは強力な潜在画像圧縮率での潜在拡散戦略を活用し、最先端モデルに典型的に関連する計算負荷を大幅に削減しながら、生成される画像の品質を維持、あるいは向上させる。Wuerstchenは推論時間における顕著な速度向上を実現し、リアルタイムアプリケーションの実現可能性を高める。本手法の主な利点の一つは、わずか9,200 GPU時間という控えめな学習要件にあり、最終的な性能を損なうことなく通常のコストを大幅に削減する。最先端技術との比較において、本アプローチは強い競争力を発揮することが確認された。本論文は、性能と計算のアクセシビリティの両方を優先する新たな研究の道を開き、高度なAI技術の利用を民主化するものである。Wuerstchenを通じて、我々はテキストから画像への合成の領域において説得力のある前進を示し、将来の研究において探求すべき革新的な道筋を提供する。
本論文では、単一または少数の例シーケンスから可能な限り多様なモーションを「採掘」する生成モデルGenMMを提案する。既存のデータ駆動型手法とは対照的に、GenMMは長時間のオフライントレーニングを必要とせず、視覚的なアーティファクトが生じにくく、大規模で複雑なスケルトンでも失敗しにくいという、有名なMotion Matching手法のトレーニング不要な性質と優れた品質を継承している。GenMMは、非常に複雑で大規模な骨格構造であっても、わずかな時間で高品質なモーションを合成することができる。本生成フレームワークの中核には、生成モーションマッチングモジュールがあり、双方向の視覚的類似性を生成コスト関数としてモーションマッチングに活用し、多段階フレームワークでランダムな推測を段階的に洗練させる。多様なモーション生成に加えて、本生成フレームワークの汎用性を、モーション補完、キーフレームガイド生成、無限ループ、モーション再構築など、モーションマッチング単独では不可能な数多くのシナリオに拡張することで示す。本論文のコードとデータはhttps://wyysf-98.github.io/GenMM/にて公開されている。
現代の深層学習アプローチでは、通常、入力をモダリティ固有の形式に変換します。例えば、画像分類における最も一般的な深層学習アプローチでは、画像ファイルのバイトをRGBテンソルにデコードし、それをニューラルネットワークに渡します。代わりに、私たちは推論時にファイルをデコードする必要なく、ファイルバイト上で直接分類を行う方法を調査します。ファイルバイトをモデルの入力として使用することで、複数の入力モダリティで動作可能なモデルの開発が可能になります。私たちのモデル、ByteFormerは、DeiT-Tiと同様の構成を持つトランスフォーマーバックボーンを使用して、TIFFファイルバイト上で直接学習およびテストを行った場合、ImageNetのTop-1分類精度77.33%を達成しました(RGB画像上での精度は72.2%)。変更やハイパーパラメータの調整なしに、ByteFormerはSpeech Commands v2データセットのWAVファイル上で95.42%の分類精度を達成しました(最先端の精度は98.7%)。さらに、ByteFormerがプライバシー保護推論に応用可能であることを示します。ByteFormerは、特定の難読化された入力表現上で精度を損なうことなく推論を行うことが可能です。また、ByteFormerが、90%のピクセルチャネルを一貫してマスキングすることで完全な画像を形成しない仮想的なプライバシー保護カメラでの推論能力も示し、ImageNetで71.35%の精度を達成しました。私たちのコードはhttps://github.com/apple/ml-cvnets/tree/main/examples/byteformerで公開されます。
テキストから画像を生成する拡散モデルは、テキストの概念(例:「医師」、「愛」)から高品質で多様な画像を生成する比類のない能力を実証してきました。しかし、テキストを豊かな視覚的表現にマッピングする内部プロセスは、依然として謎に包まれています。本研究では、テキストから画像を生成するモデルにおける概念表現を理解するという課題に取り組み、入力テキストプロンプトを少数の解釈可能な要素に分解します。これは、モデルの語彙から得られたトークンの疎な重み付き組み合わせである擬似トークンを学習し、与えられた概念に対して生成された画像を再構築することを目的としています。最先端のStable Diffusionモデルに適用した結果、この分解により、概念の表現において非自明で驚くべき構造が明らかになりました。例えば、「大統領」や「作曲家」といった概念は、特定のインスタンス(例:「オバマ」、「バイデン」)とその補間によって支配されていることがわかりました。また、「幸福」のような概念は、具体的な関連用語(「家族」、「笑い」)や抽象的な関連用語(「友情」、「感情」)を組み合わせています。Stable Diffusionの内部動作を覗き見ることに加えて、本手法は、単一画像のトークンへの分解、バイアスの検出と緩和、意味的な画像操作などの応用も可能にします。私たちのコードは、https://hila-chefer.github.io/Conceptor/ で公開されます。
私たちの想像の中の出来事やシナリオから鮮やかな動画を作り出すことは、実に魅力的な体験です。最近のテキストから動画への合成技術の進歩により、プロンプトのみでこれを実現する可能性が明らかになりました。テキストは全体のシーンコンテキストを伝えるのに便利ですが、精密な制御には不十分な場合があります。本論文では、テキストをコンテキスト記述として、モーション構造(例:フレームごとの深度)を具体的なガイダンスとして活用したカスタマイズ動画生成を探求します。私たちの手法「Make-Your-Video」は、静止画合成用に事前学習されたLatent Diffusion Modelを使用し、時間的モジュールの導入により動画生成に昇格させた、共同条件付き動画生成を採用しています。この2段階学習スキームは、必要な計算リソースを削減するだけでなく、画像データセットに含まれる豊富な概念を動画生成に転送することで性能を向上させます。さらに、シンプルでありながら効果的な因果的アテンションマスク戦略を使用して、より長い動画合成を可能にし、品質の低下を効果的に軽減します。実験結果は、特に時間的整合性とユーザーガイダンスへの忠実度において、既存のベースラインに対する私たちの手法の優位性を示しています。さらに、私たちのモデルは、実用的な使用の可能性を示すいくつかの興味深いアプリケーションを可能にします。
テキストから画像を生成するモデルを用いて生成された合成画像を用いた視覚表現学習の可能性を調査する。これは、そのようなモデルが高品質な画像を生成する優れた性能を示していることから、自然に導かれる疑問である。特に、主要なオープンソースのテキストから画像を生成するモデルであるStable Diffusionに焦点を当てる。我々は、(1) 生成モデルが適切なclassifier-free guidance scaleで設定されている場合、合成画像を用いた自己教師あり学習手法の訓練が、実画像を用いた場合と同等またはそれ以上の性能を発揮できることを示し、(2) 同じテキストプロンプトから生成された複数の画像を互いにポジティブサンプルとして扱うことで、multi-positive contrastive learning手法を開発し、これをStableRepと名付ける。合成画像のみを用いて、StableRepによって学習された表現は、大規模データセットにおいて、同じテキストプロンプトと対応する実画像を用いてSimCLRやCLIPによって学習された表現の性能を上回る。さらに言語監視を追加すると、20Mの合成画像で訓練されたStableRepは、50Mの実画像で訓練されたCLIPよりも高い精度を達成する。
拡散モデルを用いたパーソナライズドテキスト画像生成が最近提案され、大きな注目を集めています。新しい概念(例えば、ユニークなおもちゃ)を含む少数の画像が与えられた場合、生成モデルを微調整して、その新しい概念の細かい視覚的詳細を捉え、テキスト条件に従ったフォトリアルな画像を生成することを目指します。本論文では、高速で軽量なパーソナライズド生成のためのプラグイン方式「ViCo」を提案します。具体的には、パッチ単位の視覚的セマンティクスに基づいて拡散プロセスを条件付けるための画像アテンションモジュールを提案します。また、アテンションモジュールからほとんどコストをかけずに得られるアテンションベースのオブジェクトマスクを導入します。さらに、テキスト画像アテンションマップの内在的特性に基づいたシンプルな正則化を設計し、一般的な過学習の劣化を軽減します。多くの既存モデルとは異なり、本手法では元の拡散モデルのパラメータを微調整しません。これにより、より柔軟で転移可能なモデルデプロイメントが可能になります。軽量なパラメータ学習(拡散U-Netの約6%)のみで、本手法は質的・量的に全ての最先端モデルと同等またはそれ以上の性能を達成します。
自己教師あり学習(SSL)は近年、視覚、テキスト、音声の分野において大規模データで汎化可能なモデルを訓練する有望なパラダイムとして登場しています。SSLは音声やオーディオにおいて有効性が証明されていますが、音楽オーディオへの応用はまだ十分に探求されていません。これは主に、音楽の知識、特にその音調やピッチ特性をモデル化する際に伴う特有の課題によるものです。この研究ギャップを埋めるため、我々は大規模な自己教師あり訓練を組み込んだ音響音楽理解モデル(MERT)を提案します。このモデルは、マスク言語モデリング(MLM)スタイルの音響事前訓練において擬似ラベルを提供する教師モデルを組み込んでいます。我々の探求の中で、従来の音声やオーディオアプローチを性能面で上回る優れた教師モデルの組み合わせを特定しました。この組み合わせには、Residual Vector Quantization - Variational AutoEncoder(RVQ-VAE)に基づく音響教師と、Constant-Q Transform(CQT)に基づく音楽教師が含まれます。これらの教師は、BERTスタイルのトランスフォーマーエンコーダである学生モデルを効果的に導き、音楽オーディオをより良くモデル化します。さらに、表現のロバスト性を高めるために、バッチ内ノイズ混合拡張を導入します。また、音響言語モデルの事前訓練における不安定性を克服するために、幅広い設定を探求し、設計したパラダイムを95Mから330Mのパラメータにスケールできるようにしました。実験結果は、我々のモデルが14の音楽理解タスクにおいて汎化し、良好な性能を発揮し、全体として最先端(SOTA)のスコアを達成することを示しています。コードとモデルはオンラインで公開されています:https://github.com/yizhilll/MERT。
事前学習済みの大規模テキスト-to-画像モデル(例:Stable Diffusion)をカスタマイズし、ユーザー自身のような革新的な概念を生成するニーズが高まっています。しかし、従来のカスタマイズ手法で追加された新しい概念は、トレーニング中に複数の画像が与えられた場合でも、元の概念に比べて組み合わせ能力が弱い傾向があります。そこで我々は、たった1枚の顔写真と1024個の学習可能なパラメータを用いて、3分以内に事前学習済みの拡散モデルに個人をシームレスに統合する新しいパーソナライゼーション手法を提案します。これにより、テキストプロンプトから、この人物がどんなポーズや位置で、誰とでも相互作用し、想像しうるあらゆることを行う驚くべき画像を簡単に生成できます。これを実現するため、まず事前学習済みの大規模テキストエンコーダの埋め込み空間から、明確に定義された有名人基底を分析・構築します。次に、目標となる個人の顔写真が与えられた場合、この基底の重みを最適化し、他の全てのパラメータを固定することで、その個人独自の埋め込みを生成します。提案された有名人基底によって強化された我々のカスタマイズモデルでは、新しいアイデンティティが従来のパーソナライゼーション手法よりも優れた概念組み合わせ能力を示します。さらに、我々のモデルは複数の新しいアイデンティティを同時に学習し、それらが互いに相互作用することも可能であり、これは従来のカスタマイズモデルでは実現できなかったものです。コードは公開予定です。
大規模生成モデルは、詳細なテキスト記述から高品質な画像を生成することが可能です。しかし、画像の多くの側面はテキストを通じて伝えることが困難または不可能です。本論文では、拡散モデルの内部表現をガイドすることで、生成画像に対するより高度な制御を実現する「セルフガイダンス」という手法を提案します。物体の形状、位置、外観といった特性がこれらの表現から抽出可能であり、サンプリングを誘導するために利用できることを実証します。セルフガイダンスは、分類器ガイダンスと同様に機能しますが、事前学習済みモデル自体に存在する信号を利用するため、追加のモデルや学習を必要としません。単純な特性のセットを組み合わせることで、物体の位置やサイズの変更、ある画像の物体の外観を別の画像のレイアウトと融合する、複数の画像から物体を合成するなど、挑戦的な画像操作を実行できることを示します。また、セルフガイダンスが実画像の編集にも利用可能であることも実証します。結果とインタラクティブなデモについては、プロジェクトページ(https://dave.ml/selfguidance/)をご覧ください。
トランスフォーマーに基づく大規模言語モデルは、実証的な成功を収めてきました。しかし、それらがより広く展開されるにつれ、モデルをより信頼性の高いものにするために、その内部メカニズムをより深く理解する必要性が高まっています。これらのモデルは、訓練データから膨大な量の知識を保持し、コンテキストやプロンプトで提供される新しい情報に迅速に適応するように見えます。本研究では、トークンがグローバルまたはコンテキスト固有のバイグラム分布から生成される合成設定を考慮することで、トランスフォーマーがこれらの2種類の知識をどのようにバランスさせるかを調査します。簡略化された2層トランスフォーマーの訓練プロセスを注意深く実証分析することで、グローバルバイグラムの迅速な学習と、コンテキスト内バイグラムに対する「帰納ヘッド」メカニズムのより遅い発達を明らかにします。重み行列が連想記憶として果たす役割を強調し、訓練中に勾配がそれらの学習を可能にする仕組みについて理論的洞察を提供し、データ分布特性の役割を考察します。
テキスト記述から音楽を生成することは、テキストがユーザーにとって比較的扱いやすいインターフェースであるため、ユーザーフレンドリーなモードです。一部のアプローチでは、テキストを用いて音楽オーディオの生成を制御しますが、生成されたオーディオの音楽要素を編集することはユーザーにとって困難です。一方、シンボリック音楽は編集が容易であり、ユーザーが特定の音楽要素を操作するのに適しています。本論文では、MuseCocoを提案します。これは、テキスト記述からシンボリック音楽を生成し、音楽属性を橋渡しとして、タスクをテキストから属性への理解と属性から音楽への生成の2段階に分解します。MuseCoco(Music Composition Copilot)は、音楽家が与えられたテキスト記述から直接音楽を生成することを可能にし、ゼロから音楽を作成するよりも効率が大幅に向上します。このシステムには2つの主な利点があります。第一に、データ効率が高いことです。属性から音楽を生成する段階では、属性を音楽シーケンスから直接抽出できるため、モデルのトレーニングが自己教師あり学習となります。テキストから属性を理解する段階では、定義された属性テンプレートに基づいてChatGPTがテキストを合成・洗練します。第二に、システムはテキスト記述内の特定の属性を用いて正確な制御を実現し、属性条件付きまたはテキスト条件付きのアプローチを通じて複数の制御オプションを提供します。MuseCocoは、音楽性、制御性、総合スコアにおいて、ベースラインシステムをそれぞれ少なくとも1.27、1.08、1.32ポイント上回ります。さらに、客観的な制御精度が約20%向上しています。加えて、12億パラメータを持つ堅牢な大規模モデルを開発し、卓越した制御性と音楽性を示しています。
コードインテリジェンスは、現代のソフトウェア工学を変革する上で重要な役割を果たしています。最近では、特にTransformerベースの大規模言語モデル(LLMs)を活用した深層学習モデルが、大規模なオープンソースコードデータとプログラミング言語の特徴を利用することで、これらのタスクに取り組む際に顕著な可能性を示しています。しかし、そのようなモデルの開発と展開には、機械学習とソフトウェア工学の両方の専門知識が必要であり、モデルの採用に障壁を生んでいます。本論文では、最先端のコードLLMsとコードインテリジェンスのためのオープンソースのTransformerベースライブラリであるCodeTFを紹介します。モジュール設計と拡張可能なフレームワークの原則に従い、CodeTFは統一されたインターフェースを備えており、さまざまなタイプのモデル、データセット、タスクにわたる迅速なアクセスと開発を可能にします。当ライブラリは、事前学習済みのコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートしており、コードLLMsを効率的にトレーニングおよび提供するための標準化されたインターフェースや、言語固有のパーサーやコード属性を抽出するためのユーティリティ関数などのデータ機能を含んでいます。本論文では、設計原則、アーキテクチャ、主要なモジュールとコンポーネントについて説明し、他の関連ライブラリツールとの比較を行います。最後に、CodeTFが機械学習/生成AIとソフトウェア工学の間のギャップを埋め、開発者、研究者、実務家のための包括的なオープンソースソリューションを提供できることを期待しています。
テキスト条件付き拡散モデルは、多様な内容の高精細な画像を生成することが可能です。しかし、言語表現はしばしば想定される目的の画像を曖昧に記述するため、テキストガイド付き拡散モデルの効果を高めるために追加の制御信号の組み込みが必要となります。本研究では、Cocktailというパイプラインを提案します。これは、一般化されたControlNet(gControlNet)、制御可能な正規化(ControlNorm)、および空間的ガイダンスサンプリング手法を組み合わせて、複数のモダリティを一つの埋め込みに混合し、テキスト条件付き拡散モデルのためのマルチモーダルかつ空間的に洗練された制御を実現します。具体的には、異なるモダリティからの制御信号を事前学習済みの拡散モデルに整合・注入するために設計されたハイパーネットワークgControlNetを導入します。gControlNetは、柔軟なモダリティ信号を受け入れることが可能で、複数のモダリティ信号の同時受信や、複数のモダリティ信号の補完的な融合を含みます。制御信号は、提案されたControlNormに従って融合され、バックボーンモデルに注入されます。さらに、高度な空間的ガイダンスサンプリング手法により、制御信号を指定された領域に効果的に組み込み、生成画像内での望ましくないオブジェクトの出現を回避します。我々の手法が様々なモダリティを制御し、複数の外部信号に対する高品質な合成と忠実性を実現することを示します。
私たちは、視覚、聴覚、触覚を中心とした物体認識、再構築、操作に関する10のタスクからなるマルチセンサー物体中心学習のベンチマークスイート「ObjectFolder Benchmark」を紹介します。また、100の実世界の家庭用品のマルチセンサー測定値を含む「ObjectFolder Real」データセットを発表します。これは、3Dメッシュ、ビデオ、衝突音、触覚読み取りを収集するために新たに設計されたパイプラインに基づいています。私たちは、ObjectFolderの1,000のマルチセンサーニューラルオブジェクトと、ObjectFolder Realの実マルチセンサーデータの両方に対して系統的なベンチマークを行いました。その結果、マルチセンサー知覚の重要性が示され、視覚、音声、触覚がそれぞれ異なる物体中心学習タスクにおいて果たす役割が明らかになりました。私たちは、データセットとベンチマークスイートを公開することで、コンピュータビジョン、ロボティクスをはじめとするマルチセンサー物体中心学習の新たな研究を促進し、可能にすることを目指しています。プロジェクトページ: https://objectfolder.stanford.edu
拡散モデルに基づくアプローチはデータ駆動型プランニングにおいて有望な成果を示していますが、安全性の保証がないため、安全が重要なアプリケーションへの適用が困難です。これらの課題に対処するため、我々はSafeDiffuserと呼ばれる新しい手法を提案します。この手法は、制御バリア関数のクラスを使用して、拡散確率モデルが仕様を満たすことを保証します。我々のアプローチの鍵となるアイデアは、提案された有限時間拡散不変性をノイズ除去拡散プロセスに組み込むことで、信頼性の高い拡散データ生成を可能にすることです。さらに、生成モデルを通じた有限時間拡散不変性の手法が、一般化性能を維持するだけでなく、安全なデータ生成において堅牢性を生み出すことを実証します。我々の手法を、迷路経路生成、脚式ロボットの移動、3D空間操作を含む一連の安全なプランニングタスクでテストし、その結果、従来の拡散モデルに対する堅牢性と保証の優位性を示しました。
Transformerは、自然言語処理とコンピュータビジョンにおける最近の成功の中核をなす技術です。Transformerは、主に均一なバックボーンを持ち、フィードフォワード層とセルフアテンション層を交互に配置することで深いネットワークを構築します。本研究では、この設計選択を検証し、層プリミティブの異なる順列を持つより複雑なブロックが効率的であることを発見しました。この洞察を基に、スパースゲート付きフィードフォワード層、密なフィードフォワード層、アテンション層、および様々な形式のレイヤー正規化と活性化関数を含む多様な層セットからなる複雑なブロック、Brainformerを開発しました。Brainformerは、品質と効率の両面で、最先端の密なTransformerおよびスパースTransformerを一貫して上回ります。トークンあたり80億の活性化パラメータを持つBrainformerモデルは、GLaMと比較して2倍の訓練収束速度と5倍のステップ時間を実証しました。下流タスク評価では、Brainformerは、同程度の活性化パラメータ数を持つGLaMと比較して、ファインチューニング後のSuperGLUEスコアが3%高くなりました。最後に、Brainformerは、トークンあたりの計算量が類似したNASから導出されたPrimer密モデルを、Few-shot評価において大幅に上回りました。