翻訳付きの日次キュレーションされたAI研究論文
私たちは、BASE TTS(Big Adaptive Streamable TTS with Emergent abilities)と呼ばれるテキスト・トゥ・スピーチ(TTS)モデルを紹介します。BASE TTSは、これまでで最大のTTSモデルであり、10万時間のパブリックドメイン音声データでトレーニングされ、音声の自然さにおいて新たな最先端を達成しました。このモデルは、10億パラメータの自己回帰型Transformerを使用して、生のテキストを離散コード(「スピーチコード」)に変換し、その後、畳み込みベースのデコーダがこれらのスピーチコードを波形に段階的かつストリーミング可能な方法で変換します。さらに、私たちのスピーチコードは、話者IDの分離とバイトペアエンコーディングによる圧縮を特徴とする新しい音声トークン化技術を使用して構築されています。大規模言語モデルがデータ量の増加に伴って示す「創発的能力」に呼応して、10,000時間以上のデータと5億以上のパラメータで構築されたBASE TTSのバリアントが、テキスト的に複雑な文において自然なプロソディを示し始めることを示します。私たちは、これらの創発的能力を測定するための専門的なデータセットを設計し、共有します。BASE TTSの最先端の自然さを、YourTTS、Bark、TortoiseTTSなどの公開されている大規模テキスト・トゥ・スピーチシステムを含むベースラインに対して評価することで示します。モデルによって生成された音声サンプルは、https://amazon-ltts-paper.com/ で聴くことができます。
現在の言語モデルは、言葉で簡単に説明できない世界の側面を理解する能力が不十分であり、複雑で長文のタスクに苦戦しています。ビデオシーケンスは、言語や静止画にはない貴重な時間的情報を提供するため、言語との共同モデリングに適しています。このようなモデルは、人間のテキスト知識と物理世界の両方を理解し、人間を支援するためのより広範なAI能力を可能にする可能性があります。しかし、数百万トークンに及ぶビデオと言語シーケンスから学習することは、メモリ制約、計算の複雑さ、限られたデータセットのため、課題となっています。これらの課題に対処するため、多様なビデオと書籍の大規模なデータセットをキュレーションし、RingAttention技術を活用して長いシーケンスをスケーラブルにトレーニングし、コンテキストサイズを4Kから1Mトークンに段階的に増やします。本論文は以下の貢献を行います:(a) 最大コンテキストサイズのニューラルネットワーク:長いビデオと言語シーケンスで最大コンテキストサイズのトランスフォーマーをトレーニングし、困難な検索タスクと長いビデオ理解において新しいベンチマークを設定します。(b) ビジョンと言語のトレーニング課題を克服するための解決策、異なるシーケンス長を混合するためのマスクされたシーケンスパッキング、言語とビジョンのバランスを取るための損失重み付け、長いシーケンスチャットのためのモデル生成QAデータセットを含みます。(c) RingAttention、マスクされたシーケンスパッキング、その他の主要な機能を備えた高度に最適化された実装で、数百万長のマルチモーダルシーケンスをトレーニングします。(d) 1Mトークンを超える長いテキストドキュメント(LWM-Text、LWM-Text-Chat)とビデオ(LWM、LWM-Chat)を処理できる7Bパラメータモデルファミリーを完全にオープンソース化しました。この研究は、人間の知識とマルチモーダル世界を理解し、より広範な能力を開発するために、長いビデオと言語の大規模なデータセットをトレーニングする道を開きます。
近年の(自己)教師あり学習モデルの急速な進歩は、主に経験的なスケーリング則によって予測されています。つまり、モデルの性能はそのサイズに比例して向上します。しかし、強化学習の分野では、モデルのパラメータ数を増やすことが最終的な性能を低下させることが多く、同様のスケーリング則はまだ確立されていません。本論文では、価値ベースのネットワークにMixture-of-Expert(MoE)モジュール、特にSoft MoEs(Puigcerver et al., 2023)を組み込むことで、よりパラメータスケーラブルなモデルが得られることを実証します。これは、様々なトレーニング体制やモデルサイズにおいて大幅な性能向上が観察されたことによって裏付けられています。したがって、本研究は強化学習におけるスケーリング則の開発に向けた強力な経験的証拠を提供するものです。
本論文では、テキスト理解能力を備えた初のエンドツーエンドマルチモーダル質問応答システム「Lumos」を紹介する。Lumosの中核には、一人称視点画像からテキストを抽出するシーンテキスト認識(STR)コンポーネントがあり、その出力はマルチモーダル大規模言語モデル(MM-LLM)への入力を強化するために使用される。Lumosの構築において、我々はSTRの品質、全体的なレイテンシ、モデル推論に関連する数多くの課題に直面した。本論文では、これらの課題に深く踏み込み、それらを克服するために採用したシステムアーキテクチャ、設計上の選択、モデリング技術について議論する。また、各コンポーネントに対する包括的な評価を提供し、高い品質と効率性を示す。
グラフニューラルネットワーク(GNNs)は、グラフ表現学習において有望な可能性を示しています。ほとんどのGNNは、複数の層を積み重ねることでグラフ上で情報を伝播する局所的なメッセージパッシングメカニズムを定義しています。しかし、これらの手法は、過剰な圧縮(over-squashing)と長距離依存関係の捕捉が不十分という2つの主要な制限に悩まされることが知られています。最近、グラフトランスフォーマー(GTs)がメッセージパッシングニューラルネットワーク(MPNNs)の強力な代替手段として登場しました。しかし、GTsは二次的な計算コストを持ち、グラフ構造に対する帰納的バイアスが欠如しており、複雑な位置/構造エンコーディング(SE/PE)に依存しています。本論文では、トランスフォーマー、複雑なメッセージパッシング、およびSE/PEが実際に良好な性能を発揮するために十分である一方、いずれも必要ではないことを示します。Mambaなどの状態空間モデル(SSMs)の最近の成功に触発され、選択的SSMsに基づく新しいクラスのGNNのための一般的なフレームワークであるGraph Mamba Networks(GMNs)を提案します。グラフ構造化データにSSMsを適用する際の新たな課題について議論し、GMNsを設計するために必要な4つのステップと1つのオプションのステップを提示します。具体的には、(1) 近傍トークン化、(2) トークン順序付け、(3) 双方向選択的SSMエンコーダのアーキテクチャ、(4) 局所エンコーディング、および省略可能な(5) PEおよびSEを選択します。さらに、GMNsの力を理論的に正当化します。実験結果は、GMNsがはるかに少ない計算コストにもかかわらず、長距離、小規模、大規模、および異質性のあるベンチマークデータセットで優れた性能を発揮することを示しています。
私たちは、Windows OS上のアプリケーションに特化してユーザーリクエストを実現する革新的なUIフォーカスエージェント「UFO」を紹介します。UFOは、GPT-Visionの能力を活用し、デュアルエージェントフレームワークを採用して、Windowsアプリケーションのグラフィカルユーザーインターフェース(GUI)と制御情報を綿密に観察・分析します。これにより、エージェントは個々のアプリケーション内および複数のアプリケーション間をシームレスにナビゲートし、ユーザーリクエストを遂行することが可能です。このフレームワークには制御インタラクションモジュールが組み込まれており、人間の介入なしにアクションをグラウンディングし、完全自動化された実行を可能にします。その結果、UFOは煩雑で時間のかかるプロセスを、自然言語コマンドだけで簡単に実現できるタスクに変えます。私たちは、UFOを9つの人気Windowsアプリケーションでテストし、ユーザーの日常的な使用を反映したさまざまなシナリオを網羅しました。定量的な指標と実際のケーススタディから得られた結果は、UFOがユーザーリクエストを遂行する上で優れた効果を発揮することを示しています。私たちの知る限り、UFOはWindows OS環境でのタスク完了に特化した最初のUIエージェントです。UFOのオープンソースコードはhttps://github.com/microsoft/UFOで公開されています。
ほとんどのテキストから3D生成モデルは、数十億枚の画像で訓練された既存のテキストから画像生成モデルを基盤としています。これらのモデルは、スコア蒸留サンプリング(SDS)の変種を使用していますが、これは処理が遅く、やや不安定で、アーティファクトが発生しやすいという課題があります。この問題を緩和するために、2D生成モデルをマルチビュー対応にファインチューニングする方法があり、これにより蒸留が改善されたり、再構築ネットワークと組み合わせて直接3Dオブジェクトを出力することが可能になります。本論文では、テキストから3Dモデルの設計空間をさらに探求します。画像生成モデルではなく、ビデオ生成モデルを考慮することで、マルチビュー生成を大幅に改善しました。ガウススプラッティングを使用してロバストな画像ベースの損失を最適化できる3D再構築アルゴリズムと組み合わせることで、生成されたビューから直接高品質な3D出力を生成します。私たちの新しい手法であるIM-3Dは、2D生成ネットワークの評価回数を10~100倍削減し、より効率的なパイプライン、より高い品質、幾何学的な不整合の減少、そして使用可能な3Dアセットの収量向上を実現しました。
大規模言語モデル(LLMs)が急速に進化する中、科学分野におけるその影響力はますます顕著になっています。LLMsのタスク一般化と自由形式の対話における新たな能力は、化学や生物学などの分野を大きく前進させる可能性があります。しかし、生物の基本的な構成要素である単一細胞生物学の分野では、依然としていくつかの課題が残されています。現在の手法における高い知識の壁とスケーラビリティの制限により、LLMsを活用して単一細胞データを完全に掌握することが妨げられており、直接的なアクセス性と迅速な反復が阻まれています。このため、私たちはChatCellを紹介します。ChatCellは、自然言語を用いた単一細胞分析を可能にすることで、パラダイムシフトを意味します。語彙適応と統一されたシーケンス生成を活用することで、ChatCellは単一細胞生物学における深い専門知識と多様な分析タスクに対応する能力を獲得しました。広範な実験により、ChatCellの堅牢な性能と単一細胞の洞察を深める可能性がさらに実証され、この重要な分野におけるよりアクセスしやすく直感的な探求の道を切り開いています。私たちのプロジェクトのホームページはhttps://zjunlp.github.io/project/ChatCellでご覧いただけます。
現在の拡散モデル(例えばテキストやControlNetを通じた)による画像生成の制御は、照明の方向や非剛体形状変化といった抽象的な連続属性を認識する点で不十分です。本論文では、テキストから画像を生成するモデルのユーザーが、画像内の複数の属性を細かく制御できる手法を提案します。これを実現するため、連続的に変換可能な特別な入力トークンのセットを設計しました。これを「Continuous 3D Words」と呼びます。これらの属性は、例えばスライダーとして表現され、テキストプロンプトと組み合わせて画像生成を細かく制御するために適用できます。単一のメッシュとレンダリングエンジンだけを前提として、本手法が時間帯に応じた照明、鳥の翼の向き、ドリーズーム効果、物体のポーズといった複数の3D認識属性に対する連続的なユーザー制御を提供できることを示します。本手法は、生成プロセスにオーバーヘッドを追加することなく、複数のContinuous 3D Wordsとテキスト記述を同時に条件付けして画像作成を行うことが可能です。プロジェクトページ: https://ttchengab.github.io/continuous_3d_words
従来の大規模言語モデル(LLM)の自己回帰的な性質は、トークンが逐次的に生成されるため、推論速度に本質的な制約をもたらします。推測的デコーディングや並列デコーディング技術はこれを緩和しようと試みていますが、いずれも限界があります。つまり、生成に精度の低い小型モデルに依存するか、ベースLLMの表現を十分に活用できないかのどちらかです。 これらの課題を解決するため、我々は新しいアーキテクチャである「Tandem transformers」を提案します。このアーキテクチャは、(1) 小型の自己回帰モデルと、(2) ブロックモードで動作する大規模モデル(複数のトークンを同時に処理)を独自に組み合わせています。小型モデルの予測精度は、大規模モデルのより豊富な表現に注意を向けることで大幅に向上します。PaLM2の事前学習データセットにおいて、PaLM2-BisonとPaLM2-Geckoのタンデムモデルは、スタンドアロンのPaLM2-Geckoと比較して、次トークン予測精度が3.3%向上し、同等の下流タスク性能を持つPaLM2-Otterモデルと比べて1.16倍の高速化を実現しました。さらに、我々はこのタンデムモデルを推測的デコーディング(SPEED)フレームワークに組み込み、大規模モデルが小型モデルからのトークンを検証するようにしました。これにより、PaLM2-BisonとPaLM2-Geckoのタンデムモデルは、SPEEDで通常のPaLM2-Geckoを使用する場合と比べて約1.14倍の高速化を達成しつつ、下流タスクの精度を完全に維持することが可能になりました。
ハンドジェスチャ認識は、特に日常的なデバイスにカメラが普及するにつれて、人間とコンピュータのインタラクションの主要なモードとなりつつある。この分野では継続的な進展が見られるものの、ジェスチャのカスタマイズはしばしば十分に検討されていない。カスタマイズは、ユーザーがより自然で覚えやすく、アクセスしやすいジェスチャを定義し、実演することを可能にするため、極めて重要である。しかし、カスタマイズにはユーザー提供データの効率的な活用が求められる。本研究では、単眼カメラを用いて1回の実演から簡単に独自のジェスチャを設計できる手法を提案する。我々は、few-shot学習の課題に対処するためにトランスフォーマーとメタ学習技術を採用した。従来の研究とは異なり、本手法は片手、両手、静的、動的のあらゆる組み合わせのジェスチャ、および異なる視点をサポートする。21名の参加者から収集した20種類のジェスチャを用いたユーザー調査を通じてカスタマイズ手法を評価し、1回の実演から平均97%の認識精度を達成した。本研究は、視覚ベースのジェスチャカスタマイズの実現可能な道筋を示し、この分野の今後の進展の基盤を築くものである。
ニューラルラジアンスフィールド(NeRF)は、シーンの3Dジオメトリと外観の特定の関係を符号化します。本研究では、ソースNeRFの外観をターゲット3Dジオメトリに意味的に有意義な方法で転移させ、結果として得られる新しいNeRFがターゲットジオメトリを保持しつつ、ソースNeRFとの類推となる外観を持つことができるかどうかという問いを立てます。この目的のために、我々は古典的な画像類推を2D画像からNeRFへと一般化します。大規模な事前学習済み2D画像モデルから得られるセマンティック特徴に基づくセマンティックアフィニティに沿った対応関係転移を活用し、マルチビュー一貫性のある外観転移を実現します。本手法により、3Dジオメトリと外観の組み合わせ空間を探索することが可能となります。我々の手法は従来のスタイル化ベースの手法を上回り、大多数のユーザーがいくつかの典型的なベースラインよりも本手法を好むことを示します。