翻訳付きの日次キュレーションされたAI研究論文
LlamaGenを紹介する。これは、大規模言語モデルのオリジナルな「次トークン予測」パラダイムを視覚生成領域に適用した新しい画像生成モデルファミリーである。これは、視覚信号に対する帰納的バイアスを持たない素朴な自己回帰モデル(例えばLlama)が、適切にスケーリングされた場合に最先端の画像生成性能を達成できるかという問いに対する肯定的な答えである。我々は、画像トークナイザーの設計空間、画像生成モデルのスケーラビリティ特性、およびそれらのトレーニングデータの品質を再検討した。この探求の結果は以下の通りである:(1)ImageNetベンチマークにおいて、ダウンサンプル比率16、再構築品質0.94 rFID、コードブック使用率97%の画像トークナイザー。(2)111Mから3.1Bパラメータまでのクラス条件付き画像生成モデルシリーズで、ImageNet 256x256ベンチマークにおいて2.18 FIDを達成し、LDMやDiTなどの人気のある拡散モデルを上回る。(3)LAION-COCOと高美質画像に対する2段階トレーニングから得られた775Mパラメータのテキスト条件付き画像生成モデルで、視覚品質とテキストアラインメントの競争力のある性能を示す。(4)LLMサービングフレームワークの有効性を検証し、画像生成モデルの推論速度を326% - 414%向上させた。我々は、視覚生成とマルチモーダル基盤モデルのオープンソースコミュニティを促進するために、すべてのモデルとコードを公開する。
言語エージェントは、各ステップを正確に実行するためにツールを使用して複雑なタスクを遂行します。しかし、既存のエージェントの多くはプロプライエタリなモデルに基づいており、数学や多段階質問応答などの特定のタスクを対象に設計されています。本論文では、Huskyという包括的でオープンソースの言語エージェントを紹介します。Huskyは、数値、表形式、知識ベースの推論を含む多様な複雑タスクに対処するために、統一されたアクション空間上で推論することを学習します。Huskyは、1) 与えられたタスクを解決するための次のアクションを生成し、2) 専門モデルを使用してアクションを実行し、現在の解決状態を更新するという2つのステージを繰り返します。我々は、複雑なタスクに対処するための徹底的なアクションのオントロジーを特定し、これらのアクションを実行するための専門モデルを訓練するための高品質なデータをキュレーションしました。実験の結果、Huskyは14の評価データセットにおいて、従来の言語エージェントを凌駕することが示されました。さらに、我々はHuskyQAという新しい評価セットを導入し、欠落した知識の検索と数値推論に焦点を当てた混合ツール推論において言語エージェントをストレステストします。7Bモデルを使用しているにもかかわらず、HuskyはGPT-4のような最先端の大規模言語モデルに匹敵し、これらのタスクにおいて我々の包括的アプローチの有効性を示しています。コードとモデルはhttps://github.com/agent-husky/Husky-v1で公開されています。
マルチモーダル学習、特に映像理解と生成の進展においては、高品質な映像-テキストデータセットがモデルの性能向上に不可欠です。Vriptはこの課題に対処するため、12,000本の高解像度映像からなる厳密にアノテーションされたコーパスを提供し、420,000以上のクリップに対して詳細で密度の高い台本のようなキャプションを付与しています。各クリップには約145語のキャプションが付いており、これは従来の映像-テキストデータセットの10倍以上の長さです。過去のデータセットでは静的な内容のみを記録していたキャプションとは異なり、Vriptでは映像の内容だけでなく、ショットタイプ(ミディアムショット、クローズアップなど)やカメラ操作(パン、チルトなど)も記録することで、映像キャプションを映像スクリプティングへと進化させました。Vriptを活用し、クリップとキャプションのペアではなく、より多くのテキストを映像モダリティに整合させる3つのトレーニングパラダイムを探求しました。その結果、オープンソースモデルの中で最高性能を誇る映像キャプションモデルVriptorが誕生し、その性能はGPT-4Vに匹敵します。Vriptorはまた、長時間映像に対して詳細で密度の高いキャプションをエンドツーエンドで生成できる強力なモデルでもあります。さらに、既存のベンチマークよりも挑戦的な3つの映像理解タスクからなるVript-Hardを紹介します。Vript-HALは、映像LLMにおけるアクションとオブジェクトの幻覚を評価する初のベンチマークです。Vript-RRは、長時間映像QAにおける質問の曖昧さを解決するために推論と検索を組み合わせたものです。Vript-EROは、過去の研究で扱われてきた短時間映像のアクションではなく、長時間映像におけるイベントの時間的理解を評価する新しいタスクです。すべてのコード、モデル、データセットはhttps://github.com/mutonix/Vriptで公開されています。
健康分野において、大規模言語モデル(LLM)の研究は主に臨床タスクに焦点が当てられてきた。しかし、そのようなタスクにはほとんど統合されていないモバイルおよびウェアラブルデバイスは、個人の健康モニタリングのための豊富で長期的なデータを提供する。本稿では、数値時系列の個人健康データを理解し推論するためにGeminiをファインチューニングしたPersonal Health Large Language Model(PH-LLM)を紹介する。我々は、1)睡眠パターン、身体活動、生理的反応からの個別化された洞察と推奨事項の生成、2)専門領域の知識、3)自己報告された睡眠結果の予測をテストする3つのデータセットを作成し、キュレーションした。最初のタスクでは、睡眠とフィットネスの現実世界のシナリオを評価するために、専門家と協力して857のケーススタディを設計した。領域固有の評価基準を用いた包括的な評価を通じて、Gemini Ultra 1.0とPH-LLMはフィットネスにおいて専門家のパフォーマンスと統計的に差がないことが観察され、睡眠においては専門家が依然として優れているものの、PH-LLMのファインチューニングにより、関連する領域知識の使用と睡眠洞察のための情報の個別化において大幅な改善がもたらされたことが確認された。PH-LLMの領域知識を評価するために、睡眠医学とフィットネスの多肢選択式試験を使用した。PH-LLMは睡眠で79%、フィットネスで88%のスコアを達成し、専門家のサンプルからの平均スコアを上回った。最後に、PH-LLMを訓練し、ウェアラブルデータのテキストおよびマルチモーダルエンコーディング表現から自己報告された睡眠の質の結果を予測させ、マルチモーダルエンコーディングが専門的な識別モデルのパフォーマンスに匹敵するために必要であることを示した。安全が重要な個人健康分野においてさらなる開発と評価が必要ではあるものの、これらの結果は、Geminiモデルの広範な知識と能力、およびPH-LLMで行われたように生理学的データを個人健康アプリケーションに文脈化することの利点を示している。
NeRFのような体積レンダリングベースの手法は、RAW画像からのHDRビュー合成、特に夜間シーンにおいて優れた性能を発揮します。しかし、これらの手法は長時間のトレーニングを必要とし、密なサンプリング要件のためリアルタイムレンダリングを行うことができません。3Dガウシアンスプラッティング(3DGS)の登場により、リアルタイムレンダリングとより高速なトレーニングが可能になりました。しかし、3DGSを直接使用してRAW画像ベースのビュー合成を実装することは、以下の固有の欠点により困難です:1)夜間シーンでは、極めて低いSNRが遠方ビューでの構造推定(SfM)を劣化させる、2)球面調和関数(SH)の表現能力が限られており、RAW線形色空間に適していない、3)不正確なシーン構造がリフォーカスなどの下流タスクを妨げる。これらの問題に対処するため、我々はLE3D(Lighting Every darkness with 3DGS)を提案します。本手法では、SfM推定を強化するためのCone Scatter Initializationを提案し、SHをColor MLPに置き換えてRAW線形色空間を表現します。さらに、下流タスクの精度を向上させるために、深度歪みと近遠正則化を導入します。これらの設計により、LE3Dはリアルタイムの新規ビュー合成、HDRレンダリング、リフォーカス、トーンマッピング変更を可能にします。従来の体積レンダリングベースの手法と比較して、LE3Dはトレーニング時間を1%に削減し、2K解像度画像においてFPSで最大4,000倍のレンダリング速度向上を実現します。コードとビューアはhttps://github.com/Srameo/LE3Dで公開されています。
治療薬の開発は、多くの異なる基準を満たす必要がある長くて費用のかかるプロセスであり、このプロセスを加速できるAIモデルは非常に貴重です。しかし、現在のAIアプローチの大半は、特定の領域内に限定された狭く定義されたタスクセットにしか対応していません。このギャップを埋めるため、私たちはPaLM-2からファインチューニングされた汎用大規模言語モデル(LLM)であるTx-LLMを紹介します。Tx-LLMは、多様な治療モダリティに関する知識をエンコードしており、創薬パイプラインの様々な段階にまたがる66のタスクを対象とした709のデータセットを使用して訓練されています。単一の重みセットを使用して、Tx-LLMは、小分子、タンパク質、核酸、細胞株、疾患などの多様な化学的または生物学的エンティティを自由テキストと交互に処理し、広範な関連特性を予測することができます。これにより、66のタスクのうち43で最先端(SOTA)の性能に匹敵し、22でSOTAを上回る結果を達成しています。特に、Tx-LLMは、分子のSMILES表現と細胞株名や疾患名などのテキストを組み合わせたタスクにおいて、平均して最高クラスの性能を上回る強力な能力を示しています。これは、事前学習中に学習されたコンテキストによるものと考えられます。また、多様な薬物タイプ(例えば、小分子を含むタスクとタンパク質を含むタスク)間での正の転移の証拠を観察し、モデルサイズ、ドメインファインチューニング、およびプロンプト戦略が性能に与える影響を研究しました。私たちは、Tx-LLMが生化学的知識をエンコードするLLMに向けた重要な一歩を表しており、創薬開発パイプライン全体にわたるエンドツーエンドのツールとして将来の役割を果たす可能性があると考えています。
本論文では、ゼロショットテキスト音声合成(TTS)において初めて人間並みの品質を達成し、画期的な進展を遂げたニューラルコーデック言語モデル「VALL-E 2」を紹介する。前身であるVALL-Eを基盤としたこの新バージョンでは、2つの重要な改良が導入されている。まず、「Repetition Aware Sampling」は、デコード履歴におけるトークンの繰り返しを考慮することで、元のnucleus samplingプロセスを洗練させた。これにより、デコードの安定化が図られるだけでなく、無限ループの問題も回避される。次に、「Grouped Code Modeling」は、コーデックコードをグループ化してシーケンス長を効果的に短縮し、推論速度を向上させるだけでなく、長いシーケンスのモデリングにおける課題にも対処する。LibriSpeechおよびVCTKデータセットでの実験では、VALL-E 2が音声の堅牢性、自然さ、話者類似性において従来のシステムを凌駕し、これらのベンチマークで初めて人間並みの品質に到達したことが示された。さらに、VALL-E 2は、複雑さや繰り返しの多い文など、従来困難とされてきた文に対しても一貫して高品質な音声を合成する。この研究の利点は、失語症や筋萎縮性側索硬化症(ALS)を患う人々のための音声生成など、価値ある取り組みに貢献する可能性がある。VALL-E 2のデモはhttps://aka.ms/valle2に掲載される予定である。
人間の選好に基づく現代的なアライメント技術、例えばRLHFやDPOは、通常、参照モデルに対するダイバージェンス正則化を採用して、訓練の安定性を確保します。しかし、これによりアライメント中のモデルの柔軟性が制限されることが多く、特に選好データと参照モデルの間に明確な分布の不一致がある場合に顕著です。本論文では、Stable Diffusion XL(SDXL)などの最近のテキストから画像への拡散モデルのアライメントに焦点を当て、視覚モダリティの非構造的な性質により、この「参照ミスマッチ」がこれらのモデルのアライメントにおいて確かに重大な問題であることを明らかにします。例えば、特定のスタイル的側面に対する選好が容易にこのような不一致を引き起こすことがあります。この観察に基づき、我々は参照モデルに依存しない、メモリ効率の良い拡散モデル向けの新しい選好アライメント手法を提案します。これをマージン認識選好最適化(MaPO)と名付けます。MaPOは、選好された画像セットと非選好された画像セットの間の尤度マージンと、選好されたセットの尤度を同時に最大化し、一般的なスタイル的特徴と選好を同時に学習します。評価のために、SDXLから自己生成された画像ペアを含む2つの新しいペアワイズ選好データセット、Pick-StyleとPick-Safetyを導入し、参照ミスマッチの多様なシナリオをシミュレートします。我々の実験により、MaPOがPick-StyleとPick-Safetyでのアライメント、およびPick-a-Pic v2と併用した場合の一般的な選好アライメントにおいて、ベースのSDXLや他の既存の手法を大幅に上回ることが検証されました。我々のコード、モデル、データセットはhttps://mapo-t2i.github.ioで公開されています。
大規模言語モデル(LLM)は言語タスクにおいて印象的な性能を示すが、その膨大なパラメータ数と密な乗算への依存により、リソース制約のあるデバイスに展開する際に高いメモリ要求とレイテンシのボトルネックという課題に直面している。シフト・アンド・アッド再パラメータ化は、LLMのアテンション層および多層パーセプトロン(MLP)層において、コストの高い乗算をハードウェアに適したプリミティブに置き換えることで、有望な解決策を提供する。しかし、現在の再パラメータ化技術では、精度を回復するためにゼロからのトレーニングまたは全パラメータのファインチューニングが必要であり、LLMにとってリソース集約的である。この問題に対処するため、我々は事前学習済みLLMをポストトレーニングのシフト・アンド・アッド再パラメータ化によって加速し、乗算を排除した効率的なモデル、ShiftAddLLMを提案する。具体的には、各重み行列をバイナリ行列とグループごとのスケーリング係数に量子化する。関連する乗算は、(1) 活性化とスケーリング係数間のシフト、および(2) バイナリ行列に基づくクエリと加算に再パラメータ化される。精度の低下を抑えるため、重みと出力活性化の再パラメータ化誤差を最小化する多目的最適化手法を提示する。さらに、層ごとの再パラメータ化に対する感度の違いに基づいて、メモリ使用量とレイテンシをさらに削減する自動ビット割り当て戦略を開発する。5つのLLMファミリーと8つのタスクでの実験により、ShiftAddLLMの有効性が一貫して検証され、3ビットおよび2ビットにおいて最も競争力のある量子化LLMと同等または低いレイテンシで、それぞれ平均5.6ポイントおよび22.7ポイントのパープレキシティ改善を達成し、元のLLMと比較して80%以上のメモリとエネルギー削減を実現した。コードとモデルはhttps://github.com/GATECH-EIC/ShiftAddLLMで公開されている。
人間が効率的かつ効果的に画像を取得する方法は、常に普遍的な課題であり続けてきた。典型的な解決策は、テキストクエリに基づいて既存のデータベースからテキスト-画像検索を行うことである。しかし、限られたデータベースでは創造性に欠けることが多い。一方、最近のテキスト-画像生成のブレークスルーにより、斬新で多様な視覚コンテンツを生成することが可能になったが、知識集約型の画像を合成する際には課題に直面している。本研究では、テキスト-画像生成と検索の関係を再考し、マルチモーダル大規模言語モデル(MLLMs)の文脈において統一フレームワークを提案する。具体的には、まずMLLMsの本質的な識別能力を探り、トレーニング不要な生成型検索手法を導入する。次に、生成と検索を自己回帰生成方式で統一し、テキストクエリに対する応答として生成画像と検索画像のうち最適なものを選択する自律決定モジュールを提案する。さらに、創造的領域と知識集約型領域を含むTIGeR-Benchというベンチマークを構築し、統一テキスト-画像生成と検索の評価を標準化する。TIGeR-Benchおよび2つの検索ベンチマーク(Flickr30KとMS-COCO)での広範な実験結果は、提案手法の優位性と有効性を実証している。
既存の再照明可能な視点合成手法は、未知の照明下で撮影された物体の画像セットを用いて、新しい視点から目標照明下でレンダリング可能な3D表現を復元するものであり、逆レンダリングに基づいています。これらの手法は、入力画像を説明する物体の形状、材質、照明を分離しようと試みます。さらに、これには通常、微分可能なモンテカルロレンダリングを通じた最適化が含まれますが、これは脆弱で計算コストが高いものです。本研究では、よりシンプルなアプローチを提案します。まず、照明を条件とした画像拡散モデルを用いて各入力画像を再照明し、その後、これらの再照明画像からニューラルラジアンスフィールド(NeRF)を再構築します。これにより、目標照明下での新しい視点からのレンダリングが可能になります。この戦略が驚くほど競争力があり、複数の再照明ベンチマークで最先端の結果を達成することを実証します。詳細はプロジェクトページ(https://illuminerf.github.io/)をご覧ください。
大規模な潜在拡散モデル(LDMs)を高速サンプリング可能なモデルに蒸留することは、研究の関心を集めつつある。しかし、既存の手法の多くは、以下のジレンマに直面している:(i)異なるサンプリング予算に対して複数の個別の蒸留モデルに依存するか、(ii)限定的(例:2-4ステップ)または中程度(例:5-8ステップ)のサンプリングステップで生成品質を犠牲にするかである。これらの課題に対処するため、我々は最近のマルチステップ一貫性蒸留(MCD)戦略を代表的なLDMsに拡張し、低コストで高品質な画像合成のためのマルチステップ潜在一貫性モデル(MLCMs)アプローチを確立した。MLCMは、MCDの約束により、様々なサンプリングステップに対応する統一モデルとして機能する。さらに、MCDを段階的トレーニング戦略で強化し、セグメント間の一貫性を高めることで、少ステップ生成の品質を向上させた。教師モデルのサンプリング軌跡から得られた状態をMLCMsのトレーニングデータとして利用し、高品質なトレーニングデータセットの要件を緩和し、蒸留モデルのトレーニングと推論のギャップを埋めた。MLCMは、視覚品質と美的魅力をさらに向上させるための選好学習戦略と互換性がある。実験的に、MLCMはわずか2-8ステップで高品質で魅力的な画像を生成できる。MSCOCO-2017 5Kベンチマークにおいて、SDXLから蒸留されたMLCMは、4ステップでCLIPスコア33.30、美的スコア6.19、画像報酬1.20を達成し、4ステップのLCM [23]、8ステップのSDXL-Lightning [17]、8ステップのHyperSD [33]を大幅に上回った。また、MLCMsの応用として、制御可能な生成、画像スタイル転送、中国語から画像生成などの多様性も実証した。
本論文では、Neural Radiance Field (NeRF) が扱える視点範囲を外挿するための新規手法であるExtraNeRFを提案する。我々の主なアイデアは、NeRFを活用してシーン固有の微細な詳細をモデル化しつつ、拡散モデルを利用して観測データを超えた外挿を行うことである。重要な要素として、可視性を追跡し、シーンのどの部分が未観測であるかを特定し、拡散モデルを用いてそれらの領域を一貫して再構築することに焦点を当てる。我々の主な貢献は、入力画像に微調整された可視性を考慮した拡散ベースのインペインティングモジュールを含み、これにより中程度の品質(しばしばぼやけた)インペインティング領域を持つ初期NeRFが生成される。その後、入力画像に基づいて訓練された第二の拡散モデルを用いて、第一段階のインペインティング画像を一貫して強化し、特に鮮明化する。我々は、少数の(通常6つ以下の)入力視点を超えた高品質な外挿結果を示し、NeRFのアウトペインティングだけでなく、元の視野範囲内で新たにディスオクルージョンされた領域のインペインティングにも効果的に対応する。関連研究との定量的・定性的な比較を行い、従来の手法を大幅に上回る成果を示す。
本論文では、マルチビュー画像からの3Dメッシュ再構築のための新たなアプローチを提案する。我々の手法は、トランスフォーマーベースのトライプレーン生成器とマルチビュー画像で学習されたNeural Radiance Field(NeRF)モデルを使用するLRMのような大規模再構築モデルに着想を得ている。しかし、本手法では、3D再構築品質を大幅に向上させるためのいくつかの重要な改良を導入している。まず、元のLRMアーキテクチャを検証し、いくつかの欠点を発見した。その後、LRMアーキテクチャにそれぞれの改良を加え、マルチビュー画像の表現を改善し、より計算効率の高い学習を実現した。次に、ジオメトリ再構築を改善し、フル解像度での監視を可能にするために、NeRFフィールドからメッシュを微分可能な方法で抽出し、メッシュレンダリングを通じてNeRFモデルを微調整した。これらの改良により、Google Scanned Objects(GSO)データセットでPSNR 28.67を達成するなど、2Dおよび3D評価指標において最先端の性能を実現した。これらの優れた結果にもかかわらず、我々のフィードフォワードモデルは、テキストやポートレートなどの複雑なテクスチャの再構築に依然として苦戦している。これを解決するために、軽量なインスタンスごとのテクスチャリファインメント手順を導入した。この手順では、入力マルチビュー画像を使用して、メッシュ表面上のトライプレーン表現とNeRF色推定モデルをわずか4秒で微調整する。このリファインメントにより、PSNRが29.79に向上し、テキストなどの複雑なテクスチャの忠実な再構築を実現した。さらに、本手法は、テキストや画像から3Dを生成するなど、さまざまな下流アプリケーションを可能にする。