翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)のトレーニングは、重みとオプティマイザ状態の増大に伴い、メモリ上の大きな課題を抱えています。一般的なメモリ削減手法として、低ランク適応(LoRA)があります。これは、各層の凍結された事前学習済み重みに学習可能な低ランク行列を追加し、学習可能なパラメータとオプティマイザ状態を削減します。しかし、このような手法は、パラメータ探索を低ランク部分空間に制限し、トレーニングダイナミクスを変更するため、事前学習とファインチューニングの両方の段階で、フルランク重みを用いたトレーニングに比べて性能が劣ることが一般的です。さらに、フルランクのウォームスタートが必要となる場合もあります。 本研究では、Gradient Low-Rank Projection(GaLore)を提案します。これは、フルパラメータ学習を可能にしつつ、LoRAなどの一般的な低ランク適応手法よりもメモリ効率の高いトレーニング戦略です。我々のアプローチは、LLaMA 1Bおよび7BアーキテクチャでのC4データセットを用いた最大19.7Bトークンの事前学習、およびGLUEタスクでのRoBERTaのファインチューニングにおいて、効率と性能を維持しながら、オプティマイザ状態のメモリ使用量を最大65.5%削減します。さらに、8ビットGaLoreは、BF16ベースラインと比較して、オプティマイザメモリを最大82.5%、トレーニング全体のメモリを63.3%削減します。特に、初めて、24GBメモリを搭載したコンシューマーGPU(例:NVIDIA RTX 4090)上で、モデル並列化、チェックポイント、オフロード戦略なしに7Bモデルの事前学習が可能であることを実証しました。
本論文では、法律分野に特化した大規模言語モデル(LLM)であるSaulLM-7Bを紹介する。70億のパラメータを有するSaulLM-7Bは、法律文書の理解と生成に特化して設計された初のLLMである。Mistral 7Bアーキテクチャを基盤として、SaulLM-7Bは300億トークンを超える英語の法律コーパスで学習されている。SaulLM-7Bは、法律文書の理解と処理において最先端の能力を発揮する。さらに、法律データセットを活用した新しい指示チューニング手法を提案し、SaulLM-7Bの法律タスクにおける性能をさらに向上させた。SaulLM-7BはCC-BY-SA-4.0ライセンスの下で公開されている。
大規模言語モデル(LLMs)の性能が向上し続ける中で、その規模も大幅に拡大しており、現在のLLMsは数十億から数兆ものパラメータを含んでいます。しかし、本研究では、LLMsの多くの層が高い類似性を示し、一部の層はネットワークの機能においてほとんど役割を果たしていないことを発見しました。この観察に基づいて、我々は各層の重要性を測定するための指標としてBlock Influence(BI)を定義しました。そして、BIスコアに基づいてLLMsの冗長な層を直接削除するシンプルなプルーニング手法、すなわち層削除を提案します。実験結果から、我々の手法であるShortGPTは、従来の最先端(SOTA)のモデルプルーニング手法を大幅に上回る性能を示すことが明らかになりました。さらに、ShortGPTは量子化のような手法と直交しており、パラメータと計算量をさらに削減することが可能です。複雑なプルーニング技術ではなく、単純な層削除によってより良い結果を達成できるという事実は、モデルアーキテクチャに高い冗長性が存在することを示唆しています。
本論文では、4K解像度の画像を直接生成可能なDiffusion Transformerモデル(DiT)であるPixArt-Σを紹介する。PixArt-Σは、その前身であるPixArt-αを大幅に進化させ、より高い忠実度とテキストプロンプトとの整合性を実現している。PixArt-Σの重要な特徴は、その学習効率である。PixArt-αの基盤となる事前学習を活用し、より高品質なデータを取り入れることで、「弱い」ベースラインから「強い」モデルへと進化する。このプロセスを「弱から強への学習」と呼ぶ。PixArt-Σの進歩は二つの側面に分けられる:(1) 高品質な学習データ:PixArt-Σは、より高品質な画像データと、より正確で詳細な画像キャプションを組み込んでいる。(2) 効率的なトークン圧縮:DiTフレームワーク内に新たな注意モジュールを提案し、キーと値の両方を圧縮することで、効率を大幅に向上させ、超高解像度画像の生成を可能にする。これらの改善により、PixArt-Σは、SDXL(2.6Bパラメータ)やSD Cascade(5.1Bパラメータ)などの既存のテキストから画像への拡散モデルと比較して、大幅に小さいモデルサイズ(0.6Bパラメータ)で優れた画像品質とユーザープロンプトへの忠実度を実現している。さらに、PixArt-Σの4K画像生成能力は、高解像度のポスターや壁紙の作成を支援し、映画やゲームなどの産業における高品質なビジュアルコンテンツの生産を効率的に強化する。
我々は、複数の大規模言語モデル(LLM)がトークンレベルで生成を交互に行うことで協調する方法を提案する。どのLLMが次のトークンを生成するかの決定を潜在変数としてモデル化する。潜在変数モデルの下で訓練セットの周辺尤度を最適化することにより、ベースLLMは、直接的な監督なしに、自身が生成すべき時と「アシスタント」言語モデルを呼び出すべき時を自動的に学習する。デコード中のトークンレベルの協調により、各モデルの専門知識を特定のタスクに合わせて融合することが可能となる。我々の協調デコードは、汎用ベースLLMがドメイン専門家モデルを呼び出すことを学習するクロスドメイン設定で特に有用である。指示追従、ドメイン固有のQA、および推論タスクにおいて、共同システムの性能が個々のモデルを上回ることを示す。学習された潜在決定の質的分析を通じて、我々の方法で訓練されたモデルが、テンプレート埋め込みなど、いくつかの興味深い協調パターンを示すことを明らかにする。コードはhttps://github.com/clinicalml/co-llmで公開されている。
我々は、大規模なウェブスクリーンショットレンダリングデータを用いたVision-Languageモデルのための新しい事前学習パラダイムであるStrongly Supervised pre-training with ScreenShots(S4)を提案します。ウェブスクリーンショットを使用することで、画像とテキストのペアだけでは得られない視覚的およびテキストの手がかりの宝庫を活用できます。S4では、HTML要素の内在的なツリー構造階層と空間的ローカライゼーションを利用して、大規模なアノテーションデータを用いた10の事前学習タスクを慎重に設計します。これらのタスクは、さまざまなドメインにわたる下流タスクに類似しており、アノテーションを低コストで取得できます。我々は、現在のスクリーンショット事前学習の目的と比較して、この革新的な事前学習方法が、9つの多様で一般的な下流タスクにおける画像からテキストへのモデルの性能を大幅に向上させることを実証しました。具体的には、Table Detectionでは最大76.1%、Widget Captioningでは少なくとも1%の改善が見られました。
価値関数は深層強化学習(RL)の中核的な要素である。ニューラルネットワークによってパラメータ化されたこれらの関数は、ブートストラップされたターゲット値に一致するように、平均二乗誤差回帰目的を用いて訓練される。しかし、回帰を使用する価値ベースのRL手法を、大規模なネットワーク(例えば高容量のTransformer)にスケールすることは困難であることが証明されている。この難しさは、教師あり学習とは対照的である:交差エントロピー分類損失を活用することで、教師あり手法は大規模なネットワークに確実にスケールしてきた。この差異を観察し、本論文では、価値関数の訓練に回帰の代わりに分類を使用することで、深層RLのスケーラビリティを改善できるかどうかを調査する。カテゴリカル交差エントロピーで訓練された価値関数が、様々な領域で性能とスケーラビリティを大幅に向上させることを実証する。これには、SoftMoEを使用したAtari 2600ゲームの単一タスクRL、大規模ResNetを使用したAtariのマルチタスクRL、Q-transformersを使用したロボット操作、探索なしのチェスプレイ、高容量Transformerを使用した言語エージェントのWordleタスクが含まれ、これらの領域で最先端の結果を達成する。詳細な分析を通じて、カテゴリカル交差エントロピーの利点が主に、ノイジーなターゲットや非定常性といった価値ベースRLに固有の問題を緩和する能力に由来することを示す。全体として、価値関数の訓練にカテゴリカル交差エントロピーを使用するという単純な変更が、ほとんどコストをかけずに深層RLのスケーラビリティを大幅に改善できると主張する。
大規模なシーケンスモデリングは、生物学やゲノミクス分野にまで急速に進展を遂げています。しかし、ゲノム配列のモデリングには、長距離のトークン間相互作用のモデリング、ゲノムの上流・下流領域の影響、そしてDNAの逆相補性(RC)といった課題が伴います。本論文では、これらの課題を踏まえ、長距離Mambaブロックを基盤とし、双方向性をサポートするBiMambaコンポーネント、さらにRC等価性をサポートするMambaDNAブロックへと拡張したアーキテクチャを提案します。MambaDNAを基盤として、RC等価性を備えた双方向長距離DNA言語モデルファミリーであるCaduceusを初めて開発し、Caduceus DNA基盤モデルを構築するための事前学習とファインチューニング戦略を導入します。Caduceusは、下流ベンチマークにおいて従来の長距離モデルを上回り、特に挑戦的な長距離バリアント効果予測タスクでは、双方向性や等価性を活用しない10倍規模のモデルを凌駕する性能を示します。
模倣学習は、ロボットに器用なスキルを教える効率的な方法を提供します。しかし、複雑なスキルをロバストかつ汎用的に学習するためには、通常、大量の人間によるデモンストレーションが必要となります。この難しい問題に取り組むため、我々は3D Diffusion Policy(DP3)を提案します。これは、3D視覚表現の力を拡散ポリシー(条件付き行動生成モデルの一種)に組み込んだ新しい視覚模倣学習アプローチです。DP3の核心的な設計は、効率的なポイントエンコーダを用いてスパースな点群から抽出されたコンパクトな3D視覚表現を活用することにあります。72のシミュレーションタスクを含む実験では、DP3はわずか10回のデモンストレーションでほとんどのタスクを成功裏に処理し、ベースラインを55.3%の相対的改善で上回りました。4つの実ロボットタスクでは、各タスク40回のデモンストレーションのみで85%の高い成功率で精密な制御を示し、空間、視点、外観、インスタンスなど多様な側面で優れた汎化能力を示しました。興味深いことに、実ロボット実験では、DP3は安全要件をほとんど違反しませんでしたが、ベースライン手法は頻繁に違反し、人間の介入を必要としました。我々の広範な評価は、実世界のロボット学習における3D表現の重要性を強調しています。ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで公開されています。
多くのオンラインコンテンツポータルでは、ユーザーが理解を深めるために質問をすることができます(例:講義について)。情報検索(IR)システムは、そのようなユーザークエリに対する回答を提供するかもしれませんが、コンテンツ作成者(例えば、講義内容を改善したい講師)が、ユーザーがその質問をした原因となったセグメントを直接特定するのを支援することはありません。私たちは、ユーザークエリの原因となったテキストセグメントを検索する「バックトレーシング」というタスクを導入します。バックトレーシングがコンテンツ配信とコミュニケーションの改善に重要な3つの現実世界のドメインを形式化します:(a)講義ドメインにおける学生の混乱の原因を理解すること、(b)ニュース記事ドメインにおける読者の好奇心の原因を理解すること、(c)会話ドメインにおけるユーザーの感情の原因を理解することです。私たちは、バイエンコーダー、再ランキング、尤度ベースの手法、およびChatGPTを含む、人気のある情報検索手法と言語モデリング手法のゼロショット性能を評価します。従来のIRシステムは、意味的に関連する情報(例:「投影行列」に関する詳細を「複数回投影しても同じ点になるのか?」というクエリに対して)を検索しますが、因果的に関連する文脈(例:講師が「2回投影しても1回投影したのと同じ答えが得られる」と述べている)を見逃すことがよくあります。私たちの結果は、バックトレーシングには改善の余地があり、新しい検索アプローチが必要であることを示しています。私たちのベンチマークが、バックトレーシングのための将来の検索システムを改善し、コンテンツ生成を洗練させ、ユーザークエリに影響を与える言語的トリガーを特定するシステムを生み出すことを願っています。私たちのコードとデータはオープンソースです:https://github.com/rosewang2008/backtracing。