翻訳付きの日次キュレーションされたAI研究論文
オープンソースの大規模言語モデル(LLM)の急速な発展は、まさに目覚ましいものがあります。しかし、これまでの文献で述べられているスケーリング則はさまざまな結論を示しており、LLMのスケーリングに暗雲を投げかけています。私たちはスケーリング則の研究に深く入り込み、7Bと67Bという2つの一般的なオープンソース構成において大規模モデルのスケーリングを促進する独自の知見を提示します。スケーリング則に導かれ、私たちはDeepSeek LLMを紹介します。これは、長期的な視点でオープンソース言語モデルを進化させることに専念するプロジェクトです。事前学習段階を支援するため、現在2兆トークンから成り、継続的に拡大しているデータセットを開発しました。さらに、DeepSeek LLM Baseモデルに対して教師あり微調整(SFT)とDirect Preference Optimization(DPO)を実施し、DeepSeek Chatモデルを作成しました。評価結果は、DeepSeek LLM 67BがLLaMA-2 70Bをさまざまなベンチマークで上回り、特にコード、数学、推論の領域で優れていることを示しています。さらに、オープンエンドの評価では、DeepSeek LLM 67B ChatがGPT-3.5よりも優れた性能を発揮することが明らかになりました。
視覚的にリッチな文書理解(VrDU)の進展により、複雑なレイアウトを持つ文書からの情報抽出や質問応答が可能になりました。これまでに、LLM(大規模言語モデル)に着想を得たトランスフォーマーベースのモデルと、グラフニューラルネットワークという2つのアーキテクチャの潮流が生まれています。本論文では、事前学習済み言語モデルとグラフ意味論を組み合わせた新しいフレームワーク「DocGraphLM」を紹介します。これを実現するために、1) 文書を表現するための共同エンコーダーアーキテクチャ、および2) 文書グラフを再構築するための新しいリンク予測手法を提案します。DocGraphLMは、近傍の復元を優先し、遠くのノード検出を軽視する収束型の共同損失関数を使用して、ノード間の方向と距離の両方を予測します。3つの最先端データセットでの実験により、グラフ特徴の採用が情報抽出(IE)や質問応答(QA)タスクで一貫した改善をもたらすことが示されました。さらに、グラフ特徴の採用が、リンク予測のみを通じて構築されているにもかかわらず、学習プロセス中の収束を加速させることも報告しています。
我々は、Vision Transformers(ViTs)に内在する微妙だが重要な課題に深く踏み込む:これらのモデルの特徴マップはグリッド状のアーティファクトを示し、これがViTsの下流タスクにおける性能を損なっている。我々の調査により、この根本的な問題は入力段階の位置埋め込みに起因することが明らかとなった。この問題に対処するため、我々は全てのViTsに普遍的に適用可能な新しいノイズモデルを提案する。具体的には、このノイズモデルはViTの出力を、ノイズアーティファクトのない意味論的項と、ピクセル位置に依存する二つのアーティファクト関連項に分解する。この分解は、ニューラルフィールドを用いたクロスビュー特徴の一貫性を画像ごとに強制することで達成される。この画像ごとの最適化プロセスにより、生のViT出力からアーティファクトのない特徴を抽出し、オフラインアプリケーションのためのクリーンな特徴を提供する。さらに、オンライン機能をサポートするために、未処理のViT出力から直接アーティファクトのない特徴を予測する学習可能なデノイザーを導入し、これが画像ごとの最適化を必要とせずに新規データに対して顕著な汎化能力を示す。我々の二段階アプローチ、Denoising Vision Transformers(DVT)は、既存の事前学習済みViTsの再学習を必要とせず、任意のTransformerベースのアーキテクチャに即座に適用可能である。我々は、代表的なViTs(DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)に対して本手法を評価した。広範な評価により、我々のDVTが、複数のデータセットにわたる意味論的および幾何学的タスクにおいて、既存の最先汎用モデルを一貫して大幅に改善することが示された(例:+3.84 mIoU)。我々の研究が、特に位置埋め込みの単純な使用に関して、ViT設計の再評価を促すことを期待する。
Stable Diffusion XL(SDXL)は、その汎用性と最高水準の画質により、最も優れたオープンソースのテキストから画像への生成モデル(T2I)となっています。SDXLモデルの計算需要を効率的に処理することは、その普及と適用範囲を広げるために極めて重要です。本研究では、層レベルの損失に焦点を当ててモデルサイズを削減しつつ生成品質を維持する手法により、1.3Bおよび0.74BパラメータのUNetを持つ縮小版モデル、Segmind Stable Diffusion(SSD-1B)とSegmind-Vegaを導入します。これらのモデルの重みはhttps://hf.co/Segmindで公開しています。私たちの手法は、SDXLのU-Net構造から残差ネットワークとトランスフォーマーブロックを除去し、パラメータ数とレイテンシを大幅に削減するものです。私たちのコンパクトモデルは、転移学習を活用することで元のSDXLを効果的に模倣し、大規模な数十億パラメータのSDXLに対しても競争力のある結果を達成します。本研究は、知識蒸留と層レベルの損失を組み合わせることで、SDXLの高品質な生成能力を維持しつつモデルサイズを削減する有効性を示し、リソースが制限された環境でのよりアクセスしやすい展開を可能にします。
CLIPとSegment Anything Model(SAM)は、注目すべき視覚基盤モデル(VFMs)です。SAMは多様な領域におけるセグメンテーションタスクで優れた性能を発揮し、CLIPはゼロショット認識能力で知られています。本論文では、これら2つのモデルを統合したフレームワークについて詳細に探求します。具体的には、Open-Vocabulary SAMを紹介します。これは、SAMにインスパイアされたモデルで、同時にインタラクティブなセグメンテーションと認識を行うために設計されており、2つの独自の知識転移モジュール、SAM2CLIPとCLIP2SAMを活用します。前者は、蒸留と学習可能なトランスフォーマーアダプターを介してSAMの知識をCLIPに適応させ、後者はCLIPの知識をSAMに転移し、その認識能力を向上させます。様々なデータセットと検出器を用いた広範な実験により、Open-Vocabulary SAMがセグメンテーションと認識タスクの両方で有効であり、単純にSAMとCLIPを組み合わせたナイーブなベースラインを大幅に上回ることが示されています。さらに、画像分類データのトレーニングを活用することで、本手法は約22,000クラスのセグメンテーションと認識が可能です。
近年、音声生成技術は目覚ましい進歩を遂げ、今や一発生成能力において本物の人間の声とほとんど見分けがつかないレベルに達しています。このような音声生成の進歩を大規模言語モデルと統合することで、幅広いアプリケーションに革命をもたらす可能性があります。しかし、アシスト会話システムなどの特定のアプリケーションでは、自然で会話的な音声生成ツールがリアルタイムで効率的に動作することが求められます。現在の最先端モデルであるVALL-EやSoundStormは、階層型ニューラルオーディオコーデックを活用していますが、良好な性能を発揮するためには大規模なニューラルコンポーネントと膨大なトレーニングデータを必要とします。一方、MQTTSは、よりコンパクトな会話型TTSモデルを構築しつつ、小規模な実生活会話音声データを活用することを目指しています。しかし、その自己回帰的な性質により高い推論遅延が生じ、リアルタイム使用が制限されています。本論文では、最先端TTSモデルの現状の制約を緩和しつつその強みを活かすため、Phemeモデルシリーズを紹介します。このシリーズは、1) コンパクトでありながら高性能なモデルを提供し、2) 並列音声生成を可能にし、3) 自然な会話音声を生成し、4) 小規模な会話データで効率的にトレーニングが可能で、データ要求を10分の1以上削減しながらも自己回帰型TTSモデルと同等の品質を維持します。また、単一話者設定において、事前学習済みPhemeチェックポイントに基づき、より大規模な教師モデルによって生成された合成音声のみを利用して、シンプルな教師-生徒蒸留により音声品質の大幅な改善が可能であることも示します。音声サンプルと事前学習済みモデルはオンラインで公開されています。