翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は正確に応答することが期待されていますが、しばしば推論能力の欠如や幻覚的な内容の生成が見られます。これらの問題に対処するため、「Self-」を接頭辞とする研究、例えばSelf-Consistency(自己一貫性)、Self-Improve(自己改善)、Self-Refine(自己洗練)などが開始されています。これらには共通点があります:LLMが自身を評価し、更新することで問題を軽減するという点です。しかしながら、これらの取り組みには要約に関する統一的な視点が欠けており、既存のサーベイは主に分類に焦点を当てており、これらの研究の背後にある動機を検討していません。 本論文では、Internal Consistency(内部一貫性)と呼ばれる理論的フレームワークを要約します。このフレームワークは、推論の欠如や幻覚の存在といった現象に対する統一的な説明を提供します。Internal Consistencyは、サンプリング手法に基づいて、LLMの潜在層、デコード層、および応答層間の一貫性を評価します。Internal Consistencyフレームワークを拡張し、内部一貫性を掘り下げることができる簡潔で効果的な理論的フレームワークであるSelf-Feedback(自己フィードバック)を紹介します。Self-Feedbackフレームワークは、Self-Evaluation(自己評価)とSelf-Update(自己更新)の2つのモジュールで構成されています。このフレームワークは多くの研究で採用されています。 これらの研究をタスクと研究の流れに基づいて体系的に分類し、関連する評価方法とベンチマークを要約し、「Self-Feedbackは本当に機能するのか?」という疑問について掘り下げます。私たちは、「内部一貫性の砂時計進化」、「一貫性は(ほぼ)正しさである」という仮説、「潜在的な推論と明示的な推論のパラドックス」など、いくつかの重要な視点を提案します。さらに、将来の研究に向けた有望な方向性を概説します。実験コード、参考文献リスト、および統計データをオープンソースとして公開しており、https://github.com/IAAR-Shanghai/ICSFSurvey で入手可能です。
Transformerベースの大規模言語モデルの推論は、2つの連続した段階で構成されています:1) プロンプトのKVキャッシュを計算し、最初のトークンを生成するプリフィリング段階、2) 後続のトークンを生成するデコード段階です。長いプロンプトの場合、プリフィリング段階で全てのトークンのKVキャッシュを計算する必要があり、これにより最初のトークンの生成に要する時間が大幅に増加する可能性があります。その結果、プリフィリング段階が生成プロセスのボトルネックとなることがあります。ここで、最初のトークンを生成するために全てのプロンプトトークンが必須であるかどうかは未解決の問題です。この疑問に答えるため、我々はLazyLLMという新しい手法を提案します。LazyLLMは、プリフィリング段階とデコード段階の両方において、次のトークン予測に重要なトークンのKVを選択的に計算します。プロンプトを一度に刈り込む静的なプルーニング手法とは異なり、LazyLLMは言語モデルが異なる生成ステップでコンテキストから異なるトークンのサブセットを動的に選択することを可能にします。たとえ前のステップで刈り込まれたトークンであってもです。様々なタスクにおける標準データセットでの広範な実験により、LazyLLMが既存の言語モデルにシームレスに統合可能な汎用的な手法であり、ファインチューニングなしで生成を大幅に加速できることが実証されました。例えば、複数ドキュメントの質問応答タスクにおいて、LazyLLMはLLama 2 7Bモデルのプリフィリング段階を2.34倍加速しつつ、精度を維持しました。
マルチモーダル言語モデルの分野では、ほとんどの手法がLLaVAに類似したアーキテクチャを基盤としています。これらのモデルは、単層ViTの特徴量を視覚プロンプトとして使用し、それをテキストトークンと共に直接言語モデルに入力します。しかし、ビデオのような長い視覚信号シーケンスや入力を扱う場合、言語モデルの自己注意機構は計算コストの大幅な増加を引き起こす可能性があります。さらに、単層ViTの特徴量を使用すると、大規模言語モデルが視覚信号を十分に認識することが困難になります。本論文では、計算コストを最小限に抑えつつ、モデルが視覚信号を可能な限り包括的に認識できる効率的なマルチモーダル言語モデルを提案します。我々の手法は主に以下の要素を含みます:(1) Flamingoと同様の画像-テキスト相互作用にクロスアテンションを採用、(2) 階層型ViT特徴量の利用、(3) モデルの効果を高めるためのMixture of Experts (MoE) メカニズムの導入。我々のモデルは、公開されているマルチモーダルベンチマークで競争力のあるスコアを達成し、画像キャプション生成やビデオキャプション生成などのタスクで良好な性能を発揮します。
本研究では、長文理解と検索拡張生成(RAG)能力において、オープンアクセスの大規模言語モデル(LLM)と主要なプロプライエタリモデル(例:GPT-4-Turbo)のギャップを埋めることを目的としたLlama3ベースのモデル、ChatQA 2を紹介します。これら2つの能力は、単一のプロンプトに収まらない大量の情報を処理するためにLLMにとって不可欠であり、下流タスクや計算予算に応じて互いに補完的です。Llama3-70B-baseのコンテキストウィンドウを8Kから128Kトークンに拡張する詳細な継続学習レシピと、モデルの指示追従能力、RAG性能、長文理解能力を向上させる3段階の指示チューニングプロセスを提示します。結果として、Llama3-ChatQA-2-70Bモデルは、多くの長文理解タスクにおいてGPT-4-Turbo-2024-0409と同等の精度を達成し、RAGベンチマークではそれを上回りました。興味深いことに、最先端の長文検索器がRAGにおけるトップkコンテキストの断片化問題を緩和し、長文理解タスクにおけるRAGベースの結果をさらに改善することがわかりました。また、最先端の長文LLMを使用したRAGと長文ソリューションの広範な比較も提供します。
オープンな生成モデルはコミュニティにとって極めて重要であり、ファインチューニングを可能にし、新しいモデルを発表する際のベースラインとして機能します。しかし、現在のテキストからオーディオを生成するモデルのほとんどは非公開であり、アーティストや研究者が基盤として利用することはできません。本稿では、クリエイティブ・コモンズのデータを用いてトレーニングされた新しいオープンウェイトのテキストからオーディオを生成するモデルのアーキテクチャとトレーニングプロセスについて説明します。評価の結果、このモデルは様々な指標において最先端の性能と競合することが示されました。特に、生成物のリアリズムを測定するFDopenl3の結果は、44.1kHzでの高品質なステレオ音声合成の可能性を示しています。
近年、視覚的文書理解の分野において顕著な進展が見られ、主流のアーキテクチャは視覚モデルと言語モデルのカスケード構成となっている。テキスト要素は、OCRベースのアプローチでは外部のOCRモデルを用いて明示的に抽出されるか、あるいはOCRフリーのアプローチでは視覚モデルに読み取り能力を付与することができる。一般的に、モデルへのクエリは言語コンポーネントにのみ入力され、視覚的特徴が文書全体を網羅する必要がある。本論文では、視覚エンコーダの能力をより効果的に活用するために、言語プロンプトと直接結合するOCRフリーの手法であるVisFocusを提案する。これを行うために、ダウンサンプリング層を入力プロンプトを受け取り、文書の関連部分を強調し、他の部分を無視する層に置き換える。さらに、アーキテクチャの改良に加えて、プロンプトの代わりに視覚エンコーダに供給される文書テキストのスニペットに対して言語マスキングを行う新たな事前学習タスクを導入し、モデルに焦点を当てる能力を付与する。その結果、VisFocusは提供されたプロンプトに関連するテキストパッチに注意を割り当てることを学習する。我々の実験により、このプロンプト誘導型視覚エンコーディングアプローチが性能を大幅に向上させ、様々なベンチマークで最先端の結果を達成することが実証された。
アラビア語の光学文字認識(OCR)および手書き文字認識(HWR)は、アラビア文字の筆記体特性や文脈依存性により、独特の課題を抱えています。本研究では、SwinV2エンコーダーとRoBERTaデコーダーアーキテクチャを基盤とした、アラビア語OCRおよびHWRのための新しい基盤モデル「Qalam」を紹介します。本モデルは既存の手法を大幅に上回り、HWRタスクではわずか0.80%、OCRタスクでは1.18%の単語誤り率(WER)を達成しました。Qalamは、アラビア語写本からの450万枚以上の画像と、6万組の画像-テキストペアからなる合成データセットを含む多様なデータセットで学習されています。特に、Qalamはアラビア文字の重要な特徴である発音記号(ディアクリティック)の処理に優れた能力を示しています。さらに、現在のOCRシステムで一般的な制約である高解像度入力の処理においても顕著な能力を発揮します。これらの進歩は、Qalamがアラビア文字認識における主要なソリューションとして、精度と効率の面で大きな飛躍を提供する可能性を示しています。
自律コンピューティングのビジョン(ACV)は、20年以上前に提案され、生物学的な生物のように自己管理し、変化する環境にシームレスに適応するコンピューティングシステムを構想しています。数十年にわたる研究にもかかわらず、現代のコンピューティングシステムの動的で複雑な性質により、ACVの実現は依然として困難です。最近の大規模言語モデル(LLM)の進展は、その広範な知識、言語理解、およびタスク自動化能力を活用することで、これらの課題に対する有望な解決策を提供しています。本論文では、LLMベースのマルチエージェントフレームワークを用いたマイクロサービス管理を通じてACVを実現する可能性を探ります。自律的なサービスメンテナンスのための5段階の分類法を導入し、Sock Shopマイクロサービスデモプロジェクトに基づくオンライン評価ベンチマークを提示して、当フレームワークの性能を評価します。我々の調査結果は、レベル3の自律性を達成するための重要な進展を示し、マイクロサービスアーキテクチャ内の問題を検出し解決するLLMの有効性を強調しています。本研究は、LLMをマイクロサービス管理フレームワークに統合する先駆的な取り組みを通じて、自律コンピューティングの進展に貢献し、より適応的で自己管理可能なコンピューティングシステムへの道を開きます。コードはhttps://aka.ms/ACV-LLMで公開されます。
言語モデル(LMs)が多くの困難なタスクにおいて平均的な人間を凌駕するようになった現在、挑戦的で高品質かつ現実的な評価を開発することはますます困難になっている。この問題に対処するため、我々はLMsが実際の科学研究問題を解決するためのコードを生成する能力を検証した。数学、物理学、化学、生物学、材料科学を含む16の多様な自然科学分野の科学者およびAI研究者からの入力を取り入れ、科学者によってキュレートされたコーディングベンチマーク「SciCode」を作成した。SciCodeの問題は自然に複数のサブ問題に分解され、各サブ問題は知識の想起、推論、コード合成を含む。全体で、SciCodeは80の困難な主要問題から分解された338のサブ問題を含む。評価のための有用な科学的背景情報を指定するオプションの説明と、科学者によって注釈が付けられたゴールドスタンダードの解決策およびテストケースを提供する。テストされたモデルの中で最も性能が高かったClaude3.5-Sonnetでさえ、最も現実的な設定においても問題の4.6%しか解決できない。我々は、SciCodeが現代のLMsが有用な科学アシスタントになるための進歩を示すとともに、将来の科学的AIの開発と評価に光を当てるものであると信じている。
大規模言語モデル(LLMs)の展開は、メモリ帯域幅によって制約されることが多く、その主なボトルネックは、モデルパラメータをGPUのグローバルメモリからレジスタに転送するコストである。非量子化と行列積演算を融合したカスタムカーネルと組み合わせることで、重みのみの量子化は、メモリ移動量を削減することにより、より高速な推論を可能にする。しかし、重みが非均等なビット幅(例えば3ビット)で非均一なルックアップテーブル(LUT)量子化によって圧縮されている場合、重み量子化されたLLMsのための高性能カーネルの開発は大きな課題となる。本論文では、LUT量子化されたLLMsのための柔軟なルックアップテーブルエンジンであるFLUTEを紹介する。FLUTEは、量子化された重み行列のオフライン再構築を使用して、アンパックに関連するビット操作を最小化し、ルックアップテーブルのベクトル化と複製によって共有メモリ帯域幅の制約を緩和する。バッチサイズが32未満で量子化グループサイズが128(LLM推論では典型的)の場合、FLUTEカーネルは既存のGEMMカーネルよりも2~4倍高速である。FLUTEの応用例として、ルックアップテーブルベースのNormalFloat量子化の簡単な拡張を探り、LLaMA3を様々な設定で量子化し、強力なベースラインに対して競争力のある量子化性能を達成するとともに、エンドツーエンドのスループットを1.5~2倍向上させた。
最近の言語モデルトレーニングにおける革新により、スマートフォン上で動作可能なほど小型でありながら高い性能を発揮するモデルの作成が可能となった。これらのモデルがますます多くの領域で展開される中、人間の好みや安全性の考慮事項に沿ったものであることを保証することが極めて重要である。本報告書では、Phi-3シリーズの言語モデルを安全性に沿って調整するための方法論を提示する。我々は「ブレイク・フィックス」サイクルを活用し、データセットのキュレーション、安全性のポストトレーニング、ベンチマーキング、レッドチーミング、脆弱性の特定を複数回繰り返すことで、単一ターンおよび複数ターンのシナリオにおける様々な有害領域をカバーした。その結果、このアプローチにより、Phi-3モデルの性能が責任あるAIベンチマークの広範な範囲で反復的に向上したことが示された。
近年、生成モデルの急速な進展に伴い、視覚的テキスト生成の分野は著しい進歩を遂げています。しかし、現実世界のシナリオにおいて高品質なテキスト画像を生成することは依然として困難であり、以下の3つの重要な基準を満たす必要があります:(1) 忠実性:生成されたテキスト画像は写真のようにリアルであり、指定された条件と内容が一致していること。(2) 合理性:生成されたテキストの領域と内容がシーンと調和していること。(3) 有用性:生成されたテキスト画像が関連するタスク(例えば、テキスト検出や認識)に役立つこと。調査の結果、既存の手法(レンダリングベースまたは拡散ベース)はこれらの側面を同時に満たすことが難しく、その応用範囲が制限されていることがわかりました。そこで本論文では、野外環境において高品質なテキスト画像を生成できる視覚的テキスト生成器(SceneVTG)を提案します。2段階のパラダイムに従い、SceneVTGはマルチモーダル大規模言語モデルを活用して、複数のスケールとレベルで合理的なテキスト領域と内容を推奨し、それらを条件として条件付き拡散モデルがテキスト画像を生成します。大規模な実験により、提案されたSceneVTGが、忠実性と合理性の点で従来のレンダリングベース手法や最近の拡散ベース手法を大幅に上回ることが実証されました。さらに、生成された画像は、テキスト検出や認識タスクにおいて優れた有用性を提供します。コードとデータセットはAdvancedLiterateMachineryで公開されています。
スパースオートエンコーダ(SAE)は、言語モデル(LM)の活性化において因果的に関連し解釈可能な線形特徴を特定するための有望な教師なしアプローチです。下流タスクに有用であるためには、SAEはLMの活性化を忠実に分解する必要がありますが、解釈可能性を確保するためにはその分解がスパースでなければなりません。これら2つの目的はしばしば相反します。本論文では、JumpReLU SAEを紹介します。これは、Gemma 2 9Bの活性化において、Gated SAEやTopK SAEなどの最近の進歩と比較して、特定のスパース性レベルで最先端の再構成忠実度を達成します。また、手動および自動化された解釈可能性研究を通じて、この改善が解釈可能性を犠牲にしないことを示します。JumpReLU SAEは、バニラ(ReLU)SAEのシンプルな修正版であり、ReLUを不連続なJumpReLU活性化関数に置き換えたもので、同様に効率的に訓練および実行できます。ストレートスルーエスティメーター(STE)を原理的に活用することで、SAEの順伝播に導入された不連続なJumpReLU関数にもかかわらず、JumpReLU SAEを効果的に訓練する方法を示します。同様に、L1などの代理指標を訓練する代わりに、STEを使用して直接L0をスパースに訓練し、収縮などの問題を回避します。
自動音声キャプショニング(AAC)において、最近のモデルにより大幅な改善が達成されています。しかし、これらのモデルは性能が向上するにつれてますます大規模化しています。本研究では、AACのための知識蒸留(KD)フレームワークを提案します。我々の分析によると、エンコーダ-デコーダベースのAACモデルにおいて、知識をデコーダではなくエンコーダに蒸留する方がより効果的です。この目的のために、標準的な教師あり損失とシーケンスレベルのKD損失に加えて、エンコーダレベルのKD損失をトレーニングに組み込みます。我々は、平均二乗誤差(MSE)損失とコントラスティブ損失に基づく2つのエンコーダレベルKD手法を調査します。実験結果は、コントラスティブKDがMSE KDよりもロバストであり、データが不足している状況で優れた性能を示すことを実証しています。KDフレームワークにおいて音声のみのデータをトレーニングに活用することで、我々の学生モデルは競争力のある性能を達成し、推論速度は19倍高速です。オンラインデモは\url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}で利用可能です。
我々は、少数のカラー画像から3D形状と視点依存の外観を復元する新しい手法を提案し、効率的な3D再構成と新規視点合成を可能にします。本手法は、符号付き距離関数(SDF)と放射輝度フィールドの形式で暗黙的なニューラル表現を学習します。モデルは、レイマーチングによる体積レンダリングを通じて段階的に訓練され、学習不要な多視点ステレオ(MVS)の手がかりで正則化されます。我々の貢献の鍵は、レベルセット付近でSDFフィールドを可能な限り線形にすることを促す新しい暗黙的ニューラル形状関数学習戦略であり、これにより、教師信号と正則化信号から生じるノイズに対する訓練のロバスト性が向上します。事前学習済みの事前分布を使用せずに、SparseCraftと呼ばれる本手法は、標準ベンチマークにおいて、新規視点合成と疎視点からの再構成の両方で最先端の性能を達成し、訓練時間は10分未満です。
近年、テキストから3D生成する技術が注目を集め、顕著な性能向上が実現されています。従来の手法では、エンドツーエンドの3D生成モデルを用いて3Dガウシアンを初期化し、マルチビューディフュージョンモデルで多視点一貫性を強化し、テキストから画像生成するディフュージョンモデルとスコア蒸留アルゴリズムで詳細を洗練させていました。しかし、これらの手法には2つの課題があります。第一に、異なるモデルが多様な3Dアセットを生成しようとするため、生成方向に矛盾が生じます。第二に、スコア蒸留における過飽和の問題が十分に調査・解決されていません。これらの課題を解決するため、我々はPlacidDreamerを提案します。これは、単一のマルチビューディフュージョンモデルで初期化、多視点生成、テキスト条件付き生成を調和させつつ、新しいスコア蒸留アルゴリズムを用いてバランスの取れた飽和度を実現するテキストから3D生成のフレームワークです。生成方向を統一するため、Latent-Planeモジュールを導入しました。これはトレーニングに適したプラグイン拡張機能で、マルチビューディフュージョンモデルが初期化のための高速な幾何学再構成を提供し、テキストから画像生成するディフュージョンモデルをパーソナライズするための高品質な多視点画像を生成します。過飽和問題に対処するため、スコア蒸留を多目的最適化問題として捉え、豊富な詳細とバランスの取れた飽和度を両立するパレート最適解を提供するBalanced Score Distillationアルゴリズムを提案しました。大規模な実験により、PlacidDreamerの優れた能力が実証されています。コードはhttps://github.com/HansenHuang0823/PlacidDreamerで公開されています。