翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の開発を推進する要因は、その膨大なモデルサイズと広範なトレーニングデータセットにあります。自然言語処理の進展に伴い、LLMはより深い調査と応用を促進するために頻繁に一般公開されてきました。しかし、特に最近の最先端モデルにおけるLLMのトレーニングデータセットに関しては、完全に公開されていないことが多いです。高性能なLLMのためのトレーニングデータを作成するには、必要な品質を確保するために大規模なクリーニングと重複排除が行われます。トレーニングデータの透明性の欠如は、LLMにおける幻覚やバイアスの問題の原因究明と対処に関する研究を妨げ、再現性の取り組みやコミュニティのさらなる進展を阻害しています。これらの課題は、多言語学習シナリオにおいてさらに顕著になります。利用可能な多言語テキストデータセットは、しばしば不十分に収集・クリーニングされているためです。その結果、複数の言語で効果的にLLMをトレーニングするためのオープンソースで即座に利用可能なデータセットが不足しています。この問題を克服するため、我々はCulturaXを提示します。これは167言語で6.3兆トークンからなる大規模な多言語データセットであり、LLM開発に特化しています。我々のデータセットは、言語識別、URLベースのフィルタリング、メトリックベースのクリーニング、ドキュメントの精緻化、データの重複排除を含む、複数段階の厳格なパイプラインを通じて、モデルトレーニングに最適な品質を達成するために徹底的にクリーニングと重複排除が行われています。CulturaXは、多言語LLMの研究と進展を促進するためにHuggingFaceで完全に公開されています:https://huggingface.co/datasets/uonlp/CulturaX。
ドメイン固有のコーパスを用いた継続的な事前学習が大規模言語モデルに与える影響を探り、生のコーパスでの学習がモデルにドメイン知識を付与する一方で、質問応答のためのプロンプト能力を大幅に損なうことを明らかにしました。人間の読解を通じた学習(読んだ後に練習することで、学んだ知識に基づいて質問に答える能力が向上する)に着想を得て、生のコーパスを読解テキストに変換するシンプルな方法を提案します。各生のテキストは、その内容に関連する一連のタスクで強化されます。私たちの方法は、非常にスケーラブルで、あらゆる事前学習コーパスに適用可能であり、バイオメディシン、金融、法律という3つの異なるドメインにおける様々なタスクで一貫して性能を向上させます。特に、私たちの7B言語モデルは、BloombergGPT-50Bのようなはるかに大規模なドメイン固有モデルと競争力のある性能を達成します。さらに、ドメイン固有の読解テキストが、一般的なベンチマークにおいてもモデルの性能を向上させる可能性を示し、より多くのドメインにわたる汎用モデルを開発する可能性を示しています。私たちのモデル、コード、データはhttps://github.com/microsoft/LMOpsで公開されます。
大規模言語モデル(LLM)は、ドキュメントがLLMの小さなコンテキスト長に収まらない状況でのドキュメント質問応答(QA)に課題を抱えています。この問題を克服するため、既存の研究の多くは、ドキュメントから関連するコンテキストを検索し、それをプレーンテキストとして表現することに焦点を当てています。しかし、PDF、ウェブページ、プレゼンテーションなどのドキュメントは、異なるページ、表、セクションなどで自然に構造化されています。このような構造化されたドキュメントをプレーンテキストとして表現することは、ユーザーのメンタルモデルと整合性がありません。システムがドキュメントに対してコンテキストを問い合わせる必要がある場合、この不整合が顕在化し、一見簡単な質問でもQAシステムを混乱させることがあります。構造化ドキュメントを扱う上でのこの根本的なギャップを埋めるため、我々はPDFTriageというアプローチを提案します。このアプローチでは、モデルが構造またはコンテンツに基づいてコンテキストを検索できるようにします。我々の実験では、既存の検索拡張LLMが失敗するいくつかの質問クラスにおいて、提案されたPDFTriage拡張モデルの有効性が実証されました。この根本的な問題に関するさらなる研究を促進するため、我々は10の異なる質問タイプのカテゴリにわたる80の構造化ドキュメントに対して900以上の人間が生成した質問を含むベンチマークデータセットを公開します。
本論文は、視覚および視覚言語能力を備えたマルチモーダル基盤モデルの分類体系と進化に関する包括的なサーベイを提示し、専門家向けモデルから汎用アシスタントへの移行に焦点を当てています。研究の展望は、2つのクラスに分類される5つの核心的なトピックを網羅しています。(i) まず、特定の目的のために事前学習されたマルチモーダル基盤モデルに関する確立された研究領域のサーベイから始めます。これには、視覚理解のための視覚バックボーンの学習方法とテキストから画像への生成という2つのトピックが含まれます。(ii) 次に、探索的でオープンな研究領域における最近の進展を紹介します。これには、汎用アシスタントの役割を目指すマルチモーダル基盤モデルが含まれ、大規模言語モデル(LLM)にインスパイアされた統一視覚モデル、マルチモーダルLLMのエンドツーエンド学習、LLMとマルチモーダルツールの連携という3つのトピックが取り上げられます。本論文の対象読者は、コンピュータビジョンおよび視覚言語マルチモーダルコミュニティの研究者、大学院生、専門家であり、マルチモーダル基盤モデルの基礎と最近の進展を学びたいと考えている方々です。
我々は、Liら(2022年)によって提案されたシンプルで計算量が軽く、訓練不要なテキスト生成手法であるContrastive Decodingが、様々な推論タスクにおいて貪欲法デコーディングを大幅に上回る性能を発揮することを実証する。もともと長文生成の知覚品質を向上させることが示されていたContrastive Decodingは、強力なモデルと弱いモデルの尤度の加重差を最大化する文字列を探索する。我々は、Contrastive DecodingがLLaMA-65BをHellaSwag常識推論ベンチマークでLLaMA 2、GPT-3.5、PaLM 2-Lを上回り、GSM8K数学文章題推論ベンチマークでLLaMA 2、GPT-3.5、PaLM-540Bを上回ることを示す。さらに、他のタスクの集合においても改善が見られた。分析によると、Contrastive Decodingは、いくつかの抽象的な推論エラーを防ぐこと、および連鎖思考中に入力の一部をコピーするような単純なモードを回避することによって、既存の手法を改善している。全体として、Contrastive Decodingは長文生成において核サンプリングを、推論タスクにおいて貪欲法デコーディングを上回り、言語モデルからのテキスト生成における汎用的な強力な手法となっている。
大規模言語モデル(LLM)の急速な進展は、自然言語処理(NLP)に革命をもたらしました。これらのモデルは人間のようなテキストの理解と生成に優れていますが、その広範な展開には莫大なコストがかかることがあります。SortedNetは、ディープニューラルネットワークの動的推論を可能にする最近のトレーニング技術です。ネットワークのモジュール性を活用して、さまざまな計算負荷を持つサブモデルを作成し、それらを計算量/精度特性に基づいてネストされた形でソートします。本論文では、SortedNetを生成型NLPタスクに拡張し、大規模言語モデルを動的にするために、事前学習を一切行わず、標準的な教師ありファインチューニング(SFT)をSorted Fine-Tuning(SoFT)に置き換えるだけで、同じコストで実現します。このアプローチにより、モデルの効率が向上し、推論時にさまざまなシナリオに対応するための複数のモデルを用意する必要がなくなります。この手法を用いることで、トランスフォーマーの中間層がターゲット出力を生成する潜在能力を引き出せることを示します。サブモデルは元のモデルの不可欠な構成要素として残り、ストレージ要件や異なる計算量/レイテンシ予算間の移行コストを最小限に抑えます。このアプローチをLLaMa 2 13Bに適用し、Stanford Alpacaデータセットでチューニングを行い、通常のチューニングやPandaLMベンチマークによる早期終了と比較することで、Sorted Fine-Tuningが元のモデルの2倍の速度を実現しつつ、性能を維持または向上させることを示します。
大規模言語モデル(LLM)は、自然言語指示のわずかな例に基づいて、さまざまな自然言語タスクで顕著な性能を発揮し、大規模な特徴量エンジニアリングの必要性を低減しています。しかし、最も強力なLLMの多くはクローズドソースであるか、英語以外の言語での能力が制限されています。本テクニカルレポートでは、2.6兆トークンでゼロからトレーニングされた、70億および130億パラメータを含む大規模多言語言語モデルシリーズであるBaichuan 2を紹介します。Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークにおいて、同規模の他のオープンソースモデルと同等またはそれ以上の性能を発揮します。さらに、Baichuan 2は医療や法律などの垂直領域でも優れた性能を示します。我々は、Baichuan 2のトレーニングダイナミクスをより深く理解するために、すべての事前学習モデルチェックポイントをリリースし、研究コミュニティに貢献します。
視覚的指示チューニングは最近、LLaVAやMiniGPT-4のようなオープンソースの大規模マルチモーダルモデル(LMM)を用いて、有望な進展を見せています。しかし、既存のオープンソースLMMに関する研究のほとんどは、13Bパラメータ以下のモデルを使用して行われています。本論文では、LLaVAを33Bおよび65B/70Bまでスケールアップした際の実証研究を提示し、画像解像度、データ混合、LoRA/QLoRAなどのパラメータ効率的なトレーニング手法に関する探索から得られた知見を共有します。これらは、実世界のタスクを遂行する際のマルチモーダル能力と言語能力への影響によって評価されます。 LMMのスケーリングは一貫してモデルの性能を向上させ、言語能力を高めることがわかりました。また、LMMのLoRA/QLoRAチューニングの性能は、フルモデルのファインチューニングと同等であることが示されました。さらに、この研究は、より高い画像解像度とマルチモーダル言語データの混合がLMMの性能向上に重要であることを強調し、視覚的指示チューニングが時としてLMMの純粋な言語能力を向上させることができることを示しています。本研究が、より大規模な最先端のLMM研究をよりアクセスしやすくし、将来の研究のためのより強力なベースラインを確立する一助となることを願っています。コードとチェックポイントは公開される予定です。
グラフィックレイアウト生成は、ユーザーエンゲージメントや情報の認知において重要な役割を果たす、成長著しい研究分野です。既存の手法は主にレイアウト生成を数値最適化タスクとして扱い、定量的な側面に焦点を当てる一方で、各レイアウト要素間の関係性といったセマンティックな情報を見落としていました。本論文では、セマンティック情報を強化し、大規模言語モデル(LLMs)が持つレイアウトに関する暗黙知を活用するため、レイアウト生成をコード生成タスクとして扱う初のモデルであるLayoutNUWAを提案します。具体的には、3つの相互接続されたモジュールからなるCode Instruct Tuning(CIT)アプローチを開発しました:1)Code Initialization(CI)モジュールは数値条件を定量化し、戦略的に配置されたマスクを含むHTMLコードとして初期化します;2)Code Completion(CC)モジュールはLLMsのフォーマット知識を活用して、HTMLコード内のマスク部分を埋めます;3)Code Rendering(CR)モジュールは完成したコードを最終的なレイアウト出力に変換し、コードから視覚化されたレイアウトへの直接的なマッピングを保証することで、高い解釈可能性と透明性を備えたレイアウト生成プロセスを実現します。複数のデータセットにおいて、LayoutNUWAの強力な能力を示す最新の性能(50%以上の改善)を達成しました。コードはhttps://github.com/ProjectNUWA/LayoutNUWAで公開されています。
大規模言語モデル(LLMs)は、マルチエージェントシステムにおける複雑なスケジューリングを実行し、これらのエージェントを調整して、広範な協力を必要とする高度なタスクを完了させる能力を持っています。しかし、数多くのゲームフレームワークが導入されているにもかかわらず、LLMと人間-NPCの協力を包含する一般的なマルチエージェント協力インフラストラクチャを構築するためのベンチマークは不十分です。本研究では、ゲームインタラクションにおける計画と調整の創発能力を評価するための新しいインフラストラクチャ「MindAgent」を提案します。特に、このインフラストラクチャは既存のゲームフレームワークを活用し、i) マルチエージェントシステムの調整者としての理解を要求し、ii) 未調整の適切な指示を通じて人間プレイヤーと協力し、iii) フィードバック付きの少数ショットプロンプトによる文脈内学習を確立します。さらに、マルチエージェント協力の効率性を評価し、複数のエージェントが同時にゲームをプレイすることを監督する新しいゲームシナリオと関連ベンチマーク「CUISINEWORLD」を導入します。協力効率性を計算するための新しい自動メトリックCoSを用いて包括的な評価を実施します。最後に、このインフラストラクチャは、CUISINEWORLDのカスタマイズされたVRバージョンに展開され、既存のMinecraftゲームドメインに適応することができます。LLMsに関する我々の知見と、一般的な目的のスケジューリングと調整のための新しいインフラストラクチャが、大規模な言語コーパスから学習することでそのようなスキルを獲得する方法についての洞察を提供することを期待しています。
大規模言語モデルに基づく実用的なアプリケーションの急速な進展に伴い、研究領域において性能の外挿の重要性が指数関数的に高まっています。本研究では、Transformerモデルにおいてこれまで見過ごされていた異常な挙動を特定し、最も重要な情報を運ぶ近接トークン周辺に混乱が生じていることを明らかにしました。この発見を「Transformerの頭痛」と名付けました。この問題を根本的に解決するため、Collinear Constrained Attention (CoCA) という新しいセルフアテンション構造を導入しました。この構造は、既存の外挿法、補間法、および従来のTransformerモデル向けに設計された他の最適化戦略とシームレスに統合可能です。モデルの微調整なしに、推論時にシーケンス長の16倍から24倍にわたる優れた外挿性能を達成しました。また、CoCAの計算効率と空間効率を向上させ、実用性を確保しました。近くCoCAをオープンソース化する予定です。それまでの間、再現実験のためのコードを付録に公開しています。
大規模言語モデル(LLM)は自然言語処理に革命をもたらしましたが、RLHF(人間の価値観や嗜好に基づく強化学習)を用いてこれらのモデルを人間の価値観や嗜好に適合させることは依然として重要な課題です。この課題は、報酬ハッキングや破滅的忘却といった様々な不安定性によって特徴づけられています。本技術レポートでは、RLHFトレーニングを安定化するための2つの革新を提案します:1)アドバンテージモデル。これは、期待報酬と比較した追加報酬であるアドバンテージスコアを直接モデル化し、タスク間のスコア分布を調整することで報酬ハッキングを防ぎます。2)選択的リハーサル。これは、PPO(近接方策最適化)トレーニングと知識リハーサルのためのデータを戦略的に選択することで、破滅的忘却を軽減します。公開データセットおよび独自データセットを用いた実験分析により、提案手法がRLHFトレーニングの安定性を向上させるだけでなく、より高い報酬スコアと勝率を達成することが明らかになりました。
GPT-4のような大規模言語モデル(LLM)の能力にもかかわらず、複雑で構造化された出力を生成するタスクにおいては依然として課題が残っています。本研究では、現在のLLMが複雑な構造化データを生成する能力を評価し、この能力を向上させるための解決策として、構造を意識したファインチューニング手法を提案します。包括的な評価を行うために、Struc-Benchを提案し、GPT-NeoX 20B、GPT-3.5、GPT-4、Vicunaといった5つの代表的なLLMを含め、慎重に構築されたデータセット(生テキスト、HTML、LaTeX表)で評価を行いました。現在のモデル性能の分析に基づき、特定の共通するフォーマットエラーと改善の可能性がある領域を特定しました。複雑なフォーマット要件に対処するため、FormatCoT(Chain-of-Thought)を活用してターゲット出力からフォーマット指示を生成します。実験結果から、LLaMA-7Bに適用した構造を意識したファインチューニング手法は、自然言語の制約に従う能力を大幅に向上させ、他の評価対象LLMを上回ることが示されました。これらの結果に基づき、モデルの能力を6つの次元(カバレッジ、フォーマット、推論、理解、語用論、幻覚)からマッピングした能力マップを提示します。このマップは、LLMが複雑な構造化出力を扱う際の弱点を浮き彫りにし、今後の研究の有望な方向性を示唆しています。コードとモデルはhttps://github.com/gersteinlab/Struc-Benchで公開されています。
指示追従能力を備えた大規模言語モデルは、人工知能の分野に革命をもたらしました。これらのモデルは、自然言語インターフェースを通じて様々な現実世界のタスクに対処する際に、卓越した汎化性能を示します。しかし、その性能は高品質な模範データに大きく依存しており、こうしたデータを入手することは往々にして困難です。この課題は、マルチモーダルな指示追従においてさらに深刻化します。本論文では、TextBindを紹介します。これは、大規模言語モデルにマルチターンでインタリーブされたマルチモーダル指示追従能力を付与する、ほぼアノテーションフリーのフレームワークです。私たちのアプローチでは、画像とキャプションのペアのみを必要とし、言語モデルからマルチターンのマルチモーダル指示-応答会話を生成します。マルチモーダル指示追従の分野における今後の研究を促進するため、データセット、モデル、デモを公開します。
Shampooは、ニューラルネットワークの訓練に用いられるAdaGradファミリーに属するオンラインかつ確率的最適化アルゴリズムです。この手法は、ブロック対角型の前処理行列を構築します。ここで各ブロックは、ニューラルネットワークの各パラメータに対して、完全行列AdaGradの粗いクロネッカー積近似で構成されます。本研究では、アルゴリズムの完全な説明と、PyTorchにおいて大規模な深層ネットワークを訓練するために実装が活用するパフォーマンス最適化を提供します。我々の実装は、PyTorchのDTensorデータ構造を介して各パラメータのブロックに関連するメモリと計算を分散し、各イテレーションで計算された探索方向に対してAllGatherプリミティブを実行することで、高速なマルチGPU分散データ並列訓練を可能にします。この主要なパフォーマンス向上により、標準的な対角スケーリングベースの適応勾配法と比較して、ステップごとの実時間において最大10%のパフォーマンス低下に抑えることができます。ImageNet ResNet50の訓練に関するアブレーションスタディを実施し、Shampooが最小限のハイパーパラメータチューニングで標準的な訓練レシピを上回る優位性を実証することで、実装を検証しました。
従来の対話状態追跡(DST)問題は、ユーザーとエージェントの会話におけるユーザーの嗜好や意図を追跡することを目的としています。これは狭いドメインのアプリケーションをサポートするタスク指向型対話システムには十分でしたが、大規模言語モデル(LLM)ベースのチャットシステムの登場により、オープンドメイン対話において多くの現実世界の複雑さが導入されました。これらの複雑さは、文脈的相互作用の増大、多様なトピックを包含する長時間の対話セッション、そしてより頻繁な文脈のシフトといった形で現れます。進化するLLMベースのチャットシステムから生じるこれらの複雑さに対処するため、我々はオープンドメイン対話システムにおいて、対話のセグメンテーションと各セグメントごとの状態追跡を同時に行うことを提案します。真のオープンドメイン対話システムに適したゼロショット設定を仮定し、我々はS3-DSTを提案します。これは、長い文脈の追跡を改善するために設計された新しいグラウンディングメカニズムであるPre-Analytical Recollectionを活用した構造化プロンプティング技術です。提案したセグメンテーションと状態追跡の同時アプローチの有効性を実証するため、S3-DSTを独自の匿名化されたオープンドメイン対話データセット、および公開されているDSTとセグメンテーションのデータセットで評価しました。全てのデータセットと設定において、S3-DSTは一貫して最先端の性能を上回り、次世代のLLMベースのチャットシステムにおけるその有効性と堅牢性を示しました。
言語モデリングに基づく音楽生成において、生成された波形は階層的なトークンスタックのシーケンスとして表現され、コードブックのパターンに応じて自己回帰的または並列的にデコードされます。特に、コードブックをフラット化することは最高品質のデコード戦略を表しますが、非常に遅いことで知られています。このため、我々は新しいスタック・アンド・ディレイスタイルのデコード戦略を提案し、フラットパターンデコードよりも生成速度が4倍速い方法を改善します。これにより、推論時間がディレイデコード戦略に近づき、小規模なバッチサイズでのGPU上での推論が高速化されます。ディレイパターンと同じ推論効率予算において、提案手法は客観的評価でより優れた性能を示し、品質面ではフラットパターンとの差をほぼ埋めます。この結果は主観的評価によっても裏付けられており、同じテキストプロンプトを与えた場合、新モデルによって生成されたサンプルが競合モデルのサンプルよりもわずかに好まれることが示されています。
モデル適応は、プロキシのトレーニングデータと実際のユーザーデータの間の不一致を処理するために重要です。効果的な適応を行うため、ユーザーのテキストデータは通常、サーバーまたはローカルデバイスに保存され、そのドメイン内データを使用して下流の自然言語処理(NLP)モデルを直接トレーニングすることができます。しかし、これによりユーザー情報が敵対者にさらされるリスクが増加し、プライバシーとセキュリティに関する懸念が生じる可能性があります。最近では、テキストデータ内の識別情報を汎用マーカーに置き換える手法が探求されています。本研究では、大規模言語モデル(LLM)を活用してマスクされたトークンの代替候補を提案し、下流の言語モデリングタスクでの有効性を評価します。具体的には、複数の事前学習済みおよびファインチューニングされたLLMベースのアプローチを提案し、これらの手法を比較するためにさまざまなデータセットで実証研究を行います。実験結果は、プライバシー保護トークンマスキングを行わない元のデータでトレーニングされたモデルと同等の性能を、難読化コーパスでトレーニングされたモデルが達成できることを示しています。
本論文は、モデル学習中にオーディオとテキスト表現の整合性を強調することで、オーディオ生成の制御を強化する革新的なアプローチを提案する。言語モデルベースのオーディオ生成において、モデルはテキストとオーディオのトークン表現の両方からの入力を活用して、後続のオーディオトークンを予測する。しかし、現在の構成では、選択されたテキスト表現と言語モデルの予測との整合性を保証する明示的な正則化が欠けている。我々の提案は、特に分類器不要ガイダンス(CFG)フェーズにおいて、オーディオとテキスト表現の正則化を組み込むことである。このフェーズでは、言語モデル学習中にテキスト条件がクロスアテンションから除外される。この提案された表現正則化の目的は、同じトレーニングバッチ内の他のサンプルと比較して、オーディオとテキストの類似性における不一致を最小化することである。音楽およびオーディオ生成タスクにおける実験結果は、提案手法がオーディオと音楽生成の両方において客観的指標の改善をもたらし、オーディオ生成における人間の知覚も向上させることを示している。
音声意味解析(SSP)は、入力音声から機械が理解可能な解析結果を生成することを含みます。既存のアプリケーションドメインに対して訓練データで表現された頑健なモデルを訓練するか、新しいドメインに拡張するためには、対応する音声-文字起こし-意味解析のトリプレットデータが必要ですが、これを取得するのはコストがかかります。本論文では、対応する音声データを持たない文字起こし-意味解析データ(非ペアテキスト)を利用可能な手法を検討することで、この課題に取り組みます。まず、非ペアテキストが既存のテキストコーパスから抽出される場合、Joint Audio Text(JAT)とText-to-Speech(TTS)を比較し、非ペアテキストの音声表現を生成する方法を検討します。STOPデータセットでの実験では、既存および新しいドメインからの非ペアテキストが、それぞれ2%と30%の絶対Exact Match(EM)の性能向上をもたらすことが示されました。次に、非ペアテキストが既存のテキストコーパスに存在しない場合を考慮します。我々は、大規模言語モデル(LLM)をプロンプトして、既存および新しいドメインの非ペアテキストを生成することを提案します。実験では、Llama 2.0を使用して、意図と共起する例や単語を用いて非ペアテキストを生成できることが示されました。生成されたテキストをJATとTTSで音声意味解析に使用すると、STOPデータセットでのEMが、既存ドメインで1.4%、新しいドメインで2.6%の絶対値で向上しました。