翻訳付きの日次キュレーションされたAI研究論文
企業文書、例えばフォーム、請求書、領収書、レポート、契約書、その他類似の記録は、テキストと空間的モダリティの交差点において豊かな意味論を有していることが多い。これらの文書を効果的に理解する上で、複雑なレイアウトが提供する視覚的な手がかりは重要な役割を果たす。本論文では、テキストの意味論と空間的レイアウトの両方を考慮した視覚的文書の推論を行うための、従来の大規模言語モデル(LLM)に対する軽量な拡張であるDocLLMを提案する。我々のモデルは、既存のマルチモーダルLLMとは異なり、高価な画像エンコーダを避け、空間的レイアウト構造を取り入れるためにバウンディングボックス情報にのみ焦点を当てている。具体的には、テキストと空間的モダリティ間のクロスアラインメントは、古典的なトランスフォーマーのアテンションメカニズムを一連の分離された行列に分解することで捕捉される。さらに、テキストセグメントを埋めることを学習する事前学習目標を考案した。このアプローチにより、視覚的文書で頻繁に遭遇する不規則なレイアウトや異種コンテンツに対処することが可能となる。事前学習されたモデルは、4つのコアな文書インテリジェンスタスクをカバーする大規模な指示データセットを使用してファインチューニングされる。我々のソリューションは、全タスクにわたる16のデータセットのうち14でSotA LLMを上回り、以前に見たことのない5つのデータセットのうち4つにうまく一般化することを実証する。
本論文では、合成データのみを用いて1,000ステップ未満の学習で高品質なテキスト埋め込みを獲得するための新規かつ簡便な手法を提案する。従来の手法では、数十億の弱教師付きテキストペアを用いた多段階の中間事前学習と、少数のラベル付きデータセットによる微調整が一般的であったが、本手法では、複雑な学習パイプラインの構築や、タスクの多様性や言語カバレッジに制約のある手動収集データセットへの依存を必要としない。我々は、独自の大規模言語モデル(LLM)を活用し、100近い言語にわたる数十万のテキスト埋め込みタスク向けに多様な合成データを生成する。その後、オープンソースのデコーダのみのLLMを標準的なコントラスティブ損失を用いて合成データで微調整する。実験結果から、本手法はラベル付きデータを一切使用せずに、競争力の高いテキスト埋め込みベンチマークで優れた性能を達成することが示された。さらに、合成データとラベル付きデータを混合して微調整を行うことで、BEIRおよびMTEBベンチマークにおいて新たなstate-of-the-artを樹立した。
人間によるアノテーションデータの力を活用した教師ありファインチューニング(SFT)は、大規模言語モデル(LLM)の進化において極めて重要です。本論文では、追加の人間によるアノテーションデータを必要とせずに、弱いLLMから強力なLLMを成長させる可能性について探求します。我々は、教師ありファインチューニングされたモデルから始める新しいファインチューニング手法であるSelf-Play fIne-tuNing(SPIN)を提案します。SPINの核心は、LLMが自身のインスタンスと対戦することで能力を洗練させるセルフプレイメカニズムにあります。具体的には、LLMは以前のイテレーションから自身のトレーニングデータを生成し、これらの自己生成された応答と人間によるアノテーションデータから得られた応答を識別することでポリシーを洗練します。我々の手法は、LLMを未熟なモデルから強力なモデルへと段階的に進化させ、SFTにおける人間によるデモンストレーションデータの全潜在能力を引き出します。理論的には、我々の手法のトレーニング目的関数の大域的最適解は、LLMのポリシーがターゲットデータ分布と一致する場合にのみ達成されることを証明します。実験的には、HuggingFace Open LLM Leaderboard、MT-Bench、Big-Benchのデータセットなど、いくつかのベンチマークデータセットで我々の手法を評価します。結果は、SPINが様々なベンチマークでLLMの性能を大幅に向上させ、追加のGPT-4選好データを補完した直接選好最適化(DPO)でトレーニングされたモデルを凌駕することさえあることを示しています。これは、専門家の対戦相手を必要とせずに、LLMで人間レベルの性能を達成するためのセルフプレイの可能性に光を当てています。
近年、ChatGPTに代表される大規模言語モデル(LLM)において、複雑なタスクに対する顕著な能力が示され、大きな進展が見られています。しかし、多くの主流LLM(例:LLaMA)は英語中心のコーパスで事前学習されており、他の非英語言語での性能が制限されています。本論文では、言語生成能力と指示追従能力を非英語言語に効果的に転移させる方法に焦点を当てます。この問いに答えるため、LLaMAを基盤とした広範な実証研究を行い、1440 GPU時間以上を費やしました。語彙拡張、追加事前学習、指示チューニングといった主要な要因が転移に与える影響を分析しました。モデルの知識レベルを正確に評価するため、C-Eval、MMLU、AGI-Eval、GAOKAO-Benchという4つの広く使用されている標準化されたテストベンチマークを採用しました。さらに、LLM-Evalという17の多様なカテゴリーからなる指示タスクベンチマークに基づき、モデルの応答品質を精度、流暢さ、情報量、論理的整合性、無害性といった観点から包括的に評価しました。評価結果から、事前学習データの1%未満で、知識の整合性と応答品質の両面において、最先端の転移モデルに匹敵する性能を達成できることが示されました。さらに、13の低資源言語における実験結果も同様の傾向を示しています。本実験が明らかにした結論が、非英語LLMの開発に役立つことを期待しています。
大規模言語モデル(LLM)のスケーリング則は、パラメータ数とトレーニングデータの増加に伴うモデル品質の変化を推定する経験則です。しかし、これらの式(人気のあるDeepMindのChinchillaスケーリング則を含む)は、推論コストを考慮していません。我々は、Chinchillaスケーリング則を修正し、所与の品質と推論需要を持つモデルをトレーニングおよびデプロイするための最適なLLMパラメータ数と事前トレーニングデータサイズを計算します。我々の分析は、計算予算と実世界のコストの両方の観点から行い、適度に大きな推論需要(約10億リクエスト)を予想するLLM研究者は、Chinchilla最適よりも小さく長くトレーニングするべきであることを見出しました。
本研究は、ファインチューニングなしで大規模言語モデル(LLM)が持つ長文脈処理の内在的な能力を引き出すことを目的としています。学習時の訓練シーケンスの長さが限られているため、推論時に長い入力シーケンスに対するLLMの適用が制限される可能性があります。本研究では、既存のLLM自体が長文脈を処理するための内在的な能力を持っていると主張します。この主張に基づき、LLMのコンテキストウィンドウを自ら拡張し、その内在的な能力を最大限に活用することを提案します。我々は、LLMの長文脈処理の潜在能力を刺激するために「Self-Extend」を提案します。基本的なアイデアは、グループレベルと近隣レベルの二段階の注意情報を構築することです。これら二つのレベルは、元のモデルの自己注意機構によって計算されるため、提案手法は追加の訓練を必要としません。わずか4行のコード修正で、既存のLLMのコンテキストウィンドウをファインチューニングなしで容易に拡張することができます。包括的な実験を行った結果、提案手法が既存のLLMのコンテキストウィンドウの長さを効果的に拡張できることが示されました。
大規模言語モデル(LLM)の全パラメータファインチューニング(FFT)の高コストは、一連のパラメータ効率的なファインチューニング(PEFT)手法の開発を促してきた。しかし、異なるモデル規模において、どの手法が最適なコストと性能のトレードオフを提供するかは依然として不明である。本研究では、7つのチューニング手法と最大160億パラメータまでの4つのモデルサイズを用いた、28の命令チューニング済みOctoCoderモデルからなるAstraiosを紹介する。コード理解とコード生成タスクを含む5つのタスクと8つの異なるデータセットにわたる調査を通じて、FFTは一般的にすべての規模において最良の下流タスク性能を発揮し、PEFT手法はモデル規模に基づいてその有効性が大きく異なることがわかった。LoRAは通常、コストと性能の間で最も有利なトレードオフを提供する。これらの手法がモデルの堅牢性とコードのセキュリティに及ぼす影響をさらに調査した結果、より大きなモデルは堅牢性が低下し、セキュリティも低くなる傾向があることが明らかになった。最後に、更新されたパラメータ、クロスエントロピー損失、およびタスク性能の関係を探る。小規模モデルで観察されたチューニングの有効性は大規模モデルにもよく一般化され、命令チューニングにおける検証損失は全体的な下流タスク性能の信頼できる指標となり得ることがわかった。
近年の拡散モデルにおける革新とブレークスルーは、与えられたプロンプトから高品質な動画を生成する可能性を大幅に拡大しました。既存の研究の多くは、単一の背景で1つのイベントが発生するシングルシーンシナリオに取り組んでいます。しかし、マルチシーン動画の生成に拡張することは容易ではなく、シーン間の論理を適切に管理しつつ、主要なコンテンツの視覚的一貫性を維持する必要があります。本論文では、コンテンツの一貫性を保ったマルチシーン動画生成のための新しいフレームワーク、VideoDrafterを提案します。技術的には、VideoDrafterは大規模言語モデル(LLM)を活用して、入力プロンプトを包括的なマルチシーンスクリプトに変換します。これにより、LLMが学習した論理的知識を活用します。各シーンのスクリプトには、イベントの説明、前景/背景のエンティティ、およびカメラの動きが含まれます。VideoDrafterはスクリプト全体に共通するエンティティを特定し、LLMに各エンティティの詳細を記述させます。その結果得られたエンティティの説明は、テキストから画像を生成するモデルに入力され、各エンティティの参照画像を生成します。最後に、VideoDrafterは、参照画像、イベントの記述プロンプト、およびカメラの動きを考慮した拡散プロセスを通じて各シーン動画を生成し、マルチシーン動画を出力します。拡散モデルは、参照画像を条件として取り入れ、マルチシーン動画のコンテンツ一貫性を強化するためのアラインメントとして機能します。大規模な実験により、VideoDrafterが視覚的品質、コンテンツの一貫性、およびユーザー選好の点で最先端の動画生成モデルを凌駕することが実証されました。
大規模言語モデル(LLMs)は、人間のコミュニケーションに極めて近いテキストの理解と生成において驚異的な能力を示しています。しかし、その主要な制約は、膨大なパラメータ化に起因するトレーニング時の多大な計算資源の要求にあります。この課題は、世界のダイナミックな性質によってさらに深刻化しており、LLMsを頻繁に更新して古くなった情報を修正したり、新しい知識を統合したりする必要があります。これにより、LLMsの継続的な関連性が保たれます。多くのアプリケーションでは、トレーニング後のモデルの継続的な調整が求められ、欠陥や望ましくない動作に対処する必要があることに留意してください。その場でのモデル修正を効率的かつ軽量に行う方法に対する関心が高まっています。この目的のために、近年、LLMsの知識編集技術が急速に発展しており、特定のドメイン内でLLMsの動作を効率的に修正しつつ、様々な入力に対する全体的な性能を維持することを目指しています。本論文では、まず知識編集問題を定義し、次に最先端のアプローチを包括的にレビューします。教育および認知研究の理論からインスピレーションを得て、知識編集手法を外部知識の利用、モデルへの知識の統合、内在する知識の編集の3つのグループに分類する統一的な基準を提案します。さらに、代表的な知識編集アプローチを包括的に評価するための新しいベンチマーク、KnowEditを紹介します。加えて、知識の位置付けに関する詳細な分析を提供し、LLMsに内在する知識構造をより深く理解するための洞察を提供します。最後に、知識編集のいくつかの潜在的な応用について議論し、その広範で影響力のある意義を概説します。
視覚-言語事前学習の進化において、短いテキストの理解から長文脈の包含へと移行することは極めて重要です。最近の自己回帰型視覚-言語モデル(Flamingo、Palmeなど)は、大規模言語モデルの長文脈能力を活用することで、少数ショットのテキスト生成タスクで優れた性能を発揮していますが、アライメントタスクでは課題に直面しています。このギャップを埋めるため、我々はテキスト生成モデルに対照損失を導入し、COntrastive-Streamlined MultimOdalフレームワーク(\ModelName)を提案します。このフレームワークは、言語モデルを専用の単一モーダルテキスト処理コンポーネントと高度なマルチモーダルデータ処理コンポーネントに戦略的に分割します。\ModelNameは、単一モーダル要素とマルチモーダル要素を統合し、テキストと視覚データを含むタスクにおけるモデル性能を向上させながら、学習可能なパラメータを大幅に削減します。しかし、これらのモデルは大規模な長文テキストデータセットを必要としますが、高品質な長文ビデオデータセットの可用性は依然として限られています。このギャップを埋めるため、本作品は\VideoDatasetNameを紹介します。これは、包括的なキャプションを備えた初のインタリーブ型ビデオ-テキストデータセットであり、重要な一歩を記すものです。その影響を示すため、我々は\VideoDatasetNameが画像-テキストタスクにおけるモデル性能をどのように向上させるかを示します。学習可能なパラメータの34%と利用可能なデータの72%を使用することで、我々のモデルはOpenFlamingo~openflamingoを大幅に上回る性能を示します。例えば、4ショットのFlickrキャプショニングタスクでは、性能が57.2%から65.%に顕著に向上します。\ModelNameと\VideoDatasetNameの貢献は、画像-テキストおよびビデオ-テキストタスクを含む14の多様な下流データセットにおける顕著な性能向上によって強調されています。
最近のテキストからビデオ(T2V)生成のアプローチにおいて、合成されたビデオの制御性を実現することはしばしば課題となっています。通常、この問題は、エッジマップ、深度マップ、または変更する既存のビデオといった低レベルのフレームごとのガイダンスを提供することで対処されます。しかし、そのようなガイダンスを取得するプロセスは労力を要する場合があります。本論文では、ニューラルネットワークのトレーニング、ファインチューニング、推論時の最適化、または既存のビデオの使用を必要とせずに、単純なバウンディングボックスを使用してさまざまな方法で被写体をガイドすることで、ビデオ合成における制御性を向上させることに焦点を当てています。私たちのアルゴリズム、TrailBlazerは、事前にトレーニングされた(T2V)モデルに基づいて構築されており、実装が容易です。被写体は、提案された空間的および時間的アテンションマップ編集を通じてバウンディングボックスによって導かれます。さらに、キーフレームの概念を導入し、詳細なマスクを提供する必要なく、移動するバウンディングボックスと対応するプロンプトによって被写体の軌跡と全体的な外観をガイドできるようにしています。この方法は効率的であり、基盤となる事前トレーニング済みモデルに対して無視できる程度の追加計算しか必要としません。バウンディングボックスガイダンスの単純さにもかかわらず、結果として得られる動きは驚くほど自然で、ボックスのサイズが大きくなるにつれて視点や仮想カメラへの移動といった効果が現れます。
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、同時に言語能力を音声や視覚などの他のモダリティに拡張しつつあります。しかし、これまでの研究の多くは、聴覚理解のような知覚能力をLLMにプロンプトすることに焦点を当てており、音声合成能力をLLMに組み込む効果的なアプローチは依然として不明確です。本論文では、事前学習済みのLLM(LLaMA/OPT)とテキスト音声合成モデル(VALL-E)を組み合わせることで、LLMに音声生成能力を付与するための包括的な実証的探求を行います。LLMと音声合成モデルの統合方法として、直接ファインチューニングしたLLM、LLMとVALL-Eを重ね合わせた層、およびLLMを強力なテキストエンコーダとして利用した結合型の3つの方法を比較します。実験結果から、LoRA法を用いてLLMを直接ファインチューニングして音声合成能力を向上させる方法はうまく機能せず、LLMとVALL-Eを重ね合わせることで、生成される音声の品質が話者類似度と単語誤り率(WER)の両方で向上することが示されました。これら3つの方法の中では、LLMをテキストエンコーダとして活用する結合型の方法が最も優れた性能を発揮し、元の音声合成モデルを上回る一貫した話者類似度と10.9%のWER削減を達成しました。
大規模言語モデルのトレーニングは、さまざまな分野でますます重要になっていますが、頻繁に発生する障害によって大きな時間的・経済的コストが生じています。クラウドベースの環境における現在の障害回復手法は、個々のタスクのダウンタイムを短縮することに焦点を当てるあまり、クラスター全体のコストへの影響を考慮せず、多様で複雑なシナリオに対応できていません。本論文では、大規模言語モデルのトレーニングにおいて効率的な自己修復を実現するワークロードマネージャー「Unicron」を紹介します。Unicronは、クラスター内の複数の並行タスクにおける障害関連コストを最小化することで、トレーニングプロセスを最適化します。その主な特徴として、追加のオーバーヘッドなしにリアルタイムでエラーを検出するインバンドエラー検出、最適な再構成を行うための動的コスト認識プラン生成メカニズム、状態変化時のダウンタイムを削減する効率的な移行戦略が挙げられます。128 GPUの分散クラスターに展開した結果、Unicronは最先端の手法と比較してトレーニング効率を最大1.9倍向上させ、障害回復コストを大幅に削減し、大規模言語モデルトレーニングの信頼性を高めることを実証しました。
近年、Text-to-Image(T2I)モデルの急速な進化に伴い、その不満足な生成結果が課題となっています。しかし、異なる品質のAI生成画像(AIGI)を一律に精緻化することは、低品質なAIGIに対する最適化能力を制限するだけでなく、高品質なAIGIに対しては逆効果をもたらすこともありました。この問題を解決するため、品質に応じた精緻化ツール「Q-Refine」が提案されています。Q-Refineは、人間の視覚システム(HVS)の特性に基づき、初めて画像品質評価(IQA)指標を用いて精緻化プロセスを導き、3つの適応型パイプラインを通じて異なる品質の画像を修正します。実験結果から、Q-Refineは主要なT2Iモデルにおいて、異なる品質のAIGIに対して効果的な最適化を実現できることが示されています。これは、忠実度と美的品質の両面からAIGIを最適化する汎用精緻化ツールとして機能し、T2I生成モデルの応用範囲を拡大するものです。
大規模言語モデル(LLM)は、その汎用的な知識と自然言語処理(NLP)における幅広いタスクを解決する能力により、大きな成功を収めています。その印象的な能力により、LLMは特定の分野における科学的発見を促進するための学際的な応用の可能性に光を当てています(AI for Science、AI4S)。一方で、地学研究と実践におけるNLP技術の活用は広範かつ複雑で、知識抽出や文書分類から質問応答や知識発見に至るまで多岐にわたります。本研究では、比較的単純なアプローチを通じて、LLMを科学に活用するための最初の一歩を踏み出します。具体的には、地学分野の膨大なテキストを用いてモデルをさらに事前学習し、その結果得られたモデルを独自に収集した指示チューニングデータセットで教師ありファインチューニング(SFT)することで、LLMを地学に特化させようと試みます。これらの取り組みにより、300億のパラメータからなるモデル「GeoGalactica」が誕生しました。私たちの知る限り、これは地学分野における最大の言語モデルです。より具体的には、GeoGalacticaはGalacticaを基にさらに事前学習を行ったものです。私たちは、大規模科学プロジェクト「Deep-time Digital Earth(DDE)」から収集した650億トークンからなる地学関連テキストコーパスを用いてGeoGalacticaを学習させました。これは、地学に特化した最大のテキストコーパスとして保存されています。その後、専門的な地学知識を必要とする質問からなる100万ペアの指示チューニングデータを用いてモデルをファインチューニングしました。本技術レポートでは、GeoGalacticaのデータ収集、データクリーニング、ベースモデルの選択、事前学習、SFT、評価など、すべての側面を詳細に説明します。また、データキュレーションツールと、事前学習の最初の3/4の期間におけるGeoGalacticaのチェックポイントをオープンソースとして公開します。
スコア蒸留は、テキストから3Dアセットを合成するための最も一般的なアプローチの一つとして登場しました。本質的に、スコア蒸留は、異なる視点で平均化されたスコアをリフトし、逆伝播させることで3Dパラメータを更新します。本論文では、スコア蒸留における勾配推定が本質的に高い分散を伴うことを明らかにします。分散低減の観点から、SDSとVSDの有効性は、蒸留スコアのモンテカルロ推定器に対する様々な制御変数の適用として解釈できます。この再考に基づき、Steinの恒等式を基に、スコア蒸留の分散を低減するためのより一般的な解決策を提案します。これをSteinスコア蒸留(SSD)と呼びます。SSDは、Steinの恒等式によって構築された制御変数を組み込み、任意のベースライン関数を可能にします。これにより、柔軟なガイダンス事前分布やネットワークアーキテクチャを含めて、分散低減を明示的に最適化することが可能になります。実験では、制御変数を単眼深度推定器で具体化したSteinDreamerというパイプラインを実装しました。結果は、SSDが蒸留分散を効果的に低減し、オブジェクトレベルとシーンレベルの生成において視覚品質を一貫して向上させることを示しています。さらに、SteinDreamerがより安定した勾配更新により、既存の手法よりも速く収束することを実証しました。