翻訳付きの日次キュレーションされたAI研究論文
ニューラル・ラディアンス・フィールド(NeRF)は、少数ショットのシナリオにおいて、過学習と高品質なレンダリングのための長いトレーニング時間という重要な課題に直面しています。FreeNeRFやSparseNeRFなどの既存手法は、周波数正則化や事前学習された事前知識を使用していますが、複雑なスケジューリングやバイアスに苦しんでいます。本研究では、FrugalNeRFという新しい少数ショットNeRFフレームワークを導入しました。このフレームワークは、複数のスケールでウェイト共有ボクセルを活用して、シーンの詳細を効率的に表現します。主要な貢献は、クロススケールの幾何学的適応スキームであり、再投影誤差に基づいて擬似的な地面の深さを選択することで、トレーニングを導きます。これにより、外部で学習した事前知識に依存せず、トレーニングデータを十分に活用できます。また、事前学習された事前知識を統合することもでき、収束を遅らせることなく品質を向上させます。LLFF、DTU、RealEstate-10Kでの実験結果は、FrugalNeRFが他の少数ショットNeRF手法を凌駕し、トレーニング時間を大幅に短縮しながら、効率的かつ正確な3Dシーン再構築の実用的な解決策となることを示しています。
Segment Anything Model 2(SAM 2)は、画像と動画の両方で物体セグメンテーションのための強力な基盤モデルとして登場し、さまざまな派生動画アプリケーションの道を開いています。SAM 2の動画セグメンテーションにおける重要な設計は、メモリーモジュールであり、前のフレームから現在のフレームの予測のために物体認識メモリーを促します。ただし、その貪欲選択メモリーデザインは、「エラー蓄積」問題に苦しんでおり、誤ったまたは見逃されたマスクが連鎖的に影響を与え、後続フレームのセグメンテーションに影響を与えるため、SAM 2の複雑な長期ビデオに対する性能を制限しています。このため、我々は、改良されたトレーニングフリーのビデオ物体セグメンテーション戦略であるSAM2Longを導入します。この戦略は、各フレーム内のセグメンテーションの不確実性を考慮し、制約つきツリーサーチの方法で複数のセグメンテーション経路からビデオレベルの最適な結果を選択します。実践的には、ビデオ全体を通じて一定数のセグメンテーション経路を維持します。各フレームでは、既存の経路に基づいて複数のマスクが提案され、さまざまな候補ブランチが作成されます。次に、次のフレームのための新しい経路として、累積スコアがより高い同じ一定数のブランチを選択します。最終フレームを処理した後、最も高い累積スコアを持つ経路が最終的なセグメンテーション結果として選択されます。ヒューリスティックサーチデザインの恩恵を受けて、SAM2Longは、遮蔽物や物体の再出現に対して堅牢であり、複雑な長期ビデオの物体を効果的にセグメンテーションおよびトラッキングすることができます。特筆すべきは、SAM2Longが、SA-VやLVOSなどの長期ビデオ物体セグメンテーションのベンチマークで、24の対戦比較全体で平均3.0ポイントの改善を達成し、J&Fで最大5.3ポイントの利益を上げていることです。コードはhttps://github.com/Mark12Ding/SAM2Longで公開されています。
大規模言語モデル(LLMs)の継続的な改善において、効率的かつ正確な評価は重要です。様々な評価方法の中で、主観的評価は現実世界の使用シナリオや人間の好みとの優れた整合性から、注目を集めています。しかし、人間に基づく評価はコストがかかり再現性に欠けるため、このプロセスにおいて正確な自動評価者(ジャッジャー)が不可欠です。本報告書では、最初のオープンソースのオールインワンジャッジLLMであるCompassJudger-1を紹介します。CompassJudger-1は汎用性の高いLLMであり、驚異的な柔軟性を示しています。CompassJudger-1は以下のことが可能です:1. 報酬モデルとしての単一スコアリングおよび2つのモデル比較を実行すること、2. 指定された形式に従った評価を行うこと、3. 批評を生成すること、4. 一般的なLLMのように多様なタスクを実行すること。異なるジャッジャーモデルの評価能力を統一された環境で評価するために、様々な主観的評価タスクを網羅し幅広いトピックをカバーする新しいベンチマークであるJudgerBenchを設立しました。CompassJudger-1は、様々な評価タスクに対する包括的なソリューションを提供し、同時に多様な要件に適応する柔軟性を維持しています。CompassJudgerとJudgerBenchは、https://github.com/open-compass/CompassJudgerでリリースされ、研究コミュニティに利用可能です。これらのツールをオープンソース化することで、LLM評価方法論の進歩を促進し、協力を促進できると考えています。
オープンソースモデルの進歩により、カスタムデータセットでのモデルのトレーニング(またはファインチューニング)は、特定の産業用途やオープンソースアプリケーションに適したソリューションを開発する上で重要な要素となっています。しかし、異なる種類のモダリティやタスクにわたるトレーニングプロセスを簡素化するツールは存在していません。私たちは、AutoTrain(別名AutoTrain Advanced)を紹介します。これは、さまざまな種類のタスクにモデルをトレーニング(またはファインチューニング)するために使用できる、ノーコードのオープンソースツール/ライブラリです。これらのタスクには、大規模言語モデル(LLM)のファインチューニング、テキスト分類/回帰、トークン分類、シーケンス対シーケンスタスク、文の変換モデルのファインチューニング、ビジュアル言語モデル(VLM)のファインチューニング、画像分類/回帰、さらには表形式データの分類と回帰タスクが含まれます。AutoTrain Advancedは、カスタムデータセットでのモデルトレーニングのベストプラクティスを提供するオープンソースライブラリです。このライブラリは、https://github.com/huggingface/autotrain-advanced で入手可能です。AutoTrainは、完全なローカルモードまたはクラウドマシンで使用でき、Hugging Face Hubで共有されている何万ものモデルとそのバリエーションと連携して機能しまいます。
最近の多様な基盤モデルの進歩により、ビジョン言語理解において重要な進展が見られています。初期の試みでは、視覚コンテンツ生成のための多様な大規模言語モデル(MLLMs)の潜在能力も探求されてきました。しかしながら、既存の研究は、統一されたMLLMパラダイム内で異なる画像生成タスクの変化する粒度要件に十分対処していません - テキストから画像への生成に必要な多様性から画像操作に必要な正確な制御性まで。本研究では、PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)を提案します。PUMAは、MLLMの入力および出力として複数の粒度の視覚的特徴を統一し、さまざまな画像生成タスクの異なる粒度要件を優雅に対処します。マルチモーダルの事前トレーニングとタスク固有の指示チューニングに続いて、PUMAは幅広いマルチモーダルタスクで優れた能力を示しています。この研究は、さまざまな視覚タスクの粒度要件に適応できる真に統一されたMLLMに向けた重要な一歩を表しています。コードとモデルはhttps://github.com/rongyaofang/PUMAで公開されます。
Baichuan Alignment(白川アラインメント)を紹介します。これは、Baichuanシリーズのモデルで使用されるアラインメント手法の詳細な分析です。これは、産業界初の包括的なアラインメント手法の説明であり、AI研究の推進に貴重な示唆を提供します。アラインメントプロセス中にモデルの性能を向上させるための重要な要素を調査し、最適化手法、データ戦略、機能強化、および評価プロセスを含みます。このプロセスは、Prompt Augmentation System(PAS)、Supervised Fine-Tuning(SFT)、およびPreference Alignmentの3つの主要段階にまたがります。遭遇した問題、適用された解決策、および行われた改善が詳細に記録されています。 よく知られたベンチマークを通じた比較を通じて、Baichuan Alignmentによって実現された技術革新を強調します。Baichuan-Instructは内部モデルであり、Qwen2-72BおよびLlama-3-70BのベースモデルのinstructバージョンであるQwen2-Nova-72BおよびLlama3-PBM-Nova-70Bは、Baichuan Alignmentを通じて最適化されています。Baichuan-Instructは、コア機能で著しい改善を示し、ユーザーエクスペリエンスの向上率は17%から28%に及び、特化したベンチマークで優れた性能を発揮します。オープンソースのベンチマーク評価では、Qwen2-Nova-72BおよびLlama3-PBM-Nova-70Bは、ほぼすべてのデータセットで、それぞれの公式のinstructバージョンを一貫して上回っています。このレポートは、アラインメントプロセスの背後にある主要な技術を明確にし、コミュニティ内でより深い理解を促進することを目的としています。 Llama3-PBM-Nova-70Bモデルは、https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B で入手可能です。
監督されたファインチューニング(SFT)は、大規模言語モデル(LLMs)を特定のドメインやタスクに適応させる上で重要です。しかしながら、実用的なアプリケーションでは限られたラベル付きデータしか利用できず、これはSFTが満足のいく結果をもたらす上で深刻な課題となります。そのため、ラベル付きデータと未ラベルデータの両方を活用するデータ効率の良いフレームワークが期待されています。この目的を達成するために、私たちは伝播と選択の手法からLLMの適応におけるセミ・スーパーバイズド・ファインチューニングフレームワークであるSemiEvolを紹介します。知識の伝播において、SemiEvolはバイレベルアプローチを採用し、ラベル付きデータから未ラベルデータへの知識伝播を重みおよびコンテキストの両方の方法で行います。知識の選択において、SemiEvolは協調学習メカニズムを組み込み、より高品質な疑似応答サンプルを選択します。私たちは、GPT-4o-miniとLlama-3.1を用いて、一般または特定のドメインに関連する7つのデータセットで実験を行い、対象データにおけるモデルの性能の著しい向上を示しました。さらに、SemiEvolをSFTおよび自己進化手法と比較し、ハイブリッドデータシナリオにおける実用性を強調しました。
最近の多言語マルチモーダル大規模言語モデル(MLLMs)の進歩にもかかわらず、その開発は主に英語および西洋中心のデータセットやタスクに焦点を当てており、世界の多くの言語や多様な文化的文脈が不十分である。本論文では、39言語にわたる多様な6MのインストラクションデータセットであるPangeaInsでトレーニングされた多言語マルチモーダルLLMであるPangeaを紹介する。PangeaInsには、1) 高品質な英語のインストラクション、2) 注意深く機械翻訳されたインストラクション、および3) 複数文化にわたるカバレッジを確保するための文化的に関連するマルチモーダルタスクが特徴として含まれている。モデルの能力を厳密に評価するために、47言語をカバーする14のデータセットを含む包括的な評価スイートであるPangeaBenchを導入する。結果は、Pangeaが既存のオープンソースモデルを多言語環境や多様な文化的文脈で大幅に上回ることを示している。アブレーション研究は、全体的なパフォーマンスに対する英語データの割合、言語の人気度、およびマルチモーダルトレーニングサンプルの数の重要性をさらに明らかにしている。私たちは、包括的で堅牢な多言語MLLMsの開発を促進し、より広範な言語および文化的スペクトラム全体での公正さとアクセシビリティを推進するために、データ、コード、トレーニング済みのチェックポイントを完全にオープンソース化している。
報酬モデルは、人間のフィードバックからの強化学習(RLHF)や推論スケーリング則などの手法において重要であり、言語モデルの整合性を導き、最適な応答を選択します。その重要性にもかかわらず、既存の報酬モデルのベンチマークは、しばしば異なる強度のモデルによって生成された応答を区別するようモデルに求めることで評価されます。しかしながら、このアプローチは、微妙だが重要な内容の変更やスタイルの変化を評価することができず、方針モデルの性能との相関が低くなります。このため、我々は、微妙な内容の違いに対する感度やスタイルの偏りに対する抵抗力に基づいて報酬モデルを評価するために設計された新しいベンチマークであるRM-Benchを紹介します。広範な実験により、RM-Benchが方針モデルの性能と強く相関することが示され、言語モデルを効果的に整合させるための報酬モデルを選択するための信頼性のある参照となります。我々は、RM-Benchで約40の報酬モデルを評価しました。結果から、最先端のモデルでさえ、スタイルの偏りの干渉に直面すると平均46.6%の性能しか達成できず、ランダムレベルの正確性(50%)には及びません。これらの結果は、現在の報酬モデルに改善の余地があることを示しています。関連するコードとデータは、https://github.com/THU-KEG/RM-Bench で入手可能です。
Retrieval-Augmented Generation(RAG)は、大規模言語モデル(LLMs)に対する有効な補完として機能しますが、そのパイプライン内のテキストチャンキングという重要な側面がしばしば見落とされ、知識集約的なタスクの品質に影響を与えます。本論文では、文と段落の間の粒度であるMeta-Chunkingの概念を紹介します。これは、段落内の文のコレクションであり、深い言語論理的なつながりを持つ文から構成されています。Meta-Chunkingを実装するために、我々はLLMsに基づく2つの戦略を設計しました。Margin Sampling ChunkingとPerplexity Chunkingです。前者は、連続する文を分割する必要があるかどうかを二値分類するためにLLMsを使用し、マージンサンプリングから得られた確率の差に基づいて決定を行います。後者は、Perplexity分布の特性を分析することで、テキストチャンクの境界を正確に特定します。さらに、異なるテキストの固有の複雑さを考慮して、Meta-Chunkingと動的マージングを組み合わせて、細かい粒度と粗い粒度のテキストチャンキングのバランスを実現する戦略を提案します。11つのデータセットで実施された実験は、Meta-ChunkingがRAGに基づくシングルホップおよびマルチホップの質問応答の性能を効率的に向上させることができることを示しています。例えば、2WikiMultihopQAデータセットでは、Meta-Chunkingは類似性チャンキングを1.32上回り、わずか45.8%の時間しかかかりません。当該コードはhttps://github.com/IAAR-Shanghai/Meta-Chunkingで入手可能です。
知識蒸留(Knowledge Distillation、KD)は、大規模な教師モデルから小さな生徒モデルへの知識移転を目指しています。大規模言語モデル(Large Language Models、LLMs)の分野でKDを適用した先行研究は、通常、生徒LLMが教師モデルによって生成された指示と対応する応答から直接学習する事後トレーニング段階に焦点を当てていました。本論文では、LLMsの事前トレーニング段階にKDを拡張し、事前トレーニング蒸留(Pre-training Distillation、PD)と名付けます。GLM-4-9Bを教師LLMとして使用し、1.9Bパラメータの生徒LLMを蒸留する予備実験を行い、PDの効果を検証します。蒸留の主要な影響要因を考慮して、事前トレーニング蒸留の設計空間を「ロジット処理」「損失選択」「スケーリング則」「オフラインまたはオンラインのロジット」の4つの側面で体系的に探求します。事前トレーニング蒸留の設計空間を探索するために幅広い実験を実施し、より良い構成や興味深い結論を見つけます。たとえば、一般的に大きな生徒LLMは事前トレーニング蒸留からより多くの利益を得る一方、大きな教師LLMが必ずしもより良い結果を保証するわけではないことがあります。設計空間の探索が、将来の事前トレーニング蒸留における実践に貢献することを期待しています。
経験豊富な専門家でさえ、形式的証明を書くことは困難です。最近のニューラル定理証明(NTP)の進展は、このプロセスを迅速化する可能性を示しています。しかし、インターネット上で利用可能な形式のコーパスは一般テキストに比べて限られており、NTPにおける重要なデータ不足の課題が生じています。この問題に対処するため、本研究では、形式的定理をシンボリックな変異を通じて構築するデータ合成のための一般的なフレームワークであるアルケミーを提案します。具体的には、Mathlib内の各候補定理について、それを書き換えたり適用したりするために使用できるすべての呼び出し可能な定理を特定します。その後、候補定理を、その文に対応する項を等価形式または前提で置き換えることで変異させます。その結果、当社の手法により、Mathlib内の定理の数が110kから6Mにオーダー増加します。さらに、この拡張されたコーパスに対して大規模言語モデルの継続的な事前学習と教師あり微調整を行います。実験結果は、当社のアプローチの効果を示し、Leandojoベンチマークで5%の絶対性能向上を達成しています。さらに、当社の合成データは、分布外のminiF2Fベンチマークで2.5%の絶対性能向上を達成しています。さらなる洞察を提供するために、合成データの構成とトレーニングパラダイムの包括的な分析を行い、強力な定理証明器の開発に有益なガイダンスを提供しています。
大規模言語モデル(LLM)は自然言語処理を革新しましたが、音声ベースのタスクへの適用は、音声とテキストのモダリティを統合する複雑さのために依然として困難です。本論文では、音声とテキストの交互に処理されるシーケンスをシームレスに処理する混合モダルモデルである「イチゴ」を紹介します。トークン化されたアーリーフュージョン手法を利用し、イチゴは音声を離散的なトークンに量子化し、音声とテキストの両方のモダリティに対して一様なトランスフォーマーベースのアーキテクチャを採用しています。この手法により、別個のアダプターを必要とせずに、モダリティ間での共同推論と生成が可能となります。我々は、多言語音声認識データセットでの事前トレーニングと、厳選された指示データセットでのファインチューニングを含む包括的なトレーニング手法を提案します。イチゴは、音声に関する質問応答のベンチマークで最先端の性能を示し、既存のオープンソース音声言語モデルを凌駕し、カスケードシステムと同等の結果を達成します。特筆すべきは、イチゴが最初のトークン生成までのレイテンシがわずか111ミリ秒であり、現行モデルよりも大幅に低いことです。我々のアプローチは、マルチモーダルAIの分野を前進させるだけでなく、小規模な研究チームがオープンソース音声言語モデルに効果的に貢献するためのフレームワークを提供します。
大規模言語モデル(LLM)の新たなゼロショット機能の台頭により、自然言語処理のタスクをはるかに超えた領域への応用が進んでいます。強化学習において、LLMはテキストベースの環境で広く使用されていますが、連続状態空間との統合は未だ研究が不十分です。本論文では、事前学習済みのLLMが連続マルコフ決定過程のダイナミクスを文脈の中で予測するためにどのように活用できるかを調査します。我々は、多変量データの取り扱いと制御信号の組み込みをLLMの展開の潜在能力を制限する主要な課題と位置付け、これらに対処するためにDisentangled In-Context Learning(DICL)を提案します。提案手法の理論的分析に裏付けられた、モデルベースの方策評価とデータ拡張型のオフポリシー強化学習の2つの強化学習設定での概念実証アプリケーションを提示します。さらに、実験により、当該手法が適切にキャリブレートされた不確実性推定を生成することを示します。コードは以下のURLから公開しています:https://github.com/abenechehab/dicl.
大規模言語モデルを拡張して、極めて長い文脈を持つ指示を効果的に処理するための研究はまだ完全に調査されていません。主な障害は、長い文脈の整合性のために設計された高品質な長い指示に従うデータセットを構築することにあります。既存の研究では、利用可能なデータ量を増やすために長い指示に従うサンプルを合成する試みがなされてきました。しかし、データの量を定義された戦略なしに無差別に増やすことは、データの品質を確保するための戦略がない場合、低品質なサンプルを導入し、最終的な性能を制限する可能性があります。このギャップを埋めるために、我々は長い文脈の整合性という特有の課題、つまり指示の処理と長い入力文脈のための長距離依存関係をモデリングすることを目指しています。我々は、GATEAUという新しいフレームワークを提案します。このフレームワークは、Homologous Models' Guidance(HMG)とContextual Awareness Measurement(CAM)を利用して、長距離依存関係で豊かな影響力と高品質のサンプルを特定するよう設計されています。具体的には、HMGは、異なる文脈ウィンドウを持つ2つの同系モデルからの応答の困難さを測定し、長距離依存関係による対応する応答の難しさを評価します。また、CAMの役割は、モデルの注意が重要なセグメントに集中しているかどうかを評価することで、長い入力文脈の理解の困難さを測定することです。提案された両方の方法に基づいて、我々は最も難解なサンプルを影響力のあるデータとして選択し、長距離依存関係を効果的に構築することで、LLMの性能を向上させることを目指しています。包括的な実験により、GATEAUは長距離依存関係で豊かなサンプルを効果的に特定し、これらの選択されたサンプルで訓練されたモデルは、指示に従う能力と長い文脈を理解する能力が向上していることが示されています。
テキストから画像へのモデルは、インターネットから画像テキストのペアを収集することで収集された大規模なデータセットを使用してトレーニングされます。これらのデータセットには、プライベートな、著作権のある、ライセンスされた素材が含まれることがよくあります。このようなデータセットでモデルをトレーニングすることにより、それらはそのようなコンテンツを持つ画像を生成する能力を獲得しますが、これは著作権法や個人のプライバシーに違反する可能性があります。この現象は模倣と呼ばれ、トレーニング画像と類似性のあるコンテンツを持つ画像を生成することを指します。本研究では、トレーニングデータセット内の概念の頻度とモデルがそれを模倣する能力との関係を調査します。モデルが概念を模倣するのに十分なインスタンスでトレーニングされた時点を特定することを目指し、模倣のしきい値と呼びます。この問題を新しい問題と位置付け、模倣のしきい値(FIT)を見つけることを提案し、複数のモデルをゼロからトレーニングする膨大なコストをかけずに模倣のしきい値を推定する効率的なアプローチを提案します。私たちは、人間の顔と芸術スタイルの2つのドメインで4つのデータセットを作成し、2つの事前トレーニングデータセットでトレーニングされた3つのテキストから画像へのモデルを評価します。結果は、これらのモデルの模倣のしきい値が、ドメインやモデルによって異なり、200〜600枚の画像の範囲にあることを示しています。模倣のしきい値は、著作権侵害の主張の経験的根拠を提供し、著作権やプライバシー法に準拠することを目指すテキストから画像へのモデル開発者にとっての指針となります。コードとデータはhttps://github.com/vsahil/MIMETIC-2.gitで公開されており、プロジェクトのウェブサイトはhttps://how-many-van-goghs-does-it-take.github.ioでホストされています。
私たちは、Agent-to-Sim(ATS)を提案します。これは、3Dエージェントのインタラクティブな行動モデルを、カジュアルな長期ビデオコレクションから学習するためのフレームワークです。従来の手法とは異なり、ATSはマーカーベースのトラッキングやマルチビューカメラに頼らず、動物や人間のエージェントの自然な行動をビデオ観察を通じて非侵襲的に学習します。これらのビデオは、単一の環境で長期間(例:1ヶ月)記録されます。エージェントの3D行動をモデリングするには、長期間にわたる持続的な3Dトラッキング(例:どの点がどれに対応するかを知る)が必要です。このようなデータを取得するために、私たちは、エージェントとカメラを時間の経過とともに、標準的な3D空間を通じて追跡する粗-細の登録方法を開発し、完全で持続的な時空間4D表現を得ます。その後、エージェントの知覚と動きのペアデータを使用してエージェントの行動の生成モデルをトレーニングします。ATSにより、エージェントのビデオ記録からインタラクティブな行動シミュレータへのリアルからシムの転送が可能となります。私たちは、スマートフォンで撮影された単眼RGBDビデオを使用して、ペット(例:猫、犬、ウサギ)や人間に関する結果を示します。
現在の患者のニーズと利用可能な精神保健支援との間には、著しいギャップがあります。本論文では、大規模言語モデル(LLMs)を活用して専門家の精神療法を支援する可能性を徹底的に検討することを目的としています。このため、認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案します。CBT-BENCHには、次の3つのレベルのタスクが含まれています。I:基本的なCBT知識習得、複数選択問題のタスクを含む。II:認知モデル理解、認知のゆがみ分類、主要な中核信念分類、および詳細な中核信念分類のタスクを含む。III:治療的応答生成、CBTセッションにおける患者の発言への応答生成のタスクを含む。これらのタスクは、AI支援を通じて強化される可能性のあるCBTの主要な側面を網羅しており、同時に基本的な知識の暗記から実際の治療的対話への関与までの能力要件の階層構造を概説しています。私たちは、当該ベンチマークで代表的なLLMsを評価しました。実験結果は、LLMsがCBTの知識を暗記する際には優れた性能を示す一方、患者の認知構造を深く分析し効果的な応答を生成する複雑な実世界シナリオでは不十分であることを示し、今後の潜在的な課題を示唆しています。
従来のトランスフォーマーモデルは、各入力トークンに固定量の計算リソースを割り当てるため、非効率で不要な計算が発生します。この課題に対処するために、深さの混合(MoD)が導入され、重要でないレイヤーをスキップすることで計算深さを動的に調整します。その有望さにも関わらず、現在のMoDアプローチは未だ探求されており、2つの主な課題に直面しています:(1)モデル全体とスキップするレイヤーを決定するルーターをトレーニングする必要による高いトレーニングコスト、および(2)重要なレイヤーがスキップされた際の性能低下のリスク。最初の課題に対処するために、小規模データセットでルーターのみを微調整するRouter-Tuning手法を提案します。これにより、モデル全体のトレーニングに伴う計算オーバーヘッドが大幅に削減されます。2つ目の課題に対処するために、重要なレイヤーがスキップされる際にモデルの性能を保持しつつ、Attention with Dynamic Depthsを展開するMindSkip手法を提案します。この手法は、計算とメモリの効率を著しく向上させながら、モデルの性能を維持します。包括的な実験により、当社の手法が競争力のある結果を提供し、計算効率を著しく向上させることが示されました(例:21%の高速化とわずか0.2%の性能低下)。コードはhttps://github.com/CASE-Lab-UMD/Router-Tuning で公開されています。
最近の音声言語モデルの進歩により、音声のトークン化と合成において著しい改善がもたらされています。ただし、音声の複雑で多次元の属性を明確なトークンに効果的にマッピングすることは依然として困難です。このプロセスでは、正確な音声表現のために音響、意味、および文脈情報が必要とされます。既存の音声表現は一般的に、オーディオコーデックからの音響トークンと音声の自己教師あり学習モデルからの意味トークンの2つのカテゴリに分類されます。最近の取り組みでは、音響と意味のトークンを統合して性能を向上させていますが、包括的な音声モデリングにおける文脈表現の重要性を見落としています。私たちの経験的調査によると、文脈表現の欠如は音声転写において単語誤り率(WER)と単語情報損失(WIL)スコアの上昇につながります。これらの制限に対処するために、2つの新しい蒸留アプローチを提案します:(1)文脈情報を組み込む言語モデル(LM)による蒸留方法、および(2)効果的に多モーダル表現(音響、意味、および文脈)を蒸留するための組み合わせLMと自己教師あり音声モデル(SM)による蒸留技術。これらは、DM-Codecと呼ばれる包括的な音声トークナイザに蒸留されます。DM-Codecアーキテクチャは、Residual Vector Quantizer(RVQ)を備えたスムーズなエンコーダーデコーダーフレームワークを採用し、トレーニングプロセス中にLMとSMを組み込んでいます。実験結果は、DM-Codecが最先端の音声トークン化モデルを大幅に上回り、LibriSpeechベンチマークデータセットにおいてWERを最大13.46%、WILを9.82%削減し、音声品質を5.84%向上させ、理解可能性を1.85%向上させることを示しています。コード、サンプル、およびモデルのチェックポイントは、https://github.com/mubtasimahasan/DM-Codec で入手可能です。
機械学習の目標は一般化です。No Free Lunch定理は、追加の仮定なしに一般化に対する理論的な保証を得ることはできないと述べていますが、実際には、トレーニングデータを最もよく説明する単純なモデルが最も一般化されることが観察されます。これをオッカムの剃刀と呼ばれる原則としています。単純なモデルの必要性にもかかわらず、現在のほとんどの機械学習アプローチはトレーニングエラーを最小化するだけであり、最良の場合でも正則化やアーキテクチャ設計を通じて間接的に単純さを促進します。ここでは、オッカムの剃刀とインコンテキスト学習との関連性について述べます。これは、Transformerなどの特定のシーケンスモデルが、シーケンス内の過去の観測から推論時に学習するという新たな能力である。特に、インコンテキスト学習をトレーニングするために使用される次のトークン予測損失が、prequential codingと呼ばれるデータ圧縮技術と直接等価であり、この損失を最小化することは、トレーニングエラーと暗黙にコンテキストから学習されたモデルの複雑さの両方を共同で最小化することを意味します。私たちの理論とそれをサポートするために使用する経験的実験は、インコンテキスト学習の規範的な説明を提供するだけでなく、現在のインコンテキスト学習方法の欠点を明らかにし、それらが改善される方法を示唆しています。私たちはコードをhttps://github.com/3rdCore/PrequentialCodeで公開しています。
大規模言語モデル(LLM)がさまざまな産業でますます展開されるにつれて、特にユーザー入力と事実に合致しないあるいは関連性のない出力である幻覚に関する信頼性に関する懸念が高まっています。当研究では、既存研究が主に事後検出と緩和戦略に焦点を当てている既存研究の主要なギャップを解消するために、訓練プロセスと幻覚の発生との関係を調査しています。Pythiaスイートのモデル(70M-12Bパラメータ)といくつかの幻覚検出メトリクスを使用して、訓練中の幻覚の傾向を分析し、LLMの内部ダイナミクスを探求します。私たちは、幻覚を軽減するために訓練中の分散を減らすために設計された新しいトレーニングプロトコルであるSensitive Neuron Dropout(SeND)を導入します。SeNDは、データセット上で有意な変動性を持つニューロン、Sensitive Neuronsと呼ばれるニューロンを確定的にドロップすることでこれを達成します。さらに、従来のEigenScoreを2倍の速度で近似する効率的な未監督幻覚検出メトリックであるEfficient EigenScore(EES)を開発します。この効率的なメトリックは、SeNDが計算的にスケーラブルでありながら幻覚を軽減するのに効果的であるように、当プロトコルに統合されています。私たちの経験的評価は、通常のトレーニングに比べてテスト時のLLMの信頼性を最大40%向上させると同時に、Wikipediaや医療データセットなどの領域にLLMを適応させる際の事実の精度を向上させる効率的な手法を提供していることを示しています。
機械生成テキストの評価は、特に非英語の言語においては自然言語処理における重要な課題である。現在の手法は、自動評価尺度、人間による評価、LLMに基づく評価などがあり、これらは主に英語に焦点を当てており、多言語評価フレームワークにおける大きなギャップが明らかになっている。本研究では、Cross Lingual Auto Evaluation (CIA) Suiteを導入する。これは、評価者LLM(Hercule)と、多言語評価に特化した新しいテストセット(Recon)を含む拡張可能なフレームワークである。当試験セットには、さまざまなタスク能力をカバーする500の人間注釈付き指示が含まれており、さらに6つの言語にわたる人間の判断スコアも提供されている。これにより、汎用多言語LLMのベンチマークを可能にし、評価者LLMのメタ評価を容易にする。提案されたモデルであるHerculeは、英語で容易に利用可能な参照回答に基づいて応答にスコアを割り当てることを学習することで、対象言語における参照回答の不足に対処する多言語評価モデルである。実験により、Herculeが独自のモデルと比較して人間の判断とより密接に一致することが示され、このような多言語評価がリソースが限られた状況での効果を示している。さらに、未知の言語に対するゼロショット評価でも効果的であることが示されている。本研究は、LLMを用いた多言語評価の初の包括的な検討であり、多言語評価におけるスケーラブルで効果的なアプローチを提示している。すべてのコード、データセット、モデルは、この重要な分野におけるさらなる研究を可能にするために公開される予定である。