翻訳付きの日次キュレーションされたAI研究論文
コントラスティブ損失は、表現学習における強力なアプローチであり、より大きなバッチサイズは、類似および非類似のデータをよりよく区別するためにより多くの負例を提供することでパフォーマンスを向上させます。ただし、バッチサイズのスケーリングは、GPUメモリ消費量の二次的な増加によって制約されます。これは、主に類似行列の完全なインスタンス化に起因します。この問題に対処するために、我々は、コントラスティブ損失の計算を任意の小さなブロックに分割するタイルベースの計算戦略を提案します。これにより、類似行列の完全なマテリアリゼーションを回避します。さらに、分散システムの階層構造を活用するためのマルチレベルのタイリング戦略を導入し、GPUレベルでのリングベースの通信を利用して同期を最適化し、CUDAコアレベルでの統合カーネルを使用してI/Oオーバーヘッドを削減します。実験結果は、提案された手法が前例のないレベルまでバッチサイズをスケーリングすることを示しています。例えば、8個または32個のA800 80GBを使用して、バッチサイズが4Mまたは12MのCLIP-ViT-L/14モデルのコントラスティブトレーニングを可能にしますが、精度を犠牲にすることなく。SOTAのメモリ効率の高いソリューションと比較して、同等の速度を維持しながらメモリの削減率が2桁向上しています。コードは公開されます。
大規模言語モデル(LLMs)は、様々なタスクにおいて優れた性能を持つにも関わらず、生成されたコンテンツにおける非事実情報を指す幻覚に悩まされています。一方で、知識編集は、LLMsにエンコードされた誤った事実知識を修正するための新しい人気のあるパラダイムとして開発されており、ゼロからの再トレーニングを回避する利点があります。ただし、既存の知識編集の評価データセットの一般的な問題点は、編集前にLLMsが評価質問に幻覚的な回答を実際に生成しているかどうかを保証していないことです。LLMsが異なる手法によって編集された後、このようなデータセットで評価されると、異なる知識編集方法の効果を評価するためにパフォーマンスを直接採用することが難しくなります。したがって、基本的な問題は不十分に検証されたままです。知識編集は本当にLLMsにおける幻覚を修正できるのでしょうか?私たちは、HalluEditBenchを提案し、実世界の幻覚を修正するための知識編集方法を包括的に評価するためのベンチマークを提供しました。まず、9つのドメイン、26のトピック、6,000以上の幻覚を含む大規模な幻覚データセットを厳密に構築しました。その後、効果、一般化、移植性、局所性、および頑健性を含む5つの次元で、知識編集方法のパフォーマンスを包括的に評価しました。HalluEditBenchを通じて、異なる知識編集方法が幻覚を修正する際の潜在能力と制限について新たな示唆を提供し、将来の改善を促進し、知識編集分野の進歩を支援することができます。
長いコンテキストモデル(LCMs)は、100Mトークンを超える長い入力シーケンスを便利かつ効果的に処理する潜在能力を示しています。重要な進展により、最近の研究では、LCMsがコンテキスト内でトークンレベルの重要な情報を正確に特定できることが指摘されています。しかし、これらのLCMsの生成性能は十分ではなく、幻覚などの位置ずれした応答を引き起こす可能性があります。LCMsの生成能力を向上させるために、既存の研究では、事前トレーニングと指示調整の両方におけるデータサイズと品質の影響を調査してきました。意義ある改善を達成してきましたが、以前の手法は効果または効率のいずれかで不十分であることがあります。本論文では、長いコンテキストの整合性を効率的に最適化するためのトレーニング戦略であるLOGO(Long cOntext aliGnment via efficient preference Optimization)を紹介します。長いシーケンスによって引き起こされるGPUメモリに制約される問題を克服するために、LOGOはリファレンスフリーな優先度最適化戦略を採用し、位置合成法を採用してトレーニングデータを構築します。8timesA800 GPUマシンで16時間かけてわずか0.3Bのデータでトレーニングすることで、LOGOはLlama-3-8B-Instruct-80KモデルをGPT-4と実世界の長いコンテキストタスクで比較可能な性能に達成させ、他のタスク(例:言語モデリングおよびMMLU)におけるモデルの元々の能力を維持しながら、生成性能を向上させることができます。
高品質のデータの利用可能性は、LLMの推論能力を向上させる上で最も重要な要因の1つです。既存の研究では、シード質問や知識ベースからより多くの指示データを作成することの効果が示されています。最近の研究によると、強力なモデル(例:GPT-4)からのデータ合成の継続的なスケーリングアップは、推論パフォーマンスをさらに引き出すことができます。有望なものの、オープンソースコミュニティにはまだ規模の大きな高品質データと手頃なコストでスケーラブルなデータ合成方法が不足しています。この課題に対処するために、我々はScaleQuestを導入します。これは、"small-size"(例:7B)のオープンソースモデルを活用して、複雑な拡張制約を必要とせずにゼロから質問を生成するスケーラブルで革新的なデータ合成方法です。効率的なScaleQuestにより、数学的推論データセットが自動的に構築され、100万の問題解決ペアが含まれています。これらは既存のオープンソースデータセットよりも効果的です。これは、主要なオープンソースモデル(すなわち、Mistral、Llama3、DeepSeekMath、およびQwen2-Math)のパフォーマンスを普遍的に向上させ、MATHで29.2%から46.4%の利益をもたらします。特筆すべきは、単に当社のデータセットでQwen2-Math-7B-Baseモデルを微調整するだけで、クローズドソースデータ上の強力で適合したモデルであるQwen2-Math-7B-Instructをさえも上回ることができ、GPT-4-TurboやClaude-3.5 Sonnetなどのプロプライエタリモデルを凌駕することができます。
私たちは、ユーザーの創造性に応じて、2つの画像の間で滑らかに遷移するフレームを生成するために、インタラクティブなフレーム補間のためのFramerを提案します。具体的には、開始フレームと終了フレームを入力として受け取るだけでなく、選択したいくつかのキーポイントの軌道を調整することで、遷移プロセスをカスタマイズすることができるアプローチをサポートしています。この設計には2つの明確な利点があります。まず、人間の相互作用を取り入れることで、1つの画像を別の画像に変換するさまざまな可能性から生じる問題を緩和し、局所的な動きをより細かく制御することができます。第二に、最も基本的な相互作用として、キーポイントはフレーム間の対応関係を確立し、モデルが難しいケース(例:開始フレームと終了フレームのオブジェクトが異なる形状やスタイルを持つ場合)を処理できるようにします。実用上の利便性を向上させるために、システムは「オートパイロット」モードも提供しており、キーポイントを推定し軌道を自動的に調整するモジュールを導入することで、使用を簡素化しています。幅広い実験結果は、画像変形、タイムラプスビデオ生成、カートゥーン補間などのさまざまなアプリケーションにおけるFramerの魅力的なパフォーマンスを示しています。コード、モデル、およびインターフェースは、さらなる研究を促進するために公開されます。
我々は、有限でハードコードされたシステムの伝統的な境界を超える、生成モデルを使用したビデオゲームである生成的無限ゲームの概念を紹介します。James P. Carseの有限と無限のゲームの区別に触発され、生成的AIの最近の進歩を活用して、完全に生成モデルに包含されたキャラクターライフシミュレーションゲームであるUnboundedを作成します。具体的には、Unboundedはサンドボックス型ライフシミュレーションからインスピレーションを受け、LLMによって生成されるオープンエンドのメカニクスにより、仮想世界で自律的な仮想キャラクターとやり取りし、養ったり遊んだり、導いたりすることができます。Unboundedの開発のために、LLMと視覚生成の両分野で技術革新を提案します。具体的には、(1)リアルタイムでゲームメカニクス、物語、およびキャラクターの相互作用を動的に生成する専門化された蒸留された大規模言語モデル(LLM)、および(2)複数の環境でのキャラクターの一貫したかつ柔軟な視覚生成を確保する新しい動的地域画像プロンプトアダプター(IP-アダプター)を提示します。我々は、定性的および定量的な分析を通じてシステムを評価し、従来の関連手法と比較して、キャラクターライフシミュレーション、ユーザーの指示に従った行動、物語の一貫性、およびキャラクターや環境の視覚的一貫性において、著しい改善を示しています。
複雑なチャートのQ&Aタスクを解決するには、マルチモーダル大規模言語モデル(MLLMs)における高度な視覚推論能力が必要です。最近の研究では、これらの能力が主に2つの部分で構成されていることが強調されています:視覚的入力から主要情報を認識し、それに対して推論を行うことです。したがって、MLLMsを強化する有望なアプローチは、これら2つの側面に焦点を当てた関連するトレーニングデータを構築することです。ただし、複雑なチャートや質問を収集および注釈付けすることは費用と時間がかかり、注釈付き回答の品質を確保することは依然として課題です。本論文では、Code-as-Intermediary Translation(CIT)という、視覚推論能力をLLMsからMLLMsに蒸留するための費用対効果の高い、効率的で容易にスケーラブルなデータ合成方法を提案します。コードは、視覚的なチャート表現をテキスト表現に変換する中間体として機能し、LLMsがクロスモーダル情報を理解するのを可能にします。具体的には、テキストベースの合成技術を用いてチャートプロットのコードを構築し、認識と推論能力の両方を向上させるために、3,000の推論集中型チャートと20,000のQ&Aペアを含むReachQAというデータセットを生成します。実験の結果、当該データでファインチューニングされたモデルは、チャート関連のベンチマークで優れたパフォーマンスを示すだけでなく、MathVistaのような一般的な数学的ベンチマークで改善されたマルチモーダル推論能力を示すことが示されました。コードとデータセットは、https://github.com/hewei2001/ReachQA で公開されています。
このレポートでは、LLMの報酬モデリングを向上させるための手法のコレクションを紹介し、特にデータ中心のテクニックに焦点を当てています。高品質のオープンソースの選好データセットをキュレーションするための効果的なデータ選択とフィルタリング戦略を提案し、80Kの選好ペアのみを含むSkywork-Rewardデータコレクションを作成しました。このキュレーションされたデータセットを使用して、Skywork-RewardモデルシリーズであるSkywork-Reward-Gemma-27BとSkywork-Reward-Llama-3.1-8Bを開発しました。前者は現在、RewardBenchのリーダーボードでトップの位置を占めています。特筆すべきは、当社の手法とデータセットがRewardBench上で多くのトップランクモデルのパフォーマンスを直接向上させたことであり、現実世界の選好学習アプリケーションにおける当社の貢献の実用的な影響を強調しています。
大規模言語モデル(LLMs)は、そのパラメータに膨大な事実知識を格納することができます。しかし、そのパラメータ知識は文脈で提供される情報と矛盾する可能性があります。この現象はコンテキストメモリ知識の衝突として知られており、古い情報や誤った情報への依存など、望ましくないモデルの振る舞いにつながる可能性があります。LLMsの内部活性を分析すると、中間層で知識の衝突の信号を内部的に登録できることがわかります。このような信号により、知識の衝突が発生しているかどうかを検出し、推論時の介入戦略を使用して解決することができます。本研究では、事前学習された疎なオートエンコーダ(SAEs)を使用してLLMsの知識選択挙動を制御するトレーニングフリーの表現エンジニアリング手法であるSpAREを提案しています。SpAREは、知識選択挙動を制御する機能的特徴を特定し、それらを適用して推論時にLLMsの内部活性を編集します。実験結果によると、SpAREはオープンドメインの質問応答タスクにおいて知識の衝突を解決するためにどちらの知識ソースの使用を効果的に制御でき、既存の表現エンジニアリング手法(+10%)やコントラストデコーディング手法(+15%)を上回ることが示されました。
分散トレーニングと効率的な注意機構の進歩により、大規模言語モデル(LLMs)のコンテキストウィンドウサイズが大幅に拡大しました。しかし、最近の研究では、オープンソースのLLMsの有効なコンテキスト長がしばしば不十分であり、通常はトレーニング長の半分を超えることはありません。本研究では、LLMsの事前トレーニングおよび事後トレーニング段階で形成される相対位置の左偏った頻度分布が、遠くの情報を効果的に収集する能力を妨げていると考えています。この課題に対処するために、ShifTed Rotray位置埋め込み(STRING)を導入します。STRINGは、トレーニングされた位置をシフトさせ、推論中に元の効果のない位置を上書きして、既存のトレーニング長内でパフォーマンスを向上させます。実験結果によると、追加のトレーニングなしでSTRINGは、Llama3.1 70BやQwen2 72Bなどの最新の大規模モデルのパフォーマンスを飛躍的に向上させ、人気のある長いコンテキストのベンチマークであるRULERやInfiniteBenchで10ポイント以上の成績を収め、オープンソースのLLMsの最新の最先端の結果を確立します。商用モデルと比較して、\methodを使用したLlama 3.1 70Bは、GPT-4-128Kよりも優れたパフォーマンスを達成し、明らかにClaude 2やKimi-chatを凌駕しています。
自然言語処理(NLP)において、効率的な長いコンテキストの言語モデリングは依然として重要な課題です。Transformerは言語タスクで優れていますが、トレーニング中の二次計算量と推論時の線形スケーリングメモリコストにより、長いシーケンスに苦労しています。最近のState Space Models(SSMs)としてMambaなどがあり、定数のメモリ使用量を提供しますが、コンテキスト内の広範な検索が必要なタスクでは性能が低いです。私たちは、Mamba-2とSelective Attention Layers(SALs)を組み合わせた新しいハイブリッドアーキテクチャ、Taipanを提案します。これらのSALsは、長距離の相互作用が必要なトークンを特定し、重要でない特徴を削除し、その後アテンションモジュールを使用して表現を拡張します。このアプローチは、Mambaの効率性とTransformerのようなメモリ集約型タスクでのパフォーマンスをバランスさせます。アテンション予算を制約することで、Taipanは計算効率を保ちつつ、最大100万トークンまでのコンテキスト長で正確な予測を拡張します。私たちの実験は、さまざまなスケールやタスクでTaipanの優れたパフォーマンスを示し、効率的な長いコンテキストの言語モデリングに向けた有望な解決策を提供しています。
ビデオ内のオブジェクトをセグメンテーションすることは、重要な課題を提起します。各ピクセルは正確にラベル付けされなければならず、これらのラベルはフレーム間で一貫していなければなりません。セグメンテーションが任意の粒度で行われる場合、つまりセグメントの数が任意に変化し、マスクが1つまたは数枚のサンプル画像に基づいて定義される場合、難易度は増します。本論文では、事前に訓練されたテキストから画像への拡散モデルに追加のトラッキングメカニズムを組み合わせることで、この問題に取り組みます。我々の手法が様々なセグメンテーションシナリオを効果的に管理し、最先端の代替手法を凌駕することを示します。
この研究は、人間の動作生成のインタラクティブな編集の問題に焦点を当てています。従来の動作拡散モデルは、単語レベルのテキスト-動作対応の明示的なモデリングや良好な説明可能性が欠けており、そのため微細な編集能力が制限されていました。この問題に対処するために、我々はMotionCLRと呼ばれるアテンションベースの動作拡散モデルを提案します。MotionCLRは、アテンションメカニズムをCLeaRにモデリングすることで、モダリティ内およびモダリティ間の相互作用をそれぞれ自己アテンションと交差アテンションでモデル化しています。具体的には、自己アテンションメカニズムはフレーム間の順序の類似性を測定し、動作特徴の順序に影響を与えます。これに対して、交差アテンションメカニズムは、微細な単語列の対応関係を見つけ、動作シーケンス内の対応するタイムステップを活性化します。これらの主要な特性に基づいて、アテンションマップを操作することで、動作の強調や弱調、その場での動作置換、例に基づいた動作生成など、シンプルで効果的な動作編集手法の多目的なセットを開発しています。さらに、アテンションメカニズムの説明可能性をさらに検証するために、アクションのカウントやアテンションマップを介した基盤となる動作生成能力の可能性を探求しています。実験結果は、我々の手法が優れた生成および編集能力を持ち、良好な説明可能性を享受していることを示しています。
Web開発は、UIデザインを機能的なWebページに変換することを含みます。これは、HTMLの階層構造とスタイルの複雑さにより、初心者から経験豊富な開発者までにとって困難な場合があります。大規模言語モデル(LLMs)は、ソースコードの生成において有望性を示していますが、UIからHTMLコードへの変換には2つの主要な課題が残っています。それは、(1)LLMsにとってHTMLの階層構造を効果的に表現すること、および(2)UIデザインの視覚的性質とHTMLコードのテキストベースの形式との間のギャップを埋めることです。これらの課題に取り組むために、私たちはWaffleを導入します。Waffleは、新しいファインチューニング戦略であり、構造を認識する注意メカニズムを使用してLLMsがHTMLの構造を理解する能力を向上させ、UI画像とHTMLコードの理解を整合させるための対照的なファインチューニングアプローチを採用しています。Waffleでファインチューニングされたモデルは、当社の新しいベンチマークWebSight-Testおよび既存のベンチマークDesign2Codeにおいて、最大9.00 pp(パーセンテージポイント)のHTML一致率、0.0982の高いCW-SSIM、32.99の高いCLIP、および27.12 ppの高いLLEMを示し、現行のファインチューニング手法を凌駕しています。
近年、さまざまな視覚的推論および理解タスクを実行できる大規模多モーダルモデル(LMMs)の開発に大きな関心が寄せられています。これにより、複数のLMMベンチマークが導入され、異なるタスクでLMMを評価するために使用されています。ただし、既存のほとんどのLMM評価ベンチマークは主に英語中心です。本研究では、アラビア語の大きな話者人口(4億人以上)を代表するために、包括的なLMM評価ベンチマークであるCAMEL-Benchを開発しました。提案されたベンチマークは、マルチ画像理解、複雑な視覚認識、手書き文書理解、ビデオ理解、医用画像、植物疾患、およびリモートセンシングに基づく土地利用理解など、8つの異なるドメインと38のサブドメインを含んでおり、幅広いシナリオの汎用性を評価します。CAMEL-Benchには、約29,036の質問が含まれており、より大きなサンプルプールからフィルタリングされています。質はネイティブスピーカーによって手動で検証され、信頼性のあるモデル評価が確保されています。私たちは、GPT-4シリーズを含むクローズドソースおよびオープンソースのLMMの評価を行っています。分析の結果、特に最高のオープンソースモデルの改善が必要であり、クローズドソースのGPT-4oでさえ全体スコアが62%に達しています。私たちのベンチマークと評価スクリプトはオープンソースで提供されています。
大規模言語モデル(LLMs)はしばしば幻覚を見せ、提供されたコンテキストを誤解したり、内部の知識を誤って思い出したりして、忠実でない、あるいは事実と異なる出力を生成します。最近の研究では、Transformerアーキテクチャ内の特定の注意ヘッド、リトリーバルヘッドとして知られるものが、関連するコンテキスト情報を抽出する責任があることが特定されています。私たちは、これらのリトリーバルヘッドをマスキングすることで幻覚を誘発し、基本的なLLMとマスクされたLLMの出力を対照することで幻覚を軽減できると仮説立てます。このために、コントラストリトリーバルヘッドによるデコーディング(DeCoRe)という、新しいトレーニングフリーのデコーディング戦略を提案します。DeCoReは、コンテキストとモデルパラメータで見つかった情報を増幅します。DeCoReは、条件付きエントロピーをガイドとして使用し、基本的なLLMとマスクされたLLMの出力を動的に対照することで、潜在的な幻覚的な応答を緩和します。私たちの幅広い実験は、DeCoReが要求される高いコンテキストの忠実さが必要なタスクにおいて、性能を大幅に向上させることを確認しています。これには、要約(XSumで18.6%)、指示に従うこと(MemoTrapで10.9%)、オープンブック型の質問応答(NQ-Openで2.4%、NQ-Swapで5.5%)などが含まれます。
私たちは、新しい2段階ハイブリッドフィルタリングパイプラインを使用して開発された中国語コーパスインターネット3.0(CCI3.0)の高品質な500GBサブセットであるCCI3.0-HQ(https://huggingface.co/datasets/BAAI/CCI3-HQ)を提供します。効果を評価するために、様々なデータセット全体で100Bトークンを用いてゼロショット設定で0.5Bパラメータモデルをゼロからトレーニングし、CCI3.0、SkyPile、WanjuanV1に比べて10のベンチマークで優れたパフォーマンスを達成しました。高品質なフィルタリングプロセスは、Qwen2-72B-instructモデルの機能を効果的に0.5Bモデルに凝縮し、中国語ウェブデータ分類のための最適なF1スコアを達成しました。このオープンアクセスのデータセットは、高品質な言語モデルへのより広範なアクセスを促進すると考えています。
拡散モデルは、ノイズ除去の反復的な性質に起因して生成速度が遅くなるという欠点がありますが、優れた生成品質を実現します。一方、一貫性モデルという新しい生成ファミリーは、著しく高速なサンプリングを実現しつつ競争力のあるパフォーマンスを発揮します。これらのモデルは、事前に訓練された拡散モデルを活用する一貫性蒸留、または生データから直接一貫性トレーニング/調整を行うことで訓練されます。本研究では、拡散モデルのノイズ除去プロセスをマルコフ決定過程(MDP)としてモデリングし、一貫性モデルのトレーニングを時間差分学習を介した価値推定としてフレーム化する新しいフレームワークを提案します。さらに、このフレームワークにより、現在の一貫性トレーニング/調整戦略の限界を分析することが可能となります。Easy Consistency Tuning(ECT)を基盤として、スコア同一性を用いた分散低減学習を組み込んだStable Consistency Tuning(SCT)を提案します。SCTは、CIFAR-10やImageNet-64などのベンチマークで著しいパフォーマンス向上をもたらします。ImageNet-64では、SCTが1ステップFID 2.42および2ステップFID 1.55を達成し、一貫性モデルにおいて新たな最先端技術を実現します。
現在の画像透かし付け方法は、大規模なテキストから画像へのモデルによって可能にされる高度な画像編集技術に脆弱です。これらのモデルは、編集中に埋め込まれた透かしを歪ませることができ、著作権保護における重要な課題を提起しています。本研究では、画像再生、グローバル編集、ローカル編集、画像から動画生成など、幅広い画像編集技術に対する透かし付け方法の頑健性を評価するために設計された初の包括的なベンチマークであるW-Benchを紹介します。11種類の代表的な透かし付け方法を主要な編集技術に対して評価した結果、ほとんどの方法がそのような編集後に透かしを検出できないことを示しました。この制限に対処するために、画像品質を高く保ちながら、さまざまな画像編集技術に対する頑健性を大幅に向上させる透かし付け方法であるVINEを提案します。当社のアプローチには、2つの主要な革新があります。まず、画像編集の周波数特性を分析し、ぼかし歪みが類似した周波数特性を示すことを特定し、これを訓練中に代替攻撃として使用して透かしの頑健性を強化します。次に、大規模な事前学習済み拡散モデルSDXL-Turboを活用し、透かし付けタスクに適応させて、より目に見えない透かしの埋め込みを実現します。実験結果は、当社の手法がさまざまな画像編集技術において優れた透かし付け性能を達成し、画像品質と頑健性の両方で既存の方法を凌駕していることを示しています。コードはhttps://github.com/Shilin-LU/VINEで入手可能です。
Transformerは、自己注意を使用して長距離の依存関係を捉えることができ、トークンが直接他のすべてに注意を払うことができます。ただし、複数の注意層を積み重ねると、注意の集中が生じます。この問題に対処する自然な方法の1つは、クロスレイヤーの注意を使用することで、初期のレイヤーからの情報を後のレイヤーが直接アクセスできるようにすることです。ただし、このアプローチは計算コストが高いです。この問題に対処するために、私たちはResidual Value(ResFormer)を提案します。これは、最初のレイヤーの値からすべての後続のレイヤーへの残差接続を追加することで、クロスレイヤーの注意を近似します。この手法に基づいて、1つの変種として、最初のレイヤーからすべてのレイヤーが同じ値の埋め込みを共有するTransformer with single layer value(SVFormer)があります。これにより、KVキャッシュをほぼ50%削減できます。包括的な実証的証拠によると、ResFormerはより深いレイヤーにおける注意の集中問題を軽減し、ほとんどのレイヤーで表現を向上させ、トレーニングエラーや下流タスクにおいて、通常のTransformer、DenseFormer、NeuTRENOを上回ります。SVFormerは、通常のTransformerよりもトレーニングがはるかに速く、GQAやCLAなどの他の手法よりも優れたパフォーマンスを発揮し、シーケンス長や累積学習率によってパフォーマンスが影響を受けます。
最近の多様な融合技術の進展により、視覚言語(VL)モデルが目覚ましい成功を収め、画像キャプショニングや視覚的質問応答などのさまざまな多様なアプリケーションで優れた成績を収めています。ただし、VLモデルの構築には相当なハードウェアリソースが必要であり、効率は2つの主要要因によって制限されます。言語モデルと視覚特徴の拡張された入力シーケンスはより多くの計算操作を要求し、多数の追加の学習可能なパラメータはメモリの複雑さを増加させます。これらの課題は、このようなモデルの広範な適用を著しく制限しています。このギャップを埋めるために、我々はADEM-VLを提案します。これは、事前学習された大規模言語モデル(LLMs)に基づいてVLモデルを調整する効率的な視覚言語手法であり、マルチモーダル融合における類似性測定のためにパラメータフリーのクロスアテンションメカニズムを採用しています。このアプローチでは、視覚特徴を言語空間に埋め込むだけであり、学習可能なパラメータの数を大幅に削減し、トレーニングと推論の両方のスピードを加速します。融合モジュールにおける表現学習を向上させるために、効率的なマルチスケール特徴生成スキームを導入し、ビジョンエンコーダを通じての単一の順方向パスのみが必要です。さらに、各テキストトークンに基づいて注意スコアに応じて動的により関連性の低い視覚情報を破棄する適応型融合スキームを提案します。これにより、融合プロセスが最も適切な視覚的特徴を優先することが保証されます。視覚的質問応答、画像キャプショニング、指示に従うなどのさまざまなタスクでの実験を通じて、既存の手法を上回ることを示します。具体的には、ScienceQAデータセットにおいて平均精度が0.77%向上し、トレーニングと推論の遅延が軽減されたことで、我々のフレームワークの優位性が示されました。コードはhttps://github.com/Hao840/ADEM-VL で入手可能です。
大規模言語モデル(LLMs)は、言語モデリングと数値計算の間の固有の違いにより、算術学習に苦労すると考えられていますが、具体的な証拠が不足していました。本研究は、この主張に対応するために、両側からの実験を通じて行われました。まず、LLMsが算術学習中に部分積を活用しているかどうかを調査しました。LLMsは学習後に一部の部分積を特定できることがわかりましたが、逆にそれらを算術タスクに活用することができないことがわかりました。次に、LLMsが算術にどのように象徴的にアプローチするかを探求し、タスクをサブグループに分割することで、サブグループの複雑さと選択から困難が生じるという仮説を立てました。結果からは、サブグループの複雑さが一定の場合、LLMsは異なる算術演算の集合を同様に扱うことがわかりました。さらに、異なるトレーニングサイズにわたる位置レベルの精度を分析することで、U字型のパターンに従うことを確認しました。LLMsは最初と最後の位置で最も簡単なパターンを迅速に学習し、途中の位置でより難しいパターンを徐々に学習しています。これは、LLMsが学習中に易しいものから難しいものへとサブグループを選択していることを示唆しています。本研究は、LLMsが算術タスクにおいて純粋な象徴的学習者であり、サブグループレベルの数量化を通じて深く理解することの重要性を強調しています。
モデル編集は、言語モデル内の知識を効率的に更新するための人気のある代替手段となっています。現在の手法は、信頼性、汎化、局所性に焦点を当てており、これらの基準を満たす多くの手法が存在しています。最近の研究では、これらの編集手法の欠点、例えば知識の歪みや衝突が明らかにされています。しかし、編集後の言語モデルの一般的な能力については未だに探究されていません。本論文では、さまざまな編集手法と異なる言語モデルについて包括的な評価を行い、以下の結果を得ました。 (1) 既存の編集手法は、一般的なベンチマークで避けられない性能の低下をもたらし、既存の編集手法はモデルの一般的な能力を数十の編集に限定していることを示しています。編集回数がわずかに多い場合、モデルの固有の知識構造が乱れたり、完全に破損したりします。 (2) 指示に調整されたモデルは、編集に対してより堅牢であり、編集後の一般的な知識に対する性能低下が少ないことが示されています。 (3) 大規模な言語モデルは、小さなモデルと比較して編集に対してより抵抗力があります。 (4) 編集されたモデルの安全性は、安全性に配慮されたモデルであっても著しく弱まります。私たちの調査結果は、現在の編集手法が言語モデル内の小規模な知識更新にのみ適していることを示しており、より実用的で信頼性の高い編集手法に関するさらなる研究を促しています。コードの詳細や再現性については、https://github.com/lqinfdim/EditingEvaluation で確認できます。
本論文では、生成AIの分野におけるTransformerモデル[33]のいくつかの主要なコンポーネントに対する数学的問題の定式化と確率的最適化の探求について、詳細な分析を行います。我々は、アルゴリズムと確率的最適化の観点から、生成AIモデルのいくつかの主要な基盤技術に対する現行の最先端手法のさらなる強化を探求し、議論します。特に、訓練データの尤度を最大化するために、バイトペアエンコーディング(BPE)アルゴリズム[9]の初期設定と同様の初期設定に基づいたサブワードエンコーディング(SWE)の最適解を提案します。また、word2vecモデル[17]のハイパーパラメータを最適化するための交差エントロピー最適化手法を提案します。さらに、rotary positional encoding(RoPE)[32]とattention with linear biases(ALiBi)[23]を調和級数で因数分解した組み合わせを提案します。また、自己回帰言語モデルのテンソルの下三角形の形状を維持しながら、確率的FlashAttention [6, 7](PrFlashAttention)メソッドを提案し、テンソルを再形成することで、与えられたラウンドの注意計算に参加する可能性のあるブロックを決定するための行列上のブロック間の確率分布を使用します。最後に、[16]で提示されたフレームワークに基づく、適切なモデル品質とコスト削減を達成しながら、漸進的な量子化劣化を持つマルチクエリアテンション(MQA)用のキー値(KV)キャッシュの階段状適応量子化(SAQ)を提案します。
RLHFにおける主流のパラダイムは、オンラインかつオンポリシーのRLです:大規模言語モデル(LLM)ポリシーから同期的に生成し、報酬モデルでラベリングし、LLM自体の出力にフィードバックを用いて学習します。このパラダイムは性能が高いですが、計算効率が悪いです。古典的な深層RL文献に触発され、RLHFにおける生成と学習を分離することを提案します。これにより、新しいサンプルを非同期的に生成しながら古いサンプルで同時にトレーニングできるため、より速いトレーニングとより計算効率の良いスケーリングが可能となります。ただし、非同期トレーニングは未探索の領域であり、オンラインですがオフポリシーのRLHFに依存しています:前回のモデルのイテレーションからのサンプルで学習します。この領域における課題を理解するために、基本的な問いに取り組みます:非同期トレーニングで学習を加速させつつ性能を維持するために、どれだけのオフポリシー性を許容できるでしょうか?私たちがテストした複数のRLHFアルゴリズムの中で、オンラインDPOがオフポリシーデータに最も強く、その頑健性はポリシーモデルのスケールとともに増加することを見つけました。非同期RLHFのさらなる計算最適化を検討しましたが、パフォーマンスのコストがかかることがわかり、トレードオフが生じます。最後に、非同期RLHFのスケーラビリティを検証し、同期実行と最終パフォーマンスを一致させながら、指示に従うタスクでLLaMA 3.1 8Bを40%速くトレーニングできることを確認しました。
データのスケーリングは、自然言語処理やコンピュータビジョンなどの分野に革命をもたらし、モデルに顕著な汎化能力を提供しています。本論文では、特にロボティクス、特にロボティックマニピュレーションにおいて同様のデータスケーリング則が存在するかどうか、適切なデータスケーリングが、同じカテゴリ内の任意のオブジェクトに対してゼロショットで展開可能な単一タスクロボットポリシーを生み出すことができるかを調査します。このため、模倣学習におけるデータスケーリングに関する包括的な実証的研究を行います。多くの環境とオブジェクトでデータを収集することで、トレーニング環境、オブジェクト、デモンストレーションの数が変化するにつれてポリシーの汎化性能がどのように変化するかを調査します。研究全体で、厳密な評価プロトコルの下で、4万回以上のデモンストレーションを収集し、1万5000回以上の実世界のロボット展開を実行します。我々の調査からいくつかの興味深い結果が明らかになりました。ポリシーの汎化性能は、環境とオブジェクトの数とほぼべき乗則の関係に従います。環境とオブジェクトの多様性が、デモンストレーションの絶対数よりもはるかに重要であることがわかりました。環境またはオブジェクトごとのデモンストレーション数が一定の閾値に達すると、追加のデモンストレーションはほとんど効果がありません。これらの知見に基づいて、効率的なデータ収集戦略を提案します。1つの午後に4人のデータ収集者が作業することで、未知のオブジェクトを持つ新しい環境で、2つのタスクのポリシーが約90%の成功率を達成するために十分なデータを収集します。
データ選択は、特定のタスクにおける言語モデル(LM)のパフォーマンスを最適化する上で重要ですが、ほとんどの既存の手法は対象タスクの分布を効果的に考慮していません。 現在のアプローチは、対象タスク固有の要件を完全に無視するか、Autoformalizationやコード生成などのタスクに必要な微妙なパターンを捉えるのに必要な近似を依存することがあります。 対象分布を考慮する手法は、しばしばハッシュ化されたn-gram特徴などの単純で時にノイズの多い表現に依存しており、衝突を引き起こしたりノイズを導入する可能性があります。 私たちは、ZIP-FITというデータ選択フレームワークを導入します。このフレームワークは、gzip圧縮を使用して潜在的なトレーニングデータと対象タスク分布との整合性を直接測定します。 AutoformalizationやPythonコード生成における幅広い評価によると、ZIP-FITはDSIRやD4などの主要なベースラインよりも優れたパフォーマンスを発揮します。 ZIP-FITで選択されたデータでトレーニングされたモデルは、ベースラインよりも最大85.1%速く最も低い交差エントロピー損失を達成し、より効率的な学習が可能であることを示しています。 さらに、ZIP-FITはDSIRよりも最大65.8%速く選択を行い、D4よりも2桁速いです。 特筆すべきは、ZIP-FITが、より小さなが、よりターゲットに合ったデータセットがしばしば、より大きなが、よりターゲットに合わないデータセットよりも優れていることを示しており、少量の高品質データが大量の低品質データよりも優れていることを実証しています。 私たちの結果は、効率的なドメイン適応においてタスクに注意したデータ選択が重要であり、圧縮がタスクの整合性を測定するための原則的な方法を提供していることを示唆しています。 ターゲットされたデータ選択がタスク固有のパフォーマンスを劇的に向上させることを示すことで、私たちの研究はデータ品質、タスクの整合性、およびモデルの学習効率の関係に新たな示唆を提供しています。
複数のドラフトモデルから独立して提案シーケンスがサンプリングされる多段階の仮説サンプリングを考えます。各ステップで、トークンレベルのドラフト選択スキームが有効なトークンのリストを入力として受け取り、出力トークンを生成します。この出力トークンの分布は、対象モデルの分布と一致します。以前の研究では、最適なスキーム(入力トークンのいずれかを受け入れる確率を最大化するもの)は、線形計画問題の解として表現できることが示されています。本研究では、最適なスキームを2段階の解に分解できることを示します。最初のステップでは、重要度サンプリング(IS)型スキームが使用されて1つの中間トークンが選択され、次に(単一ドラフトの)仮説サンプリングが適用されて出力トークンが生成されます。2つの同一のドラフトモデルの場合には、さらに以下のことを行います:1)対象モデルとドラフトモデルの分布について受容確率が1と等しくなるための必要かつ十分条件を確立し、2)最適な受容確率の明示的な表現を提供します。理論的な分析は、重み付き重要度サンプリングに基づく新しいクラスのトークンレベル選択スキームを促進します。実験結果は、多くのシナリオでベースラインスキームに比べて達成可能なブロック効率とトークンレートの一貫した改善を示しています。
機械支援定理証明は、数学の定理の証明を自動的に生成するための構造化された推論を行うプロセスを指します。最近、機械学習モデルを証明支援ツールと組み合わせてこのタスクを実行するために興味が高まっています。本論文では、Lean 4証明支援ツールと効率的な証明探索を可能にするMonte Carlo Tree Searchなどの強力な探索アルゴリズムを介して、多目的インターフェースを提供するツール、Pantographを紹介します。さらに、PantographはLean 4の推論ステップをより堅牢に処理することで、高レベルの推論を可能にします。Pantographのアーキテクチャと機能について概要を提供します。また、機械学習モデルと証明スケッチを使用してLean 4の定理を証明する具体的なユースケースについて報告します。Pantographの革新的な機能は、より高度な機械学習モデルが複雑な証明探索や高レベルの推論を実行し、将来の研究者がより多目的かつ強力な定理証明器を設計するための道を開くものです。