翻訳付きの日次キュレーションされたAI研究論文
私たちは、コード特化タスクにおいてGPT4-Turboに匹敵する性能を発揮するオープンソースのMixture-of-Experts(MoE)コード言語モデル、DeepSeek-Coder-V2を発表します。具体的には、DeepSeek-Coder-V2はDeepSeek-V2の中間チェックポイントからさらに6兆トークンを追加で事前学習しています。この継続的な事前学習を通じて、DeepSeek-Coder-V2はDeepSeek-V2のコーディング能力と数学的推論能力を大幅に向上させながら、一般的な言語タスクにおいても同等の性能を維持しています。DeepSeek-Coder-33Bと比較して、DeepSeek-Coder-V2はコード関連タスクのさまざまな側面、および推論能力と一般的な能力において大きな進歩を示しています。さらに、DeepSeek-Coder-V2はサポートするプログラミング言語を86から338に拡大し、コンテキスト長を16Kから128Kに延長しています。標準的なベンチマーク評価では、DeepSeek-Coder-V2はGPT4-Turbo、Claude 3 Opus、Gemini 1.5 Proといったクローズドソースモデルをコーディングおよび数学のベンチマークで上回る性能を達成しています。
360度画像における深度の正確な推定は、仮想現実、自律ナビゲーション、没入型メディアアプリケーションにとって極めて重要です。既存の遠近法画像向けに設計された深度推定手法は、異なるカメラ投影と歪みのため360度画像に適用すると失敗します。一方、360度画像向けの手法はラベル付きデータペアの不足により性能が劣ります。本研究では、ラベルなし360度データを効果的に活用する新しい深度推定フレームワークを提案します。私たちのアプローチでは、最先端の遠近法深度推定モデルを教師モデルとして使用し、六面体立方体投影技術を通じて擬似ラベルを生成することで、360度画像の深度ラベル付けを効率的に行います。この手法は、大規模データセットの増加を活用します。私たちのアプローチは、無効領域のオフラインマスク生成と、オンライン半教師あり共同トレーニング体制の2つの主要な段階を含みます。Matterport3DやStanford2D3Dなどのベンチマークデータセットでこのアプローチをテストし、特にゼロショットシナリオにおいて深度推定精度の大幅な向上を示しました。提案するトレーニングパイプラインは、任意の360度単眼深度推定器を強化でき、異なるカメラ投影とデータタイプ間での効果的な知識転移を実証します。結果についてはプロジェクトページをご覧ください: https://albert100121.github.io/Depth-Anywhere/
大規模言語モデル(LLM)における人間との整合性(Human Alignment)は、現在活発に研究されている分野です。最近の画期的な研究である直接選好最適化(Direct Preference Optimization, DPO)は、人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)における報酬学習の段階を省略することで、従来のプロセスを大幅に簡素化しました。DPOは、学習後に暗黙的な報酬モデルを提供します。本研究では、この暗黙的な報酬モデル自体をブートストラップ方式で使用し、LLMの整合性をさらに向上させることができるという新たな観察を行いました。私たちのアプローチは、現在のLLMモデルから得られた報酬を使用して選好データセットを構築し、それを後のDPOラウンドで使用するというものです。また、応答の長さに起因するバイアスを除去し、選好データセットの品質を向上させるための改良を加えることで、アプローチをさらに改善しました。私たちのアプローチは、DPOの暗黙的報酬を用いた自己整合(Self-Alignment with DPO ImpliCit rEwards, DICE)と名付けられ、整合性の大幅な向上を示し、AlpacaEval 2においてGemini Proを上回る性能を達成しました。GPT-4 Turboに対する長さ制御付き勝率は27.55%に達し、わずか80億パラメータで外部フィードバックなしにこれを実現しました。コードはhttps://github.com/sail-sg/diceで公開されています。
大規模言語・視覚モデル(LLVM)は、大規模言語モデル(LLM)の汎化能力と視覚的指示チューニングの登場によって推進されてきました。これらのモデルを直接スケールアップすることに加え、自然言語指示を通じて多様なタスクをカバーすることで、LLVMは強力な視覚言語(VL)性能を発揮します。しかし、GPT-4VのようなクローズドソースのLLVMに匹敵する性能を持つ既存のオープンソースLLVMは、しばしば大きすぎると見なされています(例:26B、34B、110Bパラメータ)。これらの大規模モデルは、トレーニングと推論の両方において、高価でハイエンドなリソースを必要とします。この問題に対処するため、我々は1.8B、3.8B、7BのLLMモデルサイズを持つ新しい効率的なLLVMファミリー、Traversal of Layers(TroL)を提案します。TroLは、トークンレベルで層を再利用することを可能にします。この層トラバース技術は、物理的に層を追加することなく、前方伝播層の数を増やしながら、回答ストリームを振り返り再追跡する効果をシミュレートします。我々は、TroLがシンプルな層トラバースアプローチを採用しながらも、より大規模なモデルサイズのオープンソースLLVMを効率的に上回り、実質的なサイズのクローズドソースLLVMの性能に匹敵することを実証します。
私たちは、ChatGLMという進化し続ける大規模言語モデルファミリーを紹介します。本レポートでは主に、GLM-4言語シリーズ(GLM-4、GLM-4-Air、GLM-4-9B)に焦点を当てます。これらは、過去3世代のChatGLMから得られた知見と教訓を全て取り入れてトレーニングされた、私たちの最も優れたモデルです。現在までに、GLM-4モデルは主に中国語と英語の10兆トークンに加え、24言語の小規模なコーパスで事前学習され、主に中国語と英語の使用に合わせて調整されています。この高品質な調整は、教師あり微調整と人間のフィードバックからの学習を含む多段階のポストトレーニングプロセスによって実現されています。評価結果によると、GLM-4は1) MMLU、GSM8K、MATH、BBH、GPQA、HumanEvalなどの一般的な指標においてGPT-4に匹敵またはそれを上回り、2) IFEvalで測定された指示追従においてGPT-4-Turboに近づき、3) 長文コンテキストタスクにおいてGPT-4 Turbo(128K)およびClaude 3と同等であり、4) AlignBenchで測定された中国語の調整においてGPT-4を上回ります。GLM-4 All Toolsモデルはさらに、ユーザーの意図を理解し、ウェブブラウザ、Pythonインタプリタ、テキストから画像へのモデル、ユーザー定義関数などのツールをいつどのように使用するかを自律的に決定するように調整されており、複雑なタスクを効果的に完了します。実際のアプリケーションでは、ウェブブラウジングによるオンライン情報へのアクセスやPythonインタプリタを使用した数学問題の解決などのタスクにおいて、GPT-4 All Toolsに匹敵し、それを上回ることもあります。これまでに、ChatGLM-6B(3世代)、GLM-4-9B(128K、1M)、GLM-4V-9B、WebGLM、CodeGeeXなどの一連のモデルをオープンソース化し、2023年だけでHugging Faceで1000万回以上のダウンロードを集めました。オープンモデルは、https://github.com/THUDM および https://huggingface.co/THUDM からアクセスできます。
Vision-Language Models(VLM)は、様々なマルチモーダルタスクで顕著な成功を収めていますが、高解像度の画像入力やビデオを処理する際の限られたコンテキストウィンドウと高い計算コストによってしばしばボトルネックとなっています。視覚圧縮は、視覚トークンの数を減らすことでこの問題を緩和することができます。従来のアプローチでは、外部モジュールを使用して視覚トークンを圧縮し、LLMに圧縮されたトークンを理解させることで、視覚情報の損失を引き起こしていました。しかし、LLMの視覚トークン理解パラダイムは、圧縮学習プロセスで十分に活用されていませんでした。我々は、LLMを使用して視覚トークンを圧縮する最初のアプローチであるVoCo-LLaMAを提案します。視覚指示チューニングフェーズでVision Compressionトークンを導入し、アテンションディスティレーションを活用することで、LLMが視覚トークンを理解する方法をVoCoトークンの処理に蒸留します。VoCo-LLaMAは、効果的な視覚圧縮を促進し、推論段階での計算効率を向上させます。具体的には、我々の方法は576倍の圧縮率で最小限の性能損失を達成し、FLOPsを最大94.8%削減し、推論時間を69.6%加速します。さらに、ビデオフレームの時系列圧縮トークンシーケンスを使用した継続的なトレーニングを通じて、VoCo-LLaMAは時間的相関を理解する能力を示し、人気のあるビデオ質問応答ベンチマークで以前の方法を上回ります。我々のアプローチは、VLMのコンテキストウィンドウの全潜在能力を引き出す有望な方法を提示し、よりスケーラブルなマルチモーダルアプリケーションを可能にします。プロジェクトページと関連コードは、https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}からアクセスできます。
ソフトウェアエージェントは、複雑なソフトウェア工学タスクに対処するための有望なツールとして登場しています。しかし、既存の研究はウォーターフォールモデルに従うことでソフトウェア開発ワークフローを過度に単純化しています。そこで我々は、アジャイル手法(AM)をフレームワークに統合したマルチエージェントシステム「AgileCoder」を提案します。このシステムでは、プロダクトマネージャー、開発者、テスターといった特定のAMロールを異なるエージェントに割り当て、ユーザー入力に基づいて共同でソフトウェアを開発します。AgileCoderは、作業をスプリントに分割し、スプリントを通じてソフトウェアを段階的に開発することに焦点を当てることで、開発効率を向上させます。さらに、コードベースが更新されるたびにコード依存グラフを動的に生成する「Dynamic Code Graph Generator」モジュールを導入します。これにより、エージェントはコードベースをより深く理解し、ソフトウェア開発プロセス全体を通じてより正確なコード生成と修正を行うことが可能になります。AgileCoderは、ChatDevやMetaGPTなどの既存のベンチマークを上回り、高度なソフトウェア工学環境におけるマルチエージェントシステムの能力を示す新たな標準を確立しました。ソースコードはhttps://github.com/FSoft-AI4Code/AgileCoderで公開されています。
検索拡張生成(Retrieval Augmented Generation, RAG)は、言語モデルが外部の文脈を活用してユーザーのプロンプトに対する応答を強化する能力を高める手法です。このアプローチは、検索、質問応答、チャットボットなど、言語モデルの多様な応用分野で実用的な効果を発揮し、人気を集めています。しかし、この手法がどのように機能するかについては、まだ明確に理解されていません。本論文では、RAGパイプラインを機構的に分析し、言語モデルがショートカットを取る傾向があり、質問に答える際にパラメトリックメモリを最小限にしか利用せず、文脈情報に強く依存していることを明らかにします。この機構的な振る舞いを、以下の手法を用いて探ります:(i) 因果媒介分析により、質問に答える際にパラメトリックメモリが最小限にしか利用されないことを示し、(ii) 注意貢献度とノックアウト分析により、最後のトークンの残差ストリームが質問中の主語トークンからではなく、文脈中の他の情報量の多いトークンから強化されることを示します。この顕著なショートカット行動は、LLaMaファミリーとPhiファミリーのモデルに共通して見られることがわかりました。
教師ありファインチューニングは、様々な数学的推論タスクにおいて言語モデルの問題解決能力を向上させます。この利点を最大化するため、既存の研究では、標準的な単一ラウンドの質問応答設定において有効な、様々なデータ拡張技術を用いてトレーニングセットを拡大することに焦点を当てています。本研究では、トレーニング対象の問題に対する深い理解を育むことを目的とした新たな技術を導入し、標準的な設定だけでなく、反射的思考を必要とするより複雑なシナリオにおいても性能を向上させます。具体的には、各トレーニングインスタンスに問題の反省を組み込む「反射的拡張」という手法を提案します。この手法は、モデルに代替的な視点を考慮させ、抽象化や類推に関与させることで、反射的推論を通じた徹底的な理解を促進します。大規模な実験により、我々の目的の達成が検証され、本手法の独自の利点と既存の拡張技術に対する補完的な性質が強調されています。
安全性に配慮した言語モデルは、脆弱で不均衡な安全メカニズムを示すことが多く、安全でないコンテンツを生成する可能性が高まります。さらに、言語モデルに編集技術を通じて新しい知識を組み込むことは、安全性をさらに損なう可能性があります。これらの問題に対処するため、我々はSafeInferを提案します。これは、ユーザークエリに対する安全な応答を生成するための、コンテキスト適応型のデコード時安全性アライメント戦略です。SafeInferは2つのフェーズで構成されます:安全性増幅フェーズでは、安全なデモンストレーション例を使用してモデルの隠れ状態を調整し、より安全な出力の可能性を高めます。安全性誘導デコードフェーズでは、安全性最適化された分布に基づいてトークン選択に影響を与え、生成されるコンテンツが倫理ガイドラインに準拠することを保証します。さらに、主要なAIテック企業のポリシーに準拠した潜在的な誤用シナリオに対処するために設計された、広範な安全性評価のための新しいベンチマークであるHarmEvalを紹介します。
大規模言語モデル(LLMs)は、インターネットから自動的に収集された膨大な量のデータを基に訓練されています。このデータには、百科事典的な文書(例えばWikipedia)が含まれており、一般的な知識を大量に保有していますが、LLMsの評価に使用されるベンチマークデータセットと重複する可能性もあります。その結果、訓練セットに漏れ込んでいる可能性のあるテスト分割でモデルを評価することは、誤った結論を導く危険性があります。言語モデルの健全な評価を促進するため、我々は質問応答やトピック検索タスクに適した新しいテストデータセット「RepLiQA」を導入します。RepLiQAは5つのテストセット分割から成り、そのうち4つは本発表以前にインターネットに公開されたり、LLM APIに曝露されたりしていません。RepLiQAの各サンプルは、(1)人間のアノテーターによって作成され、インターネット上に存在しない架空のシナリオ(例えばニュース記事)を描いた参照文書、(2)文書のトピックに関する質問、(3)文書の情報から直接導かれた正解、(4)正解を含む参照文書から抽出された段落、で構成されています。したがって、正確な回答を生成するためには、モデルが提供された文書内で関連する内容を見つけられる必要があります。我々は、様々なタイプやサイズのモデル間の性能差を明らかにするため、コンテキスト条件付き言語モデリング設定において、いくつかの最先端LLMsを含む大規模なベンチマークを実行しました。RepLiQAの公開された分割はこちらで確認できます:https://huggingface.co/datasets/ServiceNow/repliqa。
大規模言語モデル(LLM)が翻訳や質問応答などのアプリケーションに不可欠となるにつれ、人間の価値観との安全な整合を確保することが極めて重要です。現在の整合手法は、動的なユーザー意図や複雑な目的に対応するのに苦労しており、モデルが有害なコンテンツを生成するリスクを抱えています。本論文では、Safety Arithmeticというトレーニング不要のフレームワークを提案します。このフレームワークは、ベースモデル、教師ありファインチューニングモデル(SFT)、編集済みモデルといった異なるシナリオにおいてLLMの安全性を向上させます。Safety Arithmeticは、有害なコンテンツを回避するためのHarm Direction Removalと、安全な応答を促進するためのSafety Alignmentを含みます。さらに、意図せず使用された場合にモデルの安全性を損なう可能性のある編集事例を強調したデータセットNoIntentEditを提示します。実験結果から、Safety Arithmeticが安全性の指標を大幅に改善し、過剰な安全性を低減しつつモデルの有用性を維持し、安全なコンテンツ生成において既存の手法を凌駕することが示されました。
言語モデルは通常、生のテキストを事前定義された語彙からサブワード識別子のシーケンスにトークン化しますが、このプロセスは本質的に、タイポグラフィックエラーや長さの変動に敏感であり、トークンの内部構造をほとんど認識しないという問題を抱えています。この問題を私たちは「トークン化の呪い」と呼びます。本研究では、これらの欠点について深く掘り下げ、大規模言語モデル(LLMs)がこれらの問題に対して依然として脆弱であることを実証します。本研究では、以下の3つの重要な研究課題を通じて、これらの課題とLLMsへの影響を体系的に調査します:(1)複雑な問題解決、(2)トークン構造のプロービング、(3)タイポグラフィックな変動に対する耐性。私たちの調査結果は、モデルのパラメータをスケールアップすることでトークン化の問題を緩和できることを示していますが、LLMsは依然としてタイポやその他のテキスト形式の変動によって引き起こされるバイアスに悩まされています。私たちの実験では、BPE-dropoutなどのサブワード正則化がこの問題を緩和できることを示しています。さらなる研究を促進するために、私たちはコードとデータを公開する予定です。
人工知能(AI)の進化は、大規模言語モデル(LLMs)と大規模マルチモーダルモデル(LMMs)の進展によって大幅に加速され、かつて人間の知性に限定されていた問題解決や科学的発見(すなわちAI4Science)における認知推論能力の潜在的可能性を徐々に示しつつある。現在のモデルの認知推論能力を包括的に評価するために、我々はOlympicArenaを導入し、テキストのみおよびテキストと画像が交互に現れるモダリティにわたる11,163のバイリンガル問題を含む。これらの課題は、7つの分野と62の国際オリンピック競技にまたがる幅広い学問領域を網羅し、データ漏洩について厳密に検証されている。我々は、オリンピック競技の問題の複雑さと学際的な性質が、複雑な科学的課題に取り組み発見を促進するために不可欠であるため、AIの認知推論を評価するのに理想的であると主張する。回答のみの基準を用いてさまざまな分野でのパフォーマンスを評価するだけでなく、複数の視点から詳細な実験と分析を実施する。我々は、モデルの認知推論能力、異なるモダリティでのパフォーマンス、およびプロセスレベルの評価における結果に深く掘り下げる。これらは、長い解決策を必要とする複雑な推論タスクにとって重要である。我々の広範な評価により、GPT-4oのような先進的なモデルでさえ、全体の精度が39.97%に留まることが明らかになり、複雑な推論とマルチモーダル統合における現在のAIの限界を示している。OlympicArenaを通じて、我々はAIを超知能に向けて前進させ、科学およびそれ以上の分野でより複雑な課題に取り組む能力を備えることを目指している。また、AI研究を支援するための包括的なリソースセットを提供する。これには、ベンチマークデータセット、オープンソースのアノテーションプラットフォーム、詳細な評価ツール、および自動提出機能を備えたリーダーボードが含まれる。
大規模言語モデル(LLMs)の進展により、自然言語処理の応用範囲が大幅に拡大し、マルチモーダルLLMsはこれらの能力を視覚データの統合と解釈にまで拡張しています。しかし、既存の視覚言語モデル(VLMs)のベンチマークは主に単一画像の入力に焦点を当てており、複数画像の理解という重要な側面を無視しています。本論文では、複数画像を比較・分析・推論するVLMsの能力を評価するためのマルチイメージリレーショナルベンチマーク(MIRB)を紹介します。私たちのベンチマークは、知覚、視覚的世界知識、推論、マルチホップ推論の4つのカテゴリを網羅しています。オープンソースおよびクローズドソースの多様なモデルを包括的に評価した結果、オープンソースのVLMsは単一画像タスクにおいてGPT-4Vの性能に近づいているものの、複数画像推論タスクでは依然として大きな性能差があることが明らかになりました。また、最先端のGPT-4Vモデルでさえ私たちのベンチマークに苦戦する様子が観察され、この分野におけるさらなる研究開発の必要性が浮き彫りになりました。私たちは、MIRBの貢献が次世代マルチモーダルモデル開発のためのテストベッドとして役立つことを期待しています。
高忠実度な人間の再構築技術における最近の進展にもかかわらず、密に撮影された画像や時間のかかるインスタンスごとの最適化の要件が、より広範なシナリオでの応用を大きく妨げています。これらの課題に対処するため、我々はHumanSplatを提案します。これは、単一の入力画像から任意の人間の3D Gaussian Splattingプロパティを汎用的に予測するものです。特に、HumanSplatは、2D多視点拡散モデルと人間の構造事前情報を備えた潜在再構築トランスフォーマーで構成されており、幾何学的な事前情報と意味的特徴を統一されたフレームワーク内で巧みに統合します。さらに、人間の意味情報を組み込んだ階層的損失を設計し、高忠実度なテクスチャモデリングを実現し、推定された複数の視点をより良く制約します。標準ベンチマークおよび実世界の画像を用いた包括的な実験により、HumanSplatがフォトリアルな新規視点合成において既存の最先端手法を凌駕することが実証されました。
表形式データ - 行と列で構成された構造化された異種のスプレッドシート形式のデータ - は、多くの分野で広く使用されています。しかし、最近の基盤モデルが言語モデリングやコンピュータビジョンなどの分野でタスク固有のデータセットや予測器の開発の必要性を減らしている一方で、この転移学習のパラダイムは表形式データの分野では同様の影響を及ぼしていません。本研究では、このギャップを埋めることを目指し、表形式予測のための言語モデルであるTabuLa-8Bを提案します。TabLibコーパスから大規模で高品質なトレーニングデータセットを抽出するプロセスを定義し、表形式データのフィルタリングと品質管理の方法を提案します。結果として得られたデータセット(3.1Mのユニークなテーブルから1.6B行以上を含む)を使用して、Llama 3-8B大規模言語モデル(LLM)を表形式データ予測(分類およびビン化回帰)のために微調整し、表形式予測のための新しいパッキングとアテンションスキームを採用します。329のデータセットからなるテストスイートを通じて評価を行った結果、TabuLa-8Bは未見のテーブルに対するゼロショット精度がランダム推測よりも15パーセントポイント(pp)以上高く、これは既存の最先端の表形式予測モデル(例:XGBoost、TabPFN)では達成不可能な成果です。少数ショット設定(1-32ショット)では、ターゲットデータセットでの微調整なしに、TabuLa-8Bは同等または最大16倍のデータで明示的にトレーニングされたXGBoostおよびTabPFNモデルよりも5-15 pp高い精度を示します。本論文の公開に合わせて、モデル、コード、およびデータを公開します。
大規模言語モデル(LLM)の知識を評価するために、現在の手法ではモデルにクエリを投げ、その生成された応答を評価します。本研究では、モデルがテキストを生成する前に評価を行えるかどうかを問います。具体的には、モデルの内部計算のみから、特定のエンティティに関する知識量を推定することは可能でしょうか?この問いを2つのタスクを通じて検討します:与えられた主題エンティティについて、(a) モデルがそのエンティティに関する一般的な質問に答える能力を予測すること、および (b) モデルがそのエンティティについて生成する応答の事実性を予測することです。様々なLLMを用いた実験により、内部の主題表現を基に訓練されたシンプルなプローブであるKEENが、両タスクにおいて成功することが示されました。KEENは、モデルのQA精度(主題ごと)と、オープンエンド生成における最近の事実性指標であるFActScoreの両方と強い相関を示します。さらに、KEENはモデルのヘッジング行動と自然に整合し、ファインチューニング後のモデルの知識の変化を忠実に反映します。最後に、より解釈可能でありながら同等の性能を持つKEENのバリアントを示し、モデルの知識不足と相関する少数のトークンを強調します。シンプルで軽量なKEENは、LLMにおけるエンティティ知識のギャップやクラスターを特定し、検索を用いたクエリの拡充などの意思決定を導くために活用できます。
重みパラメータをバイナリ値に変換する二値化は、大規模言語モデル(LLM)のサイズを削減するための効果的な戦略として注目を集めています。しかし、従来の二値化手法では、LLMの言語的効果が大幅に低下するという課題があります。この問題を解決するため、本研究では「Mixture of Scales(BinaryMoS)」と呼ばれる新しい二値化手法を提案します。従来の手法とは異なり、BinaryMoSはバイナリ重みに対して複数のスケーリングエキスパートを採用し、各トークンごとにこれらのエキスパートを動的に統合することで、適応的にスケーリングファクターを生成します。このトークン適応型アプローチにより、バイナリ重みの値を文脈に応じて調整できるため、二値化されたLLMの表現力が向上します。さらに、この適応プロセスは重み行列全体ではなくスケーリングファクターのみに関わるため、BinaryMoSは従来の静的二値化手法と同程度の圧縮効率を維持します。実験結果から、BinaryMoSは様々な自然言語処理タスクにおいて従来の二値化手法を上回り、2ビット量子化手法をも凌駕する性能を示すことが明らかになりました。しかも、モデルサイズは静的二値化手法と同等に保たれています。
医療知識は文脈依存であり、意味的に等価なフレーズのさまざまな自然言語表現にわたって一貫した推論を必要とします。これは特に薬剤名において重要であり、患者はしばしばジェネリック医薬品の代わりにAdvilやTylenolといったブランド名を使用します。これを研究するため、我々は医師の専門的な注釈を用いてブランド名とジェネリック医薬品名を入れ替えた後、医療ベンチマークでの性能差を評価する新しいロバストネスデータセット、RABBITSを作成しました。 我々はMedQAとMedMCQAにおいて、オープンソースおよびAPIベースの大規模言語モデル(LLM)を評価し、1~10%の一貫した性能低下を明らかにしました。さらに、この脆弱性の潜在的な原因として、広く使用されている事前学習データセットにおけるテストデータの汚染を特定しました。すべてのコードはhttps://github.com/BittermanLab/RABBITSでアクセス可能であり、HuggingFaceリーダーボードはhttps://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboardで利用できます。
テキストから画像(T2I)生成のための拡散モデルは、印象的な画像生成能力を実証しています。しかし、その計算負荷の高さから、リソースに制約のある組織が内部のターゲットデータでファインチューニングしたT2Iモデルを展開することは困難です。プルーニング技術はT2Iモデルの計算負荷を軽減する可能性を秘めていますが、静的プルーニング手法ではすべての入力プロンプトに対して同じプルーニングされたモデルを使用するため、異なるプロンプトの能力要件の違いを見落としています。動的プルーニングはこの問題に対処するために各プロンプトに別々のサブネットワークを利用しますが、GPU上でのバッチ並列処理を妨げます。これらの制限を克服するため、我々はT2I拡散モデル向けの新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning(APTP)を提案します。我々のアプローチの中核となるのは、プロンプトルーターモデルです。このモデルは、入力テキストプロンプトに必要な能力を決定し、プロンプト全体の計算予算を考慮してアーキテクチャコードにルーティングすることを学習します。各アーキテクチャコードは、それに割り当てられたプロンプトに特化したモデルを表し、コードの数はハイパーパラメータです。プロンプトルーターとアーキテクチャコードは、類似したプロンプトが近いコードにマッピングされるように、コントラスティブ学習を用いて訓練されます。さらに、コードが単一のものに崩壊するのを防ぐために最適輸送を利用します。我々は、CC3MとCOCOをターゲットデータセットとしてStable Diffusion(SD)V2.1をプルーニングすることでAPTPの有効性を実証します。APTPは、FID、CLIP、CMMDスコアにおいて、単一モデルのプルーニングベースラインを上回ります。APTPによって学習されたクラスターの分析から、それらが意味的に有意義であることが明らかになりました。また、APTPがSDにとって以前に経験的に見つけられた難しいプロンプト(例えば、テキスト画像を生成するためのプロンプト)を自動的に発見し、それらをより高い能力のコードに割り当てることができることも示します。
言語モデルの急速な進化に伴い、より挑戦的なベンチマークの開発が求められています。現在の静的なベンチマークは、異なるモデルの能力を一貫して区別することが難しく、現実世界のユーザー嗜好と一致しないことがしばしばあります。一方、Chatbot Arenaのようなライブのクラウドソーシングプラットフォームは、多様な自然なプロンプトとユーザーフィードバックを収集しています。しかし、これらのプロンプトは洗練度がまちまちであり、フィードバックをオフラインで新しいモデルに適用することはできません。ベンチマークがLLM開発のペースに追いつくことを保証するために、我々はベンチマークがモデルを確信を持って区別し、人間の嗜好と一致する能力をどのように評価できるかについて取り組みました。これらの原則に基づき、我々はBenchBuilderを開発しました。これは、ライブデータソースから高品質なプロンプトをフィルタリングし、新鮮で挑戦的なプロンプトでのオフライン評価を可能にする「生きたベンチマーク」です。BenchBuilderは、ドメイン知識の必要性など、高品質なプロンプトの7つの指標を特定し、LLMアノテーターを利用して様々なトピッククラスターから高品質なプロンプトのサブセットを選択します。LLM評価プロセスでは、LLMジャッジを採用し、完全に自動化された高品質で常に更新されるベンチマークを確保します。我々はBenchBuilderをChatbot Arenaのプロンプトに適用し、Arena-Hard-Auto v0.1を作成しました。これは、多様なタスクから選ばれた500の挑戦的なユーザープロンプトです。Arena-Hard-Auto v0.1は、MT-Benchと比べて3倍狭い信頼区間を提供し、人間の嗜好ランキングとの一致率は89.1%という最先端の結果を達成しました。これらはわずか25ドルのコストで、人間のラベラーを必要とせずに実現されています。BenchBuilderパイプラインは評価ベンチマークを強化し、開発者が最小限の労力で大量のデータから高品質なベンチマークを抽出するための貴重なツールを提供します。
選好からの直接アライメント(DAP)は、事前に収集されたオフラインの選好データセットから大規模言語モデル(LLM)を人間の要望に沿わせるための有望なパラダイムとして登場しました。最近の研究では、既存のオフラインDAP手法がオンライントレーニングサンプルから直接恩恵を受けられることが示されていますが、オンライントレーニングの力を最大限に活用するためには、特定のオンラインDAPアルゴリズムを開発する必要があることを強調します。具体的には、学習されたLLMは、トレーニングサンプルを収集する行動LLMの近接性に従うべきであることを指摘します。この目的のために、行動LLMの近接性における選好最適化(BPO)を提案し、LLMアライメントのための適切な信頼領域を構築する重要性を強調します。 私たちは、このアプローチの有効性と適用性を検証するために、さまざまなDAP手法と統合して広範な実験を行い、同じ量の選好データでトレーニングした場合に、幅広いタスクで大幅な性能向上をもたらすことを確認しました。たとえ1回の追加データ収集フェーズを導入するだけであっても、私たちのオンラインBPOは、TL;DRでは72.0%から80.2%に、Anthropic Helpfulnessでは82.2%から89.1%に、人間の参照テキストに対する勝率においてオフラインDAPベースラインを改善しました。
ビデオ編集は、エンターテイメントや教育から専門的なコミュニケーションに至るまで、デジタルメディアの基盤をなす重要な要素です。しかし、従来の手法では、グローバルおよびローカルのコンテキストを包括的に理解する必要性を見落とすことが多く、特に長時間のビデオにおいて、時空間次元での不正確で一貫性のない編集が生じていました。本論文では、VIA(統一された時空間ビデオ適応フレームワーク)を紹介し、グローバルおよびローカルなビデオ編集の限界を押し広げ、数分間のビデオを一貫して編集することを可能にします。まず、個々のフレーム内でのローカルな一貫性を確保するために、VIAの基盤となるのは、事前に訓練された画像編集モデルを適応させる新しいテストタイム編集適応手法です。これにより、潜在的な編集方向とテキスト指示との間の一貫性が向上し、マスクされた潜在変数を適応させることで、正確なローカル制御が可能になります。さらに、ビデオシーケンス全体でのグローバルな一貫性を維持するために、キーフレームでの一貫した注意変数を適応させ、それを戦略的にシーケンス全体に適用することで編集効果を実現する時空間適応を導入します。広範な実験により、ベースライン手法と比較して、VIAアプローチがソースビデオに忠実で、時空間コンテキストにおいてより一貫性があり、ローカル制御においてより正確な編集を生み出すことが示されています。さらに重要なことに、VIAが数分間の長いビデオ編集を一貫して達成できることを示し、長いビデオシーケンスに対する高度なビデオ編集タスクの可能性を解き放ちます。
大規模言語モデル(LLM)の多様なタスクへの対応能力を評価することは、その強みと弱点を理解する上で重要です。従来の評価手法では、通常、単一のプロンプト戦略をデータセット全体に一律に適用し、タスクの複雑さの度合いを考慮していませんでした。本研究では、Hierarchical Prompting Taxonomy(HPT)を導入します。この分類法は、最も単純なものから最も複雑なものまで5つの異なるプロンプト戦略で構成されるHierarchical Prompt Framework(HPF)を採用し、LLMをより正確に評価し、明確な視点を提供します。この分類法は、データセットおよびLLMに対して、分類法のルールに基づいてHierarchical Prompting Score(HP-Score)と呼ばれるスコアを割り当て、多様なタスクを解決する能力を詳細に理解し、タスクの複雑さを普遍的に測定する方法を提供します。さらに、各タスクに適したプロンプト戦略を自動的に選択するAdaptive Hierarchical Promptフレームワークを導入します。本研究では、Llama 3 8B、Phi 3 3.8B、Mistral 7B、Gemma 7Bという4つの指示調整済みLLMを使用し、BoolQ、CommonSenseQA(CSQA)、IWSLT-2017 en-fr(IWSLT)、SamSumという4つのデータセットを用いて、手動および適応型の階層的プロンプトフレームワークを比較します。実験結果は、HPTの有効性を示し、異なるタスクとLLMの能力を比較する信頼性の高い方法を提供します。本論文は、データセットの複雑さとLLMの能力の両方を評価するための普遍的な評価指標の開発につながります。手動HPFと適応型HPFの実装は公開されています。
視覚対応言語モデル(VLM)は現在、実環境で行動を起こす自律型マルチモーダルエージェントの構築に使用されています。本論文では、マルチモーダルエージェントが新たな安全リスクを引き起こすことを示します。エージェントへの攻撃は、環境へのアクセスや知識が限られているため、従来の攻撃よりも困難ではありますが、依然として可能です。我々の攻撃は、敵対的テキスト文字列を使用して、環境内の1つのトリガー画像に対する勾配ベースの摂動を誘導します:(1)キャプショナー攻撃は、画像をキャプションとして処理し、VLMへの追加入力として使用される場合、ホワイトボックスのキャプショナーを攻撃します;(2)CLIP攻撃は、一連のCLIPモデルを共同で攻撃し、プロプライエタリなVLMに転移することが可能です。これらの攻撃を評価するために、VisualWebArenaを基にした敵対的タスクセットであるVisualWebArena-Advをキュレーションしました。単一画像のL無限ノルム16/256の範囲内で、キャプショナー攻撃は、キャプショナーを拡張したGPT-4Vエージェントに敵対的目標を実行させ、75%の成功率を達成します。キャプショナーを削除するか、GPT-4Vに独自のキャプションを生成させた場合、CLIP攻撃はそれぞれ21%と43%の成功率を達成します。Gemini-1.5、Claude-3、GPT-4oなどの他のVLMに基づくエージェントの実験では、それらの堅牢性に興味深い違いが見られました。さらに、攻撃の成功に寄与するいくつかの主要な要因を明らかにし、防御への影響についても議論します。プロジェクトページ:https://chenwu.io/attack-agent コードとデータ:https://github.com/ChenWu98/agent-attack
本論文では、拡散モデルの学習速度が遅い原因として、ノイズとデータのマッピングが最適でない点を指摘します。現在の拡散学習手法では、各画像をノイズ空間全体に拡散させるため、ノイズ層の各点で全ての画像が混合された状態になります。このランダムなノイズ-データマッピングの混合が、拡散モデルのノイズ除去関数の最適化を複雑にしていることを強調します。物理学における不混和現象に着想を得て、我々はノイズ-データマッピングのランダムな混合を改善するシンプルかつ効果的な手法「不混和拡散(Immiscible Diffusion)」を提案します。物理学において、混和性は様々な分子間力によって変化します。したがって、不混和性とは分子源の混合が識別可能であることを意味します。これに着想を得て、我々は「割り当て→拡散」という学習戦略を提案します。具体的には、画像データをノイズに拡散する前に、ミニバッチ内の画像-ノイズペアの総距離を最小化することで、画像データに対する拡散目標ノイズを割り当てます。この割り当ては、画像の拡散可能領域を分離する外部力として機能し、拡散学習に内在する困難を軽減します。我々のアプローチは非常にシンプルで、各画像の拡散可能領域を制限するためにたった1行のコードを追加するだけで、ノイズのガウス分布を維持します。これにより、各画像は近傍のノイズにのみ投影されます。割り当てアルゴリズムの高い計算複雑性に対処するため、量子化割り当て法を採用し、計算オーバーヘッドを無視できるレベルまで削減します。実験結果は、CIFARデータセットにおいてConsistency ModelとDDIMの学習速度を最大3倍、CelebAデータセットにおいてConsistency Modelの学習速度を最大1.3倍向上させることを示しています。さらに、不混和拡散に関する詳細な分析を行い、学習速度を向上させながら忠実度を高めるメカニズムを明らかにしました。
テキストから音楽を生成する大規模モデルは大きな進歩を遂げ、提供されたテキストプロンプトから高品質で多様な音楽作品を作成することを可能にしています。しかし、入力テキストプロンプトはユーザーの要求を正確に捉えない場合があり、特に特定の参照コレクションから派生した概念を具現化した音楽を生成することが目的である場合にその傾向が顕著です。本論文では、カスタマイズされたテキストから音楽を生成するための新しい手法を提案します。この手法は、2分間の参照音楽から概念を捉え、その概念に沿った新しい音楽作品を生成することができます。これを実現するために、事前学習済みのテキストから音楽を生成するモデルを参照音楽を用いてファインチューニングします。しかし、すべてのパラメータを直接ファインチューニングすると過学習の問題が生じます。この問題に対処するため、新しい概念を吸収しながらモデルの元の生成能力を保持するPivotal Parameters Tuning法を提案します。さらに、事前学習済みモデルに複数の概念を導入する際に潜在的な概念の衝突が生じる可能性を指摘します。複数の概念を区別するための概念強化戦略を提示し、ファインチューニングされたモデルが個別または複数の概念を同時に取り入れた音楽を生成できるようにします。カスタマイズされた音楽生成タスクに取り組むのは初めてであるため、新しいタスクのためのデータセットと評価プロトコルも導入します。提案するJen1-DreamStylerは、定性的および定量的な評価の両方でいくつかのベースラインを上回りました。デモはhttps://www.jenmusic.ai/research#DreamStylerで公開されます。
超アライメント、すなわち人間が超人的なモデルの弱い監督者となる状況は、大規模言語モデル(LLM)の急速な発展が進む現代において、重要かつ広く議論される問題となっています。最近の研究では、弱いモデルを用いて強いモデルを監督するという手法でこの問題を予備的に検討しました。その結果、弱い監督下にある強い学生モデルが、アライメント目標に向けて弱い教師モデルを一貫して上回る、弱いから強いへの一般化現象が発見されました。しかし、私たちはこの有望な現象の背後に、弱いから強いへの欺瞞の問題が存在するのではないかと懸念しています。つまり、強いモデルが弱いモデルの知る領域では良好にアライメントを示す一方で、弱いモデルの知らないケースでは非アライメントな振る舞いを見せることで、弱いモデルを欺く可能性があるのです。そこで私たちは、特定の現実的な多目的アライメントのケースにおいて、このセキュリティ問題を探る最初の一歩を踏み出しました。このケースでは、互いに矛盾するアライメント目標が存在する可能性があります(例:有用性 vs. 無害性)。このような矛盾は、強いモデルが一つのアライメント次元で弱いモデルを欺き、他のアライメント次元で高い報酬を得ることを引き起こす可能性があります。報酬モデリングタスクと選好最適化シナリオでの実験結果は以下のことを示しています:(1)弱いから強いへの欺瞞が存在する、(2)弱いモデルと強いモデルの能力差が大きくなるにつれて、欺瞞現象が強まる可能性がある。また、私たちは潜在的な解決策についても議論し、中間モデルを用いたブートストラップが欺瞞をある程度緩和できることを発見しました。本研究は、超アライメントの真の信頼性にさらに注意を払う必要性を強調するものです。
本論文では、部分空間に着想を得た低ランク適応法(LoRA)を紹介する。この手法は計算効率が高く、実装が容易で、大規模言語モデル、マルチモーダルモデル、拡散モデルに直接適用可能である。まず、LoRAの重みを2つの部分空間に等価に分解し、それらを単純に混合することで性能が向上することを発見した。この現象を詳細に研究するため、細粒度の部分空間レンズを通して再検討し、この修正が部分空間を融合する固定ミキサーを使用することと等価であることを示した。より柔軟性を持たせるため、元のLoRA重みとミキサーを共同で学習し、この手法を部分空間混合LoRA(MoSLoRA)と命名した。MoSLoRAは、常識推論、視覚的指示チューニング、主題駆動型テキスト画像生成など、様々なモダリティのタスクにおいてLoRAを一貫して上回り、その有効性と堅牢性を実証した。コードはhttps://github.com/wutaiqiang/MoSLoRA{github}で公開されている。