翻訳付きの日次キュレーションされたAI研究論文
パラメータ効率的なファインチューニング(PEFT)手法は、大規模モデルを少数の重みの更新によって適応させることを目指しています。しかし、これまでの多くの解釈可能性研究は、表現が豊かな意味情報をエンコードしていることを示しており、表現を編集することがより強力な代替手段となる可能性を示唆しています。ここでは、この仮説を追求し、表現ファインチューニング(ReFT)手法のファミリーを開発します。ReFT手法は、凍結されたベースモデル上で動作し、隠れ表現に対するタスク固有の介入を学習します。我々は、ReFTファミリーの強力なインスタンスである低ランク線形部分空間ReFT(LoReFT)を定義します。LoReFTは既存のPEFTの代替として使用可能であり、従来の最先端PEFTよりも10倍から50倍パラメータ効率的な介入を学習します。我々は、LoReFTを8つの常識推論タスク、4つの算術推論タスク、Alpaca-Eval v1.0、およびGLUEで実証します。これらの評価において、LoReFTは効率と性能の最適なバランスを提供し、ほぼ常に最先端のPEFTを上回ります。我々は、汎用のReFTトレーニングライブラリをhttps://github.com/stanfordnlp/pyreftで公開しています。
拡散モデルはテキストから画像生成の分野で大きな成功を収めています。しかし、テキストプロンプトと画像の間の不一致を軽減することは依然として課題です。この不一致の根本的な原因は十分に調査されていません。私たちは、この不一致が不十分なトークン注意活性化によって引き起こされていることを観察しました。さらに、この現象を拡散モデルのトレーニングパラダイムに起因する条件利用の不十分さに帰着させました。この問題に対処するため、私たちはCoMatを提案します。これは、画像からテキストへの概念マッチングメカニズムを備えたエンドツーエンドの拡散モデルファインチューニング戦略です。画像キャプションモデルを活用して画像とテキストの整合性を測定し、拡散モデルが無視されたトークンを再考するよう導きます。また、属性バインディング問題に対処するために、新しい属性集中モジュールも提案します。画像や人間の選好データを使用せず、20Kのテキストプロンプトのみを使用してSDXLをファインチューニングし、CoMat-SDXLを取得します。広範な実験により、CoMat-SDXLが2つのテキストから画像への整合性ベンチマークでベースラインモデルSDXLを大幅に上回り、最先端の性能を達成することが示されています。
本論文では、ビデオ理解に特化したマルチモーダル大規模言語モデル(LLM)であるMiniGPT4-Videoを紹介する。このモデルは、時間的な視覚データとテキストデータの両方を処理することができ、ビデオの複雑さを理解するのに優れている。単一画像の視覚的特徴をLLM空間に変換し、様々な画像-テキストベンチマークで印象的な結果を達成したMiniGPT-v2の成功を基に、本論文ではモデルの能力をフレームシーケンスの処理に拡張し、ビデオを理解できるようにした。MiniGPT4-Videoは視覚的な内容だけでなく、テキスト会話も組み込むことで、視覚とテキストの両方の要素を含むクエリに効果的に答えることができる。提案されたモデルは、既存の最先端の手法を上回り、MSVD、MSRVTT、TGIF、TVQAベンチマークでそれぞれ4.22%、1.13%、20.82%、13.1%の向上を記録した。私たちのモデルとコードは、https://vision-cair.github.io/MiniGPT4-video/ で公開されている。
人工知能の急速に進化する領域において、マルチモーダル大規模言語モデルが重要な関心領域として浮上しています。これらのモデルは、さまざまな形式のデータ入力を組み合わせており、ますます人気を集めています。しかし、その内部メカニズムを理解することは依然として複雑な課題です。説明可能性ツールやメカニズムの分野では多くの進展がありましたが、まだ探求すべき点が多く残されています。本研究では、大規模視覚言語モデルの内部メカニズムを理解するための新しいインタラクティブアプリケーションを提案します。私たちのインターフェースは、回答生成に重要な役割を果たす画像パッチの解釈可能性を向上させ、言語モデルがその出力を画像に基づかせる効率性を評価するように設計されています。このアプリケーションを使用することで、ユーザーはモデルを体系的に調査し、システムの限界を明らかにすることができ、システム能力の向上への道を開くことができます。最後に、私たちのアプリケーションが、人気のある大規模マルチモーダルモデルであるLLaVAの失敗メカニズムを理解するのにどのように役立つかを示すケーススタディを提示します。
本論文では、高度に圧縮されたテキスト上で大規模言語モデル(LLM)を訓練するというアイデアを探求します。標準的なサブワードトークナイザはテキストをわずかに圧縮しますが、ニューラルテキスト圧縮器ははるかに高い圧縮率を達成できます。もしニューラル圧縮されたテキスト上で直接LLMを訓練することが可能であれば、訓練とサービスの効率性が向上し、長いテキストスパンの扱いも容易になるという利点があります。この目標に対する主な障害は、強力な圧縮は学習に適さない不透明な出力を生成しがちであることです。特に、算術符号化によって単純に圧縮されたテキストはLLMによって容易に学習できないことがわかりました。これを克服するために、Equal-Info Windowsという新しい圧縮技術を提案します。この技術では、テキストをそれぞれ同じビット長に圧縮されるブロックに分割します。この方法を用いて、ニューラル圧縮されたテキスト上での効果的な学習を実証し、スケールに応じて改善され、パープレキシティと推論速度のベンチマークでバイトレベルのベースラインを大きく上回ることを示します。私たちの方法は、同じパラメータ数で訓練されたモデルに対してサブワードトークナイザよりもパープレキシティが劣りますが、シーケンス長が短いという利点があります。短いシーケンス長は、オートリグレッシブ生成ステップが少なくて済み、レイテンシを削減します。最後に、学習可能性に寄与する特性について詳細な分析を提供し、高圧縮トークナイザの性能をさらに向上させるための具体的な提案を行います。
コード向け大規模言語モデル(LLMs)は急速に進化しており、コード編集が重要な能力として浮上しています。本論文では、コード編集タスク(デバッグ、翻訳、洗練、要件変更など)におけるLLMsの性能を厳密に評価するためのフレームワーク「CodeEditorBench」を紹介します。既存のベンチマークがコード生成に焦点を当てているのに対し、CodeEditorBenchはソフトウェア開発の実世界シナリオと実践的な側面を重視しています。5つのソースから多様なコーディング課題とシナリオを精選し、様々なプログラミング言語、複雑さのレベル、編集タスクを網羅しています。19のLLMsを評価した結果、クローズドソースモデル(特にGemini-UltraとGPT-4)がオープンソースモデルをCodeEditorBenchで上回り、問題タイプやプロンプトの感度に基づくモデル性能の違いが明らかになりました。CodeEditorBenchは、コード編集能力を評価する堅牢なプラットフォームを提供することで、LLMsの進化を促進することを目指しています。コミュニティがデータセットを拡張し、新興のLLMsをベンチマークできるよう、すべてのプロンプトとデータセットを公開します。CodeEditorBenchの導入により、コード編集におけるLLMsの進展に貢献し、研究者や実務者にとって貴重なリソースを提供します。
本論文では、効率的な点群拡散モデルのファミリーであるPointInfinityを提案する。中核となるアイデアは、固定サイズで解像度不変な潜在表現を用いたトランスフォーマーベースのアーキテクチャを採用することである。これにより、低解像度の点群を用いた効率的な学習が可能となりつつ、推論時には高解像度の点群を生成できる。さらに重要なことに、学習時の解像度を超えて推論時の解像度をスケールアップすることで、生成される点群と表面の忠実度が向上することを示す。この現象を分析し、拡散モデルで一般的に使用されるclassifier-free guidanceとの関連性を明らかにすることで、両者が推論時の忠実度と多様性のトレードオフを可能にすることを実証する。CO3Dでの実験により、PointInfinityが最先端の品質で高解像度の点群(最大131kポイント、Point-Eの31倍)を効率的に生成できることを示す。
様々なジャイルブレイク攻撃が提案され、大規模言語モデル(LLM)に対するレッドチーミングが行われ、LLMの脆弱なセーフガードが明らかになりました。さらに、いくつかの手法はテキストモダリティに限定されず、視覚入力を摂動させることでマルチモーダル大規模言語モデル(MLLM)へのジャイルブレイク攻撃を拡張しています。しかし、普遍的な評価ベンチマークの欠如により、性能の再現性と公平な比較が複雑化しています。また、特にGPT-4Vのような最先端(SOTA)のクローズドソースモデル、特にMLLMの包括的な評価が不足しています。これらの問題に対処するため、本研究ではまず、11の異なるセキュリティポリシーをカバーする1445の有害な質問を含む包括的なジャイルブレイク評価データセットを構築しました。このデータセットに基づいて、SOTAのプロプライエタリモデルとオープンソースモデルを含む11の異なるLLMとMLLMに対して、広範なレッドチーミング実験を実施しました。その後、評価結果を深く分析し、以下のことを発見しました。(1) GPT-4とGPT-4Vは、オープンソースのLLMやMLLMと比較して、ジャイルブレイク攻撃に対する優れた堅牢性を示しています。(2) Llama2とQwen-VL-Chatは、他のオープンソースモデルと比較してより堅牢です。(3) 視覚的ジャイルブレイク手法の転移性は、テキスト的ジャイルブレイク手法と比較して相対的に限定的です。データセットとコードは以下のURLで確認できます。 https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md
我々は、テキスト音声合成(TTS)のための堅牢な言語モデリング手法であるRALL-Eを提案する。大規模言語モデル(LLM)に基づく従来の研究は、ゼロショットTTSにおいて印象的な性能を示しているが、そのような手法は、言語モデルの自己回帰的な予測スタイルに起因して、不安定なプロソディ(奇妙なピッチやリズム/長さ)や高い単語誤り率(WER)といった堅牢性の低さに悩まされることが多い。RALL-Eの核心となるアイデアは、連鎖的思考(CoT)プロンプティングであり、タスクをより単純なステップに分解することで、LLMベースのTTSの堅牢性を向上させる。このアイデアを実現するために、RALL-Eはまず入力テキストのプロソディ特徴(ピッチと長さ)を予測し、それらを中間条件としてCoTスタイルで音声トークンを予測する。次に、RALL-Eは予測された長さプロンプトを利用して、Transformerの自己注意重みの計算を導き、音声トークンを予測する際に対応する音素とプロソディ特徴にモデルが集中するように強制する。包括的な客観的および主観的評価の結果、強力なベースライン手法であるVALL-Eと比較して、RALL-EはゼロショットTTSのWERを、リランキングなしの場合6.3%から2.8%へ、リランキングありの場合2.1%から1.0%へと大幅に改善することが示された。さらに、RALL-EはVALL-Eにとって難しい文を正しく合成し、誤り率を68%から4%に削減することも実証した。