翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルは自然言語処理の基盤となっているが、その利用には計算資源とメモリ資源の面で多大なコストが伴う。スパース化はこれらの資源制約を緩和する解決策を提供し、最近の研究では訓練済みモデルを事後的にスパース化できることが示されている。既存のスパース化技術は、追加のデータ構造を必要とし、現在のハードウェアでは速度向上が限定的であるという課題に直面している。本論文では、SliceGPTという新しい事後訓練スパース化手法を提案する。これは各重み行列をより小さい(密な)行列に置き換え、ネットワークの埋め込み次元を削減するものである。広範な実験を通じて、SliceGPTがLLAMA2-70B、OPT 66B、Phi-2モデルのパラメータ(埋め込みを含む)を最大25%削減しながら、それぞれ密モデルの99%、99%、90%のゼロショットタスク性能を維持できることを示す。スライスされたモデルはより少ないGPUで動作し、追加のコード最適化なしで高速に実行される:24GBのコンシューマーGPUでは、LLAMA2-70Bの推論に必要な総計算量を密モデルの64%に削減し、40GBのA100 GPUでは66%に削減する。我々は、Transformerネットワークにおける計算不変性という新しい洞察を提供し、これがSliceGPTを可能にしている。この洞察が、事前訓練済みモデルのメモリと計算要求を削減するための将来の道筋を刺激し、可能にすることを期待している。コードは以下で公開されている: https://github.com/microsoft/TransformerCompression
メタ学習は、限られたデータから新しいタスクを迅速に学習するニューラルネットワークを訓練する強力なアプローチとして登場しました。様々なタスクに広く触れることで、汎用的な問題解決を可能にする多様な表現が得られます。しかし、メタ学習の限界とは何でしょうか?本研究では、最も強力な普遍的な予測器であるSolomonoff Induction(SI)を、メタ学習の限界を活用してニューラルネットワークに償却する可能性を探ります。我々は、ユニバーサルチューリングマシン(UTM)を使用して、ネットワークを幅広いパターンにさらすための訓練データを生成します。UTMデータ生成プロセスとメタ訓練プロトコルの理論的分析を提供します。また、LSTMやTransformerなどのニューラルアーキテクチャと、複雑さと普遍性が異なるアルゴリズム的データ生成器を用いた包括的な実験を行います。その結果、UTMデータはメタ学習にとって貴重なリソースであり、普遍的な予測戦略を学習可能なニューラルネットワークを訓練するために使用できることが示唆されました。
自己回帰的なデコードは、大規模言語モデル(LLM)の推論を時間のかかるプロセスにします。本論文では、損失のない高速化を実現するためのシンプルなフレームワーク、EAGLE(Extrapolation Algorithm for Greater Language-model Efficiency)を提案します。従来の推測的サンプリング手法とは異なり、EAGLEは、より規則的(第二トップ層)な特徴レベルで自己回帰的にドラフトプロセスを操作し、次の特徴予測問題におけるサンプリングの不確実性を、1タイムステップ先のトークンを統合することで解決します。EAGLEによる高速化は損失がありません。ターゲットLLMのファインチューニングを必要とせず、生成されるテキストは通常の自己回帰的デコードと同じ分布を維持します。本論文の投稿時点で、EAGLEは推測的サンプリングファミリーの中で最も高速なフレームワークです。MT-benchでは、EAGLEは通常のデコードよりも3倍、Lookaheadよりも2倍、Medusaよりも1.6倍高速です。gpt-fastを使用すると、EAGLEは単一のRTX 3090 GPU上でLLaMA2-Chat 13Bを用いて平均160トークン/秒を達成し、Huggingfaceの実装の24トークン/秒と比較して大幅な高速化を実現します。
テキストから画像生成モデルの最近の進展により、画像生成能力が大幅に向上しているものの、バイリンガルまたは中国語対応のオープンソースモデルには依然として大きなギャップが存在しています。このニーズに対応するため、我々はTaiyi-Diffusion-XLを提案します。これは、CLIPとStable-Diffusion-XLの能力をバイリンガル連続事前学習プロセスを通じて拡張した、新たな中国語・英語バイリンガルテキスト画像生成モデルです。このアプローチでは、CLIPのトークナイザーと埋め込み層に最も頻繁に使用される中国語文字を統合することで語彙を効率的に拡張し、絶対位置符号化の拡張を組み合わせています。さらに、大規模視覚言語モデルを用いてテキストプロンプトを充実させ、より優れた画像キャプションと高い視覚品質を実現しています。これらの強化は、その後下流のテキスト画像生成モデルに適用されます。我々の実験結果は、開発したCLIPモデルがバイリンガル画像テキスト検索において優れていることを示しています。さらに、Taiyi-Diffusion-XLのバイリンガル画像生成能力は、従来のモデルを凌駕しています。本研究は、特に中国語アプリケーションにおける画像生成分野の顕著な進歩を表すTaiyi-Diffusion-XLモデルの開発とオープンソース化につながりました。この貢献は、マルチモーダル研究における多様な言語サポートの必要性に対応するための一歩前進です。モデルとデモンストレーションはhttps://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{このURL}で公開されており、この分野のさらなる研究と協力を促進しています。
テキスト駆動型の3Dシーン編集は、その利便性とユーザーフレンドリーさから大きな注目を集めています。しかし、既存の手法では、テキスト記述の本質的な制限により、編集結果の指定された外観や位置を正確に制御することがまだ困難です。この問題を解決するため、我々はテキストと画像プロンプト、および編集領域を指定する3Dバウンディングボックスを受け入れる3Dシーン編集フレームワーク、TIPEditorを提案します。画像プロンプトを使用することで、ユーザーはテキスト記述を補完してターゲットコンテンツの詳細な外観/スタイルを簡単に指定でき、外観の正確な制御を可能にします。具体的には、TIP-Editorは既存シーンと参照画像の表現をより良く学習するために段階的な2Dパーソナライゼーション戦略を採用し、バウンディングボックスで指定された正しいオブジェクト配置を促すためのローカライゼーション損失を提案します。さらに、TIPEditorは明示的で柔軟な3Dガウススプラッティングを3D表現として利用し、背景を変更せずにローカル編集を容易にします。広範な実験により、TIP-Editorが指定されたバウンディングボックス領域内でテキストと画像プロンプトに従った正確な編集を行い、編集品質とプロンプトへの整合性において定性的および定量的にベースラインを一貫して上回ることが実証されました。
人々は、他者との効果的なコミュニケーションや行動の調整のために表現的な行動を用います。例えば、視線を合わせた相手に対してうなずくことや、混雑した廊下で「すみません」と言って人々を通り抜けることなどです。私たちは、人間とロボットのインタラクションにおいても、ロボットが表現的な行動を示すことを望んでいます。これまでの研究では、新しいコミュニケーション手法や社会的状況に拡張するのが難しいルールベースの手法が提案されてきましたが、データ駆動型の手法では、ロボットが使用される各社会的状況に対して専門的なデータセットが必要です。私たちは、大規模言語モデル(LLMs)が提供する豊富な社会的文脈と、指示やユーザーの好みに基づいて動作を生成する能力を活用し、適応性と構成性を持つ表現的なロボット動作を生成することを提案します。私たちのアプローチでは、数ショットの連鎖思考プロンプトを使用して、人間の言語指示をロボットの利用可能な学習済みスキルを用いたパラメータ化された制御コードに変換します。ユーザー調査とシミュレーション実験を通じて、私たちのアプローチが、ユーザーにとって有能で理解しやすいと感じられる行動を生成することを示します。補足資料はhttps://generative-expressive-motion.github.io/でご覧いただけます。