翻訳付きの日次キュレーションされたAI研究論文
データセットは、現代の人工知能における多くのブレークスルーの基盤となっている。自然言語処理(NLP)分野における最近の成果の多くは、多様なタスクに対して事前学習済みモデルをファインチューニングすることで、大規模言語モデル(LLM)が指示に応答できるようになったことに起因している。指示ファインチューニング(IFT)には、特に構築され注釈が付けられたデータセットが必要である。しかし、既存のデータセットはほとんどが英語である。本研究の主な目的は、65言語にわたる人間によるキュレーションされた指示追従データセットを構築することで、言語間のギャップを埋めることである。世界中の言語に堪能な話者と協力し、自然な指示とその完了例を収集した。さらに、既存のデータセットをテンプレート化し、114言語に翻訳することで、これまでで最も広範な多言語コレクションを作成し、5億1300万のインスタンスを集めた。全体として、我々は4つの主要なリソースを提供する:Ayaアノテーションプラットフォーム、Ayaデータセット、Ayaコレクション、およびAya評価スイートを開発し、オープンソース化した。Ayaイニシアチブはまた、119か国からの協力者を巻き込んだ参加型研究の貴重な事例研究としても機能する。我々はこれを、リソースのギャップを埋めることを目指す将来の研究協力のための貴重なフレームワークと見なしている。
大規模言語モデルの数学能力は、その抽象的推論能力を表すことができます。本論文では、InternLM2から継続事前学習を行った数学推論LLM「InternLM-Math」を紹介し、オープンソース化します。我々は、連鎖的思考推論、報酬モデリング、形式的推論、データ拡張、コードインタプリタを統一されたseq2seq形式で統合し、モデルを多機能な数学推論者、検証者、証明者、拡張者として監督します。これらの能力は、次世代の数学LLMや自己反復の開発に活用できます。InternLM-Mathは、GSM8K、MATH、ハンガリー数学試験、MathBench-ZH、MiniF2Fなど、様々な非公式および公式のベンチマークにおいて、文脈内学習、教師ありファインチューニング、コード支援推論の設定下でオープンソースの最先端性能を達成しました。我々の事前学習モデルは、ファインチューニングなしでMiniF2Fテストセットにおいて30.3を達成しました。さらに、LEANを使用して数学問題を解決する方法を探り、マルチタスク学習の設定下での性能を調査しました。これは、LEANを数学の解決と証明のための統一プラットフォームとして使用する可能性を示しています。我々のモデル、コード、データはhttps://github.com/InternLM/InternLM-Mathで公開されています。
テキストプロンプトからデジタルアバターを作成することは、長らく望まれてきたものの困難な課題でした。近年の2D拡散モデルを用いた研究では有望な結果が得られているものの、現在の手法では高品質でアニメーション可能なアバターを効果的に生成することに課題を抱えています。本論文では、3Dガウシアンスプラッティングを活用してテキストプロンプトから現実的でアニメーション可能なアバターを生成する新しいフレームワーク「HeadStudio」を提案します。本手法は、中間表現としてFLAMEを用いることで、3Dガウシアンを意味的に駆動し、柔軟で実現可能な外観を実現します。具体的には、FLAMEを3D表現とスコア蒸留の両方に組み込みます:1) FLAMEベースの3Dガウシアンスプラッティングでは、各ガウシアンポイントをFLAMEメッシュにリギングすることで3Dガウシアンポイントを駆動します。2) FLAMEベースのスコア蒸留サンプリングでは、FLAMEに基づく細粒度の制御信号を用いて、テキストプロンプトからのスコア蒸留をガイドします。大規模な実験により、HeadStudioがテキストプロンプトからアニメーション可能なアバターを生成する有効性が示され、視覚的に魅力的な外観を実現することが確認されました。生成されたアバターは、1024の解像度で高品質なリアルタイム(40 fps以上)の新規ビューをレンダリング可能であり、現実世界の音声や映像によって滑らかに制御できます。我々は、HeadStudioがデジタルアバター作成を進展させ、本手法が様々な分野で広く応用されることを期待しています。
テキストから音楽を生成するモデルの最近の進展により、音楽創作の新たな可能性が開かれました。しかし、音楽生成は通常、反復的な改良を伴い、生成された音楽をどのように編集するかが重要な課題となっています。本論文では、このようなモデルによって生成された音楽を編集するための新しいアプローチを提案します。この方法では、ジャンル、ムード、楽器などの特定の属性を変更しながら、他の側面を維持することが可能です。私たちの手法は、テキスト編集を潜在空間の操作に変換し、一貫性を保つための追加の制約を加えます。この方法は、既存の事前学習済みテキストから音楽を生成する拡散モデルとシームレスに統合され、追加の学習を必要としません。実験結果は、スタイルや音色の転送評価において、ゼロショットおよび一部の教師ありベースラインを上回る優れた性能を示しています。さらに、実世界の音楽編集シナリオにおける本手法の実用性を実証します。
自然言語理解と大規模言語モデルの生成能力および知識の広さを、画像認識と組み合わせることにより、最近の大規模視覚言語モデル(LVLM)は現実世界において前例のない推論能力を示しています。しかし、生成されたテキストは、視覚的入力に基づいた正確な接地が不十分であることが多く、存在しないシーン要素を幻覚のように生成したり、シーンの重要な部分を見落としたり、オブジェクト間の属性や関係を誤って推論したりするエラーが生じます。これらの問題に対処するため、我々はViGoR(Visual Grounding Through Fine-Grained Reward Modeling)という新しいフレームワークを導入します。このフレームワークは、細粒度の報酬モデリングを活用して、事前学習済みのベースラインと比較してLVLMの視覚的接地を大幅に向上させます。この改善は、完全な教師あり学習ではなく、はるかに低コストな人間による評価と自動化された方法を用いて効率的に達成されます。我々は、いくつかのベンチマークにおける多数のメトリクスを通じて、このアプローチの有効性を示します。さらに、LVLMの視覚的接地能力を検証するために特別に設計された包括的で挑戦的なデータセットを構築します。最後に、約16,000枚の画像と生成されたテキストのペアに細粒度の評価を加えた人間によるアノテーションを公開し、コミュニティにおける関連研究に貢献する予定です。
正準例を用いたモデル編集を導入する。この設定では、(1) 各望ましい振る舞いに対して単一の学習例が提供され、(2) 評価は分布外でのみ行われ、(3) 初期モデルからの逸脱が厳密に制限される。正準例とは、良い振る舞い(例:モーリシャスの首都はポートルイス)または悪い振る舞い(例:研究者の一面は冷たい)の単純なインスタンスである。評価セットには、各振る舞いのより複雑な例(モーリシャスの首都が求められる段落など)が含まれる。正準例を用いたモデル編集のために、3つのデータセットを作成し、さらに3つのデータセットを修正し、知識集約的な改善、社会的バイアスの軽減、構文のエッジケースをカバーする。Pythia言語モデルでの実験では、LoRAがフルファインチューニングとMEMITを上回ることを確認した。次に、ターゲットを絞った改善を可能にすることを目的としたBackpack言語モデルアーキテクチャに注目する。Backpackは、各単語の異なる使用法を分解した大規模なセンスベクトルのバンクを定義し、これらを重み付けして合計することでモデルの出力ロジットを形成する。我々は、各正準例に対して少数(約10個)のセンスベクトルを選択しファインチューニングするセンスファインチューニングを提案し、他のファインチューニング方法(例:4.8%の改善 vs 0.3%)を上回ることを確認した。最後に、35倍小さいBackpackのセンスファインチューニングによる変更のみを用いた推論時のアンサンブルによりGPT-J-6Bを改善し、ある設定ではGPT-J自体の編集(4.1% vs 1.0%)を上回る結果を得た。
大規模言語モデル(LLM)は、幅広い創造的領域に影響を与える可能性を秘めていますが、アニメーションへの応用は未開拓であり、ユーザーが自然言語でどのように効果的に動きを記述するかといった新たな課題を提示しています。本論文では、静止画像(SVG)を自然言語でアニメーション化するためのデザインツール「Keyframer」を紹介します。プロのアニメーションデザイナーやエンジニアとのインタビューに基づいて設計されたKeyframerは、プロンプティングと生成された出力の直接編集を組み合わせることで、アニメーションの探索と洗練を支援します。また、システムはユーザーがデザインのバリエーションを要求することを可能にし、比較とアイデア出しをサポートします。13名の参加者によるユーザー調査を通じて、動きを記述するための意味的プロンプトタイプの分類や、生成された出力に応じてユーザーが目標を継続的に適応させる「分解型」プロンプティングスタイルを含む、ユーザーのプロンプティング戦略の特性を明らかにしました。また、プロンプティングと直接編集を組み合わせることで、今日の生成ツールで一般的なワンショットプロンプティングインターフェースを超えた反復を可能にする方法を共有します。本研究を通じて、LLMがどのようにして幅広い層のユーザーにアニメーション制作への参加を可能にするかを提案します。
大規模言語モデル(LLM)の顕著な成功にもかかわらず、その膨大なメモリ要件は、長文脈トークン生成における展開に課題を提起しています。LLMデコーダの大きなメモリフットプリントは、キー・バリュー(KV)キャッシュによって課せられる、アテンションモジュール内のすべての過去のトークンを保存する必要性に起因しています。本研究では、KVキャッシュの効率的な圧縮技術の開発に焦点を当てています。経験的証拠は、アテンションモジュール内のキー埋め込みに有意なクラスタリング傾向があることを示しています。この重要な洞察に基づいて、キートークンに対するオンラインクラスタリングとバリューに対するオンラインell_2サンプリングを用いた、サブリニア複雑度の新しいキャッシュ手法を考案しました。その結果、SubGenと呼ばれる、証明可能な精度と効率を備えたアテンションデコーディングアルゴリズムが得られました。このアルゴリズムは、サブリニアなメモリフットプリントとサブリニアな時間複雑度を保証するだけでなく、我々のアプローチに対する厳密な誤差限界も確立しています。長文脈質問応答タスクにおける実証評価では、SubGenが既存および最先端のKVキャッシュ圧縮手法を性能と効率の両面で大幅に上回ることが示されています。
既存の言語モデル制御手法、例えばRLHF(Reinforcement Learning from Human Feedback)やConstitutional AIは、どのようなLLM(大規模言語モデル)の振る舞いが望ましいかを決定し、それを言語モデルに学習させることを含む。しかし、多くの場合、LLMを推論時に制御可能にすることが望ましく、これにより多様なニーズを持つ複数の文脈で使用できるようになる。これを「ピンクの象問題」で例示する:ある特定の実体(「ピンクの象」)について議論することを避け、代わりに望ましい実体(「灰色の象」)について議論するようLLMに指示する。我々は、Constitutional AIの新たな簡略化手法であるDirect Principle Feedback(DPF)を適用し、応答のランキングをスキップして、批判と修正に直接DPO(Direct Preference Optimization)を使用する。我々の結果は、合成されたピンクの象データセットに対するDPFファインチューニング後、13BファインチューニングされたLLaMA 2モデルがLlama-2-13B-Chatやプロンプトベースラインを大幅に上回り、ピンクの象問題を評価するためにキュレーションされたテストセットにおいてGPT-4と同等の性能を発揮することを示している。
本論文では、逐次意思決定タスクにおけるfew-shot方策学習の効率性を向上させるためのマルチタスク特徴表現学習手法「Premier-TACO」を提案します。Premier-TACOは、マルチタスクオフラインデータセットのサブセットを活用して、重要な環境ダイナミクスを捉える汎用的な特徴表現を事前学習し、最小限の専門家デモンストレーションを用いて微調整します。本手法は、視覚制御タスクにおいて最先端の結果を達成することで知られる時間的行動対比学習(TACO)の目的関数を発展させ、新たなネガティブサンプリング戦略を組み込んでいます。この戦略は、TACOの計算効率を大幅に向上させる上で重要であり、大規模なマルチタスクオフライン事前学習を実現可能にします。Deepmind Control Suite、MetaWorld、LIBEROを含む多様な連続制御ベンチマークにおける広範な実証評価を通じて、Premier-TACOが視覚表現の事前学習において有効であり、新規タスクのfew-shot模倣学習を大幅に向上させることを示します。本手法のコード、事前学習データ、および事前学習済みモデルのチェックポイントは、https://github.com/PremierTACO/premier-taco で公開予定です。
アニメーションステッカーを紹介します。これは、テキストプロンプトと静止画ステッカーを条件としてアニメーションを生成するビデオ拡散モデルです。私たちのモデルは、最先端のEmuテキスト画像生成モデルを基盤としており、動きをモデル化するための時間層を追加しています。ドメインギャップ、つまり視覚的および動きのスタイルの違いにより、自然な動画生成で優れた性能を発揮したモデルでも、ステッカーに適用すると鮮やかな動画を生成できなくなります。このギャップを埋めるため、2段階のファインチューニングパイプラインを採用しました。まず弱いドメイン内データで、次に「アンサンブル・オブ・ティーチャーズ」と呼ぶ人間参加型(HITL)戦略を用います。この戦略は、複数の教師モデルの最良の特性をより小さな学生モデルに蒸留します。この戦略により、静止画のスタイルを維持しながら、特に動きの品質を向上させることができることを示します。推論最適化により、私たちのモデルは1秒未満で8フレームの高品質で興味深く、関連性のある動きを持つビデオを生成できます。
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されています。現在の研究は、人間のフィードバックを用いた強化学習(RLHF)などの技術を通じて、モデルの訓練段階でのアライメントに焦点を当てています。しかし、このような方法がモデルにアライメント目標を教えるための効果的な選択肢であるかどうかは不明です。第一に、複数のカスタム報酬を組み込むことができないことや、モデル開発者の普遍的な静的な原則に依存することが主要な制限です。第二に、モデル訓練における残存ギャップや、そのようなアプローチの信頼性も疑問視されています(例えば、安全性訓練後でもジャイルブレイクに対する脆弱性)。これらに対処するため、我々はDeALを提案します。これは、ユーザーが報酬関数をカスタマイズし、LLMのデコード時アライメント(DeAL)を可能にするフレームワークです。その核心として、デコードをヒューリスティックに導かれた探索プロセスと見なし、多様なアライメント目標の使用を促進します。キーワードや長さの制約(LLM以前の時代に広く研究された)や、無害性や有用性(LLM以後の時代に提案された)といった抽象的な目標を用いた実験では、細かいトレードオフを扱い、アライメント目標への適合性を向上させ、LLMの残存ギャップに対処できることを示しています。最後に、DeALはRLHFやプロンプト技術と効果的に組み合わせることができますが、その汎用性によりデコードが遅くなるという最適化は今後の課題として残されています。
現実世界における強化学習(RL)の最近の進展は、大規模なシステムを正確にシミュレートする能力に依存してきました。しかし、流体力学システムなどの領域では、高い積分レートでのシミュレーションが困難な複雑な動的現象が現れ、現代の深層RLアルゴリズムを直接的に高価または安全性が重要なハードウェアに適用することが制限されています。本研究では、動的な現実世界のシナリオでRLアルゴリズムを体系的に評価するための新しいベンチトップ実験制御システム「Box o Flows」を紹介します。Box o Flowsの主要な構成要素を説明し、一連の実験を通じて、最先端のモデルフリーRLアルゴリズムが単純な報酬指定を通じて多様な複雑な行動を合成できることを実証します。さらに、過去の経験を再利用することで、データ効率的な仮説検証におけるオフラインRLの役割を探ります。この予備研究から得られた知見と、Box o Flowsのようなシステムの利用可能性が、複雑な動的システムに一般的に適用できる体系的RLアルゴリズムの開発に向けた道を支持すると考えています。補足資料と実験の動画はhttps://sites.google.com/view/box-o-flows/homeで利用可能です。