翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、複雑な言語および視覚タスクに取り組むために多様な専門モデルを統合する点で大きな可能性を示しています。人工知能生成コンテンツ(AIGC)の分野を進展させる上でその重要性は高いものの、インテリジェントなオーディオコンテンツ作成における可能性は未開拓のままです。本研究では、テキスト指示に基づいて、音声、音楽、効果音を含むストーリーラインを持つオーディオコンテンツを作成する問題に取り組みます。私たちは、LLMsを活用してさまざまなオーディオモデルを接続し、オーディオコンテンツ生成を行うシステム「WavJourney」を提案します。聴覚シーンのテキスト記述が与えられると、WavJourneyはまずLLMsに促して、オーディオストーリーテリング専用の構造化されたスクリプトを生成します。このオーディオスクリプトは、多様なオーディオ要素を時空間的関係に基づいて整理したものです。オーディオの概念的表現として、オーディオスクリプトは人間の関与のためのインタラクティブで解釈可能な根拠を提供します。その後、オーディオスクリプトはスクリプトコンパイラに送られ、コンピュータプログラムに変換されます。プログラムの各行は、タスク固有のオーディオ生成モデルまたは計算操作関数(例:連結、ミックス)を呼び出します。そして、コンピュータプログラムが実行され、オーディオ生成のための説明可能なソリューションが得られます。私たちは、SF、教育、ラジオドラマなど、多様な現実世界のシナリオにおいてWavJourneyの実用性を実証します。WavJourneyの説明可能でインタラクティブな設計は、マルチラウンドの対話を通じて人間と機械の共創を促進し、オーディオ制作における創造的な制御と適応性を高めます。WavJourneyは人間の想像力を音響化し、マルチメディアコンテンツ作成における新たな創造の道を開きます。
低ランク適応(LoRA)は、大規模言語モデル(LLM)を新しいタスクに微調整するためによく使用されます。本論文では、クロスタスク汎化のためのLoRAの合成可能性を調査し、多様なタスクで訓練されたLoRAモジュールを目的に応じて組み立てるための戦略的フレームワークであるLoraHubを紹介します。これにより、未知のタスクに対して適応可能な性能を達成することを目指します。LoraHubは、新しいタスクからのわずかな例を用いて、複数のLoRAモジュールを柔軟に組み合わせることができ、人間の専門知識を必要としません。特に、この合成には追加のモデルパラメータや勾配を必要としません。Big-Bench Hard(BBH)ベンチマークから得られた実験結果は、LoraHubがfew-shotシナリオにおけるインコンテキスト学習の性能を効果的に模倣できることを示唆しており、各推論入力にインコンテキスト例を必要としません。本研究の重要な貢献は、LoRAコミュニティの育成であり、ユーザーが訓練したLoRAモジュールを共有し、新しいタスクへの適用を容易にします。このリソースが、一般知能および生産環境におけるLLMのアクセスを広げ、進歩を促進することを期待しています。コードはhttps://github.com/sail-sg/lorahubで公開されます。
大規模言語モデル(LLM)は、質問に答える前に段階的な「連鎖的思考」(Chain-of-Thought, CoT)推論を生成する場合に性能が向上しますが、その推論がモデルの実際の推論プロセス(つまり、質問に答えるためのプロセス)を忠実に説明しているかどうかは不明です。本研究では、CoT推論が不忠実である可能性のある仮説を検証するため、CoTに介入(例えば、誤りを追加したり言い換えたりする)した際のモデルの予測の変化を調べました。その結果、モデルはタスクによってCoTにどの程度依存して答えを予測するかが大きく異なり、CoTに強く依存する場合もあれば、ほとんど無視する場合もあることがわかりました。CoTによる性能向上は、CoTが追加するテスト時の計算量だけによるものではなく、またCoTの特定の言い回しによってエンコードされた情報によるものでもないようです。モデルがより大規模で能力が高くなるにつれ、調査したほとんどのタスクにおいて、モデルはより不忠実な推論を生成するようになります。全体として、モデルのサイズやタスクを慎重に選択するなどの条件下では、CoTは忠実な推論を生成し得ることが示唆されました。
生成AIの進化に伴い、自然言語コマンドを通じて日常タスクを管理する自律エージェントの可能性が注目を集めています。しかし、現在のエージェントは主に簡素化された合成環境で作成・テストされており、現実世界のシナリオを十分に反映できていません。本論文では、高度に現実的で再現性のあるエージェントのコマンド&コントロール環境を構築します。具体的には、ウェブサイト上でタスクを実行するエージェントに焦点を当て、eコマース、ソーシャルフォーラムディスカッション、共同ソフトウェア開発、コンテンツ管理という4つの一般的なドメインからなる完全に機能するウェブサイト環境を作成しました。この環境は、地図などのツールやユーザーマニュアルなどの外部知識ベースを備えており、人間らしいタスク解決を促進します。この環境を基盤として、タスク完了の機能的正しさを評価するためのベンチマークタスクセットを公開しました。ベンチマークのタスクは多様で長期的な視野を持ち、人間がインターネット上で日常的に行うタスクを模倣するように設計されています。私たちは、行動前に推論を行うなど最新の技術を統合した複数の自律エージェントを設計・実装しました。その結果、複雑なタスクを解決することの難しさが明らかになりました。GPT-4ベースの最良のエージェントでも、エンドツーエンドのタスク成功率はわずか10.59%でした。これらの結果は、堅牢なエージェントのさらなる開発の必要性、現在の最先端言語モデルがこれらの現実世界タスクにおいて完璧な性能から程遠いこと、そしてWebArenaがそのような進歩を測定するために使用できることを示しています。私たちのコード、データ、環境再現リソース、およびビデオデモンストレーションはhttps://webarena.dev/で公開されています。
大規模言語モデル(LLM)は、さまざまな定量的推論や知識ベンチマークにおいて顕著な性能を発揮してきました。しかし、これらのベンチマークの多くは、LLMがこれらの領域で専門家レベルの性能に達していないにもかかわらず、スコアがますます高くなるにつれて有用性を失いつつあります。本研究では、複数の分野における高度な推論問題で構成された新しいベンチマーク「ARB」を紹介します。ARBは、数学、物理学、生物学、化学、法律の問題を特徴とする、従来のベンチマークよりも挑戦的なテストを提供します。ARBの一部として、高度な記号推論とドメイン知識を必要とする数学と物理学の問題セットを導入します。GPT-4やClaudeなどの最近のモデルをARBで評価し、現在のモデルがより要求の厳しいタスクで50%を大きく下回るスコアを示すことを実証します。自動評価と支援評価の両方の能力を向上させるために、GPT-4が自身の中間推論ステップを採点できるルーブリックベースの評価アプローチを導入します。さらに、ARBの記号推論サブセットに対する人間による評価を実施し、アノテーターとGPT-4のルーブリック評価スコアの間に有望な一致が見られることを確認します。
従来のレコメンダーシステムは、ユーザーのアイテム選好履歴を活用して、ユーザーが好む可能性のある新しいコンテンツを推薦します。しかし、ユーザーが言語ベースの選好を表現できる現代の対話インターフェースは、選好入力の根本的に異なるモダリティを提供します。大規模言語モデル(LLM)のプロンプティングパラダイムの最近の成功に触発され、我々は、アイテムベースと言語ベースの選好の両方から推薦を行う際のLLMの利用を、最先端のアイテムベース協調フィルタリング(CF)手法と比較して研究します。この調査を支援するため、我々は、ユーザーから収集したアイテムベースと言語ベースの選好、および様々な(バイアスのかかった)推薦アイテムと(バイアスのない)ランダムアイテムに対する評価からなる新しいデータセットを収集します。数多くの実験結果の中でも、LLMは、特定のタスクに対する教師ありトレーニングがない(ゼロショット)か、わずかなラベルしかない(少数ショット)場合でも、純粋な言語ベースの選好(アイテム選好なし)において、アイテムベースCF手法と比較して競争力のある推薦性能を提供することがわかりました。これは特に有望です。なぜなら、言語ベースの選好表現は、アイテムベースやベクトルベースの表現よりも説明可能で検証可能だからです。
コードカバレッジは、テスト中にステートメントやブランチなどのプログラム要素がどの程度実行されたかを定量化するために広く使用される指標です。コードカバレッジの計算はリソース集約的であり、コードのビルドと実行に加えて、計装のための追加のオーバーヘッドが必要です。さらに、コードスニペットのカバレッジを計算するには、プログラム全体のコンテキストが必要です。機械学習を使用してこの高コストなプロセスを償却することで、ソースコードのコンテキストのみを必要とし、コードカバレッジのコストを削減できる可能性があります。また、コードカバレッジ予測のタスクは、モデルのコード理解能力を判断するための新しいベンチマークとして機能します。我々は、大規模言語モデル(LLMs)のための新しいベンチマークタスクである「コードカバレッジ予測」を提案します。このタスクを形式化し、与えられたテストケースと入力によってメソッドのどの行が実行されるかを決定することで、LLMsのコード実行理解能力を評価します。我々は、HumanEvalデータセットのテストとコードを実行し、コードカバレッジ情報を収集することで、COVERAGEEVALというデータセットをキュレーションし、公開します。OpenAIのGPT-4とGPT-3.5-Turbo、GoogleのBARD、AnthropicのClaudeを含む、コード関連タスクに使用される4つの最先端LLMsのコードカバレッジ予測タスクにおける性能を報告します。最後に、コードカバレッジが指標および事前学習データソースとして、ソフトウェアエンジニアリングタスクにおけるLLMsの全体的な性能にとって価値があることを主張します。
我々はStrivecという新しいニューラル表現を提案する。これは3Dシーンを、まばらに分布しコンパクトに分解された局所テンソル特徴グリッドを持つ放射場としてモデル化する。我々のアプローチは、最近の研究TensoRFに従い、テンソル分解を活用してテンソルグリッドをモデル化する。TensoRFがグローバルテンソルを使用し、そのベクトル-行列分解に焦点を当てるのに対し、我々は局所テンソルのクラウドを利用し、古典的なCANDECOMP/PARAFAC(CP)分解を適用して各テンソルを空間軸に沿った局所特徴分布を表現し、局所ニューラル場をコンパクトに符号化する三重ベクトルに分解することを提案する。また、マルチスケールテンソルグリッドを適用して幾何学と外観の共通性を発見し、複数の局所スケールで三重ベクトル分解を利用して空間的コヒーレンスを活用する。最終的な放射場の特性は、すべてのスケールにわたる複数の局所テンソルからのニューラル特徴を集約することによって回帰される。我々の三重ベクトルテンソルは、高速な粗い再構成によって発見された実際のシーン表面の周りにまばらに分布しており、3Dシーンのスパース性を活用している。我々のモデルが、TensoRFやInstant-NGPを含む以前の方法よりも大幅に少ないパラメータを使用しながら、より優れたレンダリング品質を達成できることを実証する。
多くの現実世界の問題は強化学習の恩恵を受ける可能性があるものの、これらの問題はMDP(マルコフ決定過程)の枠組みにうまく当てはまらないことが多い。環境との相互作用はしばしばコストが高く、報酬関数の指定も困難である。これらの課題を動機として、これまでの研究では、遷移ダイナミクスからのサンプルと高リターンの状態の例のみから学習するデータ駆動型アプローチが開発されてきた。これらの手法は通常、高リターンの状態から報酬関数を学習し、その報酬関数を使用して遷移にラベルを付け、その後、オフライン強化学習アルゴリズムをこれらの遷移に適用する。これらの手法は多くのタスクで良好な結果を達成できるが、正則化や時間差分更新を必要とするなど、複雑であることが多い。本論文では、報酬関数ではなく、多段階遷移の暗黙的モデルを学習する、オフラインの例ベース制御の手法を提案する。この暗黙的モデルが、例ベース制御問題のQ値を表現できることを示す。一連の状態ベースおよび画像ベースのオフライン制御タスクにおいて、本手法は学習済みの報酬関数を使用するベースラインを上回り、追加の実験では、データセットサイズに対するロバスト性とスケーリングの向上が実証された。