翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルは汎用的なツールとして登場したが、大規模な推論予算や大規模なドメイン内トレーニングセットを欠くタスクに適用するのは困難である。本研究ではこれらの制約を形式化し、4つの重要な変数を区別する:事前学習予算(ターゲットドメインが知られる前のトレーニング用)、専門化予算(ターゲットドメインが知られた後のトレーニング用)、推論予算、およびドメイン内トレーニングセットのサイズである。これらの設定において、機械学習文献から異なるアプローチを比較する。推論コストに制約される中で、非常に大規模な標準的なTransformerモデルをトレーニングする従来の手法よりも優れた代替案を見出した。特に、ハイパーネットワークやエキスパートの混合は大規模な事前学習予算に対してより良いパープレキシティを示し、重要度サンプリングされたデータセットでトレーニングされた小規模モデルは大規模な専門化予算に対して魅力的であることを示す。
大規模言語モデル(LLM)の進展は、コード生成の分野を大きく前進させました。これまでの研究では、コード生成の品質を向上させるために、強化学習(RL)とコンパイラフィードバックを統合し、LLMの出力空間を探索してきました。しかし、複雑な人間の要求に応じてLLMが生成する長いコードは、RLによる探索を困難にします。また、ユニットテストが複雑なコードをカバーしていない可能性があるため、実行されていないコードスニペットを使用してLLMを最適化することは非効率的です。これらの課題に対処するため、我々はStepCoderという新しいコード生成用RLフレームワークを提案します。StepCoderは2つの主要コンポーネントで構成されています。CCCS(Curriculum of Code Completion Subtasks)は、長いシーケンスのコード生成タスクを小さなコード補完サブタスクに分割することで探索の課題に対処し、FGO(Fine-Grained Optimization)は実行されていないコードセグメントをマスキングすることでモデルの最適化を行います。さらに、RLトレーニング用にAPPS+データセットを構築し、ユニットテストの正確性を保証するために手動で検証しました。実験結果は、我々の手法が出力空間の探索能力を向上させ、対応するベンチマークにおいて最先端のアプローチを上回ることを示しています。
人工知能の黎明期から、計画立案はその中核的な追求の一部となってきましたが、初期のAIエージェントは主に制約された環境に焦点を当てていました。なぜなら、人間レベルの計画立案に必要な多くの認知的基盤が欠けていたからです。最近、大規模言語モデル(LLM)を基盤とする言語エージェントが、ツールの使用や推論といった興味深い能力を示しています。これらの言語エージェントは、従来のAIエージェントの手が届かないようなより複雑な環境での計画立案が可能なのでしょうか?この調査を進めるために、私たちはTravelPlannerという新しい計画立案ベンチマークを提案します。これは、旅行計画という現実世界で一般的な計画シナリオに焦点を当てたものです。TravelPlannerは、豊富なサンドボックス環境、約400万件のデータレコードにアクセスするための様々なツール、そして1,225件の入念に選ばれた計画意図と参照計画を提供します。包括的な評価により、現在の言語エージェントはこのような複雑な計画タスクを処理する能力がまだないことが示されています。GPT-4でさえも、成功率はわずか0.6%に留まります。言語エージェントは、タスクに集中し続けること、適切なツールを使用して情報を収集すること、または複数の制約を追跡することに苦労しています。しかし、言語エージェントがこのような複雑な問題に取り組む可能性があること自体が、重要な進歩であることに注目しています。TravelPlannerは、将来の言語エージェントにとって挑戦的でありながらも意義深いテストベッドを提供します。
我々は、ポケモンバトルにおいて人間並みの性能を達成する初のLLM体現エージェント「Pok\'eLLMon」を紹介する。Pok\'eLLMonの設計には、以下の3つの主要な戦略が組み込まれている: (i) バトルから得られるテキストベースのフィードバックを即座に消費し、ポリシーを反復的に洗練するインコンテキスト強化学習 (ii) 外部知識を検索して幻覚を抑制し、エージェントが適切かつ迅速に行動できるようにする知識拡張生成 (iii) 強力な相手に直面し、バトルを回避したい際に発生するパニックスイッチング現象を軽減するための一貫したアクション生成 人間とのオンラインバトルでは、Pok\'eLLMonが人間らしい戦略とジャストインタイムの意思決定を示し、ラダー競技で49%、招待バトルで56%の勝率を達成したことが実証された。我々の実装とプレイ可能なバトルログは、https://github.com/git-disl/PokeLLMon で公開されている。
リッチで制御可能なモーションの生成は、ビデオ合成における重要な課題です。本論文では、細粒度のモーション制御を実現する新しいアプローチであるBoximatorを提案します。Boximatorは、ハードボックスとソフトボックスの2種類の制約を導入します。ユーザーは条件フレーム内のオブジェクトをハードボックスで選択し、その後、どちらかのタイプのボックスを使用して、将来のフレームにおけるオブジェクトの位置、形状、またはモーションパスを大まかにまたは厳密に定義します。Boximatorは、既存のビデオ拡散モデルのプラグインとして機能します。そのトレーニングプロセスでは、元の重みを凍結し、制御モジュールのみをトレーニングすることで、ベースモデルの知識を保持します。トレーニングの課題に対処するため、ボックスとオブジェクトの相関関係の学習を大幅に簡素化する新しいセルフトラッキング技術を導入します。実験的に、Boximatorは2つのベースモデルを上回る最先端のビデオ品質(FVD)スコアを達成し、ボックス制約を組み込むことでさらに向上します。その堅牢なモーション制御性は、バウンディングボックスのアライメントメトリックの大幅な向上によって検証されています。人間による評価でも、ユーザーはベースモデルよりもBoximatorの生成結果を好むことが示されています。
Transformerはシーケンスモデリングにおける主要なアーキテクチャですが、シーケンス長に依存しない固定サイズの潜在状態を使用するモデル、いわゆる「一般化状態空間モデル」(GSSM)に対する関心が高まっています。本論文では、GSSMが推論時の効率性の点で有望である一方、入力コンテキストからのコピーを必要とするタスクにおいてTransformerモデルに比べて限界があることを示します。まず、文字列コピーという単純なタスクに対する理論的分析を行い、2層のTransformerが指数関数的な長さの文字列をコピーできるのに対し、GSSMはその固定サイズの潜在状態によって根本的に制限されることを証明します。実験的には、コンテキストのコピーを必要とする合成タスクにおいて、TransformerがGSSMを効率性と汎化性能の点で上回ることを確認します。最後に、事前学習済みの大規模言語モデルを評価し、Transformerモデルがコンテキストからの情報のコピーと検索において状態空間モデルを大幅に上回ることを見出します。これらの結果を総合すると、実用的なタスクにおいてTransformerとGSSMの間に根本的なギャップが存在することが示唆されます。
大規模言語モデル(LLMs)は複雑な推論タスクにおいてその能力を発揮してきたが、ビジネス戦略や株式市場分析のような動的でインタラクティブかつ競争的なシナリオにおける性能はまだ十分に検証されていない。このギャップを埋めるため、我々は急速に変化する環境下での意思決定におけるLLMsの動的推論能力を正式に探求する。本論文では、現実世界の動的意思決定の複雑さを反映した2つのゲーム理論ベースのパイロット課題を導入する。これらの課題は明確に定義されており、LLMsの動的推論能力を明確で制御可能かつ精密に評価することが可能である。広範な実験を通じて、既存の推論手法はkレベル思考を必要とする動的設定において弱みを見せることがわかった。これは従来の研究が取り組んでこなかった重要な概念である。この問題に対処するため、我々は「Kレベル推論」という新しいLLMs向け推論手法を提案する。このアプローチは、競合相手の視点を採用し、利用可能な過去の情報に基づいてkレベル思考を再帰的に適用することで、競合相手の次の動きの予測精度を大幅に向上させ、より戦略的な意思決定を可能にする。本研究は、動的推論の評価のための堅牢な定量的ベンチマークを確立するだけでなく、LLMsの動的コンテキストにおける能力を著しく向上させるものである。
本技術レポートでは、nomic-embed-text-v1のトレーニングについて説明します。これは、完全に再現可能なオープンソース、オープンウェイト、オープンデータの8192トークンコンテキスト長を持つ英語テキスト埋め込みモデルであり、短いコンテキストと長いコンテキストのタスクにおいてOpenAI Ada-002およびOpenAI text-embedding-3-smallを上回る性能を発揮します。トレーニングコードとモデルウェイトをApache 2ライセンスの下で公開しています。他のオープンソースモデルとは異なり、2億3500万の厳選されたテキストペアを含むトレーニングデータローダーを公開しており、nomic-embed-text-v1の完全な再現を可能にしています。モデルを再現するためのコードとデータは、https://github.com/nomic-ai/contrastors で見つけることができます。
大規模モデルの登場は、機械学習における新たな時代の幕開けを告げ、膨大なデータセットを活用して複雑なパターンを捕捉・統合することで、小規模モデルを大幅に凌駕する性能を実現しました。しかしながら、特に音声生成分野におけるスケーリングの探求は限定的であり、これまでの取り組みは高忠実度(HiFi)44.1kHz領域にまで拡張されておらず、高周波領域でのスペクトルの不連続性やぼやけ、さらにはドメイン外データに対するロバスト性の欠如といった課題を抱えていました。これらの制約により、音楽や歌唱生成を含む多様なユースケースへのモデルの適用が制限されていました。本研究では、スケーラブルな生成的敵対ネットワーク(GAN)を活用したEnhanced Various Audio Generation(EVA-GAN)を提案し、スペクトルおよび高周波再構成、ドメイン外データ性能におけるロバスト性において、従来の最先端技術を大幅に改善しました。これにより、44.1kHzの音声データ36,000時間に及ぶ大規模データセット、コンテキスト認識モジュール、Human-In-The-Loopアーティファクト測定ツールキットを採用し、モデルを約2億パラメータに拡張することで、HiFi音声の生成を可能にしました。本研究成果のデモンストレーションはhttps://double-blind-eva-gan.ccで公開されています。