翻訳付きの日次キュレーションされたAI研究論文
本レポートでは、大規模言語モデルおよび大規模マルチモーダルモデルの最新シリーズであるQwen2を紹介します。0.5Bから72Bまでのパラメータ範囲をカバーする、密なモデルとMixture-of-Expertsモデルを含む、包括的な基盤モデルおよび指示チューニングされた言語モデルをリリースしました。Qwen2は、先行するQwen1.5を含むほとんどの既存のオープンウェイトモデルを凌駕し、言語理解、生成、多言語能力、コーディング、数学、推論など多様なベンチマークにおいて、プロプライエタリモデルと競合する性能を示しています。 フラッグシップモデルであるQwen2-72Bは、基盤言語モデルとして、MMLUで84.2、GPQAで37.9、HumanEvalで64.6、GSM8Kで89.5、BBHで82.4という顕著な性能を発揮します。指示チューニングされたバリアントであるQwen2-72B-Instructは、MT-Benchで9.1、Arena-Hardで48.1、LiveCodeBenchで35.7を達成しました。さらに、Qwen2は約30言語にわたる強力な多言語能力を示し、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語などを含む多様な言語に対応し、その汎用性とグローバルな到達範囲を強調しています。 コミュニティのイノベーションとアクセシビリティを促進するため、Qwen2のモデルウェイトをHugging Face1およびModelScope2で公開し、GitHub3にはサンプルコードを含む補足資料を提供しています。これらのプラットフォームには、量子化、ファインチューニング、デプロイメントのためのリソースも含まれており、幅広いアプリケーションと研究活動を支援します。
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を発揮します。しかし、これらのモデルは意図せずに個人情報を記憶してしまう可能性があり、重大なプライバシーリスクを引き起こします。本研究では、完全な再学習を必要とせずに、特定の個人のプライバシーデータを保護するためのLLMの課題に取り組みます。私たちは、現実的なシナリオにおける個人データ保護のための機械的忘却(MU)手法を評価するために、Wikipediaから2,492人の個人と関連するQAペアを含む\return(Real-world pErsonal daTa UnleaRNing)データセットを提案します。さらに、プライバシー保護のためのName-Aware Unlearning Framework(NAUF)を導入し、モデルがどの個人の情報を保護すべきかを学習しながら、他の無関係な個人に関する質問に答える能力に影響を与えないようにします。私たちの大規模な実験により、NAUFが最先端の平均忘却スコアを達成し、最良のベースラインメソッドを5.65ポイント上回り、ターゲットとなる個人のプライバシーデータを効果的に保護しながら、モデルの一般的な能力を維持することが実証されました。
近年、Embodied AIの分野におけるスケーリング則の探求が進められています。現実世界のデータ収集にかかる莫大なコストを考慮すると、Simulation-to-Real(Sim2Real)パラダイムは、具象化モデルの学習をスケールアップするための重要なステップであると考えられます。本論文では、様々なロボット向けに設計された初のシミュレーション型インタラクティブ3D社会「プロジェクトGRUtopia」を紹介します。このプロジェクトには以下のような進展が含まれています:(a) シーンデータセット「GRScenes」は、10万のインタラクティブで詳細に注釈付けされたシーンを含み、これらを自由に組み合わせて都市規模の環境を構築できます。従来の研究が主に家庭環境に焦点を当てていたのに対し、GRScenesは89の多様なシーンカテゴリーを網羅し、汎用ロボットが最初に展開されるサービス指向環境のギャップを埋めます。(b) 「GRResidents」は、大規模言語モデル(LLM)によって駆動されるノンプレイヤーキャラクター(NPC)システムで、社会的相互作用、タスク生成、タスク割り当てを担当し、具象化AIアプリケーションのための社会的シナリオをシミュレートします。(c) ベンチマーク「GRBench」は、様々なロボットをサポートしますが、主なエージェントとして脚式ロボットに焦点を当て、オブジェクト移動ナビゲーション、社会的移動ナビゲーション、移動操作といった中程度に挑戦的なタスクを提供します。本研究が、この分野における高品質データの不足を緩和し、Embodied AI研究のより包括的な評価を提供することを期待しています。本プロジェクトはhttps://github.com/OpenRobotLab/GRUtopiaで公開されています。
現在の大規模言語モデル(LLM)の評価では、非決定性が見過ごされることが多く、通常は各例に対して単一の出力に焦点が当てられています。これにより、実世界のアプリケーションにおけるLLMの性能変動に対する理解が制限されています。本研究では、貪欲デコーディングとサンプリングの間の性能差に関する重要な疑問を探り、非決定性に関するベンチマークの一貫性を特定し、独特なモデルの挙動を検証することで、この問題に取り組んでいます。広範な実験を通じて、貪欲デコーディングがほとんどの評価タスクにおいてサンプリング手法を上回ることを観察しました。また、異なるLLMサイズやアライメント手法においても一貫した性能が見られ、アライメントがサンプリングの分散を減少させることが分かりました。さらに、我々のベスト・オブ・Nサンプリングアプローチは、より小さなLLMがGPT-4-Turboのような大規模モデルに匹敵し、あるいはそれを上回る可能性を示しており、小さなLLMの未開拓の可能性を強調しています。この研究は、LLM評価において非決定性を考慮することの重要性を示し、将来のLLM開発と評価に対する洞察を提供します。
Q-Sparseを紹介します。これは、スパース活性化された大規模言語モデル(LLM)を訓練するためのシンプルでありながら効果的なアプローチです。Q-Sparseは、LLMの活性化を完全にスパースにすることで、推論時の大幅な効率向上をもたらします。これは、活性化に対してtop-Kスパース化を適用し、訓練に対してストレートスルー推定量を使用することで実現されます。この研究の主な成果は以下の通りです:(1)Q-Sparseは、ベースラインのLLMと同等の結果を達成しつつ、推論時に非常に効率的であること;(2)スパース活性化されたLLMのための推論最適なスケーリング則を提示すること;(3)Q-Sparseが、ゼロからの訓練、既存のLLMの継続訓練、ファインチューニングなど、さまざまな設定で有効であること;(4)Q-Sparseが、完全精度および1ビットLLM(例:BitNet b1.58)の両方で機能すること。特に、BitNet b1.58とQ-Sparse(MoEを装備可能)の相乗効果は、将来のLLMの効率(コストとエネルギー消費を含む)を革新するための基盤と明確な道筋を提供します。
大規模言語モデル(LLM)が進化するにつれ、その出力を信頼性高く評価することが、人間による評価の高コストのためにますます困難になっています。より優れたLLM自動評価器を目指して、我々はFLAMe(Foundational Large Autorater Models)を導入します。FLAMeは、過去の研究で公開された人間による評価を基にキュレーションおよび標準化された、100以上の品質評価タスクと500万以上の人間の判断からなる大規模で多様なデータセットで訓練されています。FLAMeは、様々な保留タスクへの汎化性能を大幅に向上させ、多くのタスクにおいてGPT-4やClaude-3のようなプロプライエタリデータで訓練されたLLMを上回ります。また、FLAMeは、報酬モデリング評価をケーススタディとして(FLAMe-RM)、さらなる下流のファインチューニングの強力な出発点としても機能することを示します。特に、RewardBenchにおいて、我々のFLAMe-RM-24Bモデル(精度87.8%)は、許諾ライセンスデータのみで訓練された生成モデルの中で最高の性能を発揮し、GPT-4-0125(85.9%)とGPT-4o(84.7%)の両方を上回ります。さらに、我々は、報酬モデリング評価のためにFLAMeマルチタスク混合を最適化する新しいテールパッチファインチューニング戦略を使用した、より計算効率の高いアプローチ(FLAMe-Opt-RM)を探求し、RewardBenchの性能を競争力のあるレベルに保ちながら、約25倍少ないトレーニングデータポイントを必要とします。全体として、我々のFLAMeバリアントは、RewardBenchやLLM-AggreFactを含む53の品質評価タスクを網羅する12の自動評価ベンチマークのうち8つにおいて、すべての人気のあるプロプライエタリLLM-as-a-Judgeモデルを上回ります。最後に、我々の分析は、FLAMeがCoBBLEr自動評価バイアスベンチマークにおいてこれらのLLM-as-a-Judgeモデルよりも著しくバイアスが少なく、コード生成のための高品質な応答を効果的に識別することを明らかにしています。
テキスト記述から画像を生成するのと同じくらい簡単に、望ましい行動のたった1つのデモンストレーションをプロンプトとして用いて、エージェントの制御ポリシーを生成できるだろうか?本論文では、行動からポリシーへの生成に条件付き拡散モデルの力を活用した新しいポリシーパラメータ生成器、Make-An-Agentを提案する。軌道情報をエンコードした行動埋め込みに導かれて、我々のポリシー生成器は潜在パラメータ表現を合成し、それをポリシーネットワークにデコードすることができる。ポリシーネットワークのチェックポイントとそれに対応する軌道で訓練された我々の生成モデルは、複数のタスクにおいて驚くべき汎用性とスケーラビリティを示し、未見のタスクにおいても少数のデモンストレーションを入力として優れたパフォーマンスのポリシーを出力する強い一般化能力を持つ。我々は、様々な目的や行動、さらには異なるロボットマニピュレータにわたる多様な領域やタスクにおいて、その有効性と効率性を実証する。シミュレーションを超えて、Make-An-Agentによって生成されたポリシーを、移動タスクにおいて実世界のロボットに直接展開する。
テキストから画像への拡散モデルは、画像合成において最先端の結果を達成することが示されていますが、下流タスクでの有効性はまだ証明されていません。これまでの研究では、限られた実データアクセス下での画像分類器トレーニング用データ生成が提案されてきました。しかし、これらの手法は分布内画像の生成や細粒度特徴の描写に苦戦しており、合成データセットでトレーニングされた分類モデルの汎化性能を妨げています。本論文では、ターゲットクラスの少数ショット例に基づいて、実データ分布をより忠実に表現する分類データセットを合成するフレームワーク「DataDream」を提案します。DataDreamは、まず少数の実画像を用いて画像生成モデルのLoRA重みをファインチューニングし、適応されたモデルを使用してトレーニングデータを生成します。次に、合成データを用いてCLIPのLoRA重みをファインチューニングし、多様なデータセットにおいて従来手法を上回る下流画像分類性能を実現します。広範な実験を通じてDataDreamの有効性を実証し、10のデータセットのうち7つで少数ショットデータを用いた最先端の分類精度を達成し、残りの3つでも競争力のある結果を示します。さらに、実ショット数、生成画像数、ファインチューニング計算量など、様々な要因がモデル性能に与える影響について洞察を提供します。コードはhttps://github.com/ExplainableML/DataDreamで公開されています。
ビデオからオーディオ(V2A)生成は、視覚的なビデオ特徴のみを活用して、シーンに合った説得力のある音を生成する技術です。重要な点として、生成された音の開始タイミングは、それに対応する視覚的なアクションと一致する必要があります。そうでない場合、不自然な同期のアーティファクトが生じます。最近の研究では、静止画像やビデオ特徴を条件とした音生成器の進化が探求されてきましたが、その多くは品質と意味的マッチングに焦点を当てており、同期を無視しているか、あるいは品質を多少犠牲にして同期の改善のみに集中しています。本研究では、MaskVATというV2A生成モデルを提案します。このモデルは、高品質な全帯域汎用オーディオコーデックと、シーケンス間マスク生成モデルを組み合わせています。この組み合わせにより、高音質、意味的マッチング、および時間的同期性を同時にモデル化することが可能です。私たちの結果は、高品質なコーデックと適切に事前学習された視聴覚特徴、およびシーケンス間並列構造を組み合わせることで、一方で高度に同期した結果を得つつ、非コーデック生成オーディオモデルの最先端技術と競争力を持つことを示しています。サンプルビデオと生成されたオーディオはhttps://maskvat.github.ioでご覧いただけます。
下流制御タスクを支援するために設計された新しいビデオ予測モデルのファミリーを紹介します。これらのモデルをVideo Occupancyモデル(VOCs)と呼びます。VOCsはコンパクトな潜在空間で動作するため、個々のピクセルに関する予測を行う必要がありません。従来の潜在空間世界モデルとは異なり、VOCsは将来の状態の割引分布を単一ステップで直接予測するため、多段階のロールアウトを必要としません。これらの特性が、下流制御に使用するビデオの予測モデルを構築する際に有益であることを示します。コードはhttps://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}で公開されています。
データサイエンスとエンジニアリングのワークフローは、BigQuery、dbt、Airbyteなどのツールを使用して、データウェアハウジングからオーケストレーションまで複数の段階にわたることが多い。視覚言語モデル(VLM)がマルチモーダル理解とコード生成において進化するにつれ、VLMベースのエージェントは、SQLクエリ、Pythonコード、GUI操作を生成することで、これらのワークフローを自動化する可能性がある。この自動化により、専門家の生産性が向上するだけでなく、大規模なデータ分析へのアクセスが民主化される。本論文では、プロフェッショナルなデータサイエンスとエンジニアリングのワークフローに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。Spider2-Vは、494の実世界のタスクを本物のコンピュータ環境で提供し、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、実世界のユースケースに基づいており、マルチモーダルエージェントがエンタープライズデータソフトウェアシステムにおいてコードを記述し、GUIを管理する能力を評価する。現実的なシミュレーションと評価の簡便さを両立させるため、タスク設定の自動構成に多大な努力を注ぎ、各タスクの評価指標を慎重に設計した。さらに、マルチモーダルエージェントにこれらのエンタープライズデータソフトウェアシステムの包括的なドキュメントを提供する。我々の実証評価によると、既存の最先端のLLM/VLMベースのエージェントは、完全なデータワークフローを確実に自動化できない(14.0%の成功率)。ステップバイステップのガイダンスがあっても、これらのエージェントは、細かい知識集約型のGUIアクションを必要とするタスク(16.2%)やリモートのクラウドホストワークスペースを伴うタスク(10.6%)で依然として低いパフォーマンスを示す。Spider2-Vが、自律型マルチモーダルエージェントによるデータサイエンスとエンジニアリングワークフローの自動化を変革する道を開くことを期待する。我々のコードとデータはhttps://spider2-v.github.ioで公開されている。
最先端の大規模言語モデル(LLMs)およびLLMを活用したシステムが、さまざまな分野における科学的発見を急速に加速する可能性があるという広範な楽観論が存在します。現在、教科書的な科学問題に対するLLMの知識と推論能力を測定するための多くのベンチマークが存在しますが、科学研究に必要な実践的なタスク(文献検索、プロトコル計画、データ分析など)における言語モデルの性能を評価するためのベンチマークはほとんど存在しません。そのようなベンチマークを構築するための一歩として、私たちは「Language Agent Biology Benchmark(LAB-Bench)」を紹介します。これは、文献の想起と推論、図表の解釈、データベースへのアクセスとナビゲーション、DNAおよびタンパク質配列の理解と操作など、実践的な生物学研究能力を評価するための2,400以上の多肢選択問題からなる広範なデータセットです。重要な点として、従来の科学的ベンチマークとは異なり、より難しいLAB-Benchタスクで一貫して高いスコアを達成できるAIシステムは、文献検索や分子クローニングなどの分野で研究者の有用なアシスタントとして機能すると期待されます。最先端言語モデルの新たな科学的タスク能力を初期評価するため、いくつかのモデルの性能を測定し、人間の生物学研究者の専門家と比較した結果を報告します。私たちは、LAB-Benchを今後も更新・拡張し続け、自動化された研究システムの開発において有用なツールとして活用されることを期待しています。LAB-Benchの公開サブセットは以下のURLで利用可能です: https://huggingface.co/datasets/futurehouse/lab-bench
パラメータ効率的な転移学習(PETL)は、大規模な事前学習モデルを下流タスクに適応させるための研究分野として急速に発展し、ファインチューニング中のメモリ課題に対処しながら学習可能なパラメータを大幅に削減しています。この課題に対処するため、メモリ効率型シリーズ(METL)は、大規模なバックボーンを通じて勾配を逆伝播することを回避します。しかし、これらは凍結された中間出力にのみ依存し、事前学習モデルからの知識の徹底的な探索を制限することで妥協しています。さらに、層間特徴の依存性と冗長性が頻繁に見落とされ、より識別力のある表現が埋もれてしまい、従来のPETL手法との間に本質的な性能差が生じています。そこで、リソースが限られたシナリオ向けに、SHERLという革新的なMETL戦略を提案します。この戦略では、適応プロセスを2つの連続的で補完的なプロセスに分離します。初期ルートでは、冗長性を排除する操作を通じて中間出力を統合し、後続の相互作用のための互換性を高めます。これにより、後期ルートでは、最小限の後期事前学習層を活用することで、メモリオーバーヘッドのピーク需要を軽減し、これらの非常に柔軟な特徴を新しいドメインに適応的で強力な表現に調整します。視覚と言語、および言語のみのタスクにおける広範なアブレーション実験により、SHERLがパラメータ効率とメモリ効率の両技術の長所を組み合わせ、多様なアーキテクチャにおいて同等またはそれ以上の性能を発揮しつつ、ファインチューニング中のメモリ使用量を低く抑えることが示されました。私たちのコードは以下のURLで公開されています:https://github.com/Paranioar/SHERL。
相互強化効果(MRE)は、情報抽出とマルチタスク研究において有望なアプローチを示しています。しかし、MREミックスデータセットが日本語でのみ利用可能であるため、その適用範囲は制限されており、世界的な研究コミュニティによる包括的な探求が妨げられてきました。この制約を解消するため、我々は英語、日本語、中国語の21のサブデータセットを含む多言語MREミックスデータセット(MMM)を導入しました。本論文では、大規模言語モデル(LLMs)を活用したデータセット翻訳手法も提案しています。この手法により、元の日本語データセットの翻訳にLLMsを活用することで、データセット構築に必要な手動アノテーション時間を大幅に削減しています。さらに、オープンドメインの固有表現認識(NER)と文分類タスクを組み込むことで、データセットを充実させました。この拡張されたデータセットを活用し、オープンドメイン情報抽出大規模言語モデル(OIELLM)を訓練するための統一的な入出力フレームワークを開発しました。OIELLMモデルは、新たなMMMデータセットを効果的に処理する能力を示し、性能の大幅な向上を実証しています。
現在展開されている大規模言語モデル(LLM)の多くは、継続的なトレーニングや追加のファインチューニングを受けています。一方、LLMの内部メカニズムに関する研究のほとんどは、ある一時点(事前学習の終了時)のモデルに焦点を当てており、その結果が現実世界の設定に一般化するかどうかという疑問が生じます。時間経過に伴うメカニズムに関する既存の研究は、エンコーダのみのモデルやトイモデルに焦点を当てており、これらは展開されているモデルとは大きく異なります。本研究では、デコーダのみのLLMにおいて、7000万から28億パラメータまでのモデルを対象に、3000億トークンのトレーニングを通じて、回路として操作化されたモデルのメカニズムがどのように出現し進化するかを追跡します。その結果、タスク能力とそれを支える機能コンポーネントは、スケールを問わず類似したトークン数で一貫して出現することがわかりました。さらに、そのようなコンポーネントは時間とともに異なるアテンションヘッドによって実装される可能性がありますが、それらが実装する全体的なアルゴリズムは維持されます。驚くべきことに、これらのアルゴリズムとそれに関与するコンポーネントのタイプは、モデルのスケールを超えて複製される可能性があります。これらの結果は、事前学習の終了時に小さなモデルで行われた回路分析が、追加の事前学習後やモデルのスケールを超えても適用可能な洞察を提供できることを示唆しています。
合成動画の品質向上を図るため、現在主流となっている手法の一つは、専門的な拡散モデルを再学習し、その後ノイズ付加・除去プロセスを適用して精緻化を行うというものです。しかし、多大な学習コストを要するにもかかわらず、元の動画と強化後の動画間の内容の一貫性を維持することは依然として大きな課題となっています。この課題に対処するため、我々は視覚的品質と内容の一貫性の両方を考慮した新しい定式化を提案します。内容の一貫性は、入力の構造を維持する新たに提案した損失関数によって保証され、視覚的品質は事前学習済み拡散モデルのノイズ除去プロセスを活用することで向上させます。この定式化された最適化問題に対処するため、我々はプラグアンドプレイ型のノイズ最適化戦略、すなわちNoise Calibrationを開発しました。初期のランダムノイズを数回の反復で精緻化することで、元の動画の内容を大幅に保持しつつ、強化効果が顕著に向上することを実証しました。広範な実験を通じて、提案手法の有効性が示されています。