翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルの時代において、Massive Multitask Language Understanding (MMLU) のようなベンチマークは、AIが多様な領域における言語理解と推論において達成可能な限界を押し広げる上で重要な役割を果たしてきた。しかし、モデルが継続的に改善されるにつれ、これらのベンチマークにおける性能は頭打ちになり始め、モデルの能力の違いを識別することがますます困難になっている。本論文では、主に知識駆動型のMMLUベンチマークを拡張するために設計された強化版データセット、MMLU-Proを紹介する。MMLU-Proは、より挑戦的で推論に焦点を当てた質問を統合し、選択肢を4つから10個に拡大することで、MMLUを発展させたものである。さらに、MMLU-ProはMMLUに含まれる些末でノイズの多い質問を排除している。実験結果によると、MMLU-Proは難易度を引き上げ、MMLUと比較して精度が16%から33%大幅に低下するだけでなく、様々なプロンプトの下でより高い安定性を示している。24種類の異なるプロンプトスタイルをテストした結果、モデルのスコアがプロンプトの変動に対して示す感度は、MMLUでは4-5%であったのに対し、MMLU-Proではわずか2%に減少した。さらに、Chain of Thought (CoT) 推論を利用するモデルは、直接回答する場合と比較してMMLU-Proでより良い性能を達成することがわかった。これは、元のMMLUでの結果とは対照的であり、MMLU-Proがより複雑な推論問題を含んでいることを示唆している。我々の評価は、MMLU-Proがこの分野の進歩をより良く追跡するための識別力の高いベンチマークであることを確認している。
言語モデルは、多くの人々の集合的な声を模倣するように調整されており、特定の誰かと一致する出力を生成するわけではありません。LLMを一般的な出力から逸脱させることは、教師ありファインチューニングやRLHF(人間によるフィードバックを用いた強化学習)を通じて可能ですが、新しいアドホックなタスクに対しては膨大なデータセットが必要となり、現実的ではありません。私たちは、代わりに、非常に少数(10未満)のデモンストレーションをフィードバックとして活用することで、LLMを特定の設定に合わせて調整することが可能であると主張します。私たちの手法である「デモンストレーション反復タスク最適化(DITTO)」は、言語モデルの出力をユーザーのデモンストレーションされた行動に直接合わせます。DITTOは、オンライン模倣学習のアイデアを基に、ユーザーのデモンストレーションをLLMやその中間チェックポイントからの出力よりも優先されるものとして扱うことで、低コストでオンライン比較データを生成します。私たちは、DITTOがニュース記事、メール、ブログ投稿などのドメインにわたって、細かいスタイルやタスクの調整を学習する能力を評価します。さらに、参加者(N=16)からさまざまなデモンストレーションを収集するユーザー調査を実施しました。ベンチマークとユーザー調査の結果、DITTOの勝率は、Few-shotプロンプティング、教師ありファインチューニング、および他の自己プレイ手法を平均19%ポイント上回ることがわかりました。デモンストレーションを直接フィードバックとして使用することで、DITTOはLLMの効果的なカスタマイズのための新しい方法を提供します。
本研究は、ビデオ深度推定の課題に取り組むものであり、単なるフレームごとの精度だけでなく、より重要なクロスフレームの一貫性が求められる。深度推定器を一から開発するのではなく、予測タスクを条件付き生成問題として再定式化することで、既存のビデオ生成モデルに埋め込まれた事前知識を活用し、学習の難易度を低減し汎化性能を向上させる。具体的には、公開されているStable Video Diffusion(SVD)を活用し、画像深度とビデオ深度のデータセットを組み合わせて入力ビデオから信頼性の高い深度を予測する方法を検討する。実証的に、手順を踏んだトレーニング戦略——まずSVDの空間層を最適化し、次に空間層を凍結した状態で時間層を最適化する——が、空間精度と時間的一貫性の両面で最良の結果をもたらすことを確認した。さらに、任意の長さのビデオに対する推論におけるスライディングウィンドウ戦略を検証し、効率と性能のトレードオフを観察した。1フレームのオーバーラップでも良好な結果が得られることがわかった。広範な実験結果により、我々のアプローチ「ChronoDepth」が既存の手法を凌駕し、特に推定深度の時間的一貫性において優れていることが示された。さらに、より一貫性のあるビデオ深度がもたらす利点を、深度条件付きビデオ生成と新規視点合成という2つの実用的な応用において強調する。プロジェクトページはhttps://jhaoshao.github.io/ChronoDepth/{this http URL}で公開されている。
文化的蓄積は、人類の歴史にわたる能力の無限かつ多様な進歩を駆動してきた。それは、個人の探求と世代間の情報伝達を組み合わせることで、知識とスキルの体系を拡大させていく。人間の間では広く成功を収めているにもかかわらず、人工学習エージェントが文化を蓄積する能力については、まだ十分に探求されていない。特に、強化学習のアプローチは通常、単一の生涯における改善を目指すものである。既存の世代アルゴリズムは、文化の蓄積が持つ無限の可能性や創発的な性質を捉えることに失敗しており、個人が革新と模倣のトレードオフを行うことを可能にする特性を再現できていない。強化学習エージェントが社会的学習を行う能力が以前に実証されたことを踏まえ、我々は、独立した学習と社会的学習のバランスを取る訓練設定が文化的蓄積を生み出すことを発見した。これらの蓄積を行うエージェントは、同じ累積経験を持つ単一の生涯で訓練されたエージェントを凌駕する。我々は、2つの異なる世代の概念に基づいて2つのモデルを構築し、この蓄積を探求した。1つはエピソード的な世代で、文脈内学習を通じて蓄積が行われる。もう1つは訓練時の世代で、重み内学習を通じて蓄積が行われる。文脈内と重み内の文化的蓄積は、それぞれ知識の蓄積とスキルの蓄積に類比的に解釈できる。我々の知る限り、この研究は、強化学習において創発的な文化的蓄積を達成する一般的なモデルを初めて提示したものであり、より無限の可能性を持つ学習システムへの新たな道を開くとともに、人間の文化をモデル化する新たな機会を提供するものである。
学習済みオプティマイザ(LOs)は、ニューラルネットワークの実時間トレーニング時間を大幅に短縮し、トレーニングコストを大幅に削減することができます。しかし、特にメタトレーニング中に見たものよりも大きなネットワークをトレーニングする場合、メタ一般化が不十分であることがよくあります。これを解決するために、最近提案されたMaximal Update Parametrization(muP)を使用します。muPは、より小さなモデルからより大きなモデルへのオプティマイザハイパーパラメータのゼロショット一般化を可能にします。我々はmuP理論を学習済みオプティマイザに拡張し、メタトレーニング問題をmuPの下で学習済みオプティマイザを見つける問題として扱います。評価の結果、muPでメタトレーニングされたLOsは、標準パラメータ化(SP)の下でトレーニングされたLOsと比較して、メタ一般化が大幅に向上することが示されました。特に、大規模な幅のモデルに適用した場合、103 GPU時間でトレーニングされた我々の最良のmuLOは、4000 TPU月の計算リソースでメタトレーニングされた公開されている最大の学習済みオプティマイザであるVeLOの性能に匹敵またはそれを上回りました。さらに、muLOsは、SPの対応するものと比較して、より深いネットワークやメタトレーニング中に見たものよりもはるかに長いトレーニング期間(25倍長い)への一般化が優れていることを示しました。
近年、特にビデオ拡散モデルの登場以来、ビデオ生成は著しい進歩を遂げています。多くのビデオ生成モデルは、例えばStable Video Diffusion(SVD)のように、説得力のある合成ビデオを生成することができます。しかし、ほとんどのビデオモデルは、GPUメモリの制約や多数のフレームをモデル化する難しさから、低フレームレートのビデオしか生成できません。トレーニングビデオは常に指定された間隔で均一にサンプリングされ、時間的な圧縮が行われます。従来の方法では、ピクセル空間でのビデオ補間モデルを後処理段階としてトレーニングするか、特定のベースビデオモデルに対して潜在空間での補間モデルをトレーニングすることで、フレームレートを向上させていました。本論文では、生成ビデオ拡散モデルに対するトレーニング不要のビデオ補間方法を提案し、これはプラグアンドプレイ方式で異なるモデルに一般化可能です。ビデオ拡散モデルの特徴空間における非線形性を調査し、設計された隠れ状態補正モジュールを組み込むことで、ビデオモデルを自己カスケード型ビデオ拡散モデルに変換します。自己カスケード型アーキテクチャと補正モジュールは、キーフレームと補間フレーム間の時間的一貫性を保持するために提案されています。複数の人気ビデオモデルに対して広範な評価を行い、提案手法の有効性を実証しました。特に、トレーニング不要の本手法は、膨大な計算リソースと大規模データセットに支えられたトレーニング済み補間モデルに匹敵する性能を示しています。