翻訳付きの日次キュレーションされたAI研究論文
従来の言語モデルの事前学習手法では、すべての訓練トークンに対して一様に次のトークン予測損失を適用してきました。この常識に挑戦し、我々は「コーパス内のすべてのトークンが言語モデルの訓練において同等に重要ではない」と主張します。我々の初期分析では、言語モデルのトークンレベルの訓練ダイナミクスを探り、異なるトークンに対する損失パターンの違いを明らかにしました。これらの知見を活用して、我々は新しい言語モデルRho-1を提案します。従来の言語モデルがコーパス内のすべての次のトークンを予測するのとは異なり、Rho-1はSelective Language Modeling(SLM)を採用し、目的の分布に沿った有用なトークンを選択的に訓練します。このアプローチでは、参照モデルを使用して事前学習トークンをスコアリングし、その後、過剰損失が高いトークンに焦点を当てた損失で言語モデルを訓練します。15BのOpenWebMathコーパスで継続的に事前学習を行うと、Rho-1は9つの数学タスクにおいて、最大30%の絶対的なfew-shot精度の向上をもたらしました。ファインチューニング後、Rho-1-1Bと7Bは、それぞれMATHデータセットで40.6%と51.8%の最先端の結果を達成し、事前学習トークンのわずか3%でDeepSeekMathに匹敵する性能を示しました。さらに、80Bの一般トークンで事前学習を行うと、Rho-1は15の多様なタスクにわたって平均6.8%の向上を達成し、言語モデルの事前学習の効率と性能の両方を向上させました。
最小限の人的介入で複雑なコンピュータタスクを達成する自律エージェントは、人間とコンピュータの相互作用を変革し、アクセシビリティと生産性を大幅に向上させる可能性を秘めています。しかし、既存のベンチマークは、インタラクティブな環境を欠いているか、特定のアプリケーションやドメインに限定された環境に留まっており、現実世界のコンピュータ使用の多様で複雑な性質を反映できていないため、タスクの範囲とエージェントのスケーラビリティを制限しています。この問題を解決するため、我々はOSWorldを導入します。これは、Ubuntu、Windows、macOSなどの様々なオペレーティングシステムにわたるタスク設定、実行ベースの評価、インタラクティブな学習をサポートする、初のスケーラブルな実コンピュータ環境です。OSWorldは、任意のアプリケーションを含むオープンエンドのコンピュータタスクを評価するための統一された統合コンピュータ環境として機能します。OSWorldを基盤として、現実のウェブおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがるワークフローを含む369のコンピュータタスクのベンチマークを作成しました。各タスク例は、現実世界のコンピュータ使用ケースに基づいており、詳細な初期状態設定構成と、信頼性のある再現可能な評価のためのカスタム実行ベースの評価スクリプトを含んでいます。OSWorldでの最先端のLLM/VLMベースのエージェントの広範な評価により、コンピュータアシスタントとしての能力に重大な欠陥があることが明らかになりました。人間は72.36%以上のタスクを達成できるのに対し、最良のモデルはわずか12.24%の成功率に留まり、主にGUIのグラウンディングと操作知識に苦戦しています。OSWorldを使用した包括的な分析は、以前のベンチマークでは不可能だったマルチモーダル汎用エージェントの開発に貴重な洞察を提供します。我々のコード、環境、ベースラインモデル、データはhttps://os-world.github.ioで公開されています。
テキストから画像への拡散モデルの制御性を向上させるため、既存の研究ではControlNetなど、画像ベースの条件制御が取り入れられてきました。本論文では、既存の手法が画像条件制御に整合した画像を生成する上で依然として大きな課題に直面していることを明らかにします。これに対処するため、我々はControlNet++を提案します。これは、生成画像と条件制御間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチです。具体的には、入力条件制御に対して、事前学習された識別型報酬モデルを使用して生成画像の対応する条件を抽出し、入力条件制御と抽出された条件間の一貫性損失を最適化します。単純な実装方法としては、ランダムノイズから画像を生成し、一貫性損失を計算する方法が考えられますが、このアプローチでは複数のサンプリングタイムステップに対する勾配を保存する必要があり、多大な時間とメモリコストがかかります。これを解決するため、我々は効率的な報酬戦略を導入します。これは、意図的にノイズを加えて入力画像を撹乱し、その後、単一ステップでノイズ除去された画像を報酬の微調整に使用するものです。これにより、画像サンプリングに関連する広範なコストを回避し、より効率的な報酬の微調整が可能になります。大規模な実験により、ControlNet++が様々な条件制御下で制御性を大幅に向上させることが示されました。例えば、セグメンテーションマスク、線画エッジ、深度条件において、ControlNetに対してそれぞれ7.9%のmIoU、13.4%のSSIM、7.6%のRMSEの改善を達成しています。
我々は、Googleの新規Griffinアーキテクチャを採用したオープン言語モデル「RecurrentGemma」を紹介する。Griffinは、線形再帰と局所的なアテンションを組み合わせることで、言語処理において優れた性能を発揮する。固定サイズの状態を持つため、メモリ使用量を削減し、長いシーケンスに対する効率的な推論を可能にする。我々は、20億の非埋め込みパラメータを持つ事前学習済みモデルと、指示チューニングされたバリアントを提供する。これらのモデルは、より少ないトークンで学習されているにもかかわらず、Gemma-2Bと同等の性能を達成している。
Ferretは、大規模言語モデル(LLM)に領域理解をシームレスに統合し、参照と接地能力を促進しますが、いくつかの制限があります。事前学習済みの固定視覚エンコーダに制約され、より広範なタスクで良好な性能を発揮できませんでした。本研究では、Ferret-v2を発表します。これはFerretの大幅なアップグレードであり、3つの主要な設計を特徴としています。(1)任意解像度の接地と参照:高解像度画像を容易に処理する柔軟なアプローチにより、モデルの画像処理と詳細理解能力が向上します。(2)マルチ粒度視覚エンコーディング:追加のDINOv2エンコーダを統合することで、モデルはグローバルおよび微細な視覚情報の多様な基盤コンテキストをより良く学習します。(3)3段階のトレーニングパラダイム:画像キャプションのアラインメントに加えて、最終的な指示チューニングの前に高解像度の密なアラインメントのための追加段階を提案します。実験結果は、Ferret-v2が高解像度スケーリングと微細な視覚処理により、Ferretや他の最先端手法に対して大幅な改善を提供することを示しています。
AIモデルの成功は、大規模で多様かつ高品質なデータセットの可用性に依存しているが、データ不足、プライバシー懸念、高コストなどの課題により、その取得は困難な場合が多い。合成データは、現実世界のパターンを模倣した人工データを生成することで、有望な解決策として登場した。本論文では、合成データ研究の概要を提供し、その応用、課題、将来の方向性について議論する。先行研究からの実証的証拠を提示し、その有効性を実証するとともに、事実性、忠実度、偏りのないことの重要性を強調する。より強力で包括的かつ信頼性の高い言語モデルを構築するために、合成データの責任ある使用の必要性を強調する。
長文脈の処理は、大規模言語モデル(LLM)にとって依然として課題となっています。これは、自己注意機構の二次的な計算量とメモリオーバーヘッド、および生成時の大規模なKVキャッシュサイズによるものです。この問題に対処するため、我々は文脈圧縮とドメイン内でのパラメータ効率的なファインチューニングを通じて、オフラインで文脈を学習する新しいアプローチを提案します。この手法により、LLMは元の文脈の簡潔な表現を作成し、質問に正確に答えるために必要な情報を効率的に検索することが可能になります。我々は、文脈圧縮、検索、およびLoRAを用いたパラメータ効率的なファインチューニングを組み合わせた技術であるLLoCOを紹介します。このアプローチにより、4kトークンのLLaMA2-7Bモデルの有効な文脈ウィンドウを拡張し、最大128kトークンを処理できるようにします。我々は、いくつかの長文脈質問応答データセットでこのアプローチを評価し、LLoCOがインコンテキスト学習を大幅に上回り、推論時に30倍少ないトークンを使用することを示しました。LLoCOは最大7.62倍の高速化を実現し、長文書の質問応答のコストを大幅に削減するため、効率的な長文脈処理の有望なソリューションとなります。我々のコードはhttps://github.com/jeffreysijuntan/llocoで公開されています。
ウェブエージェント研究の領域において、汎用性と正確性の両立は依然として難しい課題です。ウェブサイト構造の多様性が高いため、既存のアプローチはしばしば失敗します。さらに、既存のファインチューニングやインコンテキスト学習技術は、複数のウェブサイトにわたる汎用化に失敗します。本論文では、Wilburというアプローチを紹介します。Wilburは、微分可能なランキングモデルと新しい指示合成技術を使用して、ブラックボックスの大規模言語モデルのプロンプトに、以前の実行から得たタスクデモンストレーションを最適に組み込みます。エンドツーエンドの成功率を最大化するために、間違いから学習し回復するインテリジェントなバックトラッキングメカニズムも提案します。最後に、生成型自己カリキュラムからサンプリングされた代表的な目標を用いてエージェントを実行し、自動的に評価することで、ランキングモデルを手動のアノテーションなしでトレーニングできることを示します。Wilburは、WebVoyagerベンチマークにおいて最先端の結果を達成し、テキストのみのモデルを全体で8%、特定のウェブサイトでは最大36%上回りました。同じベンチマークにおいて、Wilburはテキスト入力のみを受け取っているにもかかわらず、強力なマルチモーダルモデルと5%以内の差に収まっています。さらに、詳細な分析により、ウェブ操作のエンジニアリング上の課題が多くの失敗の原因となっていることが明らかになりました。
階層的にゲートされた線形RNN(HGRN、Qin et al. 2023)は、言語モデリングにおいて競争力のある学習速度と性能を示し、効率的な推論を実現しています。しかし、HGRNの再帰状態のサイズは比較的小さく、その表現力が制限されています。この問題に対処するため、線形アテンションに着想を得て、追加のパラメータを導入することなく再帰状態のサイズを大幅に拡大するシンプルな外積ベースの状態拡張メカニズムを提案します。線形アテンションの形式は、ハードウェア効率の良い学習も可能にします。我々の広範な実験により、HGRN2がHGRN1を上回る利点が、言語モデリング、画像分類、およびLong Range Arenaにおいて確認されました。最大の3B HGRN2モデルは、制御された実験設定において言語モデリングでMambaやLLaMa Architecture Transformerをわずかに上回り、下流評価では多くのオープンソースの3Bモデルと競争力のある性能を示しながら、総学習トークン数を大幅に削減しました。
ガイダンスは、画像生成拡散モデルから最高のパフォーマンスを引き出すための重要な技術である。従来、画像のサンプリングチェーン全体にわたって一定のガイダンス重みが適用されてきた。本研究では、ガイダンスがチェーンの初期段階(高ノイズレベル)では明らかに有害であり、終盤(低ノイズレベル)ではほとんど不要であり、中間段階でのみ有益であることを示す。そこで、我々はガイダンスを特定のノイズレベル範囲に限定し、推論速度と結果の品質の両方を向上させた。この限定されたガイダンス区間は、ImageNet-512における記録的なFIDを1.81から1.40へと大幅に改善した。我々は、異なるサンプラーパラメータ、ネットワークアーキテクチャ、データセット、さらにはStable Diffusion XLの大規模設定においても、この手法が定量的および定性的に有益であることを示す。したがって、ガイダンスを使用するすべての拡散モデルにおいて、ガイダンス区間をハイパーパラメータとして公開することを提案する。
車線検出は自動運転における基本的なタスクであり、深層学習の登場により大きな進展を遂げてきた。従来のアンカーベースの手法では、多くの場合密なアンカーを設計しており、これらは学習データセットに強く依存し、推論時には固定されたままとなる。本研究では、車線検出において密なアンカーは必要ないことを分析し、スパースなアンカーメカニズムに基づいたトランスフォーマーベースの車線検出フレームワークを提案する。具体的には、従来の明示的なアンカーの代わりに、位置情報を考慮した車線クエリと角度クエリを用いてスパースなアンカーを生成する。水平方向の特徴を集約するためにHorizontal Perceptual Attention (HPA)を採用し、車線クエリと角度クエリ間の相互作用を行うためにLane-Angle Cross Attention (LACA)を採用する。さらに、変形可能なクロスアテンションに基づくLane Perceptual Attention (LPA)を提案し、車線予測をさらに洗練させる。我々の手法はSparse Laneformerと名付けられ、実装が容易でエンドツーエンドで学習可能である。大規模な実験により、Sparse Laneformerが最先端の手法に対して優れた性能を発揮することが示されており、例えば、同じResNet-34バックボーンを使用したCULaneデータセットにおいて、Laneformerを3.0%のF1スコアで、O2SFormerを0.7%のF1スコアで上回り、かつ少ないMACsで達成している。