翻訳付きの日次キュレーションされたAI研究論文
現在の長いコンテキストのベンチマークは主に検索ベースのテストに焦点を当てており、Large Language Models(LLMs)に特定の情報を広範な入力コンテキスト内で見つけさせる必要があります。例えば、針の穴を見つける(NIAH)ベンチマークがあります。長いコンテキスト生成とは、言語モデルが長いパッセージや文書全体にわたる、結合性があり文脈に即したテキストを生成する能力を指します。最近の研究では、NIAHや他の検索ベースの長いコンテキストのベンチマークで高いパフォーマンスを示していますが、長いコンテキスト生成能力を評価するためのベンチマークが著しく不足しています。このギャップを埋め、包括的な評価を提供するために、柔軟な設定でカスタマイズされた生成コンテキストの長さを可能にする合成ベンチマーク、LongGenBenchを紹介します。LongGenBenchは、従来のベンチマークを進化させ、質問の形式を再設計し、LLMsが一つの統一された長いコンテキストの回答をすることを必要とします。LongGenBenchを使用した包括的な評価の結果、次のことが観察されました:(1)APIアクセスおよびオープンソースモデルの両方が、長いコンテキスト生成シナリオで1.2%から47.1%の範囲でパフォーマンスの低下が見られます;(2)異なる系列のLLMsは、パフォーマンスの低下の傾向が異なり、APIアクセスモデルの中でGemini-1.5-Flashモデルが最も低下が少なく、オープンソースモデルの中でQwen2シリーズがLongGenBenchで最も低下が少ないことが観察されました。
大規模言語モデル(LLM)が様々なタスクで効果的に機能するためには、指示を理解し正確に遵守することが重要です。本研究では、未知の指示に汎化するための主要要因を厳密に検証し、指示チューニングのためのデータ収集を導く洞察を提供します。チューリング完全マルコフアルゴリズムに触発された制御された実験を通じて、そのような汎化は、トレーニングデータが意味領域を横断して十分に多様化している場合にのみ現れることを示します。私たちの調査結果は、限られた領域内での多様化だけでは堅牢な汎化を保証できないことも明らかにします。それに対し、領域間のデータ多様化は、データ予算が制約されていても、モデルの適応性を大幅に向上させます。さらに、$textbf{専門家}$および$textbf{汎用}$モデルの微調整を含む実世界のシナリオに私たちの分析を拡張します。両方のケースで、確立されたデータセットの多様性を増やすことで性能を向上させることができること、およびデータをスケーリングする際には、指示の意味を多様化させることが、単に類似データの量を増やすよりも効果的であることを示します。私たちの研究は、特に専門家および汎用シナリオのためにトレーニングデータを拡張することでモデルの性能を最適化する際に、データセットの収集に重要な洞察を提供します。データ多様化の慎重な考慮が重要であることを示し、専門家モデルをコアドメインを超えるデータでトレーニングすることが、性能の大幅な向上につながり、一方、汎用モデルは、幅広いアプリケーションでの全体的な指示遵守能力を向上させる多様なデータ組み合わせから利益を得ることを強調します。私たちの結果は、戦略的多様化の重要性を浮き彫りにし、データ品質の向上に向けた明確なガイドラインを提供します。
この研究は、ベクトル量子化(VQ)自己回帰画像生成の情報損失ボトルネックに取り組み、新しいモデルアーキテクチャである2次元自己回帰(DnD)トランスフォーマーを導入することで対処しています。DnD-Transformerは、新しい自己回帰方向、モデルの深さ、およびシーケンス長方向を導入することで、画像に対してより多くのコードを予測します。従来の1次元自己回帰やRQ-Transformerなどの類似の2次元画像分解を利用した以前の研究と比較して、DnD-Transformerは、同じバックボーンモデルサイズとシーケンス長でより高品質な画像を生成できるエンドツーエンドモデルであり、自己回帰画像生成の新たな最適化視点を開くものです。さらに、実験では、DnD-Transformerの潜在能力が自然な画像を生成するだけでなく、豊富なテキストやグラフィカル要素を含む画像を自己教師付きで生成することが可能であり、これらの複合モダリティの理解を示しています。これは、従来の流行しているビジョン生成モデルである拡散モデルなどでは以前に実証されておらず、画像のみを学習した場合にビジョン言語知能の兆候を示しています。コード、データセット、モデルはhttps://github.com/chenllliang/DnD-Transformer で公開されています。
最近の研究で大きな努力が払われ、LLM-as-a-Judgeは、広範囲のタスクでテキスト生成の品質を評価するための人間の評価に対する費用対効果の高い代替手段となってきました。しかし、LLM-as-a-Judgeと人間の評価との信頼性のギャップは依然として残っています。その重要な理由の1つは、評価プロセスにおけるガイド付きのオラクルの欠如です。古典的なテキスト評価で広く使用されているリファレンスの役割に触発され、私たちはRevisEvalを導入します。これは、応答に適応したリファレンスを介した新しいテキスト生成評価パラダイムです。RevisEvalは、理想的なリファレンスは評価される応答との必要な関連性を維持すべきであるという重要な観察に基づいています。具体的には、RevisEvalは大規模言語モデル(LLMs)のテキスト修正能力を活用して応答を適応的に修正し、その修正されたテキストを次の評価のためのリファレンス(応答に適応したリファレンス)として扱います。幅広い実験により、RevisEvalがNLGタスクやオープンエンドの命令遵守タスクで、LLM-as-a-Judgeを使用する従来のリファレンスフリーおよびリファレンスベースの評価パラダイムを上回ることが示されました。さらに、私たちの応答に適応したリファレンスは、従来のリファレンスよりも古典的なテキストメトリクス(例:BLEUおよびBERTScore)をさらに向上させ、さらにLLM-as-a-Judgeに匹敵します。バイアスの低減、推論コストの影響、およびリファレンスの関連性におけるRevisEvalの有効性を確認するための詳細な分析も実施されました。
近年、大規模言語モデル(LLMs)の推論能力を向上させることが注目されています。以前の研究では、さまざまなプロンプティング戦略がLLMsの推論(「推論アクション」と呼ばれる)を支援する効果が示されており、段階的思考、回答前の考慮、プログラムを用いた解決、およびそれらの組み合わせが含まれます。しかし、これらのアプローチは、しばしば特定の質問の特性やタスク解決LLMの能力を考慮せず、すべての質問に対して静的で事前定義された推論アクションを一律に適用してきました。本論文では、各質問の特性とタスク解決LLMの固有の能力に合わせて最適な推論軌跡探索を通じて、LLMsが動的に推論することを可能にするアプローチであるDOTSを提案します。当該アプローチは、以下の3つの主要なステップを含みます:i)様々な推論アクション軌跡に組み込むことができる原子推論アクションモジュールの定義、ii)特定のタスク解決LLMに対する各訓練質問のための最適なアクション軌跡を探索するための反復的探索と評価、iii)収集された最適な軌跡を使用して、未知の質問の推論軌跡を計画するためのLLMの訓練。特に、外部LLMをプランナーとして微調整してタスク解決LLMをガイドする学習パラダイムと、推論アクションの計画の内部化された能力を持つタスク解決LLMを直接微調整する学習パラダイムを提案しています。8つの推論タスクを対象とした実験では、当該手法が一貫して静的推論技術とバニラの指示微調整アプローチを上回ることが示されました。さらなる分析により、当該手法がLLMsに問題の複雑さに基づいて計算を調整させ、難しい問題に対してより深い思考と推論を割り当てることが可能になることが明らかになりました。
自己回帰(AR)モデルは、画像生成を次のトークン予測として再定式化し、顕著な潜在能力を示し、拡散モデルに対する強力な競合相手として台頭しています。ただし、ControlNetのような制御から画像生成への手法は、ARモデル内でほとんど未開拓のままです。大規模言語モデルの進歩に触発された自然なアプローチは、制御画像をトークンにトークン化し、画像トークンのデコード前にそれらを自己回帰モデルに事前に埋め込むことですが、これはControlNetに比べて生成品質が不足しており、効率の問題も抱えています。このため、空間制御を自己回帰画像生成モデルに効率的かつ効果的に統合するためのControlARフレームワークを導入します。まず、ARモデル向けの制御エンコーディングを探求し、軽量な制御エンコーダを提案して、空間入力(例:cannyエッジまたは深度マップ)を制御トークンに変換します。次に、ControlARは、制御トークンと画像トークンの間のトークンごとの融合に基づく条件付きデコーディング手法を利用して、画像トークンを生成します。これは、トークンの事前埋め込みよりも、条件付きデコーディングを使用することで、ARモデルの制御能力を大幅に強化しますが、モデルの効率性も維持します。さらに、提案されたControlARは、条件付きデコーディングと特定の制御を介して、ARモデルに任意解像度の画像生成能力を驚くほど与えます。包括的な実験により、提案されたControlARが、エッジ、深度、セグメンテーションマスクなど多様な入力にわたる自己回帰制御から画像生成の制御可能性を示すことができます。さらに、定量的および定性的な結果の両方が、ControlARが以前の最先端の制御可能な拡散モデル、例えばControlNet++を上回っていることを示しています。コード、モデル、デモは、https://github.com/hustvl/ControlAR で近日公開予定です。
推論計算のスケーリングは、さまざまな設定で長いコンテキストを持つ大規模言語モデル(LLM)の潜在能力を開放しました。知識集約的なタスクでは、増加した計算リソースはしばしばより多くの外部知識を組み込むために割り当てられます。しかし、そのような知識を効果的に活用しない限り、単にコンテキストを拡張するだけではパフォーマンスが常に向上するわけではありません。本研究では、リトリーバを拡張した生成(RAG)のための推論スケーリングを調査し、知識の量を単純に増やすことを超えた戦略を探ります。具体的には、インコンテキスト学習と反復プロンプティングに焦点を当てます。これらの戦略は、テスト時の計算をスケーリングするための追加の柔軟性を提供し(たとえば、取得される文書や生成ステップを増やすことにより)、LLMがコンテキスト情報を効果的に取得および利用する能力を向上させます。我々は、次の2つの主要な問いに取り組みます:(1)最適に構成された場合、RAGのパフォーマンスは推論計算のスケーリングからどのように利益を得るか?(2)RAGのパフォーマンスと推論パラメータの関係をモデル化することで、所与の予算に対する最適なテスト時計算の割り当てを予測できるか?我々の観察結果は、推論計算を増やすことが最適に割り当てられた場合、RAGのパフォーマンスがほぼ線形的に向上することを示し、これをRAGの推論スケーリング則として説明します。さらに、異なる推論構成にわたるRAGのパフォーマンスを推定するための計算割り当てモデルを開発します。このモデルは、さまざまな計算制約下で最適な推論パラメータを予測し、実験結果と密接に一致します。これらの最適な構成を適用することで、長いコンテキストを持つLLMにおける推論計算のスケーリングは、標準のRAGに比べてベンチマークデータセットで最大58.9%の利益をもたらすことを示します。
大規模言語モデル(LLMs)は、さまざまな自然言語処理タスクで重要な進展を遂げてきました。長いコンテキストを扱うために注目されているモデルが増えています。ただし、Transformerアーキテクチャに必要な拡張されたキー・バリュー(KV)キャッシュサイズの増加は、デコーディングフェーズ中に特にメモリ制約を強化し、大きなボトルネックを作り出しています。このボトルネックに対処するために設計された既存の疎な注意機構には、2つの制限があります。まず、最も関連性の高いトークンを信頼性を持って特定することができないこと、そして連続するTransformerレイヤー間でのトークン選択の空間的な一貫性を見落としていることが挙げられます。この論文では、位置持続型の疎な注意を通じて高速かつ正確なLLMデコーディングを実現するための、シンプルで効果的なアルゴリズムおよびシステムであるTidalDecodeを紹介します。TidalDecodeは、既存の疎な注意方法によって選択されたトークンの空間的な一貫性を活用し、最高の注意スコアを持つトークンを特定するためのいくつかのトークン選択レイヤーを導入し、他のすべてのレイヤーが事前に選択されたトークンを使用して疎な注意を行うようにします。この設計により、TidalDecodeは、疎な注意のトークン選択のオーバーヘッドを大幅に削減すると同時に、生成された結果の品質を犠牲にすることなく、LLMデコーディングの遅延を最大2.1倍まで削減できます。様々なLLMsおよびタスクに対する評価により、TidalDecodeが完全な注意方法の生成パフォーマンスに密接に匹敵する一方、LLMデコーディングの遅延を最大2.1倍まで削減することが示されました。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLMs)を人間の好みに合わせる効果を示しています。ただし、トークンレベルのRLHFは、長いシーケンスにわたる信用割り当ての問題に苦しんでおり、遅延した報酬がモデルに成功した結果にどの行動が貢献したかを識別することを難しくしています。これは学習効率を妨げ、収束を遅らせます。本論文では、単純で効果的なRLHFフレームワークであるMA-RLHFを提案します。このフレームワークは、トークンのシーケンスやより高いレベルの言語構造を含むマクロアクションを学習プロセスに組み込んでいます。この高い抽象度で操作することで、アクションと報酬の時間的距離を縮め、より迅速かつ正確な信用割り当てを促進します。これにより、より安定したポリシーグラディエントの推定値が得られ、各エピソード内での学習効率が向上します。これらの成果は、トレーニングや推論中の計算複雑性を増やさずに実現されます。我々は、テキスト要約、対話生成、質問応答、プログラム合成を含むさまざまなモデルサイズとタスクにわたる包括的な実験を通じて、我々の手法を検証します。我々の手法は、標準のRLHFに比べて、テキスト要約とコード生成では最大30%、対話では18%、質問応答では8%の性能向上を達成します。特に、我々の手法は、トレーニング時間に関してバニラRLHFと比較して1.7倍から2倍速く同等の性能に到達し、さらなるトレーニングでもそれを上回ります。我々は、コードとデータを https://github.com/ernie-research/MA-RLHF で公開します。
長い文脈言語モデル(LCLM)は、広範な文脈ウィンドウを特徴とし、ますます人気を集めています。一方で、多くの長い文脈のベンチマークは、最も高度なLCLMでも完了に苦労する困難なタスクを提示しています。しかし、さまざまな困難な長い文脈タスクの根源はほとんど研究されていませんでした。このギャップを埋めるために、私たちは実験を行い、その難しさが主に2つの基本的な問題から生じることを示しました。「複数の一致検索」という、複数のアイテムを同時に検索する必要がある問題と、「論理ベースの検索」という、検索基準内で論理的判断が必要な問題です。これら2つの問題は、一見簡単なように見えますが、実際にはLCLMの能力を超えており、解決には多数のステップが必要なハイパーマルチステップ(多数のステップを要する)であることが証明されています。この発見は、なぜLLMがより高度な長い文脈タスクに苦戦するのかを説明し、それらのための解決策を再考する際により正確な視点を提供する可能性があります。
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出します。高次元の視覚データにおいては、冗長性を減らし、高品質な生成のために主要な特徴を強調します。現在の視覚トークン化手法は、データを潜在表現に圧縮するエンコーダと、元の入力を再構築するデコーダに依存しています。本研究では、新たな視点を提供するために、単一段階の再構築から反復的な改良へと移行し、ノイズ除去をデコーディングとして提案します。具体的には、デコーダを置き換えて、エンコーダによって提供された潜在表現に導かれながら、ノイズを反復的に洗練して元の画像を回復する拡散プロセスを使用します。我々は、再構築(rFID)と生成品質(FID)の両方を評価し、最先端のオートエンコーディング手法と比較することで、我々の手法を評価します。この研究が、反復的生成とオートエンコーディングを統合して圧縮と生成の向上を図る新たな洞察を提供することを願っています。
イベントシーケンスは、不規則なサンプリング間隔とカテゴリカルおよび数値の特徴の混在に特徴付けられ、医療、金融、ユーザーインタラクションログなどのさまざまな実世界の領域で一般的なデータ構造です。時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準化されたベンチマークが存在しません。これにより、異なる論文間での結果の比較が複雑化し、この分野の進歩が誤解される可能性があります。私たちは、回帰および分類問題に焦点を当てた、シーケンスレベルのターゲットを持つ標準化された評価シナリオとプロトコルを備えた包括的なベンチマークツールであるEBESを紹介します。当ライブラリは、統一されたインターフェースを通じてベンチマーク、データセットの追加、および手法の統合を簡素化します。新しい合成データセットを含み、最大の公開銀行データセットを含む事前処理済みの実世界データセットを提供します。私たちの結果は、データセットの詳細な分析を提供し、いくつかのデータセットがモデルの比較には適していないことを特定します。時間的および順序的な要素のモデリングの重要性、およびモデルの堅牢性とスケーリング特性を調査します。これらの知見は、将来の研究の可能性の方向性を示しています。私たちのベンチマークの目的は、再現可能な研究を促進し、進歩を加速し、実世界への影響を増大させることです。
ビデオ大規模言語モデル(Video-LLMs)は、粗い粒度のビデオ理解において顕著な能力を示していますが、細かい時間的な基盤には苦労しています。本論文では、細かい粒度でのビデオ瞬間の知覚と推論に長けた新しいVideo-LLMであるGrounded-VideoLLMを紹介します。現行のVideo-LLMsは、効果的な時間モデリングとタイムスタンプ表現を欠いているため、細かい粒度のビデオ理解に制約があることを特定します。この課題に対処するために、フレーム間の関係をエンコードするための追加の時間ストリームと、タイムスタンプを表現するための特定の時間知識で充実させた離散的な時間トークンを組み込むことで、モデルを洗練させます。Grounded-VideoLLMのトレーニングを最適化するために、段階的なトレーニングスキームを採用し、単純なビデオキャプショニングタスクから始め、徐々に複雑さが増すビデオ時間基盤タスクを導入しています。さらに、Grounded-VideoLLMの時間的推論能力をさらに向上させるために、自動アノテーションパイプラインによってグラウンディングされたVideoQAデータセットをキュレーションしています。幅広い実験により、Grounded-VideoLLMは、時間的な文の基盤、密なビデオキャプショニング、グラウンディングされたVideoQAなどの細かい基盤タスクで優れているだけでなく、一般的なビデオ理解のための多目的ビデオアシスタントとして大きな潜在能力を示しています。