翻訳付きの日次キュレーションされたAI研究論文
Yiモデルファミリーを紹介します。これは、強力な多次元能力を発揮する一連の言語モデルおよびマルチモーダルモデルです。Yiモデルファミリーは、6Bおよび34Bの事前学習済み言語モデルを基盤としており、それをチャットモデル、200K長文脈モデル、深度拡張モデル、視覚言語モデルに拡張しています。ベースモデルはMMLUなどの幅広いベンチマークで優れた性能を発揮し、ファインチューニングされたチャットモデルはAlpacaEvalやChatbot Arenaなどの主要評価プラットフォームで高い人間選好率を達成しています。スケーラブルなスーパーコンピューティングインフラと古典的なTransformerアーキテクチャを基盤として、Yiモデルの性能は主にデータエンジニアリングの取り組みによるデータ品質に起因しています。事前学習では、カスケード型のデータ重複排除と品質フィルタリングパイプラインを使用して、3.1兆トークンの英語と中国語のコーパスを構築しました。ファインチューニングでは、10K未満の小規模な指示データセットを複数回にわたって磨き上げ、各インスタンスが機械学習エンジニアによって直接検証されるようにしました。視覚言語モデルでは、チャット言語モデルと視覚Transformerエンコーダを組み合わせ、視覚表現を言語モデルの意味空間に整合させるようにモデルを訓練しました。さらに、軽量な継続事前学習を通じて文脈長を200Kに拡張し、針を探すような検索性能の高さを実証しました。事前学習済みチェックポイントの深度を継続事前学習によって拡張することで、さらなる性能向上が得られることも示しています。現在の結果を踏まえると、徹底的に最適化されたデータを使用してモデルパラメータをスケールアップし続けることで、さらに強力なフロンティアモデルが実現されると考えています。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の出力を人間の選好に合わせるための主要なアプローチとして登場しました。RLHFの成功に触発され、我々は複数のフィードバック学習アルゴリズム(Expert Iteration、近接方策最適化(PPO)、リターン条件付き強化学習)がLLMの推論能力を向上させる性能を調査しました。我々は、LLMに提供されるスパースおよび密な報酬を、ヒューリスティックに、また学習済み報酬モデルを通じて検討しました。さらに、教師ありファインチューニング(SFT)データの有無にかかわらず、複数のモデルサイズと初期化から開始しました。全体として、すべてのアルゴリズムが同等の性能を示し、ほとんどの場合でExpert Iterationが最良の結果を示しました。驚くべきことに、Expert Iterationのサンプル複雑性はPPOと類似しており、事前学習済みチェックポイントから収束するために最大で10^6オーダーのサンプルを必要とすることがわかりました。我々はこれがなぜ起こるのかを調査し、RLトレーニング中にモデルがSFTモデルによって既に生成された解を大幅に超えて探索しないためであると結論付けました。さらに、SFTトレーニング中のmaj@1とpass@96メトリックの性能のトレードオフについて議論し、逆にRLトレーニングが両方を同時に改善する方法についても考察しました。最後に、我々の知見がRLHFおよびLLMファインチューニングにおけるRLの将来の役割に与える影響について議論します。
大規模言語モデル(LLMs)は新たな能力と応用を開拓してきたが、人間の嗜好との整合性を評価することは依然として重要な課題である。この問題に対処するため、我々は人間の嗜好に基づいてLLMsを評価するためのオープンプラットフォーム「Chatbot Arena」を導入した。我々の方法論はペアワイズ比較アプローチを採用し、クラウドソーシングを通じて多様なユーザーベースからの入力を活用している。このプラットフォームは数ヶ月間運用され、24万件以上の投票を集積してきた。本論文では、このプラットフォームを説明し、これまでに収集したデータを分析し、モデルの効率的かつ正確な評価とランキングのために使用している確立された統計的手法を解説する。我々は、クラウドソーシングによる質問が十分に多様で識別力があること、およびクラウドソーシングによる人間の投票が専門家の評価者との間に良好な一致を示すことを確認した。これらの分析は、Chatbot Arenaの信頼性を確立する強固な基盤を提供する。その独自の価値とオープン性により、Chatbot Arenaは主要なLLM開発者や企業によって広く引用される、最も参照されるLLMリーダーボードの一つとなっている。我々のデモはhttps://chat.lmsys.orgで公開されている。
ポイントベースの画像編集は、DragGANの登場以来、注目を集めています。最近では、DragDiffusionがこのドラッグ技術を拡散モデルに適用することで、生成品質をさらに向上させました。しかし、これらの大きな成功にもかかわらず、このドラッグ方式には、不正確なポイント追跡と不完全なモーション監視という2つの主要な欠点があり、これらは不満足なドラッグ結果を引き起こす可能性があります。これらの問題に対処するために、我々は、識別可能なポイント追跡方法と信頼度ベースの潜在強化戦略を設計することで、安定かつ精密なドラッグベースの編集フレームワーク「StableDrag」を構築しました。前者は、更新されたハンドルポイントを正確に位置づけることで、長距離操作の安定性を向上させ、後者は、すべての操作ステップにおいて最適化された潜在変数を可能な限り高品質に保つ役割を果たします。これらの独自の設計により、StableDrag-GANとStableDrag-Diffという2種類の画像編集モデルを実現し、DragBenchでの広範な定性的実験と定量的評価を通じて、より安定したドラッグ性能を達成しました。
ツールは、大規模言語モデル(LLM)が最新の情報を取得し、外部環境で重要な行動を取るために不可欠です。既存のツール拡張LLMに関する研究は、主にツールの広範なカバレッジと新しいツールを追加する柔軟性に焦点を当てています。しかし、驚くべきことに、LLMが訓練されたツールをどれだけ正確に使用するかという重要な側面は十分に研究されていません。GPT-4やツール使用のために特別にファインチューニングされたオープンソースのLLMを含む既存のLLMは、正答率が30%から60%の範囲に留まり、実践的な信頼性には程遠いことがわかりました。私たちは、生物学的にインスパイアされた方法である「模擬試行錯誤(Simulated Trial and Error, STE)」を提案します。STEは、生物学的システムにおける成功したツール使用行動のための3つの主要なメカニズム、すなわち試行錯誤、想像力、および記憶を調整します。具体的には、STEはLLMの「想像力」を活用してツールを使用するための妥当なシナリオをシミュレートし、その後、LLMがツールと相互作用して実行フィードバックから学習します。短期記憶と長期記憶の両方を活用して、探索の深さと広さをそれぞれ改善します。ToolBenchでの包括的な実験により、STEはコンテキスト内学習とファインチューニングの両方の設定においてLLMのツール学習を大幅に改善し、Mistral-Instruct-7Bに46.7%の向上をもたらし、GPT-4を上回る性能を発揮させることが示されました。また、シンプルな経験再生戦略を通じてツールの効果的な継続学習も実証しました。
GPT-4VのようなVision-Language Models(VLM)は、最近、多様な視覚言語タスクにおいて驚異的な進歩を示しています。本研究では、より洗練されているが未開拓の領域である視覚ベースの演繹的推論に焦点を当て、現在の最先端VLMに存在する未発見の盲点を明らかにします。具体的には、Raven's Progressive Matrices(RPM)を活用し、視覚的な手がかりのみに依存したマルチホップの関係的および演繹的推論能力を評価します。Mensa IQテスト、IntelligenceTest、RAVENを含む3つの多様なデータセットにおいて、インコンテキスト学習、自己一貫性、Chain-of-thoughts(CoT)などの標準的な戦略を用いて、いくつかの人気VLMを包括的に評価します。その結果、テキストベースの推論におけるLLMの印象的な能力にもかかわらず、視覚的演繹推論において同等の熟練度を達成するにはまだ遠いことが明らかになりました。LLMに適用された場合に有効な特定の標準戦略が、視覚的推論タスクの課題にシームレスに適用されないことが判明しました。さらに、詳細な分析により、VLMがこれらのタスクを解決するのに苦労する主な理由は、RPMの例に含まれる複数の抽象的なパターンを認識し理解できないためであることが明らかになりました。
数学的能力は、これまで非常に大規模なモデルでのみ発現するか、あるいは数学関連の事前学習を広範に行う必要があると考えられてきた。本論文では、一般的な事前学習を施したLLaMA-2 7Bモデルが既に強力な数学的能力を示すことを明らかにする。具体的には、256回のランダム生成から最良の応答を選択した場合、GSM8KとMATHベンチマークでそれぞれ97.7%と72.0%という驚異的な精度を達成している。現在のベースモデルの主な課題は、その内在する数学的能力を一貫して引き出すことが難しい点である。特に、最初の回答の精度はGSM8KとMATHベンチマークでそれぞれ49.5%と7.9%に低下する。我々は、単にSFTデータをスケールアップするだけで、正しい回答を生成する信頼性を大幅に向上させられることを発見した。しかし、公に利用可能な数学問題の不足により、大規模なスケーリングの可能性は制約されている。この制限を克服するため、我々は合成データを採用し、それが実データとほぼ同等の効果を持ち、約100万サンプルまでスケールアップしても明確な飽和が見られないことを実証した。このシンプルなアプローチにより、LLaMA-2 7Bモデルを使用してGSM8Kで82.6%、MATHで40.6%の精度を達成し、従来のモデルをそれぞれ14.2%と20.8%上回った。また、異なる推論の複雑さやエラータイプにわたるスケーリングの挙動についての洞察も提供する。
本論文では、画像からGIF(動画)生成のためのモーションガイド拡散モデル「Pix2Gif」を提案します。本課題に対して、テキストとモーション量のプロンプトによって誘導される画像変換問題として定式化するという新たなアプローチを採用しています(ティーザー図参照)。モデルがモーションガイダンスに従うことを保証するため、2種類のプロンプトに基づいてソース画像の特徴を空間的に変換する新しいモーションガイドワーピングモジュールを提案します。さらに、変換された特徴マップがターゲット画像と同じ空間内に留まることを保証する知覚損失を導入し、コンテンツの一貫性と整合性を確保します。モデルトレーニングの準備として、TGIFビデオキャプションデータセットから一貫性のある画像フレームを慎重に抽出し、被写体の時間的変化に関する豊富な情報を提供します。事前学習後、本モデルを複数のビデオデータセットに対してゼロショット方式で適用します。大規模な定性的・定量的実験により、本モデルがテキストからの意味的プロンプトだけでなく、モーションガイダンスからの空間的プロンプトも捉える有効性が実証されています。すべてのモデルは、16台のV100 GPUを搭載した単一ノードを使用してトレーニングされています。コード、データセット、モデルは以下のURLで公開されています:https://hiteshk03.github.io/Pix2Gif/
X線は自然光よりも強い透過性を持つため、透過画像撮影に広く応用されている。新視点X線投影を生成する際、既存の手法は主にNeRFに基づいており、長時間のトレーニングと遅い推論速度が課題となっている。本論文では、X線新視点合成のための3Dガウシアンスプラッティングに基づくフレームワーク、X-Gaussianを提案する。まず、X線撮影の等方性に着想を得て、放射ガウシアンポイントクラウドモデルを再設計した。本モデルでは、3D点の放射強度を予測する際に視点方向の影響を排除している。このモデルに基づき、CUDA実装による微分可能放射ラスタライゼーション(DRR)を開発した。次に、X線スキャナのパラメータを直接利用してカメラ情報を計算し、スキャン対象物を囲む直方体内で点位置を均一にサンプリングするAngle-pose Cuboid Uniform Initialization(ACUI)戦略をカスタマイズした。実験結果から、X-Gaussianは最先端の手法を6.5 dB上回り、トレーニング時間は15%未満、推論速度は73倍以上であることが示された。疎ビューCT再構成への応用も、本手法の実用的価値を明らかにしている。コードとモデルはhttps://github.com/caiyuanhao1998/X-Gaussianで公開予定である。トレーニングプロセスの可視化デモ動画はhttps://www.youtube.com/watch?v=gDVf_Ngeghgで閲覧可能である。