翻訳付きの日次キュレーションされたAI研究論文
我々は、Mistral-7bモデルを基盤とし、財務分析に特化した最先端のマルチモーダル大規模言語モデル(LLM)スイートであるFinTralを紹介する。FinTralは、テキスト、数値、表形式データ、画像データを統合する。本作品のためにキュレーションした大規模なテキストおよび視覚データセットを活用し、ドメイン固有の事前学習、指示ファインチューニング、RLAIFトレーニングによってFinTralを強化した。また、財務分野における幻覚を含む、9つのタスクと25のデータセットを特徴とする広範なベンチマークを導入し、評価を行った。高度なツールと検索手法を採用した直接選好最適化でトレーニングされたFinTralモデル、FinTral-DPO-T&Rは、卓越したゼロショット性能を示す。全てのタスクでChatGPT-3.5を上回り、9つのタスクのうち5つでGPT-4を凌駕し、AI駆動の金融技術における重要な進展を記録した。また、FinTralが多様な金融文脈におけるリアルタイム分析と意思決定において優れた潜在能力を有することを実証した。
自然は無限に解像度の制約がない。この現実を踏まえると、既存の拡散モデル、例えばDiffusion Transformersなどは、訓練された領域外の画像解像度を処理する際にしばしば課題に直面する。この制限を克服するため、我々はFlexible Vision Transformer(FiT)を提案する。これは、制限のない解像度とアスペクト比で画像を生成するために特別に設計されたトランスフォーマーアーキテクチャである。従来の方法が画像を静的な解像度のグリッドとして捉えるのに対し、FiTは画像を動的にサイズが変化するトークンのシーケンスとして概念化する。この視点により、訓練と推論の両フェーズで多様なアスペクト比に容易に適応する柔軟な訓練戦略が可能となり、解像度の一般化を促進し、画像のクロップによって引き起こされるバイアスを排除する。注意深く調整されたネットワーク構造と訓練不要の外挿技術の統合により、FiTは解像度外挿生成において顕著な柔軟性を示す。包括的な実験により、FiTが広範な解像度範囲で優れた性能を発揮し、訓練解像度分布の内外においてその有効性を実証している。リポジトリはhttps://github.com/whlzy/FiTで公開されている。
我々はAnyGPTを紹介する。これは、音声、テキスト、画像、音楽など様々なモダリティを統一処理するための離散表現を利用したany-to-anyマルチモーダル言語モデルである。AnyGPTは、現在の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができる。代わりに、データレベルの前処理にのみ依存し、新しいモダリティをLLMにシームレスに統合することを可能にする。これは、新しい言語を組み込むのと同様の方法である。我々は、マルチモーダルアライメントの事前トレーニングのためのマルチモーダルテキスト中心のデータセットを構築した。生成モデルを利用して、最初の大規模なany-to-anyマルチモーダル指示データセットを合成した。これは、様々なモダリティを複雑に織り交ぜた10万8千の多ターン会話サンプルからなり、モデルが任意のマルチモーダル入力と出力の組み合わせを処理できるようにする。実験結果は、AnyGPTがany-to-anyマルチモーダル会話を促進し、すべてのモダリティにおいて専門モデルに匹敵する性能を達成できることを示している。これは、離散表現が言語モデル内で複数のモダリティを効果的かつ便利に統一できることを証明している。デモはhttps://junzhan2000.github.io/AnyGPT.github.io/で公開されている。
推測的デコードは、補助的なドラフトモデルの予測に基づいて大規模なターゲット言語モデルの推論を高速化する主要な技術です。効果的ではあるものの、アプリケーション固有の設定では、高い受理率を達成するためにドラフトモデルとターゲットモデルの両方を微調整する必要がしばしばあります。下流タスクの数が増えるにつれて、これらのドラフトモデルは推論システムに大きな複雑性を加えます。本論文では、Speculative Streamingを提案します。これは、単一モデルの推測的デコード手法であり、微調整の目的を次のトークン予測から将来のn-gram予測に変更することで、ドラフト機能をターゲットモデルに統合します。Speculative Streamingは、要約、構造化クエリ、意味表現といった多様なタスクにおいて、生成品質を犠牲にすることなく、デコードを1.8倍から3.1倍高速化します。さらに、Speculative Streamingはパラメータ効率が高く、Medusaスタイルのアーキテクチャと同等またはそれ以上の高速化を達成しながら、約10000倍少ない追加パラメータを使用するため、リソースが制約されたデバイスに適しています。
モデル量子化は、低ビット幅の値を使用してモデルの重み行列を表現する手法であり、期待の高い大規模言語モデル(LLM)の展開におけるストレージと計算のオーバーヘッドを削減する有望なアプローチです。しかし、既存の量子化手法では、ビット幅が極端に低くなると性能が大幅に低下するため、4ビットや8ビットの値を使用してモデルを量子化することに焦点が当てられています。本論文では、LLMの重み行列を大胆に1ビットに量子化し、極めて低ビット幅でのLLM展開の道を切り開きます。この目標に向けて、1ビット量子化対応トレーニング(QAT)フレームワーク「OneBit」を提案します。これには、LLMをより効果的に量子化するための新しい1ビットパラメータ表現手法と、QATフレームワークの収束速度を向上させるための行列分解に基づく効果的なパラメータ初期化手法が含まれます。十分な実験結果から、OneBitは1ビットの重み行列のみを使用しても、堅牢なトレーニングプロセスを維持しつつ、非量子化性能の少なくとも83%を達成することが示されています。
大規模言語モデル(LLM)は、言語コマンドからロボットコードを生成するなど、幅広い能力を示すことが実証されています。これにより、非専門家がロボットの動作を指示し、フィードバックに基づいて修正したり、新しいタスクを実行するためにそれらを組み合わせたりすることが可能になります。しかし、これらの能力(コンテキスト内学習によって駆動される)は、短期的な相互作用に限定されており、ユーザーのフィードバックはLLMのコンテキストサイズ内に収まる間のみ関連性を持ち、長期的な相互作用では忘れられる可能性があります。本研究では、ロボットコード生成LLMをファインチューニングし、コンテキスト内の相互作用を記憶させ、その「教えやすさ」(ユーザーがタスクを成功と見なすまでに必要な平均修正回数で測定される)を向上させることを検討します。重要な観察として、人間とロボットの相互作用が部分観測マルコフ決定過程(人間の言語入力が観測、ロボットのコード出力が行動と見なされる)として定式化されると、LLMに過去の相互作用を完了させるように訓練することは、遷移ダイナミクスモデルを訓練することと見なすことができます。これは、モデル予測制御(MPC)などの古典的なロボティクス技術と組み合わせることで、成功への最短経路を発見するために使用できます。これにより、Language Model Predictive Control(LMPC)というフレームワークが生まれ、PaLM 2をファインチューニングして、5つのロボット実装にわたる78のタスクでの教えやすさを向上させます。これにより、未見のタスクにおける非専門家の教育成功率が26.9%向上し、人間の平均修正回数が2.4から1.9に減少しました。実験では、LMPCが強力なメタ学習器を生成することも示されており、未見のロボット実装やAPIでのコンテキスト内学習の成功率が31.5%向上しました。動画、コード、デモはこちらをご覧ください:https://robot-teaching.github.io/。
大規模言語モデル(LLMs)と指示チューニングの目覚ましい成功は、視覚言語モデル(VLMs)の進化を汎用性の高い汎用モデルへと導いています。しかし、現在のVLMsが「画像内にどのような物体が存在するか?」や「指定されたバウンディングボックスに対応する物体はどれか?」といった、質の高い物体レベルの画像理解能力を真に備えているかどうかは未だに検証されていません。我々の研究結果は、現在のVLMsの画像理解能力が、視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることを明らかにしています。これは、VLMsがVLタスクで優れた性能を発揮するためには、基本的な画像理解を優先することが重要であることを示唆しています。物体レベルの画像理解を向上させるために、我々はパノプティックカラーマップに基づく新しい視覚プロンプトチューニング手法としてクレヨンプロンプトを組み込んだCrayon Large Language and Vision mOdel(CoLLaVO)を提案します。さらに、視覚指示チューニング中に物体レベルの画像理解を忘れることなく保持するための学習戦略としてDual QLoRAを提示し、これにより多数のVLベンチマークにおけるゼロショット性能の大幅な向上を達成しました。
大規模言語モデル(LLM)を人間の価値観に適合させるためには、ファインチューニングデータの品質が極めて重要です。現在、データ品質を向上させる方法は、いずれも労力を要するか、LLMの幻覚による事実誤認が起こりやすいかのどちらかです。本論文では、既存の指示データの品質を向上させ、人間の価値観により適合させる方法を探求し、ReAlignというシンプルで効果的なアプローチを提案します。このアプローチは、指示データの応答を、事前に設定された基準と収集された証拠により適合する形式に再フォーマットします。これにより、人間による注釈、幻覚、スケーリングの難しさを最小限に抑えつつ、既存の適合技術と直交する形で適用可能です。実験的に、ReAlignはLLMの一般的な適合能力、数学的推論、事実性、読みやすさを大幅に向上させることが示されました。 特に注目すべきは、追加のデータや高度なトレーニング技術を導入せず、単に応答を再フォーマットするだけで、LLaMA-2-13BのGSM8Kにおける数学的推論能力が46.77%から56.63%に向上した点です。さらに、ReAlignデータのわずか5%を使用することで、Alpacaデータセットで測定された一般的な適合能力が67%向上しました。この研究は、LLMの科学的理解とメカニズムの解釈可能性に関するさらなる研究の必要性を強調しています。今後の研究を支援するため、関連するコードとデータをhttps://github.com/GAIR-NLP/ReAlignで公開しています。
大規模言語モデル(LLM)は、言語理解や複雑な推論タスクの実行において印象的な性能を発揮してきました。しかし、長いコンテキストウィンドウを持つLLMは、その高額なトレーニングコストと高い推論遅延で悪名高いものです。GPT-4やClaude2のような最先端のモデルでさえ、100kトークンを超える入力の処理においてミスを犯すことがあり、これは「lost in the middle」現象としても知られています。本論文では、マルチエージェント協調に基づくLongAgentという手法を提案し、LLM(例:LLaMA)を128Kのコンテキストにスケールアップし、長文処理においてGPT-4と比較して潜在的な優位性を示します。LongAgentでは、リーダーがユーザーの意図を理解し、チームメンバーに文書から情報を取得するよう指示します。メンバーの幻覚(hallucination)により、リーダーが数十から数百のメンバーの応答から正確な情報を得ることは容易ではありません。これを解決するため、情報共有を通じて幻覚による応答の衝突を解消するメンバー間コミュニケーション機構を開発しました。実験結果は、LongAgentが長文処理において有望な代替手段を提供することを示しています。LLaMA-7Bでインスタンス化されたエージェントチームは、128k長文検索やマルチホップ質問応答などのタスクにおいて、GPT-4と比較して大幅な改善を達成しました。
最先端の言語モデルは、数学、科学、またはコーディングタスクにおいて、印象的な推論改善能力を示すことがあります。しかし、最近の研究では、外部フィードバックにアクセスできない場合、最良のモデルでさえ、いつ、どこで改善すべきかを特定するのに苦労することが示されています。最終的な答えの正しさを予測し、いつ改善すべきかを示すOutcome-based Reward Models(ORMs)は、改善のタイミングを決定するための便利な解決策を提供します。一方、中間ステップの正しさを予測するProcess Based Reward Models(PRMs)は、どこで改善すべきかを示すために使用できますが、これらは広範な人間のアノテーションを必要とするため、訓練にコストがかかります。本論文では、合成データのみを用いて訓練され、最適ポリシーまたはV^{star}の将来の報酬を近似するStepwise ORMs(SORMs)を提案します。具体的には、SORMsは、現在のポリシーを複数回サンプリングした場合の最終的な答えの正しさを予測するように訓練されます(ORMsの場合のように一度だけではなく)。実験結果は、SORMsがORMsと比較して、誤った推論ステップをより正確に検出できることを示しており、改善を行う際の下流の精度を向上させます。次に、質問と草案の解決策を入力として受け取り、修正された解決策を予測するグローバル改善モデルと、最初の推論エラーの位置を示す批評も入力として受け取るローカル改善モデルを訓練します。両モデルの訓練データは、SORMの訓練に使用されたデータを再利用して合成的に生成します。グローバルとローカルの改善を組み合わせ、ORMをリランカーとして使用することで、個別の改善や、3つのサンプルのベストを上回る性能を発揮することがわかりました。この戦略により、RLで既にファインチューニングされたLLaMA-2 13BモデルのGSM8Kにおける精度を、貪欲サンプリング時に53%から65%に向上させることができます。
表面ベースのビュー合成アルゴリズムは、その低い計算要件から魅力的であるが、細かい構造の再現に苦戦することが多い。一方、シーンのジオメトリを体積密度場としてモデル化するより高コストな手法(例えばNeRF)は、微細な幾何学的ディテールの再構築に優れている。しかし、密度場はしばしばジオメトリを「ぼやけた」形で表現するため、表面の正確な位置特定が妨げられる。本研究では、密度場を修正し、細かい構造の再構築能力を損なうことなく、表面に向かって収束するよう促す。まず、連続的な密度場ではなく、離散的な不透明度グリッド表現を採用し、不透明度値が表面でゼロから1に不連続に遷移することを可能にする。次に、ピクセルごとに複数のレイを投射することでアンチエイリアシングを行い、半透明ボクセルを使用せずにオクルージョン境界とサブピクセル構造をモデル化する。さらに、不透明度値のバイナリエントロピーを最小化し、訓練の終盤に向けて不透明度値が二値化するよう促すことで、表面ジオメトリの抽出を容易にする。最後に、融合ベースのメッシュ生成戦略を開発し、メッシュの簡素化と外観モデルのフィッティングを行う。我々のモデルが生成するコンパクトなメッシュは、モバイルデバイスでリアルタイムにレンダリング可能であり、既存のメッシュベースのアプローチと比較して、大幅に高いビュー合成品質を達成する。
本論文では、テキスト駆動型の拡散モデルを用いた画像生成において、細かな照明制御を可能にする新しい手法を提案する。既存の拡散モデルは、任意の照明条件下で画像を生成する能力を既に有しているが、追加のガイダンスなしでは、画像の内容と照明が相関する傾向がある。さらに、テキストプロンプトだけでは、詳細な照明設定を記述するのに十分な表現力が欠けている。画像生成中にコンテンツクリエイターが照明を細かく制御できるようにするため、我々はテキストプロンプトを、ラディアンスヒント(目標照明下での均質な標準マテリアルを用いたシーンジオメトリの可視化)という形で詳細な照明情報で拡張する。しかし、ラディアンスヒントを生成するために必要なシーンジオメトリは未知である。我々の重要な観察は、拡散プロセスをガイドするだけでよいため、正確なラディアンスヒントは必要なく、拡散モデルを正しい方向に導くだけで十分であるということである。この観察に基づき、画像生成中の照明制御のための3段階の手法を導入する。第1段階では、標準の事前学習済み拡散モデルを活用して、制御されていない照明下での暫定画像を生成する。次に、第2段階では、暫定画像から推定された前景オブジェクトの粗い形状に基づいて計算されたラディアンスヒントを使用して、目標照明をDiLightNetという改良された拡散モデルに渡し、生成された画像の前景オブジェクトを再合成および精緻化する。テクスチャの詳細を保持するために、暫定合成画像のニューラルエンコーディングをラディアンスヒントに乗算してからDiLightNetに渡す。最後に、第3段階では、前景オブジェクトの照明と一貫性のある背景を再合成する。我々は、様々なテキストプロンプトと照明条件において、照明制御された拡散モデルを実証し、検証する。
視覚言語モデル(VLM)は多用途な視覚アシスタントとして驚異的な能力を発揮する一方で、既存のVLMフレームワークには2つの大きな課題が残されている:(1) 事前学習と視覚指示チューニングにおけるタスクの多様性の欠如、(2) GPT-4によって合成された指示チューニングデータにおけるアノテーションエラーとバイアスである。これらの課題は、汎化性能の低さ、幻覚(hallucination)、そして破滅的忘却(catastrophic forgetting)といった問題を引き起こす。これらの課題に対処するため、我々はVision-Flanを構築した。これは、学術データセットから収集された187の多様なタスクと1,664,261のインスタンスから成る、これまでで最も多様な公開視覚指示チューニングデータセットであり、各タスクには専門家によって書かれた指示が付随している。さらに、我々は2段階の指示チューニングフレームワークを提案し、VLMをまずVision-Flanでファインチューニングし、その後GPT-4によって合成されたデータでさらにチューニングする。この2段階チューニングフレームワークは、従来の単一段階の視覚指示チューニングフレームワークを大幅に上回り、幅広いマルチモーダル評価ベンチマークで最先端の性能を達成する。最後に、視覚指示チューニングを理解するための詳細な分析を行い、以下の知見を得た:(1) GPT-4によって合成されたデータはVLMの能力を大幅に向上させるのではなく、むしろモデルの応答を人間が好む形式に調整する役割を果たす;(2) 最小限の量(例えば1,000)のGPT-4合成データでも、VLMの応答を人間の好みに効果的に合わせることができる;(3) 視覚指示チューニングは主に大規模言語モデル(LLM)が視覚的特徴を理解するのに役立つ。
自己回帰モデルは、グリッド空間における結合分布をモデル化することで、2D画像生成において印象的な成果を上げてきました。本論文では、自己回帰モデルを3D領域に拡張し、容量とスケーラビリティの両面で自己回帰モデルを改善することで、より強力な3D形状生成能力を追求します。まず、大規模モデルの学習を促進するために、公開されている3Dデータセットのアンサンブルを活用します。これには、メッシュ、ポイント、ボクセル、レンダリング画像、テキストキャプションなど、複数のプロパティを持つ約90万個のオブジェクトが含まれており、この多様なラベル付きデータセット「Objaverse-Mix」により、モデルは幅広いオブジェクトのバリエーションから学習することが可能になります。しかし、3D自己回帰を直接適用すると、ボリュームグリッドに対する高い計算要求と、グリッド次元に沿った曖昧な自己回帰順序という重大な課題に直面し、3D形状の品質が低下します。この問題に対処するため、容量の観点から新しいフレームワーク「Argus3D」を提案します。具体的には、ボリュームグリッドではなく潜在ベクトルに基づく離散表現学習を導入し、計算コストを削減するとともに、より扱いやすい順序で結合分布を学習することで、重要な幾何学的詳細を保持します。これにより、点群、カテゴリ、画像、テキストなどの様々な条件付け入力を潜在ベクトルに単純に連結することで、条件付き生成の容量を実現できます。さらに、モデルアーキテクチャのシンプルさにより、36億パラメータという大規模なモデルに自然にスケールアップし、多様な3D生成の品質をさらに向上させます。4つの生成タスクにおける広範な実験により、Argus3Dが複数のカテゴリにわたって多様で忠実な形状を合成し、顕著な性能を達成できることが実証されました。