翻訳付きの日次キュレーションされたAI研究論文
GPT-3.5やChatGPTのような言語モデルは、多様な人間の指示に従い、幅広いタスクを遂行する驚くべき能力を示します。しかし、基本的な表理解タスクを用いて言語モデルを調査すると、現在の言語モデルは多くの表関連タスクにおいて依然として最適ではないことが観察されます。これは、おそらく言語モデルが主に一次元の自然言語テキストで事前学習されているのに対し、リレーショナルテーブルは二次元のオブジェクトであるためと考えられます。 本研究では、新しい「テーブルチューニング」パラダイムを提案します。このパラダイムでは、GPT-3.5やChatGPTのような言語モデルを、実際のテーブルから合成された多様なテーブルタスクを訓練データとして用いて継続的に訓練/ファインチューニングし、言語モデルのテーブル理解能力とテーブルタスク遂行能力を向上させることを目指します。その結果得られたTable-GPTモデルは、(1) 幅広いテーブルタスク(未見のタスクを含む)において、従来のGPT-3.5やChatGPTを一貫して上回る優れたテーブル理解能力を示し、(2) GPT-3.5やChatGPTと同様に、多様な人間の指示に応じて新しいテーブルタスクを遂行する強力な汎化能力を有することを示します。
本論文では、PaLI-3を紹介する。これは、より小型で高速かつ強力な視覚言語モデル(VLM)であり、10倍の規模を持つ類似モデルと比較しても優れた性能を示す。この高い性能を実現する過程で、分類目的で事前学習されたVision Transformer(ViT)モデルと、対照的(SigLIP)に事前学習されたモデルを比較した。その結果、標準的な画像分類ベンチマークではやや性能が劣るものの、SigLIPベースのPaLIは、特にローカライゼーションや視覚に基づくテキスト理解を含む様々なマルチモーダルベンチマークで優れた性能を発揮することがわかった。SigLIP画像エンコーダを20億パラメータまでスケールアップし、多言語クロスモーダル検索において新たな最先端を達成した。わずか50億パラメータのPaLI-3が、複雑なVLMの基本的な構成要素に関する研究を再燃させ、新たな世代のスケールアップモデルを促進することを期待している。
量子化は大規模言語モデル(LLM)を提供する上で不可欠な技術であり、最近ではLoRAファインチューニングにも応用されています。本研究では、事前学習済みモデルに量子化とLoRAファインチューニングを同時に適用するシナリオに焦点を当てます。このような場合、完全なファインチューニングと量子化+LoRAファインチューニングのアプローチの間で、下流タスクにおける性能に一貫したギャップが観察されることが一般的です。これに対応して、我々はLoftQ(LoRA-Fine-Tuning-aware Quantization)を提案します。これは、LLMを量子化すると同時に、LoRAファインチューニングのための適切な低ランク初期化を見つける新しい量子化フレームワークです。この初期化により、量子化モデルと完全精度モデルの間の不一致が緩和され、下流タスクにおける汎化性能が大幅に向上します。我々は、自然言語理解、質問応答、要約、自然言語生成タスクにおいて本手法を評価しました。実験結果は、本手法が非常に有効であり、特に挑戦的な2ビットおよび2/4ビット混合精度の領域において、既存の量子化手法を凌駕することを示しています。我々はコードを公開する予定です。
大規模言語モデル(LLM)は、ライブコンピュータ環境(例:MiniWoB++)において、高レベルの目標を計画し実行する能力が向上していることが示されています。タスクを実行するために、最近の研究では、モデルが教師あり学習や少数/多数ショットプロンプティングを通じてタスクのトレース例から学習することを必要とすることが多いです。これらのトレース例がない場合、エージェントが自律的に学習し、コンピュータ上の制御を改善する方法は依然として課題であり、これが新しいタスクを実行するエージェントの能力を制限しています。私たちは、専門家のトレースを必要としないゼロショットエージェントを用いてこの問題にアプローチします。私たちのエージェントは、部分的に観測された環境で実行可能なアクションを計画し、自己反省と構造化された思考管理を通じてミスを特定し学習することで、タスクを反復的に進めます。MiniWoB++の簡単なタスクにおいて、私たちのゼロショットエージェントは、より効率的な推論により、最近のSoTAをしばしば上回ることを示します。より複雑なタスクでは、私たちの反省的エージェントは、専門家のトレースや追加の画面情報にアクセスするという利点を持っていた以前の最良のモデルと同等の性能を発揮します。
質問応答やその他のテキスト生成タスクに適用する際、言語モデル(LM)は生成的(出力分布から回答をサンプリングする)または識別的(候補となる出力セットをスコアリングまたはランク付けする)に問い合わせることができます。これらの手順は、時に非常に異なる予測を生み出すことがあります。相互に互換性のないスコアリング手順をどのように調和させ、一貫したLMの予測を得るのでしょうか?私たちは、新しい、トレーニング不要なゲーム理論的な手順を言語モデルのデコードに導入します。私たちのアプローチは、言語モデルのデコードを、正則化された不完全情報逐次シグナリングゲームとして定式化します。これをCONSENSUS GAMEと呼び、GENERATORが抽象的な正しさのパラメータを自然言語文を用いてDISCRIMINATORに伝達しようとするゲームです。私たちは、このゲームの近似均衡を見つけるための計算手順を開発し、EQUILIBRIUM-RANKINGと呼ぶデコードアルゴリズムを生み出しました。多数のタスク(読解、常識推論、数学的問題解決、対話を含む)に適用した結果、EQUILIBRIUM-RANKINGは既存のLMデコード手順を一貫して、時には大幅に上回る性能を示しました。複数のベンチマークにおいて、LLaMA-7BにEQUILIBRIUM-RANKINGを適用すると、はるかに大規模なLLaMA-65BやPaLM-540Bモデルを上回る結果が観察されました。これらの結果は、LMの真実性と一貫性という根本的な課題にゲーム理論的ツールが有効であることを示しています。
大規模言語モデル(LLMs)は、幅広い自然言語処理(NLP)タスクにおいて驚異的な性能を発揮し、しばしばタスク特化型の最先端モデルに匹敵するか、それを上回る結果を示しています。本研究は、LLMsの財務推論能力を評価することを目的としています。私たちは、公認金融アナリスト(CFA)プログラムの模擬試験問題を活用し、ChatGPTとGPT-4の財務分析における包括的な評価を、ゼロショット(ZS)、連鎖思考(CoT)、および少数ショット(FS)のシナリオを考慮して実施します。モデルの性能と限界について詳細な分析を行い、CFA試験に合格する可能性があるかどうかを推定します。最後に、LLMsの金融分野での適用性を向上させるための潜在的な戦略と改善策についての洞察を提示します。この観点から、本研究が厳密な評価を通じて財務推論のためのLLMsを継続的に強化するための今後の研究の道を開くことを期待しています。
大規模言語モデル(LLM)は、HumanEvalやMBPPベンチマークのような単純なプログラミングタスクを解決するのに既にかなり熟達しています。しかし、より複雑で競争力のあるプログラミングタスクを解決することは、これらのモデルにとって依然として非常に困難です。これは、モデルが解決策を単一のコードブロックとして生成する傾向があり、論理的なサブタスクやサブモジュールに分解しないためかもしれません。一方、経験豊富なプログラマーは、複雑なタスクを解決するために、抽象化を伴うモジュール化されたコードを直感的に記述し、しばしば以前に開発されたモジュールを再利用します。このギャップを埋めるために、我々はCodeChainという新しい推論フレームワークを提案します。CodeChainは、自己修正の連鎖を通じてモジュール化されたコード生成を促し、各反復で生成された代表的なサブモジュールに導かれます。具体的には、CodeChainはまずLLMにチェーン・オブ・シンクト(chain-of-thought)プロンプティングを通じてモジュール化されたコードを生成するよう指示します。その後、以下の2つのステップを反復して自己修正の連鎖を適用します:1)生成されたサブモジュールを抽出してクラスタリングし、より汎用的で再利用可能な実装としてクラスターの代表を選択し、2)これらの選択されたモジュール実装を元のチェーン・オブ・シンクトプロンプトに追加し、LLMに新しいモジュール化された解決策を再生成するよう指示します。我々は、CodeChainがLLMに以前に開発され検証されたサブモジュールを自然に再利用するよう促すことで、生成された解決策のモジュール性と正確性の両方を大幅に向上させ、APPSでは35%、CodeContestsでは76%の相対的なpass@1改善を達成できることを発見しました。これは、OpenAIのLLMだけでなく、WizardCoderのようなオープンソースのLLMでも有効であることが示されています。また、プロンプティングの方法、クラスター数、モデルサイズ、プログラム品質などに関する包括的なアブレーションスタディを実施し、CodeChainの成功を支える有用な洞察を提供します。
音声とテキストは、人間の言語の主要な2つの形態です。研究コミュニティは長年にわたり、音声をテキストにマッピングする、またはその逆を行うことに焦点を当ててきました。しかし、言語モデリングの分野では、これらを共同でモデル化する取り組みはほとんど行われていません。これを踏まえ、私たちは音声単位とテキストの共同言語モデリングを探求します。具体的には、連続的な音声信号を離散単位に変換するための異なる音声トークナイザーを比較し、混合音声-テキストデータを構築するための異なる手法を使用します。共同言語モデルが音声とテキストをどれだけうまく混合しているかを評価するための自動指標を導入します。また、異なるモダリティ(音声またはテキスト)を用いた下流の音声言語理解(SLU)タスクに対して言語モデルをファインチューニングし、その性能をテストして、モデルが共有表現をどの程度学習しているかを評価します。私たちの結果は、提案した混合技術を用いて音声単位とテキストを混合することで、共同言語モデルが音声のみのベースラインを上回り、ゼロショットのクロスモーダル転送可能性を示すことを示しています。