翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は最近、数学問題を解く際に顕著な推論能力を示しています。この能力をさらに向上させるため、本研究では人間の学習プロセスに似た「Learning from Mistakes(LeMa)」を提案します。数学問題を解くことに失敗した学生が、どのような間違いを犯したのか、そしてそれをどのように修正するのかを学ぶように、LeMaはGPT-4によって生成された誤り修正データペアを用いてLLMsをファインチューニングします。具体的には、まず様々なLLMsから不正確な推論パスを収集し、次にGPT-4を「修正者」として活用して、(1) 間違いのステップを特定し、(2) 間違いの理由を説明し、(3) 間違いを修正して最終的な答えを生成します。実験結果はLeMaの有効性を示しています:5つの基盤LLMsと2つの数学的推論タスクにおいて、LeMaはCoTデータのみでファインチューニングした場合と比較して一貫して性能を向上させます。特に、LeMaはWizardMathやMetaMathといった専門化されたLLMsにも有効であり、GSM8Kでは85.4%のpass@1精度、MATHでは27.1%の精度を達成しました。これは、これらの難しいタスクにおいて非実行型のオープンソースモデルが達成したSOTA性能を上回るものです。私たちのコード、データ、モデルはhttps://github.com/microsoft/CodeTで公開されます。
大規模マルチモーダルモデルは、ゼロショット方式で多様なマルチモーダルタスクを実行する際に顕著な汎用能力を示します。ウェブベースの大規模な画像-テキストペアはこの成功に根本的に貢献していますが、過剰なノイズに悩まされています。最近の研究では、キャプションモデルによって合成された代替キャプションを使用し、注目すべきベンチマーク性能を達成しています。しかし、私たちの実験では、合成キャプションで訓練されたモデルに重大なスケーラビリティ欠陥と世界知識の喪失問題があることが明らかになりました。これらの問題は、初期のベンチマーク成功によって大きく覆い隠されていました。詳細な検討の結果、既存の合成キャプションにおける過度に簡素化された言語構造と知識詳細の欠如が根本原因であることが判明しました。より高品質でスケーラブルなマルチモーダル事前学習データを提供するために、私たちはCapsFusionを提案します。これは、大規模言語モデルを活用して、ウェブベースの画像-テキストペアと合成キャプションの両方から情報を統合・洗練する先進的なフレームワークです。広範な実験により、CapsFusionキャプションは、モデル性能(例:COCOとNoCapsにおけるCIDErスコアの18.8および18.3の向上)、サンプル効率(ベースラインよりも11~16倍少ない計算量を必要とする)、世界知識の深さ、およびスケーラビリティの点で、既存のキャプションに対して顕著な全体的優位性を示すことが確認されました。これらの有効性、効率性、およびスケーラビリティの利点により、CapsFusionは将来のLMM訓練のスケーリングにおける有望な候補として位置づけられています。
ニューラルネットワークベースのコンピュータビジョンシステムは、通常、バックボーン、すなわち事前学習済みまたはランダムに初期化された特徴抽出器を基盤として構築されます。数年前までは、ImageNetで学習された畳み込みニューラルネットワーク(CNN)がデフォルトの選択肢でした。しかし、最近では、さまざまなアルゴリズムやデータセットを用いて事前学習された無数のバックボーンが登場しています。この選択肢の豊富さは、さまざまなシステムの性能向上につながっていますが、実務者がどのバックボーンを選ぶべきかについて的確な判断を下すことは困難です。 「Battle of the Backbones(BoB)」は、この選択を容易にするために、多様な事前学習済みモデルをベンチマークしています。これには、視覚言語モデル、自己教師あり学習(SSL)で学習されたモデル、Stable Diffusionのバックボーンなどが含まれ、分類から物体検出、OOD(Out-of-Distribution)汎化など、多岐にわたるコンピュータビジョンタスクで評価されます。さらに、BoBは、1500以上の学習実行に基づく包括的な分析を通じて、既存のアプローチの強みと弱みを明らかにし、コンピュータビジョンの研究コミュニティが進むべき有望な方向性を示しています。 視覚トランスフォーマー(ViT)や自己教師あり学習(SSL)がますます人気を集めている中で、大規模な訓練セットで教師あり学習された畳み込みニューラルネットワークが、私たちが検討したモデルの中でほとんどのタスクで最高の性能を発揮することがわかりました。さらに、同じアーキテクチャと同規模の事前学習データセットでの公平な比較では、SSLバックボーンが非常に競争力があることがわかり、将来の研究では、高度なアーキテクチャとより大規模な事前学習データセットを用いてSSL事前学習を行うべきであることが示唆されています。私たちは、実験の生データと、研究者が自身のバックボーンをテストできるコードを以下のリンクで公開しています:https://github.com/hsouri/Battle-of-the-Backbones
オフライン強化学習(RL)は、事前に収集されたデータセットを使用して最適に近いポリシーを見つけることを目的としています。現実世界のシナリオでは、データ収集がコスト高くリスクを伴うため、ドメイン内のデータが限られている場合、オフラインRLは特に困難になります。大規模言語モデル(LLM)とそのFew-shot学習能力の最近の進展を踏まえ、本論文では、事前学習済み言語モデル(LM)をオフラインRLに効果的に活用するためのDecision Transformersに基づく汎用フレームワークであるLanguage Models for Motion Control(LaMo)を紹介します。我々のフレームワークは、以下の4つの重要なコンポーネントを強調しています:(1)逐次事前学習されたLMでDecision Transformersを初期化すること、(2)全重みのファインチューニングとは対照的に、LoRAファインチューニング手法を採用し、LMからの事前学習済み知識とドメイン内知識を効果的に組み合わせること、(3)線形射影ではなく非線形MLP変換を使用して埋め込みを生成すること、(4)ファインチューニング中に補助的な言語予測損失を統合し、LMを安定化させ、言語に関する元の能力を保持することです。実験結果は、LaMoがスパース報酬タスクにおいて最先端の性能を達成し、密報酬タスクにおける価値ベースのオフラインRL手法とDecision Transformersのギャップを埋めることを示しています。特に、我々の手法は、データサンプルが限られたシナリオにおいて優れた性能を発揮します。プロジェクトのウェブサイトはhttps://lamo2023.github.ioです。
我々は、公開オンラインのチューリングテストにおいてGPT-4を評価した。最も性能の高かったGPT-4のプロンプトは、41%のゲームで通過し、ELIZA(27%)およびGPT-3.5(14%)のベースラインを上回ったが、偶然の確率や人間の参加者が設定したベースライン(63%)には及ばなかった。参加者の判断は主に言語スタイル(35%)と社会感情的特性(27%)に基づいており、知性がチューリングテストを通過するための十分条件ではないという考えを支持するものであった。参加者の人口統計学的要因(教育水準や大規模言語モデルへの親密度など)は検出率を予測しなかったことから、システムを深く理解し頻繁に相互作用する人々でさえも欺きに陥り得ることが示唆された。知性のテストとしての限界が知られているにもかかわらず、我々はチューリングテストが自然なコミュニケーションと欺瞞の評価として依然として関連性を保っていると主張する。人間のように振る舞う能力を持つAIモデルは、広範な社会的影響をもたらす可能性があり、我々は人間らしさを判断するための様々な戦略と基準の有効性を分析した。
AI開発者は、AIシステムの悪用を防ぐために安全性アライメント手順を適用することが多い。例えば、Metaが命令ファインチューニングされた大規模言語モデルのコレクションであるLlama 2-Chatをリリースする前に、大規模なレッドチーミングや人間のフィードバックからの強化学習を取り入れた安全性トレーニングに多大な投資を行った。しかし、攻撃者がモデルの重みにアクセスできる場合、安全性トレーニングがモデルの悪用をどの程度防げるかは不明である。我々は、Llama 2-Chatの公開された重みを破壊的にファインチューニングすることで、言語モデルの安全性トレーニングの堅牢性を探る。効率的なファインチューニング手法として、低ランク適応(LoRA)を採用する。モデルあたり200ドル未満の予算と1つのGPUのみを使用して、7B、13B、70BサイズのLlama 2-Chatモデルの安全性トレーニングを無効化することに成功した。具体的には、我々のファインチューニング技術により、モデルが有害な指示に従うことを拒否する率が大幅に低下する。70B Llama 2-Chatモデルでは、2つの拒否ベンチマークで拒否率を1%未満に抑えた。我々のファインチューニング手法は一般的な性能を保持しており、2つのベンチマークでファインチューニングされたモデルとLlama 2-Chatを比較することで検証した。さらに、我々のモデルが生成した有害な出力の一部を提示する。現在のモデルがもたらすリスクの範囲についてはかなりの不確実性があるが、将来的なモデルは、重要なインフラへのハッキング、危険な生物兵器の作成、新しい環境への自律的な複製と適応など、はるかに危険な能力を持つ可能性が高い。我々は、破壊的なファインチューニングが実用的で効果的であることを示し、したがって、モデルの重みを公開する際のリスク評価において、ファインチューニングによるリスクの評価が中核的な部分であるべきだと主張する。
拡散モデルは、画像合成、動画生成、分子設計などのタスクにおいて記録的な性能を発揮する生成モデルの一種です。しかし、その能力にもかかわらず、特に逆方向のノイズ除去プロセスにおける効率性は、収束速度の遅さと高い計算コストのため、依然として課題となっています。本研究では、連続的な動的システムを活用し、拡散モデル向けの新しいノイズ除去ネットワークを設計するアプローチを提案します。このネットワークは、パラメータ効率が高く、収束が速く、ノイズに対する頑健性が増しています。確率的拡散モデルのノイズ除去実験において、我々のフレームワークは、Denoising Diffusion Probabilistic Models(DDPMs)で使用される標準的なU-Netと比較して、約4分の1のパラメータ数と30%の浮動小数点演算(FLOPs)で動作します。さらに、同等の条件下で測定した場合、我々のモデルはベースラインモデルよりも最大70%高速に推論を行い、より高品質な解に収束します。
大規模なテキストコーパスは言語モデルの基盤である。しかし、これらのコーパスの内容、一般的な統計、品質、社会的要因、評価データの混入(汚染)などについては、理解が限られている。本研究では、大規模テキストコーパスの内容を明らかにし比較するためのプラットフォームおよび16の分析手法を提案する「What's In My Big Data? (WIMBD)」を紹介する。WIMBDは、大規模なカウントと検索という2つの基本機能を基盤としており、標準的なコンピュートノードで35テラバイト以上のデータを分析することが可能である。我々はWIMBDを、C4、The Pile、RedPajamaなど、人気のある言語モデルのトレーニングに使用される10の異なるコーパスに適用した。この分析により、これらのコーパスに関するいくつかの驚くべき、かつこれまで文書化されていない発見が明らかになった。具体的には、重複、合成、低品質なコンテンツ、個人識別情報、有害な言語、ベンチマークの汚染が高い頻度で存在することが判明した。例えば、RedPajamaとLAION-2B-enのドキュメントの約50%が重複していることがわかった。さらに、このようなコーパスでトレーニングされたモデルのベンチマークに使用されるいくつかのデータセットは、Winograd Schema ChallengeやGLUE、SuperGLUEの一部を含む重要なベンチマークに関して汚染されている。我々はWIMBDのコードと成果物をオープンソース化し、新しいテキストベースのコーパスに対する標準的な評価セットを提供し、それらに関するさらなる分析と透明性を促進する:github.com/allenai/wimbd。
近年、ビデオ生成技術は現実的な結果をもたらす大きな進歩を遂げてきた。しかしながら、既存のAI生成ビデオは通常、単一のシーンを描いた非常に短いクリップ(「ショットレベル」)である。一貫性のある長いビデオ(「ストーリーレベル」)を提供するためには、異なるクリップ間の創造的なトランジションと予測効果が望ましい。本論文では、生成トランジションと予測に焦点を当てたショットからロングビデオへの拡散モデル、SEINEを紹介する。その目的は、シーン間の滑らかで創造的なトランジションと、さまざまな長さのショットレベルビデオを備えた高品質な長いビデオを生成することである。具体的には、テキスト記述に基づいて自動的にトランジションを生成するランダムマスクビデオ拡散モデルを提案する。異なるシーンの画像を入力として提供し、テキストベースの制御と組み合わせることで、我々のモデルは一貫性と視覚的品質を保証するトランジションビデオを生成する。さらに、このモデルは、画像からビデオへのアニメーションや自己回帰的ビデオ予測など、さまざまなタスクに容易に拡張可能である。この新しい生成タスクを包括的に評価するために、滑らかで創造的なトランジションのための3つの評価基準を提案する:時間的一貫性、意味的類似性、ビデオとテキストの意味的整合性である。広範な実験により、生成トランジションと予測における既存の手法に対する我々のアプローチの有効性が検証され、ストーリーレベルの長いビデオの作成が可能となった。プロジェクトページ: https://vchitect.github.io/SEINE-project/
新しい文を処理するためには、言語モデル(LMs)は合成的に一般化する必要があります――つまり、既知の要素を新しい方法で組み合わせる必要があります。モデルの構造のどの側面が合成的な一般化を促進するのでしょうか?トランスフォーマーに焦点を当て、最近の理論的および実証的研究に基づいて、トランスフォーマーは層が深い(より多くの層を持つ)場合に、より合成的に一般化するという仮説を検証します。単に層を追加するとパラメータの総数が増え、深さとサイズが混同されるため、総パラメータ数を一定(41M、134M、374Mパラメータ)に保つように、深さと幅をトレードオフする3つのクラスのモデルを構築します。すべてのモデルをLMsとして事前学習し、合成的な一般化をテストするタスクでファインチューニングします。主な結論として以下の3点を報告します:(1)ファインチューニング後、より深いモデルは、より浅いモデルよりも分布外でより良く一般化しますが、追加の層による相対的な利得は急速に減少します;(2)各ファミリー内で、より深いモデルはより良い言語モデリング性能を示しますが、利得は同様に減少します;(3)合成的な一般化における深さの利点は、言語モデリングや分布内データに対するより良い性能だけに起因するものではありません。
ChipNeMoは、産業用チップ設計における大規模言語モデル(LLM)の応用を探求することを目的としています。既存の商用またはオープンソースのLLMを直接導入するのではなく、以下のドメイン適応技術を採用しています:カスタムトークナイザー、ドメイン適応型継続事前学習、ドメイン固有の指示を用いた教師ありファインチューニング(SFT)、およびドメイン適応型検索モデルです。これらの手法を、チップ設計における3つの選定されたLLM応用(エンジニアリングアシスタントチャットボット、EDAスクリプト生成、バグの要約と分析)で評価しました。結果は、これらのドメイン適応技術が、汎用ベースモデルと比較して、評価された3つの応用においてLLMの性能を大幅に向上させ、設計タスクの範囲で同程度またはそれ以上の性能を維持しながら最大5倍のモデルサイズ削減を可能にすることを示しています。また、現在の結果と理想的な成果との間にはまだ改善の余地があることも示唆されています。ドメイン適応型LLMアプローチのさらなる調査が、将来このギャップを埋めるのに役立つと信じています。
LLMベースのエージェント知能の自動評価は、高度なLLMベースのエージェントの開発において極めて重要です。AlpacaEvalのような人間による注釈付き評価データセットの開発には多大な努力が払われてきましたが、既存の手法はコストが高く、時間がかかり、適応性に欠けています。本論文では、人気のある言語ゲーム「Who is Spy」に着想を得て、単語当てゲームを用いてLLMの知能性能を評価することを提案します。与えられた単語に対して、LLMはその単語を説明し、自身や他のプレイヤーの説明に基づいてその正体(スパイかどうか)を判断するよう求められます。理想的には、高度なエージェントは、攻撃的な説明を用いて与えられた単語を正確に説明する能力を持ちつつ、保守的な説明において混乱を最大化し、ゲームへの参加を強化するべきです。この目的のために、まずLLMの表現能力と偽装能力を評価するDEEPを開発します。DEEPでは、LLMに攻撃的モードと保守的モードで単語を説明させます。次に、SpyGameを導入します。これは、競争的な言語ベースのボードゲームへの参加を通じてLLMの知能を評価するためのインタラクティブなマルチエージェントフレームワークです。マルチエージェントインタラクションを取り入れたSpyGameは、対象のLLMに言語スキルと戦略的思考を要求し、複雑なコミュニケーション状況におけるLLMの人間らしい認知能力と適応性をより包括的に評価します。提案する評価フレームワークは非常に実装が容易です。我々は複数のソース、ドメイン、言語から単語を収集し、提案した評価フレームワークを用いて実験を行いました。大規模な実験により、提案したDEEPとSpyGameが様々なLLMの能力を効果的に評価し、新しい状況への適応能力や戦略的コミュニケーション能力を捉えることが実証されました。