翻訳付きの日次キュレーションされたAI研究論文
テキストから画像へのモデルのパーソナライゼーションは、ユーザーが提供した概念をモデルに導入し、それを多様な文脈で合成することを目指す。しかし、現在の手法は主に、背景やポーズの異なる複数の画像から単一の概念を学習するケースに焦点を当てており、異なるシナリオに適応する際に困難を抱えている。本研究では、テキストシーン分解のタスクを導入する:複数の概念を含む可能性のあるシーンの単一画像が与えられた場合、各概念に対して個別のテキストトークンを抽出し、生成されるシーンに対するきめ細かい制御を可能にすることを目指す。この目的のために、ターゲット概念の存在を示すマスクを入力画像に追加することを提案する。これらのマスクはユーザーによって提供されるか、事前に訓練されたセグメンテーションモデルによって自動生成される。次に、専用のテキスト埋め込み(ハンドル)とモデルの重みを最適化する新しい二段階のカスタマイズプロセスを提示し、概念を正確に捉えることと過剰適合を避けることの間の微妙なバランスを取る。マスク付き拡散損失を使用して、ハンドルが割り当てられた概念を生成できるようにし、絡み合いを防ぐためにクロスアテンションマップに対する新しい損失を補完する。また、生成された画像で複数の概念を組み合わせる能力を向上させることを目的としたトレーニング戦略であるユニオンサンプリングを導入する。いくつかの自動メトリクスを使用して、我々の手法をいくつかのベースラインと定量的に比較し、ユーザー調査を使用して結果をさらに確認する。最後に、我々の手法のいくつかの応用例を紹介する。プロジェクトページは以下で利用可能:https://omriavrahami.com/break-a-scene/
Transformerアーキテクチャは、複数の研究領域で印象的な性能を示し、多くのニューラルネットワークモデルの基盤となっています。しかし、その動作原理については限られた理解しかありません。特に、単純な予測損失を用いた場合、勾配訓練ダイナミクスからどのように表現が生まれるかは謎のままです。本論文では、1層のTransformer(1つのセルフアテンションレイヤーと1つのデコーダーレイヤーで構成)について、次のトークン予測タスクにおけるSGD訓練ダイナミクスを数学的に厳密に分析します。セルフアテンションレイヤーが入力トークンを組み合わせる動的プロセスのブラックボックスを開き、その背後にある帰納的バイアスの本質を明らかにします。具体的には、(a)位置エンコーディングなし、(b)長い入力シーケンス、(c)デコーダーレイヤーがセルフアテンションレイヤーよりも速く学習する、という仮定の下で、セルフアテンションが識別的スキャンアルゴリズムとして機能することを証明します。均一なアテンションから始まり、特定の次のトークンを予測するために、異なるキートークンにより多く注意を向け、異なる次のトークンにまたがって出現する共通のキートークンにはあまり注意を向けなくなります。異なるトークンの中では、キーとクエリトークンの共起頻度が低いものから高いものの順に、アテンションの重みを徐々に減らしていきます。興味深いことに、このプロセスは勝者総取りにはならず、2つのレイヤーの学習率によって制御可能な相転移によって減速し、(ほぼ)固定されたトークンの組み合わせを残します。この「スキャン&スナップ」ダイナミクスを、合成データと実世界のデータ(WikiText)で検証します。
近年の研究では、外部ツールを活用することで大規模言語モデル(LLM)の問題解決能力を向上させる可能性が示されている。しかし、これまでの研究は既存のツールの利用可能性に依存していた。本研究では、この依存性を排除するための第一歩として、LLMが自身で再利用可能なツールを作成する「LLM As Tool Makers(LATM)」と呼ばれる閉ループフレームワークを提案する。このアプローチは、以下の2つの主要なフェーズから構成される:1)ツール作成:LLMがツールメーカーとして、与えられたタスクに対してツールを設計し、そのツールはPythonのユーティリティ関数として実装される。2)ツール利用:LLMがツールユーザーとして、ツールメーカーによって作成されたツールを問題解決に適用する。ツールユーザーは、ツールメーカーと同じLLMでも異なるLLMでもよい。ツール作成により、LLMはさまざまなリクエストに適用可能なツールを継続的に生成でき、将来のリクエストではタスク解決に有益な場合に対応するAPIを呼び出すことができる。さらに、ツール作成とツール利用のフェーズでLLM間の分業を行うことで、生成されるツールや問題解決の品質を低下させることなく、コスト効率を達成する機会が生まれる。例えば、ツール作成はツール利用よりも高度な能力を必要とすることを認識し、リソース集約的だが強力なモデルをツールメーカーとして、軽量でコスト効率の高いモデルをツールユーザーとして適用することができる。我々は、Big-Benchタスクを含むさまざまな複雑な推論タスクにおいて、このアプローチの有効性を検証した。GPT-4をツールメーカー、GPT-3.5をツールユーザーとして使用した場合、LATMはツール作成とツール利用の両方にGPT-4を使用した場合と同等の性能を達成しつつ、推論コストを大幅に削減できることが確認された。
本論文では、テキスト駆動型ビデオ編集のための新手法ControlVideoを提案する。ControlVideoは、テキストから画像を生成する拡散モデルとControlNetの能力を活用し、与えられたテキストに沿ったビデオの忠実度と時間的一貫性を向上させつつ、元のビデオの構造を保持することを目指す。これは、エッジマップなどの追加条件を組み込み、慎重に設計された戦略に基づいてソースビデオとテキストのペアに対するキーフレームと時間的注意を微調整することで実現される。ControlVideoの設計について詳細に探求し、ワンショットチューニングビデオ拡散モデルの将来の研究に貢献する。定量的には、ControlVideoは忠実度と一貫性の点で競合するベースラインを上回りながら、テキストプロンプトに沿った結果を示す。さらに、ソースコンテンツに対する高い視覚的リアリズムと忠実度を備えたビデオを提供し、さまざまな程度のソースビデオ情報を含むコントロールを柔軟に活用する可能性と、複数のコントロールの組み合わせの可能性を示す。プロジェクトページはhttps://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}で公開されている。
ミンスキーの「心の社会」とシュミッドフーバーの「考えることを学ぶ」は、大規模なマルチモーダルニューラルネットワーク(NN)の多様な社会をインスパイアし、それらが「マインドストーム」の中で互いにインタビューすることで問題を解決する。最近のNNベースの心の社会の実装は、大規模言語モデル(LLM)や他のNNベースの専門家が自然言語インターフェースを通じてコミュニケーションを取ることで構成されている。これにより、単一のLLMの限界を克服し、マルチモーダルなゼロショット推論を改善している。これらの自然言語ベースの心の社会(NLSOM)では、新しいエージェントがモジュール方式で容易に追加され、すべてが同じ普遍的な記号言語を通じてコミュニケーションを取る。NLSOMの力を示すために、我々は最大129のメンバーからなるいくつかのNLSOMを構築し、それらを活用してマインドストームを用いていくつかの実用的なAIタスクを解決する実験を行った。具体的には、視覚的質問応答、画像キャプション生成、テキストから画像への合成、3D生成、エゴセントリック検索、エンボディドAI、および一般的な言語ベースのタスク解決である。我々はこれを、数十億のエージェント(その一部は人間かもしれない)からなるはるかに大規模なNLSOMへの出発点と見なしている。そして、この異種の心の大規模な社会の出現により、人工知能の未来にとって多くの新しい研究課題が突然重要となった。NLSOMの社会構造はどのようにあるべきか?君主制ではなく民主的な構造を持つことの(不)利点は何か?NN経済の原則をどのように活用して強化学習NLSOMの総報酬を最大化できるか?本論文では、これらの課題を特定し、議論し、いくつかの回答を試みる。
AIシステムにおける社会的整合性は、これらのモデルが確立された社会的価値観に従って行動することを保証することを目指している。しかし、人間が社会的相互作用を通じて価値判断の合意を形成するのとは異なり、現在の言語モデル(LMs)は、孤立して訓練コーパスを厳密に再現するように訓練されており、未知のシナリオでの汎化性能が低く、敵対的攻撃に対して脆弱である。本研究では、LMsが模擬的な社会的相互作用から学習することを可能にする新しい訓練パラダイムを提案する。既存の方法論と比較して、我々のアプローチははるかにスケーラブルで効率的であり、整合性ベンチマークおよび人間評価において優れた性能を示す。このLMs訓練におけるパラダイムシフトは、社会的規範や価値観を堅牢かつ正確に反映するAIシステムの開発に一歩近づくものである。
人間のフィードバックから学習することで、テキストから画像を生成するモデルの性能が向上することが示されています。これらの手法ではまず、タスクにおいて人間が重視する要素を捉える報酬関数を学習し、その後、学習した報酬関数に基づいてモデルを改善します。比較的単純なアプローチ(例えば、報酬スコアに基づくリジェクトサンプリング)が検討されてきましたが、報酬関数を用いたテキストから画像を生成するモデルのファインチューニングは依然として困難です。本研究では、オンライン強化学習(RL)を用いてテキストから画像を生成するモデルをファインチューニングすることを提案します。我々は拡散モデルに焦点を当て、ファインチューニングタスクをRL問題として定義し、事前学習済みのテキストから画像を生成する拡散モデルを、フィードバックによって学習された報酬を最大化するようにポリシー勾配を用いて更新します。我々のアプローチであるDPOKは、ポリシー最適化とKL正則化を統合したものです。我々は、RLファインチューニングと教師ありファインチューニングの両方におけるKL正則化の分析を行います。実験では、DPOKが画像とテキストの整合性および画像品質の両方において、教師ありファインチューニングよりも一般的に優れていることを示します。
対話エージェントのパフォーマンスが人間らしさを増すにつれ、その行動を高次の観点から効果的に記述する方法を開発することが不可欠となっている。ただし、擬人化の罠に陥らないよう注意が必要である。本論文では、ロールプレイという概念を前面に押し出す。対話エージェントの行動をロールプレイの観点から捉えることで、我々は馴染み深い民間心理学的な用語を援用しつつ、実際には持たない人間的特性を言語モデルに帰属させることを避けることができる。このアプローチを用いて、対話エージェントの行動における2つの重要なケース、すなわち(見かけ上の)欺瞞と(見かけ上の)自己認識について考察する。
私たちはPandaGPTを紹介します。これは大規模言語モデルに視覚的および聴覚的な指示追従能力を付与するアプローチです。パイロット実験では、PandaGPTが詳細な画像説明の生成、ビデオにインスパイアされたストーリーの作成、音声に関する質問への回答といった複雑なタスクを実行できることが示されました。さらに興味深いことに、PandaGPTはマルチモーダル入力を同時に受け取り、それらの意味を自然に組み合わせることができます。例えば、PandaGPTは画像/ビデオ内の物体の見た目と音声内の音を関連付けることができます。これを実現するため、PandaGPTはImageBindのマルチモーダルエンコーダとVicunaの大規模言語モデルを組み合わせています。注目すべきは、PandaGPTの訓練には整列された画像-テキストペアのみが必要である点です。ImageBindが異なるモダリティのデータを同じ空間に埋め込む強力な能力のおかげで、PandaGPTは画像とテキスト以外のデータ(例えば、ビデオ、音声、深度、熱画像、IMU)に対して新興的、つまりゼロショットのクロスモーダル行動を示します。私たちは、PandaGPTが人間のように異なるモダリティの入力を全体的に知覚し理解できるAGIを構築するための最初の一歩となることを期待しています。プロジェクトページはhttps://panda-gpt.github.io/にあります。
大規模言語モデル(LLM)ベースの意思決定エージェントは、複数のタスクにわたる汎化能力を示しています。しかし、その性能は膨大なデータと計算資源に依存しています。この非効率性は、モデルが訓練を通じてその振る舞いをパラメータに記憶する「忘却現象」に起因すると私たちは主張します。その結果、新しいタスクで訓練を行うと、以前のタスクでのモデルの性能が低下する可能性があります。LLMの暗黙的な記憶メカニズムとは対照的に、人間の脳は分散型の記憶ストレージを利用しており、これが複数のスキルを効率的に管理・整理し、忘却現象を緩和するのに役立ちます。この着想を得て、私たちは異なる下流タスクの情報を保存、混合、検索するための内部ワーキングメモリモジュールを提案します。評価結果は、提案手法がAtariゲームとメタワールドの物体操作タスクの両方において、訓練効率と汎化性能を向上させることを示しています。さらに、メモリのファインチューニングが提案アーキテクチャの適応性をさらに高めることを実証します。
我々は、事前学習済み画像分類器を組み込むことで視覚言語モデルの対照学習を改善する柔軟な手法「Three Towers (3T)」を提案する。対照モデルは通常ゼロから訓練されるが、LiT (Zhai et al., 2022) は最近、事前学習済み分類器の埋め込みを利用することで性能向上を示した。しかし、LiT は画像タワーを凍結された埋め込みに直接置き換えており、画像タワーを対照的に訓練する潜在的な利点を排除している。3T では、画像タワーが事前学習済み埋め込みと対照訓練の両方の恩恵を受けられる、より柔軟な戦略を提案する。これを実現するため、凍結された事前学習済み埋め込みを含む第3のタワーを導入し、この第3タワーと主要な画像-テキストタワー間の整合を促進する。実験的に、3T は検索タスクにおいて LiT や CLIP スタイルのゼロから学習ベースラインを一貫して上回る。分類タスクでは、3T はゼロから学習ベースラインを確実に改善し、JFT 事前学習モデルでは LiT に及ばないものの、ImageNet-21k および Places365 事前学習では LiT を上回る性能を示す。
自己回帰型言語モデルは、モデル分布Qとデータ分布Pとの間のクロスエントロピーを最小化することで学習されます。これは、フォワードクロスエントロピーの最小化、つまり最尤推定(MLE)と等価です。この方法で学習されたモデルは「過度に一般化」し、人間らしくないテキストを生成する可能性があることが観察されています。さらに、リバースクロスエントロピー、すなわちPに対するQのクロスエントロピーは、人間がモデルによって生成されたテキストを評価する方法をよりよく反映していると考えられます。そこで、フォワードクロスエントロピーとリバースクロスエントロピーを混合した目的関数であるMixCEを用いた学習を提案します。この目的関数で学習されたモデルを、合成データ設定(Pが既知の場合)と実データで評価し、複雑なデコード戦略なしに、より良い生成テキストが得られることを示します。私たちのコードとモデルはhttps://github.com/bloomberg/mixce-acl2023で公開されています。
大規模言語モデル(LLMs)は社会を変革し、多様な応用分野に浸透しつつある。その結果、LLMsは我々や他のエージェントと頻繁に相互作用することになる。したがって、LLMsが相互作用する社会的状況においてどのように振る舞うかを理解することは、社会的に極めて重要な価値を持つ。本稿では、LLMsの協力と調整の行動を研究するために、行動ゲーム理論を用いることを提案する。そのために、異なるLLMs(GPT-3、GPT-3.5、およびGPT-4)を互いに、また人間のような戦略を持つ他のエージェントと有限回繰り返しゲームを行わせた。その結果、LLMsは一般的にそのようなタスクにおいて良好なパフォーマンスを示すとともに、持続的な行動の特徴も明らかになった。2プレイヤー・2戦略のゲームの大規模なセットにおいて、LLMsは自身の利益を重視することが報われるゲーム、例えば繰り返し囚人のジレンマのファミリーにおいて特に優れていることがわかった。しかし、調整を必要とするゲームでは最適とは言えない振る舞いを示した。そこで、我々はこれらの異なるファミリーから2つのゲームにさらに焦点を当てた。典型的な繰り返し囚人のジレンマにおいて、GPT-4は特に寛容さに欠け、他のエージェントが一度でも裏切ると必ず裏切る行動を示した。一方、男女の戦い(Battle of the Sexes)においては、GPT-4は選択肢を交互に選ぶという単純な慣習に従うことができなかった。これらの行動の特徴は、ロバストネスチェックにおいても安定していることを確認した。最後に、GPT-4の行動が、他のプレイヤーに関する追加情報を提供することや、選択を行う前に他のプレイヤーの行動を予測するよう指示することによって修正可能であることを示した。これらの結果は、LLMsの社会的行動に関する理解を深め、機械のための行動ゲーム理論への道を開くものである。
Transformerは、固定されたコンテキスト長を持つタスクにおいて、印象的な汎化能力を発揮します。しかし、任意の長さのシーケンスに対しては、文字列の複製のような一見単純なタスクであっても、汎化に失敗します。さらに、長いシーケンスで単純に訓練することは、グローバルアテンションメカニズムの二次的な計算複雑性のため、非効率的です。本研究では、この失敗モードが、長いシーケンスに対する位置エンコーディングが分布外となること(相対エンコーディングであっても)に関連していることを示し、この問題を克服できる新しい位置エンコーディングのファミリーを導入します。具体的には、我々のランダム化された位置エンコーディングスキームは、長いシーケンスの位置をシミュレートし、シーケンスの長さに合うように順序付けられたサブセットをランダムに選択します。15のアルゴリズム推論タスクにわたる6000のモデルに対する大規模な実証評価により、我々の方法がTransformerに見えない長さのシーケンスに汎化することを可能にし(平均してテスト精度を12.0%向上させる)ことが示されました。
トークン埋め込みは、離散的な語彙記号から連続ベクトルへの写像であり、あらゆる言語モデル(LM)の中核をなす。しかし、語彙記号の意味は、長い文脈におけるその構造的役割によっても決定され、再定義される可能性がある。本論文では、固定されたトークン埋め込みなしに言語モデルが高性能を発揮することが可能かどうかを問う。そのような言語モデルは、トークンの事前の同一性ではなく、文脈内でのトークンの共起と反復に完全に依存しなければならない。この問いに答えるため、語彙記号に対して不変であり、したがって実際には固定されたトークン埋め込みを必要としないlexinvariant言語モデルを研究する。まず、lexinvariant LMを構築することで、真の言語モデルに文脈長の多項式で表される一様な速度で収束し、語彙サイズに対して準線形の定数因子を持つことを証明する。次に、lexinvariant LMを構築するために、各トークンをランダムなガウスベクトルを使用してエンコードし、各シーケンス内では同じ表現にマッピングされるが、シーケンス間では異なる表現にマッピングされるようにする。実験的に、十分に長い文脈が与えられれば、標準的な言語モデルと同等のパープレキシティを達成できることを実証する。さらに、lexinvariant言語モデルの2つの特性を探る。第一に、英語の置換暗号から生成されたテキストが与えられた場合、暗黙的にベイジアンな文脈内解読を実装し、基礎となる実際のトークンへのマッピングを高精度で推論する。第二に、合成された文脈内推論タスクにおいて、平均して4倍の精度を有する。最後に、標準的な言語モデルをlexinvarianceに向けて正則化することと、潜在的な実用的応用について議論する。
GPT-3のような大規模言語モデル(LLM)は、多くの自然言語生成や理解タスクに対応可能な汎用言語モデルとして登場しました。機械翻訳(MT)のタスクにおいては、複数の研究がLLMからより良い翻訳を引き出すためのfew-shotプロンプティング手法を調査してきました。しかし、そのような翻訳が標準的なニューラル機械翻訳(NMT)モデルによって生成された翻訳と質的にどのように異なるかについては、比較的調査が進んでいません。本研究では、2つのシステムが生成する翻訳の直訳性の観点からこれらの違いを調査します。単語アライメントと単調性を含む直訳性の測定を用いて、GPTモデルによる英語からの翻訳(E-X)は直訳的でない傾向がある一方、MTの品質指標では同等または優れたスコアを示すことを明らかにします。この発見が人間による評価でも裏付けられることを示します。さらに、慣用表現を含む文を翻訳する場合に、これらの違いが特に顕著であることを示します。
本論文では、強力なモデリング性能と解釈可能性・制御性を兼ね備えた新しいニューラルアーキテクチャである「Backpacks」を提案する。Backpacksは、語彙中の各単語に対して複数の非文脈依存の意味ベクトルを学習し、シーケンス中の単語を、そのシーケンス内の意味ベクトルの文脈依存かつ非負の線形結合として表現する。学習後、意味ベクトルは特化し、それぞれが単語の異なる側面をエンコードすることがわかった。意味ベクトルは、出力空間への(非文脈依存の線形)射影を検査することで解釈可能であり、これらの解釈可能なフックに介入することで、モデルの挙動を予測可能な方法で変更することができる。我々は、170MパラメータのBackpack言語モデルをOpenWebTextで学習し、GPT-2 small(124Mパラメータ)Transformerの損失に匹敵する性能を達成した。語彙類似性評価において、Backpackの意味ベクトルは、6BパラメータのTransformer LMの単語埋め込みさえも上回る性能を示した。最後に、意味ベクトルに介入して制御可能なテキスト生成やバイアス除去を行うためのシンプルなアルゴリズムを提示する。例えば、意味語彙を編集して特定のトピックに傾かせたり、ジェンダーバイアスの源を意味ベクトルに特定し、その意味をグローバルに抑制したりすることができる。
文脈内学習(In-context learning)は、重みの更新を必要とせずに入力例からその場で学習する能力であり、大規模言語モデルの特徴的な性質です。本研究では、(Garg et al., 2022) で提案された設定に従い、線形回帰というシンプルでありながら基本的なタスクを通じて、文脈内学習の汎用性と限界をより深く理解することを目指します。私たちが取り組む主要な問いは、分布シフトが生じる状況下で、Transformerが自然でよりシンプルなアーキテクチャよりも文脈内学習を得意としているかどうかです。Transformerを比較するために、集合ベースの多層パーセプトロン(MLP)に基づくシンプルなアーキテクチャを提案します。その結果、Transformerと集合ベースMLPの両方が、分布内評価において文脈内学習を示すものの、Transformerは通常の最小二乗法(OLS)の性能により近い結果を示すことがわかりました。また、Transformerは、軽度の分布シフトに対してより強靭性を示し、集合ベースMLPが苦戦する場面でも良好な性能を維持します。しかし、深刻な分布シフトが生じると、両モデルの文脈内学習能力は低下します。
一般的に、最も強力な言語モデル(LM)は、大規模なスケール、指示データ、および人間のフィードバックの組み合わせに依存して、教師なしで要約や言い換えなどの専門的なタスクを実行すると考えられています。本論文では、これら3つの要素を一切必要とせずに、言語モデルが文の要約や言い換えを学習できることを提案します。Impossible Distillationというフレームワークを紹介し、これは、LM自体がタスクを確実に解決できない場合でも、既存のLMから直接タスク固有のデータセットを蒸留するものです。生成されたデータセットで学生モデルを訓練し、自己蒸留を通じてその能力を増幅することで、スケールや教師データを必要とせずに、低品質の教師モデルから高品質なモデルとデータセットを生成します。Impossible Distillationを使用して、770Mパラメータという桁違いに小さいモデルを蒸留し、自動評価と人間評価の両方で、175BパラメータのGPT-3を品質と制御性の両面で上回ることを確認しました。さらに、このアプローチの有用な副産物として、3.4Mの文の要約と言い換えを含む高品質なデータセットDIMSUM+を取得しました。分析の結果、このデータセットは、純粋にLM生成されたコーパスとして、4MサンプルのGigawordを含むすべての人間が作成したデータセットよりも多様性があり、未見のドメインへの汎化においてより効果的であることが示されました。
テキストから画像への生成技術の最近の進展により、ゼロショット3D形状生成において大きな進歩が実現されている。これは、事前に訓練されたテキストから画像への拡散モデルを用いて、3Dニューラル表現(例えば、Neural Radiance Field: NeRF)のパラメータを最適化するスコア蒸留法によって達成されている。有望な結果を示しているものの、既存の手法はしばしば人体のような複雑な形状の幾何学を保持することができない。この課題に対処するため、本論文ではZeroAvatarを提案する。この手法は、最適化プロセスに明示的な3D人体の事前情報を導入するものである。具体的には、まず単一の画像からパラメトリック人体のパラメータを推定し、精緻化する。その後、最適化中にポーズを取ったパラメトリック人体を追加の幾何学的制約として使用し、拡散モデルおよび基盤となる密度場を正則化する。最後に、不可視の身体部位のテクスチャ補完をさらに導くために、UVガイド付きテクスチャ正則化項を提案する。ZeroAvatarは、最適化ベースの画像から3Dアバター生成のロバスト性と3D一貫性を大幅に向上させ、既存のゼロショット画像から3D手法を凌駕することを示す。
現在の研究の多くでは、大規模言語モデル(LLM)は特定のプロンプトの指導を通じて連鎖的思考(Chain of Thought, COT)を生成し、推論タスクを実行することが可能です。しかし、複雑な推論問題を解決する能力において、人間との間に依然として大きな隔たりが存在します。現在、ほとんどのアプローチは連鎖的思考(COT)とツールの使用に焦点を当てており、人間の認知フレームワークの採用と適用を考慮していません。複雑な推論課題に直面した際、人間は通常、さまざまな認知能力を活用し、ツール、知識、外部環境情報のすべての側面との相互作用を必要として、複雑なタスクを達成することが知られています。本論文では、OlaGPTと呼ばれる新しい知的フレームワークを紹介します。OlaGPTは認知アーキテクチャフレームワークを詳細に研究し、人間の認知の特定の側面をシミュレートすることを提案します。このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールを近似することを含みます。人間の能動的学習メカニズムにインスパイアされ、過去のミスや専門家の意見を記録し、それらを動的に参照して類似の問題を解決する能力を強化する学習ユニットを提案します。本論文ではまた、人間の問題解決における一般的な有効な推論フレームワークを概説し、それに応じて連鎖的思考(COT)テンプレートを設計します。モデルの精度を最大化するための包括的な意思決定メカニズムも提案されています。OlaGPTの有効性は、複数の推論データセットで厳密に評価され、実験結果はOlaGPTが最先端のベンチマークを上回り、その優れた性能を示しています。OlaGPTの実装はGitHubで公開されています: https://github.com/oladata-team/OlaGPT。