翻訳付きの日次キュレーションされたAI研究論文
本研究では、70億から700億パラメータ規模の事前学習済みおよびファインチューニングされた大規模言語モデル(LLM)群であるLlama 2を開発・公開しました。Llama 2-Chatと名付けたファインチューニング済みLLMは、対話ユースケースに最適化されています。当社のモデルは、テストしたほとんどのベンチマークにおいてオープンソースのチャットモデルを上回り、有用性と安全性に関する人間評価に基づくと、クローズドソースモデルの代替として適している可能性があります。Llama 2-Chatのファインチューニングと安全性向上へのアプローチについて詳細に説明し、コミュニティが当社の研究を基盤として構築し、LLMの責任ある開発に貢献できるようにしました。
GPT-3.5とGPT-4は、現在最も広く利用されている大規模言語モデル(LLM)サービスです。しかし、これらのモデルがいつ、どのように更新されているかは不明瞭です。本研究では、2023年3月版と2023年6月版のGPT-3.5およびGPT-4を、以下の4つの多様なタスクで評価しました:1) 数学問題の解決、2) センシティブ/危険な質問への回答、3) コード生成、4) 視覚的推論。その結果、GPT-3.5とGPT-4の性能と振る舞いが時間とともに大きく変化することがわかりました。例えば、GPT-4(2023年3月版)は素数を識別するのに非常に優れていました(精度97.6%)が、GPT-4(2023年6月版)は同じ問題で非常に低い精度(2.4%)を示しました。興味深いことに、GPT-3.5(2023年6月版)はこのタスクにおいてGPT-3.5(2023年3月版)よりもはるかに優れていました。GPT-4は、6月版では3月版に比べてセンシティブな質問に答える意欲が低く、またGPT-4とGPT-3.5の両方において、6月版では3月版に比べてコード生成におけるフォーマットミスが多くなりました。全体として、同じLLMサービスの振る舞いが比較的短期間で大幅に変化する可能性があることが明らかになり、LLMの品質を継続的に監視する必要性が浮き彫りになりました。
回路分析は、言語モデルの内部メカニズムを理解するための有望な技術である。しかし、既存の分析は、最先端から遠く離れた小さなモデルで行われている。この問題に対処するため、我々は70BのChinchillaモデルにおける回路分析のケーススタディを提示し、回路分析のスケーラビリティを検証することを目指す。特に、多肢選択問題の回答に焦点を当て、正解のテキストを知っている場合に正解のラベルを識別するChinchillaの能力を調査する。 既存の技術であるロジット帰属、アテンションパターンの可視化、およびアクティベーションパッチングは、自然にChinchillaにスケールし、少数の「出力ノード」(アテンションヘッドとMLP)を特定し分類することを可能にした。 さらに、「正解文字」カテゴリのアテンションヘッドを研究し、その特徴の意味を理解しようとしたが、結果はまちまちであった。通常の多肢選択問題の回答において、回答ラベルを操作する際に、ヘッドのクエリ、キー、および値の部分空間を性能を損なうことなく大幅に圧縮できることを示し、クエリとキーの部分空間が少なくともある程度「列挙中のN番目の項目」の特徴を表していることを示した。しかし、ランダム化された回答ラベルを含むより一般的な分布におけるヘッドの動作を理解するためにこの説明を使用しようとすると、それは部分的な説明に過ぎず、多肢選択問題の回答における「正解文字」ヘッドの動作についてさらに学ぶべきことがあることを示唆している。
CLIPのような画像-テキスト対照モデルは、ゼロショット分類、画像-テキスト検索、転移学習など、さまざまな下流タスクにおいて有用です。しかし、これらの対照学習された視覚-言語モデルは、Winogroundのような合成的視覚-言語タスクではランダムな推測と同等の性能しか発揮できないことがしばしばあります。本論文では、この問題に対処し、CLIPの合成的視覚-言語推論能力を向上させるためのサンプル効率の良い軽量な手法であるSDS-CLIPを提案します。本手法の核心は、Stable-Diffusionのような大規模なテキスト-画像生成モデルからの蒸留目的関数を用いて、CLIPを微分可能な画像パラメータ化によって微調整することです。これらの生成モデルは、視覚-言語推論タスクにおいて比較的優れた性能を発揮します。挑戦的なWinoground合成的推論ベンチマークにおいて、本手法は異なるCLIPモデルの視覚-言語性能を最大7%向上させ、AROデータセットでは最大3%の性能向上を達成しました。CLIPに視覚-言語推論能力を導入する副産物として、さまざまな下流データセットにおけるゼロショット性能もわずかに向上することがわかりました。本手法は、生成モデルから慎重に設計された蒸留目的関数を活用することで、既存の対照的画像-テキストモデルを拡張し、視覚-言語推論能力を向上させることができることを示しています。
単一視点RGB-D入力からの3D再構成において、目覚ましい進展が見られています。MCCはこの分野における現在の最先端手法であり、ビジョントランスフォーマーと大規模トレーニングを組み合わせることで前例のない成功を収めています。しかし、我々はMCCの2つの主要な限界を特定しました:1)トランスフォーマーデコーダーが大量のクエリポイントを効率的に処理できないこと、2)3D表現が高精細なディテールの復元に苦戦することです。本論文では、これらの限界を解決する新しいアプローチNU-MCCを提案します。NU-MCCは、NeighborhoodデコーダーとRepulsive Unsigned Distance Function(Repulsive UDF)という2つの主要な革新を含んでいます。まず、Neighborhoodデコーダーは、入力視覚特徴の効率的なプロキシとして中心点を導入し、各クエリポイントが小さな近傍のみに注意を向けることを可能にします。この設計により、推論速度が大幅に向上するだけでなく、より細かいスケールの視覚特徴を活用して3Dテクスチャの復元を改善することができます。次に、Repulsive UDFは、MCCで使用される占有場の新たな代替手段であり、3Dオブジェクト再構成の品質を大幅に向上させます。結果に穴が生じる標準的なUDFと比較して、提案するRepulsive UDFはより完全な表面再構成を実現できます。実験結果は、NU-MCCが強力な3D表現を学習できることを示しており、単一視点3D再構成の最先端技術を大幅に進歩させています。特に、CO3D-v2データセットにおいてF1スコアでMCCを9.7%上回り、実行速度も5倍以上高速化されています。
Biomaker CAを紹介します。これはセルオートマトン(CA)を用いたバイオームメーカープロジェクトです。Biomaker CAでは、形態形成が第一級の要素であり、小さな種子が栄養不足の環境で生き残るために植物のような生物に成長し、最終的には変異を伴って繁殖し、長期間にわたってバイオームが存続する必要があります。私たちは、2Dグリッド上でCAルールを用いて複雑なバイオームをシミュレートし、Python JAXフレームワークを通じて全ての計算をGPU上で並列化します。このプロジェクトが、さまざまな種類の環境や「物理学」の法則、異なるモデルアーキテクチャや変異戦略を可能にすることを示します。さらに、いくつかの設定を分析し、植物エージェントがどのように成長し、生存し、繁殖し、進化して、安定したまたは不安定なバイオームを形成するかを示します。その後、厳しい環境で生き残るためにモデルをメタ進化させる方法を、エンドツーエンドのメタ進化またはより外科的で効率的なアプローチであるペトリディッシュメタ進化を通じて実証します。最後に、ユーザーがインタラクティブに植物モデルを進化させ、それをより大きな環境に展開するインタラクティブ進化の方法を示します。Biomaker CAは以下のURLでオープンソースとして公開されています: https://tinyurl.com/2x8yu34s。