翻訳付きの日次キュレーションされたAI研究論文
我々は、大規模言語モデル(LLM)の力を活用してコンピュータビジョンの問題に取り組むためのモジュール型アプローチ「LENS」を提案する。本システムは、画像に関する網羅的な情報を提供する独立した高度に記述的なビジョンモジュール群の出力に対して、言語モデルを用いて推論を行う。このアプローチを、ゼロショットおよび少数ショットの物体認識といった純粋なコンピュータビジョンの設定や、視覚と言語の問題に対して評価する。LENSは既存の任意のLLMに適用可能であり、LENSを組み込んだLLMは、はるかに大規模で洗練されたシステムと比べても非常に競争力のある性能を発揮することを確認した。しかも、マルチモーダルなトレーニングを一切行わずにこれを実現している。我々はコードをhttps://github.com/ContextualAI/lensでオープンソースとして公開し、インタラクティブなデモも提供している。
生成AIと大規模言語モデルは、次世代の教育技術を支えることで、初級プログラミング教育の強化に大きな可能性を秘めています。最近の研究では、プログラミング教育に関連するさまざまなシナリオにおいてこれらのモデルが検討されてきました。しかし、これらの研究はいくつかの理由で限定的であり、通常はすでに時代遅れのモデルや特定のシナリオのみを対象としています。その結果、最新のモデルを包括的なプログラミング教育シナリオでベンチマークする体系的な研究が不足しています。本研究では、ChatGPT(GPT-3.5ベース)とGPT-4の2つのモデルを体系的に評価し、さまざまなシナリオにおいて人間のチューターと比較します。評価には、初級Pythonプログラミングの問題5問とオンラインプラットフォームからの実世界のバグを含むプログラムを使用し、専門家による注釈を用いてパフォーマンスを測定します。結果は、GPT-4がChatGPT(GPT-3.5ベース)を大幅に上回り、いくつかのシナリオでは人間のチューターに近い性能を示すことを明らかにしています。また、GPT-4がまだ苦戦する場面も浮き彫りになり、これらのモデルの性能を向上させる技術開発に向けた今後の興味深い方向性を提供しています。
ゲノム(DNA)配列は、遺伝子調節やタンパク質合成のための膨大な情報をコードしています。自然言語モデルと同様に、研究者たちはゲノミクスにおける基盤モデルを提案し、ラベルなしのゲノムデータから一般化可能な特徴を学習し、その後、調節要素の識別などの下流タスクにファインチューニングすることを目指しています。アテンションの二次スケーリングのため、これまでのTransformerベースのゲノムモデルは512から4kトークンをコンテキストとして使用しており(ヒトゲノムの0.001%未満)、DNA内の長距離相互作用のモデリングが大幅に制限されていました。さらに、これらの手法はトークナイザーを使用して意味のあるDNA単位を集約するため、単一ヌクレオチドの解像度が失われ、微妙な遺伝的変異が単一ヌクレオチド多型(SNP)を介してタンパク質機能を完全に変える可能性があります。最近、暗黙の畳み込みに基づく大規模言語モデルであるHyenaが、品質においてアテンションに匹敵しつつ、より長いコンテキスト長と低い時間計算量を可能にすることが示されました。Hyenaの新しい長距離能力を活用して、我々はHyenaDNAを提案します。これは、ヒト参照ゲノムに対して最大100万トークンのコンテキスト長で単一ヌクレオチドレベルで事前学習されたゲノム基盤モデルであり、これまでの密なアテンションベースのモデルに比べて最大500倍の増加です。HyenaDNAは配列長に対して準二次的にスケーリングし(Transformerに比べて最大160倍高速に学習)、単一ヌクレオチドトークンを使用し、各層で完全なグローバルコンテキストを持ちます。我々は、より長いコンテキストが可能にするもの、特にゲノミクスにおける初めてのインコンテキスト学習を探求し、事前学習済みモデルの重みを更新せずに新しいタスクに適応することを可能にします。Nucleotide Transformerのファインチューニングベンチマークにおいて、HyenaDNAは17のデータセットのうち12で、桁違いに少ないパラメータと事前学習データを使用して最先端(SotA)を達成しました。GenomicBenchmarksでは、HyenaDNAは8つのデータセットすべてで平均+9の精度ポイントでSotAを上回りました。
命令チューニングは、大規模言語モデル(LLM)が人間と対話するための優れた能力を引き出します。さらに、最近の命令追従データセットには、視覚的な入力として画像が含まれており、画像ベースの指示に対する応答が収集されています。しかし、視覚的な命令チューニングを施されたモデルは、画像内のテキストの詳細を十分に理解できません。本研究では、テキストが豊富な画像(例:映画ポスター、本の表紙など)を用いて、現在の視覚的命令チューニングパイプラインを強化します。具体的には、まず公開されているOCRツールを使用して、LAIONデータセットから422Kのテキスト豊富な画像の結果を収集します。さらに、認識されたテキストと画像キャプションを用いて、テキストのみのGPT-4にプロンプトを送り、テキスト豊富な画像に対する質問と回答のペアを含む16Kの会話を生成します。収集したデータを以前のマルチモーダル命令追従データと組み合わせることで、我々のモデルLLaVARは、テキストベースのVQAデータセットにおいてLLaVAモデルの能力を大幅に向上させ(最大20%の精度向上)、ScienceQAでは91.42%の精度を達成します。GPT-4ベースの命令追従評価も、自然画像とテキスト豊富な画像の両方において我々のモデルの改善を示しています。定性的分析を通じて、LLaVARは、テキストと画像を組み合わせた最新の現実世界のオンラインコンテンツに基づいて、人間との対話(例:推論、執筆、詳細説明)において有望なスキルを示します。我々は、コード/データ/モデルをhttps://llavar.github.io/で公開しています。
大規模言語モデル(LLM)は、社会問題に関する多様なグローバルな視点を公平に反映していない可能性があります。本論文では、モデルが生成する回答が誰の意見に近いかを評価するための定量的なフレームワークを開発します。まず、異なる国々におけるグローバルな問題に関する多様な意見を捉えるために設計された国際調査の質問と回答から成るデータセット、GlobalOpinionQAを構築します。次に、国を条件として、LLMが生成する調査回答と人間の回答との類似性を定量化する指標を定義します。このフレームワークを用いて、Constitutional AIを用いて役立ち、正直、無害であるように訓練されたLLMに対して3つの実験を実施します。デフォルトでは、LLMの回答は、米国や一部の欧州および南米の国々など、特定の人口集団の意見に類似する傾向があり、バイアスの可能性が浮き彫りになります。モデルに特定の国の視点を考慮するよう促すと、回答はその人口集団の意見に近づくものの、有害な文化的ステレオタイプを反映する場合があります。GlobalOpinionQAの質問を対象言語に翻訳しても、モデルの回答が必ずしもその言語を話す人々の意見に最も近くなるわけではありません。私たちは、他の研究者が利用し、発展させられるようデータセットを公開します。データはhttps://huggingface.co/datasets/Anthropic/llm_global_opinionsにあります。また、インタラクティブな可視化ツールをhttps://llmglobalvalues.anthropic.comで提供しています。
ノイズ除去拡散モデルは最近、生成タスクにおいて印象的な結果を示しています。膨大な訓練画像コレクションから強力な事前分布を学習することで、このようなモデルは完全なノイズをクリーンな自然画像へと一連の小さなノイズ除去ステップを経て徐々に変換することができ、単一画像のノイズ除去に適しているように見えます。しかし、ノイズ除去拡散モデルを現実的なノイズの除去に効果的に適用することは、その定式化が現実世界の画像のノイズとは異なる加法性白色ガウスノイズに基づいているため、一見した以上に困難です。本研究では、より現実的な空間的に変化するノイズモデルを仮定した、ノイズ除去拡散の新しい定式化であるSVNRを提案します。SVNRは、ノイズ除去拡散プロセスの開始点としてノイジーな入力画像を使用することを可能にし、さらにそのプロセスを条件付けることも可能にします。この目的のために、各ピクセルが独自の時間埋め込みを持つことを可能にするように拡散プロセスを適応させ、空間的に変化する時間マップをサポートする訓練と推論のスキームを提案します。また、提案する定式化は、条件画像と修正された拡散プロセスに沿ったサンプル間に存在する相関も考慮しています。実験では、強力な拡散モデルのベースラインおよび最先端の単一画像ノイズ除去手法に対する本アプローチの優位性を実証しています。
失敗した実行を自動的に検出し分析する能力は、説明可能で堅牢なロボットシステムにとって極めて重要です。近年、大規模言語モデル(LLM)はテキスト入力に対する強力な常識推論能力を示しています。ロボットの失敗説明にLLMの力を活用するため、我々はREFLECTというフレームワークを提案します。このフレームワークは、マルチセンサーデータをロボットの過去の経験の階層的な要約に変換し、段階的な失敗説明アルゴリズムを用いてLLMに問い合わせます。説明に基づいて、失敗修正プランナーがロボットが失敗を修正しタスクを完了するための実行可能な計画を生成します。このフレームワークを体系的に評価するため、我々はRoboFailデータセットを作成し、LLMベースのフレームワークが有益な失敗説明を生成し、成功した修正計画を支援できることを示します。プロジェクトウェブサイト: https://roboreflect.github.io/
大規模言語モデル(LLM)は、幅広いアプリケーションにおいてそのまま使用しても驚くべき能力を発揮しますが、特にバイオメディシンなどのミッションクリティカルな領域では、精度が主要な成長分野として残っています。LLMの応答に対する信頼度を効果的に調整する方法は、エラーを自動的に検出し、人間を介した検証を促進するために不可欠です。この調整信号の重要な源は、専門家が規定するプログラム的な監視であり、これはしばしば低コストで利用可能ですが、ノイズやカバレッジなどの制限もあります。本論文では、利用可能なプログラム的な監視を活用して、追加の手作業なしに、すべての応答に対してリスクスコアを生成することで、LLMの応答を体系的に調整するパレート最適な自己監視フレームワークを紹介します。これは、LLMの出力を他の利用可能な監視源と整合させるハーモナイザーモデルを学習することで実現され、より不確実なLLMの応答に高いリスクスコアを割り当て、エラー修正を促進します。バイオメディシンおよび一般領域における標準的な関係抽出タスクでの実験は、このアプローチの有望性を示しており、提案されたリスクスコアはLLMの実際のエラーレートと高い相関を示しています。最も不確実なテストインスタンスに対して、提案されたリスクスコアに基づく動的プロンプティングは、既存のLLMの精度を大幅に向上させ、GPT-3の結果を最先端(SOTA)の弱い監視を超えさせ、GPT-4の結果を挑戦的な評価データセットでのSOTAの監視結果を超えさせました。
近年のエンドツーエンド自動音声認識(ASR)システムでは、高フレームレートで埋め込みを生成するTransformerベースの音響エンコーダがよく使用されています。しかし、この設計は、特に長い音声信号に対して、自己注意の二次計算のため非効率的です。この問題に対処するため、我々は新しい手法であるAdjacent Token Merging(A-ToMe)を提案します。この手法では、キー値間の類似度スコアが高い隣接トークンを段階的に結合します。これにより、総タイムステップを削減し、エンコーダと結合ネットワークの推論を加速します。LibriSpeechでの実験では、この手法により57%のトークンを削減し、GPU上の推論速度を70%向上させることができ、精度の顕著な低下はありませんでした。さらに、A-ToMeは、入力音声が複数の発話からなる長文ASRにおいても、トークンを削減する効果的な解決策であることを示します。