翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、様々なアプリケーションにおいて前例のない性能を発揮していることから、学界と産業界の両方でますます人気を集めています。LLMsが研究と日常使用の両方で重要な役割を果たし続ける中、その評価はタスクレベルだけでなく、潜在的なリスクをよりよく理解するための社会レベルでもますます重要になっています。過去数年間、LLMsを様々な視点から検証するための多大な努力が払われてきました。本論文では、LLMsの評価方法に関する包括的なレビューを提供し、何を評価するか、どこで評価するか、そしてどのように評価するかという3つの主要な次元に焦点を当てます。まず、評価タスクの観点から、一般的な自然言語処理タスク、推論、医療用途、倫理、教育、自然科学と社会科学、エージェントアプリケーション、その他の領域を含む概要を提供します。次に、`どこで'と`どのように'という質問に答えるために、LLMsの性能を評価する上で重要な要素である評価方法とベンチマークに深く掘り下げます。その後、様々なタスクにおけるLLMsの成功と失敗の事例をまとめます。最後に、LLMs評価の将来の課題について明らかにします。私たちの目的は、LLMs評価の分野の研究者に貴重な洞察を提供し、より熟練したLLMsの開発を支援することです。私たちの主要なポイントは、評価をLLMsの開発をよりよく支援するための必須の学問として扱うべきだということです。関連するオープンソース資料は以下のURLで一貫して維持しています:https://github.com/MLGroupJLU/LLM-eval-survey。
近年の言語モデルは長いコンテキストを入力として受け取る能力を持っているが、言語モデルが長いコンテキストをどの程度うまく活用しているかについては、比較的知見が少ない。本研究では、入力コンテキスト内の関連情報を特定する必要がある2つのタスク(複数文書の質問応答とキー・バリュー検索)における言語モデルの性能を分析する。その結果、関連情報が入力コンテキストの最初または最後に現れる場合に性能が最も高く、長いコンテキストの途中にある関連情報にアクセスする必要がある場合には性能が著しく低下することがわかった。さらに、明示的に長いコンテキストを扱うように設計されたモデルであっても、入力コンテキストが長くなるにつれて性能が大幅に低下することが確認された。本分析は、言語モデルが入力コンテキストをどのように利用しているかをより深く理解するための洞察を提供し、将来の長文コンテキストモデルに対する新しい評価プロトコルを提案するものである。
多くの認知的なウェルビーイングアプローチ、例えば役に立たない思考を認識し再構成するといった手法は、過去数十年にわたって相当な実証的サポートを受けてきたが、セルフヘルプ形式での真に広範な普及には至っていない。その普及の障壁の一つは、十分に具体的で多様な専用練習教材の不足である。本研究では、現在の言語モデルを活用して、特定の文脈に合致した標準的な役に立たない思考パターンを例示する実質的に無制限の量の練習教材を生成し、適切なポジティブな再構成案を提案できるかどうかを検証する。我々は、特定のペルソナに基づいた役に立たない思考パターンを含む約1万の思考例と、それに伴う約2万7千のポジティブな再構成例からなる新規データセット「PATTERNREFRAME」を提案する。このデータセットを用いて現在のモデルを訓練および/または評価することで、既存のモデルが、追加のモデル訓練を必要とせず、または最小限の追加訓練で、豊富なテーラーメイドの練習教材と仮説を生成するための強力なツールとなり得ることを示す。
大規模言語モデルは、新しい情報を文脈に応じて取り込む優れた能力を有しています。しかし、このアプローチの真の潜在能力は、有効な文脈長の制約によってしばしば制限されています。この問題に対する一つの解決策は、外部メモリにアクセスできるアテンションレイヤーを導入することです。この外部メモリは(キー、値)ペアで構成されています。しかし、ドキュメントの数が増えるにつれて、関連するキーと無関係なキーの比率が低下し、モデルが無関係なキーに注目しやすくなります。私たちは、異なる意味的価値に関連するキーが重複し、それらを区別することが難しくなるという「注意散漫問題」と呼ばれる重要な課題を特定しました。この問題に対処するため、私たちはFocused Transformer(FoT)という手法を導入しました。この手法は、コントラスティブ学習にインスパイアされたトレーニングプロセスを採用し、(キー、値)空間の構造を強化することで、文脈長の拡張を可能にします。私たちの方法は、既存の大規模モデルを微調整して、その有効な文脈を延長することを可能にします。これは、3Bおよび7BのOpenLLaMAチェックポイントを微調整することで実証されています。その結果得られたモデルをLongLLaMAと名付け、長い文脈を必要とするタスクにおいて進展を示しています。さらに、私たちのLongLLaMAモデルが256kの文脈長でのパスキー検索を巧みに管理できることを示しています。
本論文では、多様な条件下で記録された680,000時間ものラベル付き音声コーパスで学習された最近の自動音声認識モデルWhisperに焦点を当てる。まず、Whisperが実世界の背景音(例:音楽)に対して非常にロバストである一方、その音声表現は実際にはノイズ不変ではなく、非音声信号と高い相関関係にあるという興味深い発見を示す。これは、Whisperがノイズの種類を条件として音声を認識していることを示唆している。この発見を基に、Whisperのバックボーンを凍結し、その上に軽量な音声タグ付けモデルを学習させることで、統合型音声タグ付け・音声認識モデルWhisper-ATを構築した。Whisper-ATは、追加の計算コストが1%未満で、単一のフォワードパスで話されたテキストに加えて音声イベントも認識することができる。
自己回帰型大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて顕著な進歩を遂げてきました。しかし、トークンごとに生成を行う自己回帰的な性質から、高い計算コストとレイテンシが発生します。この問題に対処するため、早期終了戦略を用いて計算コストを削減するいくつかのアプローチが提案されています。これらの戦略は、各トークンに完全な計算グラフを適用することなく、計算量を削減しながら高速なテキスト生成を可能にします。既存のトークンレベルの早期終了手法は、オンライン推論において有望な結果を示していますが、バッチ推論やKey-Valueキャッシングには容易に適用できません。これは、バッチ内の最後のトークンが終了するまで計算を停止できないためです。この制約により、そのような技術の実用的な応用が大幅に制限されています。本論文では、バッチ推論とKVキャッシングとシームレスに連携する、シンプルで効果的なトークンレベルの早期終了手法「SkipDecode」を提案します。この手法は、バッチ内の各トークンに対して各シーケンス位置で単一の終了点を設定することで、従来の制約を克服します。また、終了点が単調減少することを保証し、先行するトークンのKVキャッシュを再計算する必要をなくします。従来の研究のように計算を早期に終了するのではなく、本手法は中下位層をバイパスし、計算リソースの大部分を上位層に集中させることで、後続のトークンが先行するトークンの計算支出の恩恵を受けられるようにします。実験結果から、SkipDecodeは、1.3億パラメータと6.7億パラメータのOPTモデルを使用して、様々なタスクにおいて無視できる程度の精度低下で2倍から5倍の推論速度向上を達成できることが示されています。これは、バッチ処理とKVキャッシングの最適化技術と直接互換性を保ちながら実現されています。
我々は、既存の基盤モデルの映像理解能力を評価するために、3つの代表的なタスク(行動認識、時間的ローカライゼーション、時空間的ローカライゼーション)、コミュニティで高く評価されている8つのデータセット、そして下流タスクに基盤モデル(FM)を適応させる4つの手法からなる慎重に設計された実験プロトコルを用いました。さらに、一般的な映像理解タスクに適応する際のFMの有効性と効率性を測定するためのスカラー値であるVideoGLUEスコア(VGS)を提案しました。主な発見は以下の通りです。第一に、タスク特化型モデルは、本研究で調査した6つのFMを大きく上回り、これはFMが自然言語や画像理解で達成した成果とは対照的です。第二に、事前学習データに映像モダリティを含むビデオネイティブFMは、動きの多い映像の分類、時間的な行動のローカライゼーション、複数の行動を含む映像の理解において、一般的にイメージネイティブFMよりも優れています。第三に、ビデオネイティブFMは、下流タスクへの軽微な適応(例:FMバックボーンの凍結)で映像タスクにおいて良好な性能を発揮する一方、イメージネイティブFMは完全なエンドツーエンドのファインチューニングで優位に立ちます。最初の2つの観察は、映像に焦点を当てたFMの研究の必要性と大きな機会を示しており、最後の観察は、FMの評価においてタスクと適応手法の両方が重要であることを確認しています。