翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)におけるインコンテキスト学習(ICL)は、強力な新しい学習パラダイムとして登場しました。しかし、その根本的なメカニズムはまだ十分に理解されていません。特に、ICLを「標準的な」機械学習のフレームワークにマッピングすることは困難です。標準的なフレームワークでは、訓練セットSを使用して、ある仮説クラス内で最適な関数f(x)を見つけます。ここでは、ICLによって学習される関数が非常に単純な構造を持つことを示すことで、この問題に進展をもたらします。具体的には、これらの関数は、クエリxと訓練セットから計算された単一の「タスクベクトル」のみを入力とするトランスフォーマーLLMに対応します。したがって、ICLはSを単一のタスクベクトルtheta(S)に圧縮し、このタスクベクトルを使用してトランスフォーマーを調整し、出力を生成するものと見なすことができます。私たちは、さまざまなモデルとタスクにわたる包括的な実験を通じて、上記の主張を支持します。
公開されている視覚基盤モデル(VFMs)、例えばCLIPやSegment Anything Model(SAM)の状況は急速に拡大しています。VFMsは、その事前学習の目的に由来する独自の能力を備えています。例えば、CLIPは意味理解に優れ、SAMはセグメンテーションのための空間理解に特化しています。本研究では、VFMsを統合し、その専門知識を吸収した統一モデルを効率的に作成するためのシンプルな手法を紹介します。提案手法は、マルチタスク学習、継続学習技術、および教師-生徒蒸留を統合しています。この戦略は、従来のマルチタスク学習をゼロから行う場合と比較して、大幅に少ない計算コストで済みます。さらに、個々のモデルを訓練するために最初に使用された事前学習データセットのごく一部しか必要としません。SAMとCLIPに本手法を適用することで、SAM-CLIPを導出しました。SAM-CLIPは、SAMとCLIPの強みを単一のバックボーンに統合した統一モデルであり、エッジデバイスアプリケーションに適しています。SAM-CLIPは、ローカライゼーションと意味的特徴の両方を備えたより豊かな視覚表現を学習し、幅広い視覚タスクに適していることを示します。SAM-CLIPは、SAMやCLIPと比較して、いくつかのヘッドプロービングタスクで改善された性能を達成します。さらに、SAM-CLIPは、前身モデルの基本的な強みを保持するだけでなく、相乗的な機能も導入し、特にゼロショットセマンティックセグメンテーションにおいて、5つのベンチマークで新たな最先端の結果を確立します。このタスクのために特別に設計された以前のモデルを大幅に上回り、Pascal-VOCとCOCO-Stuffデータセットでそれぞれ+6.8%と+5.9%の平均IoUの改善を達成しました。
幻覚(Hallucination)は、急速に進化するマルチモーダル大規模言語モデル(MLLMs)に影を落とす大きな課題であり、生成されたテキストが画像の内容と一致しない現象を指します。幻覚を軽減するために、既存の研究では主に特定のデータを用いてモデルを再訓練する指示チューニング(instruction-tuning)の手法が採用されています。本論文では、異なるアプローチを提案し、訓練不要の方法である「Woodpecker」を紹介します。Woodpeckerは、キツツキが木を治すように、生成されたテキストから幻覚を選び出し修正します。具体的には、Woodpeckerは5つの段階で構成されます:キーコンセプト抽出、質問形成、視覚的知識検証、視覚的主張生成、そして幻覚修正です。事後修復(post-remedy)方式で実装されたWoodpeckerは、異なるMLLMsに容易に適用可能であり、5つの段階の中間出力にアクセスすることで解釈可能です。我々はWoodpeckerを定量的および定性的に評価し、この新しいパラダイムの大きな可能性を示します。POPEベンチマークでは、我々の手法はベースラインのMiniGPT-4/mPLUG-Owlに対して精度で30.66%/24.33%の改善を達成しました。ソースコードはhttps://github.com/BradyFU/Woodpeckerで公開されています。
近年、GPT-3のような大規模言語モデル(LLM)を機械翻訳(MT)に活用する研究の多くは、few-shotサンプルの選択とプロンプティングに焦点を当ててきました。本研究では、高品質でドメイン内のデモンストレーションに対する摂動を通じて、翻訳におけるインコンテキスト学習のためのデモンストレーション属性の役割をより深く理解しようと試みます。その結果、ソースとターゲットのマッピングに対する非対称的な摂動が大きく異なる結果をもたらすことがわかりました。ソース側の摂動は驚くほど影響が少ないのに対し、ターゲット側の摂動は翻訳品質を劇的に低下させることが示されました。これは、インコンテキスト学習において、出力テキストの分布が最も重要な学習信号を提供していることを示唆しています。我々は、この信号をゼロショットプロンプティングに自動的に追加する「Zero-Shot-Context」という手法を提案します。この手法がGPT-3のゼロショット翻訳性能を向上させ、few-shotプロンプティングによる翻訳と競合するレベルにまで到達することを実証します。
本論文では、Recognize Anything Plus Model(RAM++)を紹介します。これは、セマンティック概念を画像タグ付け学習フレームワークに注入することで、強力なオープンセット認識能力を備えた基本的な画像認識モデルです。従来のアプローチは、限られたセマンティクスに制約された画像タグ付けモデルか、マルチタグ認識において最適でない浅い相互作用を持つ視覚言語モデルのいずれかでした。対照的に、RAM++は、画像-テキストのアラインメントと画像タグ付けを、画像-タグ-テキストのトリプレットに基づく統一された細粒度相互作用フレームワーク内で統合します。この設計により、RAM++は事前定義されたカテゴリの識別に優れるだけでなく、オープンセットカテゴリにおける認識能力を大幅に向上させます。さらに、RAM++は大規模言語モデル(LLM)を活用して多様な視覚タグ記述を生成し、LLMの知識を画像タグ付け学習に統合する先駆的な試みを行います。このアプローチにより、RAM++は推論時に視覚記述概念を統合してオープンセット認識を行うことが可能になります。包括的な画像認識ベンチマークでの評価により、RAM++がほとんどの側面で既存の最先端(SOTA)の基本的な画像認識モデルを凌駕することが示されています。具体的には、事前定義された一般的なタグカテゴリにおいて、RAM++はOpenImagesとImageNetでCLIPに対してそれぞれ10.2 mAPと15.4 mAPの向上を示しました。事前定義を超えたオープンセットカテゴリでは、RAM++はOpenImagesでCLIPとRAMに対してそれぞれ5 mAPと6.4 mAPの改善を記録しました。多様な人間-物体相互作用フレーズにおいては、RAM++はHICOベンチマークで7.8 mAPと4.7 mAPの向上を達成しました。コード、データセット、および事前学習済みモデルはhttps://github.com/xinyu1205/recognize-anythingで公開されています。
我々は、最先端のモデルが情報検索における制約充足クエリ(例:「サンディエゴのアイスクリームショップのリスト」)に答える能力を研究する。過去において、このようなクエリはウェブ検索や知識ベースを通じてのみ解決可能なタスクと考えられていた。しかし最近では、大規模言語モデル(LLMs)がこのタスクにおいて初期の創発能力を示している。しかし、現在の多くの検索ベンチマークは飽和状態にあるか、制約充足を測定していない。LLMsの事実誤認や幻覚に関する懸念が高まる中、我々は言語モデルの制約充足能力を測定するための新しいデータセットであるKITABを提案する。KITABは600人以上の著者と13,000件のクエリにわたる書籍関連データで構成され、他の著者向けの類似したテストデータを収集するための動的データ収集と制約検証アプローチも提供する。GPT4とGPT3.5に対する拡張実験を通じて、情報の人気度、制約タイプ、コンテキストの可用性といった次元にわたる一般的な失敗モードを特徴づけ、分離する。結果は、コンテキストがない場合、モデルが無関係な情報、事実誤認、不完全性によって深刻な制限を示すことを明らかにし、これらの多くは情報の人気度が低下するにつれて悪化する。コンテキストの可用性は無関係な情報を緩和するが、制約を満たすためには役立たず、制約充足における根本的な障壁を特定する。我々は、将来のモデルの制約充足能力を改善するためのさらなる研究を促進するために、貢献をオープンソース化する。
Transformerアーキテクチャは多くのAIモデルにおいて重要な役割を果たしているが、長距離言語モデリングにおいて依然として課題を抱えている。長距離依存性の問題に対処するためにいくつかの特定のTransformerアーキテクチャが設計されているものの、Transformer-XLのような既存の手法は、無効なメモリの割合が高いという問題に悩まされている。本研究では、TRAining-free Memory Selection(TRAMS)と呼ばれるプラグアンドプレイ戦略を提案する。この戦略は、単純な指標に基づいて注意計算に参加するトークンを選択するものであり、現在のクエリとの高い注意スコアを持つ可能性が高いトークンを保持し、それ以外のトークンを無視することを可能にする。我々はこのアプローチを単語レベルのベンチマーク(WikiText-103)と文字レベルのベンチマーク(enwik8)でテストし、追加のトレーニングやパラメータを増やすことなく改善が得られることを確認した。
道徳基盤理論(Moral Foundations Theory, MFT)は、人間の道徳的推論をケア/危害、自由/抑圧、神聖/堕落などの5つの要素に分解する心理学的評価ツールである(Graham et al., 2009)。人々は道徳的判断を行う際にこれらの次元に置く重みが異なり、その違いは文化的背景や政治的思想に部分的に起因する。大規模言語モデル(LLMs)はインターネットから収集されたデータセットで訓練されるため、そのようなコーパスに存在するバイアスを反映する可能性がある。本論文では、MFTをレンズとして、主要なLLMsが特定の道徳的価値観に対するバイアスを獲得しているかどうかを分析する。既知のLLMsを分析し、それらが特定の道徳基盤を示すことを明らかにし、それらが人間の道徳基盤や政治的所属とどのように関連するかを示す。また、これらのバイアスの一貫性、つまりモデルがどのようにプロンプトされるかによって強く変動するかどうかを測定する。最後に、特定の道徳基盤を引き出すように意図的に選択したプロンプトが、モデルの下流タスクにおける振る舞いに影響を与える可能性があることを示す。これらの知見は、LLMsが特定の道徳的立場を仮定することに伴う潜在的なリスクと意図しない結果を浮き彫りにするものである。