翻訳付きの日次キュレーションされたAI研究論文
今日、大規模言語モデル(LLM)は、ツールの使用例をいくつか提供することで新しいツールの使用方法を学びます。しかし、使用例を入手するのは困難であり、誤った使用例を選択すると望ましくない偏った使用を招く可能性があります。使用例が容易に入手できる稀な状況であっても、どの使用例をいくつ提供するかを決定するための原則的な選択プロトコルは存在しません。タスクが複雑になるにつれて、選択の探索は組み合わせ的に増大し、必然的に扱いきれなくなります。私たちの研究は、使用例に代わるものとしてツールのドキュメントを提案します。私たちは、個々のツールの使用方法を説明するツールドキュメントの使用を提唱します。この主張を裏付けるために、視覚と言語の両モダリティにわたる6つのタスクで得られた3つの主要な実証的結果を示します。第一に、既存のベンチマークにおいて、ツールドキュメントのみを用いたゼロショットプロンプトが適切なツール使用を引き出すのに十分であり、少ない使用例を用いたプロンプトと同等の性能を達成することが示されました。第二に、数百の利用可能なツールAPIを含む新たに収集された現実的なツール使用データセットにおいて、ツールドキュメントが使用例よりもはるかに価値があり、ドキュメントを用いたゼロショットがドキュメントなしの少ない使用例を大幅に上回ることを示しました。第三に、画像生成とビデオ追跡に最新の未公開の最先端モデルをツールとして使用することで、ツールドキュメントの利点を強調します。最後に、ツールドキュメントを使用して新しいアプリケーションを自動的に有効にする可能性を強調します。GroundingDino、Stable Diffusion、XMem、およびSAMのドキュメントを使用することで、LLMは最新リリースのGrounded-SAMおよびTrack Anythingモデルの機能を再発明できることを示します。
大規模言語モデル(LLM)の最近の進展、特に連鎖思考(CoT)プロンプティングの登場により、推論問題を解決することが可能になりました。しかし、最も強力なLLMでさえ、非線形思考や多段階推論を必要とするより複雑な問題にはまだ苦戦しています。本研究では、LLMが外部リソースに頼らずに自身のエラーを認識する能力を持っているかどうかを探ります。特に、段階的な推論の中で個々のエラーを特定できるかどうかを調査します。この目的のために、ゼロショット検証スキームを提案し、そのようなエラーを認識します。次に、この検証スキームを用いて、生成された異なる回答に対して重み付き投票を行うことで、質問応答の性能を向上させます。この手法を3つの数学データセット(GSM8K、MathQA、MATH)でテストし、エラーをうまく認識し、最終的な予測性能を向上させることに成功しました。
大規模言語モデル(LLM)における合成的汎化能力を引き出す問題を、新たなタイプのプロンプト戦略を用いて考察する。合成的汎化は、LLMが既に見た問題よりも難しい問題(すなわち、易しい問題から難しい問題への汎化)を解決する能力を強化し、人間に似た知能の重要な推論能力である。しかし、現在の最先端のLLMでさえ、この形式の推論に苦戦している。このギャップを埋めるため、我々はスキルインコンテキスト(SKiC)プロンプトを提案する。これは、LLMに基本的なスキルを組み合わせてより複雑な問題を解決する方法を指示するものである。スキルと合成的な例を同じプロンプトコンテキスト内で示すことが重要であることがわかった。たった2つの例示でも、SKiCプロンプトはスキルとその合成能力の間に強力な相乗効果を生み出す。特に、LLMが未見の問題を解決する能力を強化し、革新的なスキル合成を必要とする広範な挑戦的な合成的タスクにおいてほぼ完璧な汎化を達成する。興味深いことに、SKiCプロンプトはLLMの潜在能力を引き出し、プロンプトコンテキストに明示的に提示されていない場合でも、事前学習段階で獲得された既存の内部スキルを活用することを可能にする。これにより、LLMは内部能力を活性化し、組み合わせることで未見の複雑な問題を解決する能力を獲得する。このような顕著な特徴により、SKiCプロンプトは挑戦的な数学的推論ベンチマーク(例:MATH)において最先端の性能を達成することができる。
自己教師あり学習は、有用な表現を学習するための事前タスクを構築することで、ラベルなしデータから学習を可能にする深層学習の有望なパラダイムです。自然言語処理では、マスク言語モデリング(MLM)が主要な事前タスクとなっていますが、コンピュータビジョンではこれに相当するマスク画像モデリング(MIM)が存在します。しかし、MIMは正確な位置での意味内容を予測する必要があるため、課題があります。例えば、不完全な犬の画像が与えられた場合、尾があると推測できますが、その正確な位置を特定することはできません。本研究では、この課題に対処するために、位置の不確実性をモデルに組み込んだ確率的モデルであるFlexPredictを提案します。具体的には、確率的にマスクされたトークンの位置をモデルに条件付けし、位置の不確実性に対してより頑健な特徴を学習するよう導きます。このアプローチにより、様々なタスクにおける下流性能が向上します。例えば、MIMベースラインと比較して、FlexPredictはViT-Bを使用したImageNet線形プローブで1.6%、ViT-Lを使用した半教師ありビデオセグメンテーションで2.5%の性能向上をもたらします。
生成テキストと自然なテキストを識別するタスクは、ますます困難になっています。この文脈において、ウォーターマーキングは、生成テキストを特定のモデルに帰属させるための有望な技術として登場しています。これは、生成プロセスを変更して、生成された出力に目に見えない痕跡を残し、後の検出を容易にします。本研究は、大規模言語モデル(LLM)のためのウォーターマーキングを、理論的および実証的な観点から3つの考察に基づいて統合します。まず、低い偽陽性率(10^{-6}未満)でも有効な堅牢な理論的保証を提供する新しい統計的テストを導入します。次に、自然言語処理分野の古典的なベンチマークを使用してウォーターマーキングの有効性を比較し、その実世界での適用可能性について洞察を得ます。最後に、LLMへのアクセスが可能なシナリオやマルチビットウォーターマーキングのための高度な検出スキームを開発します。