翻訳付きの日次キュレーションされたAI研究論文
本論文では、言語モデルの指示追従能力を検出する指標として、Instruction Following Score (IFS)を提案する。この指標には二つの目的がある。第一に、IFSはベースモデルと指示チューニング済みモデルを区別するために使用できる。公開されているベースモデルと指示チューニング済みモデルをベンチマークし、適切にフォーマットされた応答と部分的な文または完全な文の比率が、これら二つのモデルクラスを効果的に区別する尺度となることを示す。第二に、この指標は指示チューニングの早期停止基準として利用できる。7Bおよび13BのLLaMAモデルの教師ありファインチューニング(SFT)におけるIFSを計算し、モデルが訓練プロセスの比較的早い段階で指示を追従することを学習し、さらにファインチューニングを進めると基盤となるベースモデルの意味論が変化する可能性があることを示す。意味論の変化の一例として、補助指標ObjecQAで定義されるモデル予測の客観性を示す。この特定のケースでは、IFSがプラトーに達し始める時期に意味論の変化が最も急激に起こることを示す。指示チューニングをIFSと意味論的要因に分解することで、より制御可能な指示チューニングの新たな潮流が生まれ、基盤モデルに問い合わせる最小限の指示インターフェースを設計する可能性が開かれることを期待する。
サプライチェーン運用は伝統的に、さまざまな複雑な意思決定問題を伴います。過去数十年間、サプライチェーンは計算技術の進歩から大きな恩恵を受け、手動処理から自動化およびコスト効率の最適化への移行が可能になりました。しかしながら、ビジネスオペレーターは依然として、最適化結果をステークホルダーに説明し解釈するために多大な労力を費やす必要があります。近年の大規模言語モデル(LLMs)の進展に触発され、私たちはこの革新的技術がサプライチェーン自動化と人間の理解および信頼の間のギャップを埋めるのにどのように役立つかを研究します。私たちは、平文のクエリを入力として受け取り、基盤となる最適化結果に関する洞察を出力するフレームワークを設計しました。私たちのフレームワークは、最先端の組み合わせ最適化技術を放棄するのではなく、むしろそれを活用して、what-ifシナリオ(例えば、特定の需要に対してサプライヤーAではなくサプライヤーBを使用した場合、コストはどのように変化するか?)を定量的に回答します。重要なことに、私たちの設計は、プライバシー上の懸念となる可能性のあるプロプライエタリデータをLLMsに送信する必要がありません。私たちは、Microsoftのクラウドサプライチェーン内での実際のサーバー配置シナリオにおいて、このフレームワークの有効性を実証します。その過程で、他のシナリオでもLLM出力の精度を評価するために使用できる一般的な評価ベンチマークを開発します。
GPT-4のような大規模言語モデルは、広範なテキストデータで訓練されることで、基本的な算術などの汎用タスクにおいて創発的な能力を示します。これらのタスクは、教師なしの次トークン予測目標として明示的にエンコードされていないにもかかわらず、そのような能力が現れます。本研究では、ランダムな初期化から訓練された小さなトランスフォーマーが、次トークン予測目標を用いて、加算や乗算、平方根などの初等関数といった算術操作を効率的に学習する方法を調査します。まず、従来の訓練データが算術学習に最も効果的ではないこと、そして単純なフォーマット変更が精度を大幅に向上させ得ることを示します。これにより、訓練データの規模に応じた鋭い相転移が観察され、場合によっては低ランク行列補完との関連性を通じて説明可能です。先行研究を基に、中間ステップの結果を含むチェーン・オブ・ソート形式のデータで訓練を行います。事前訓練を全く行わない場合でも、このアプローチは精度、サンプル複雑性、収束速度を同時に大幅に向上させます。また、訓練中の算術データとテキストデータの相互作用を研究し、Few-shotプロンプティング、事前訓練、モデル規模の影響を検証します。さらに、長さの一般化に関する課題についても議論します。本研究は、次単語予測目標の特性を考慮した高品質で教育的なデータが、算術能力を迅速に引き出す上で重要であることを強調しています。
画像-テキストペアを用いた大規模言語モデル(LLM)の指示チューニングは、これまでにない視覚-言語マルチモーダル能力を実現しました。しかし、その視覚-言語アライメントは画像レベルでのみ構築されており、領域レベルのアライメントの欠如が、細粒度のマルチモーダル理解への進展を制限しています。本論文では、関心領域(Region-of-Interest)に基づく指示チューニングを提案します。鍵となる設計は、バウンディングボックスを空間指示の形式として再構成することです。空間指示によって抽出された視覚特徴と言語埋め込みが交互に並んだシーケンスをLLMに入力し、指示チューニング形式に変換された領域-テキストデータで学習します。我々の領域レベル視覚-言語モデル、GPT4RoIは、画像レベルの理解を超えた全く新しい会話型およびインタラクティブな体験をもたらします。(1) 制御性:ユーザーは言語と空間指示の両方を用いてモデルと対話し、質問の詳細レベルを柔軟に調整できます。(2) 能力:我々のモデルは単一領域の空間指示だけでなく、複数領域もサポートします。これにより、詳細な領域キャプションや複雑な領域推論など、より多くの領域レベルマルチモーダル能力が解放されます。(3) 構成性:既存の物体検出器を空間指示プロバイダーとして利用できるため、色、形状、素材、動作、他の物体との関係など、モデルから有益な物体属性を抽出できます。コード、データ、デモはhttps://github.com/jshilong/GPT4RoIで公開されています。
テクノロジーの非対称性により、多くの人々が低いリテラシーしか持たない言語でウェブを利用することを余儀なくされています。このようなユーザーが第二言語(L2)で書いたテキストには、母語(L1)の影響による多数の誤りが含まれることがよくあります。本研究では、L1とL2のペアに対して、音素の混同(L1話者がL2の音を混同しやすいもの)を抽出する手法を提案します。これらの混同を生成モデル(Bi-Phone)に組み込み、L2テキストの破損を人工的に生成します。人間による評価を通じて、Bi-PhoneがL1ごとに異なるもっともらしい破損を生成し、ウェブ上で広範にカバーされていることを示します。また、人気のある言語理解ベンチマークSuperGLUEを本手法で破損させたFunGLUE(Phonetically Noised GLUE)を作成し、最先端の言語理解モデルが低い性能しか発揮しないことを示します。さらに、バイトモデルがSuperGLUEに近い性能を回復するのに役立つ新しい音素予測事前学習タスクを導入します。最後に、音声的にロバストな言語モデルのさらなる研究を促進するため、FunGLUEベンチマークを公開します。私たちの知る限り、FunGLUEはテキストにL1-L2の相互作用を導入した最初のベンチマークです。
基盤モデルの登場により、大規模な言語モデルと視覚モデルが統合され、視覚キャプショニング、対話、質問応答などのマルチモーダル能力を獲得しています。既存のマルチモーダルモデルは視覚理解と推論において印象的な性能を示していますが、高品質な指示チューニングデータの不足により、その限界はまだ十分に探られていません。マルチモーダル能力の限界を押し広げるため、我々はSVIT(Scale up Visual Instruction Tuning)を構築し、320万の視覚指示チューニングデータセットを作成しました。このデータセットには、160万の会話型質問応答(QA)ペア、160万の複雑な推論QAペア、および106Kの詳細な画像記述が含まれています。提案されたデータセットは、その量だけでなく、高品質で多様性に富んでいることも特徴です。これは、GPT-4に豊富な手動注釈付き画像をプロンプトとして与えることで生成されました。我々は、SVITでマルチモーダルモデルをトレーニングすることで、視覚知覚、推論、計画においてマルチモーダル性能が大幅に向上することを実証的に確認しました。
最近の研究では、インコンテキスト学習を実証的に分析し、合成線形回帰タスクで訓練されたトランスフォーマーが、十分な容量が与えられれば、ベイズ最適予測器であるリッジ回帰を実装できることが示されている [Akyürek et al., 2023]。一方、線形セルフアテンションを持ちMLP層を持たない1層のトランスフォーマーは、最小二乗線形回帰の目的関数に対する勾配降下法(GD)の1ステップを実装することを学習する [von Oswald et al., 2022]。しかし、これらの観察結果の背後にある理論はまだ十分に理解されていない。本研究では、合成ノイズ付き線形回帰データで訓練された、線形セルフアテンションを1層持つトランスフォーマーを理論的に検討する。まず、共変量が標準ガウス分布から抽出される場合、事前学習損失を最小化する1層トランスフォーマーが、最小二乗線形回帰の目的関数に対するGDの1ステップを実装することを数学的に示す。次に、共変量と重みベクトルの分布を非等方ガウス分布に変更すると、学習されたアルゴリズムに強い影響を与えることがわかる:事前学習損失の大域的最小化子は、事前条件付きGDの1ステップを実装する。しかし、応答の分布のみを変更した場合、これは学習されたアルゴリズムに大きな影響を与えない:応答がより一般的な非線形関数族から来る場合でも、事前学習損失の大域的最小化子は依然として最小二乗線形回帰の目的関数に対するGDの1ステップを実装する。
視覚的ロボット操作における模倣学習の一般化を困難にする要因は何か?この問いに直接取り組むことは難しいが、ロボットの視点から見た環境は、照明条件やカメラの配置など、列挙可能な変動要因に分解できることが多い。経験的には、これらの要因の一部への一般化が他の要因よりも大きな障害となっているが、既存の研究では各要因が一般化ギャップにどの程度寄与しているかについてほとんど明らかにされていない。この問いに対する答えを探るため、シミュレーションおよび実ロボットを用いた言語条件付き操作タスクにおいて、模倣学習ポリシーを研究し、異なる(組み合わせの)要因への一般化の難しさを定量化する。また、より制御された一般化評価を容易にするため、11の変動要因を持つ19のタスクからなる新しいシミュレーションベンチマークを設計する。我々の研究から、シミュレーションと実ロボットセットアップの両方で一貫した、一般化の難易度に基づく要因の順序を決定する。
先進的なAIモデルは人類にとって計り知れない恩恵をもたらす可能性を秘めているが、社会はそれに伴うリスクを積極的に管理する必要がある。本論文では、「フロンティアAI」モデルに焦点を当てる。これは、公衆の安全に深刻なリスクをもたらす可能性のある危険な能力を備えた、高度に汎用的な基盤モデルである。フロンティアAIモデルは独特の規制上の課題を提起する。危険な能力が予期せず出現する可能性があること、展開されたモデルの悪用を確実に防ぐことが困難であること、そしてモデルの能力が広く普及するのを阻止することが難しいことである。これらの課題に対処するためには、少なくとも3つの基本的な規制要素が必要である。(1)フロンティアAI開発者に適切な要件を定めるための標準設定プロセス、(2)規制当局がフロンティアAI開発プロセスを把握できるようにする登録および報告要件、(3)フロンティアAIモデルの開発と展開における安全基準の遵守を確保するメカニズムである。業界の自主規制は重要な第一歩である。しかし、より広範な社会的議論と政府の介入が、標準を作成し、それらの遵守を確保するために必要となる。この目的のために、監督当局に執行権限を付与することや、フロンティアAIモデルのライセンス制度など、いくつかの選択肢を検討する。最後に、初期の安全基準セットを提案する。これには、展開前のリスク評価の実施、モデル行動の外部監査、リスク評価に基づいた展開決定、展開後のモデル能力と使用に関する新たな情報の監視と対応が含まれる。本議論が、AI開発のフロンティアにおける公衆安全リスクとイノベーションの恩恵をいかにバランスさせるかという広範な議論に貢献することを願っている。