翻訳付きの日次キュレーションされたAI研究論文
人間のフィードバックからの強化学習(RLHF)は、モデルを人間の意図に合わせるための一般的なパラダイムとして登場しました。通常、RLHFアルゴリズムは2つのフェーズで動作します。まず、人間の選好を利用して報酬関数を学習し、次に、学習した報酬を強化学習(RL)によって最適化することでモデルを調整します。このパラダイムは、人間の選好が報酬に従って分布していると仮定していますが、最近の研究では、それらはむしろユーザーの最適方策における後悔に従うことが示唆されています。したがって、フィードバックから報酬関数を学習することは、人間の選好に関する誤った仮定に基づいているだけでなく、RLフェーズにおける方策勾配やブートストラップに起因する扱いにくい最適化課題を引き起こします。これらの最適化課題のため、現代のRLHF手法は、文脈的バンディット設定(例えば、大規模言語モデル)に限定されるか、観測次元を制限します(例えば、状態ベースのロボティクス)。私たちは、人間の選好に基づく後悔モデルを使用して、人間のフィードバックから行動を最適化する新しいアルゴリズムのファミリーを導入することで、これらの制限を克服します。最大エントロピーの原理を使用して、報酬関数を学習せずに選好から最適方策を学習するアルゴリズムであるContrastive Preference Learning(CPL)を導出し、RLの必要性を回避します。CPLは完全にオフポリシーであり、単純なコントラスティブ目的関数のみを使用し、任意のMDPに適用できます。これにより、CPLは高次元かつ逐次のRLHF問題にエレガントにスケールすることが可能であり、従来の手法よりもシンプルです。
*データ合成*は、ラベル付きデータが非常に少ない状況で小さなモデルを訓練する有望な方法です。データ合成の一つのアプローチは、大規模言語モデルの豊富な知識を活用して、小さなモデルのための疑似訓練例を合成し、データ効率と計算効率の両方を同時に実現することです。しかし、データ合成における重要な課題は、合成されたデータセットが*実際のタスク*のデータ分布から大きな分布の乖離を抱えていることです。そこで、本論文では、*Synthesis Step by Step* (**S3**)というデータ合成フレームワークを提案します。このフレームワークは、大規模言語モデルを使用して、合成データセットで訓練された小さなモデルが小さな実世界の検証データセットで犯す誤差を反復的に外挿することで、この分布のギャップを縮小します。複数のNLPタスクでの大規模な実験により、我々のアプローチが合成データセットと実データの間のギャップを減らすことで小さなモデルの性能を向上させ、いくつかのベースラインと比較して大幅な改善をもたらすことが示されました:ZeroGenと比較して9.48%、GoldGenと比較して2.73%、そして人間が注釈を付けたデータで訓練された小さなモデルと比較して最大15.17%の改善が見られました。
拡散確率モデル(DPMs)は、高忠実度の画像生成において優れた性能を示す一方で、サンプリングの非効率性に悩まされてきた。最近の研究では、DPMsの特定のODE形式を活用した高速ODEソルバーを提案することで、サンプリング手順を加速している。しかし、これらの手法は推論中の特定のパラメータ化(例えばノイズ/データ予測)に強く依存しており、必ずしも最適な選択とは限らない。本研究では、ODE解の一次離散化誤差を最小化するサンプリング中の最適なパラメータ化に向けた新たな定式化を提案する。この定式化に基づき、事前学習済みモデル上で効率的に計算されるいくつかの係数(経験的モデル統計量と呼ぶ)を導入した新しい高速ODEソルバーであるDPM-Solver-v3を提案する。さらに、マルチステップ法と予測子-修正子フレームワークを組み込み、少ない関数評価回数(NFE)や大きなガイダンススケールにおけるサンプル品質を向上させるためのいくつかの技術を提案する。実験結果から、DPM-Solver-v3は、ピクセル空間および潜在空間DPMsの両方において、無条件および条件付きサンプリングで一貫して優れたまたは同等の性能を達成し、特に5~10 NFEの範囲で顕著な性能を示す。無条件CIFAR10では12.21(5 NFE)、2.51(10 NFE)のFIDを、Stable Diffusionでは0.55(5 NFE、7.5ガイダンススケール)のMSEを達成し、従来の最先端のトレーニング不要な手法と比較して15%~30%の高速化を実現した。コードはhttps://github.com/thu-ml/DPM-Solver-v3で公開されている。
聴覚は、物理世界における人工知能(AI)エージェントにとって不可欠な能力であると言える。これは、少なくとも3種類の音(音声、音響イベント、音楽)から構成される一般的な聴覚情報の知覚と理解を指す。本論文では、事前学習済みのテキストベースの大規模言語モデル(LLM)と音声・音響エンコーダを統合して構築されたマルチモーダルモデルであるSALMONN(Speech Audio Language Music Open Neural Network)を提案する。SALMONNは、LLMが一般的な音声入力を直接処理・理解し、自動音声認識や翻訳、聴覚情報に基づく質問応答、感情認識、話者認証、音楽および音響キャプション生成など、訓練で使用される多くの音声・音響タスクにおいて競争力のある性能を達成する。さらに、SALMONNは訓練中に見られなかった多様な創発能力を有しており、未学習言語への音声翻訳、音声ベースのスロットフィリング、音声クエリに基づく質問応答、音響ベースのストーリーテリング、音声・音響の共推論などが含まれる。これらのクロスモーダルな創発能力の存在を研究し、SALMONNのそのような能力を活性化するための新しいFew-Shot活性化チューニング手法を提案する。私たちの知る限り、SALMONNはこの種の最初のモデルであり、汎用的な聴覚能力を持つAIへの一歩と見なすことができる。SALMONNのインタラクティブデモは\url{https://github.com/bytedance/SALMONN}で利用可能であり、訓練コードとモデルチェックポイントは受理後に公開される予定である。
大規模言語モデル(LLM)は自然言語処理において印象的な創発能力を示しますが、その民主化は膨大な計算リソースの要件とクローズドソースの性質によって妨げられています。最近の研究では、ブラックボックス型LLMから知識を蒸留することで、オープンソースの小型LMを進化させ、指示追従能力において有望な結果を得ています。しかし、より習得が困難な推論能力については、比較的検討が進んでいません。本論文では、この排他的な推論能力の民主化を促進するため、小型LMに推論能力を蒸留するための特化した学習アプローチを提案します。単にLLMをデータアノテーターとして利用するのではなく、LLMを推論教師として活用し、インタラクティブな多段階学習パラダイムを構築します。このパラダイムにより、学生モデルは自身の欠点をブラックボックス教師に提示し、教師はそれに応じたカスタマイズされた学習データを提供できます。さらに、小型LMの推論ポテンシャルを最大限に引き出すため、自己反省学習を提案し、学生モデルが自らの誤りから学ぶことを促します。自己反省学習とLLMからの学習は、多段階学習パラダイムとのシームレスな統合により、学生モデルの学習状況に合わせて調整されます。数学的推論と常識推論タスクにおける包括的な実験と分析により、本手法の有効性が実証されました。コードはhttps://github.com/Raibows/Learn-to-Reasonで公開予定です。
大規模言語モデル(LLMs)は、複雑な現実世界の問題を解決する際に強力な意思決定および計画能力を示している。LLMベースの自律エージェントは、多様なツール(例えば、機能的なAPI)と相互作用し、段階的に一連のAPI関数呼び出しを実行する解決策プランを生成することができる。多数の候補となるAPI関数呼び出しは、行動空間を大幅に拡大し、効率的な行動空間ナビゲーションの必要性を高めている。しかし、既存の手法は、広大な行動空間における一方向的な探索に苦しみ、局所最適解に陥るか、あるいはすべての潜在的な行動を網羅的に探索するため、非効率なナビゲーションを引き起こす。これらの問題に対処するため、我々はToolChain*を提案する。これは、LLMベースのエージェントのための効率的な木探索ベースの計画アルゴリズムである。ToolChain*は、全体の行動空間を決定木として定式化し、各ノードは解決策プランに関与する可能性のあるAPI関数呼び出しを表す。A*探索アルゴリズムをタスク固有のコスト関数設計と組み合わせることで、誤った行動を含む可能性のある高コストの枝を効率的に刈り込み、最も低コストの有効なパスを解決策として特定する。複数のツール使用および推論タスクにおける広範な実験により、ToolChain*が広大な行動空間内で探索と活用を効率的にバランスさせることが示された。ToolChain*は、計画および推論タスクにおいて、最新のベースラインを平均3.1%および3.5%上回り、それぞれ7.35倍および2.31倍少ない時間を要する。
ディフュージョンベースの手法は、2Dメディアの生成において顕著な成功を収めてきました。しかし、XR/VRなどの3D空間アプリケーションにおけるシーンレベルのメッシュテクスチャリングにおいて同様の熟練度を達成することは、主に3Dジオメトリの複雑さと没入型の自由視点レンダリングの必要性により、依然として制約されています。本論文では、テキスト駆動のテクスチャ生成を魅力的なディテールと本物の空間的一貫性で実現する、新しい屋内シーンテクスチャリングフレームワークを提案します。鍵となる洞察は、まずシーンの中央視点からスタイリッシュな360度パノラマテクスチャを想像し、それをインペインティングと模倣技術を用いて残りの領域に伝播させることです。シーンに意味的かつ整合したテクスチャを確保するために、ジオメトリとテクスチャの手がかりの両方を考慮した、デュアルテクスチャアライメントを備えた新しい粗から細へのパノラマテクスチャ生成アプローチを開発しました。テクスチャ伝播中の複雑なジオメトリに対処するために、信頼できる領域でテクスチャインペインティングを行い、その後、隠蔽された微小構造領域のテクスチャを合成するための暗黙的な模倣ネットワークを学習する分離戦略を設計しました。実世界の屋内シーンにおける広範な実験と没入型VRアプリケーションは、生成されたテクスチャの高品質とVRヘッドセットでの魅力的な体験を実証しています。プロジェクトウェブページ: https://ybbbbt.com/publication/dreamspace
大規模言語モデル(LLM)が自らの出力を分析し修正するよう促すことで可能となる自己改善能力は、近年の研究で大きな注目を集めています。しかし、この能力は小規模モデルには存在せず、習得も困難であることが示されており、それにより最先端のLLMと、よりコスト効率が高く高速なモデルとの性能差が拡大しています。この差を縮めるため、我々はTriPosTというトレーニングアルゴリズムを導入し、小規模モデルにこの自己改善能力を付与します。我々のアプローチにより、LLaMA-7bの数学および推論タスクにおける性能が最大7.13%向上することを示します。従来の研究とは異なり、我々は小規模モデルをLLMと対話させ、自らの生成物に対するフィードバックと改善点を収集することでこれを実現します。その後、この経験をリプレイして小規模モデルをトレーニングします。4つの数学および推論データセットでの実験により、自らの誤りから学び修正するという対話的な経験が、小規模モデルの性能向上に不可欠であることが明らかになりました。
大規模言語モデル(LLM)は、タスク固有のファインチューニングを必要とせず、自然言語の指示に従うことで幅広いタスクを実行できます。しかし、LLMの性能はこれらの指示の質に大きく影響され、各タスクに対して効果的な指示を手動で作成するのは労力を要し、主観的なプロセスです。本論文では、LLMに提供される指示の質を自動的に向上させる新しい手法であるAuto-Instructを紹介します。この手法は、LLMの持つ生成能力を活用して、与えられたタスクに対して多様な候補指示を生成し、575の既存のNLPタスクで訓練されたスコアリングモデルを用いてそれらをランク付けします。118のドメイン外タスクでの実験において、Auto-Instructは人間が作成した指示や既存のLLM生成指示のベースラインを上回りました。さらに、この手法は、訓練プロセスに組み込まれていない他のLLMに対しても顕著な汎化性能を示します。
LLaMAのようなオープンソースの大規模言語モデル(LLM)を、Instruct-GPTやGPT-4といったより強力なLLMの直接的な出力を用いて命令チューニングすることは、モデルの挙動を人間の好みに合わせるためのコスト効率の良い方法として証明されています。しかし、命令チューニングされたモデルは、各命令に対して1つの応答しか見ておらず、潜在的に優れた応答に関する知識を欠いています。本論文では、命令チューニングされたLLMを、我々が提案する新しい確率的ランキングと文脈的ランキングのアプローチを用いてファインチューニングし、より優れた応答を生成する可能性を高めることを提案します。確率的ランキングにより、命令チューニングされたモデルは、教師LLMからの高品質と低品質の応答の相対的なランキングを継承することができます。一方、文脈的ランキングを用いた学習により、モデルはより強力なLLMの文脈理解能力を活用して自身の応答分布を洗練させることができます。さらに、確率的ランキングと文脈的ランキングを順次、命令チューニングされたLLMに適用します。その結果得られたモデル、我々がTunaと呼ぶものは、Super Natural Instructions(119のテストタスク)、LMentry(25のテストタスク)、Vicuna QAにおいて一貫して性能を向上させ、いくつかの強力な強化学習ベースラインよりも優れた結果を得ることができます。我々のコードとデータはhttps://github.com/microsoft/LMOpsで公開されています。
ウェブスケールの画像キャプションデータセットを用いた画像-テキスト事前学習は、CLIPとその派生モデルの成功により、オープン語彙分類および検索モデルのデフォルト手法となっています。いくつかの研究では、CLIPの特徴量を密な予測タスクに適用し、オープンセット能力の出現を示しています。しかし、コントラスティブ目的関数は画像とテキストの整合性にのみ焦点を当てており、密な予測タスクのための画像特徴学習を促進しません。本研究では、SILCを提案するために、コントラスティブ事前学習の追加目的として、自己蒸留による局所からグローバルな対応関係学習を簡易に追加することを提案します。指数移動平均(EMA)教師モデルから局所画像特徴を蒸留することで、分類、検索、特にセグメンテーションを含む複数のコンピュータビジョンタスクにおいてモデルの性能が大幅に向上することを示します。さらに、SILCは同じ学習時間においてベースラインと比較してスケーラビリティが優れていることを示します。我々のモデルSILCは、ゼロショット分類、少数ショット分類、画像およびテキスト検索、ゼロショットセグメンテーション、オープン語彙セグメンテーションにおいて新たな最先端の性能を達成しました。
道具の使用は、高度な知能の特徴であり、動物の行動やロボットの能力においてもその例を見ることができます。本論文では、暗黙の物理的制約と長期的な計画を伴うタスクにおいて、ロボットに創造的な道具使用能力を付与する可能性を探ります。大規模言語モデル(LLM)を活用し、自然言語の指示を受け取り、シミュレーション環境および実世界環境でロボットを制御するための実行可能なコードを出力するシステム「RoboTool」を開発しました。RoboToolは、以下の4つの重要なコンポーネントを統合しています:(i) 自然言語を解釈し、タスクに関連する主要な概念を識別する「Analyzer」、(ii) 言語入力と主要概念に基づいて包括的な戦略を生成する「Planner」、(iii) 各スキルのパラメータを計算する「Calculator」、および (iv) これらの計画を実行可能なPythonコードに変換する「Coder」です。結果として、RoboToolは明示的または暗黙的な物理的制約や環境要因を理解するだけでなく、創造的な道具使用も実証しました。従来のタスクとモーションプランニング(TAMP)手法が明示的な最適化に依存するのに対し、我々のLLMベースのシステムは、複雑なロボットタスクに対してより柔軟で効率的、かつユーザーフレンドリーなソリューションを提供します。広範な実験を通じて、RoboToolが創造的な道具使用なしでは実現不可能なタスクを的確に処理できることを検証し、ロボットシステムの能力を拡張しました。デモはプロジェクトページ(https://creative-robotool.github.io/)でご覧いただけます。
大規模言語モデル(LLMs)はAIにおける革命を象徴しています。しかしながら、それらは偏見のある、プライベートな、著作権で保護された、あるいは有害なテキストが含まれるなど、多くの重大なリスクも抱えています。そのため、オープンで透明性があり、安全なソリューションが必要です。私たちは、LLMsの開発とテストのための完全なオープンソースエコシステムを紹介します。このプロジェクトの目的は、クローズドソースのアプローチに対するオープンな代替手段を促進することです。私たちは、70億から700億パラメータまでのファインチューニングされたLLMsのファミリーであるh2oGPTをリリースします。また、最新の最先端技術を用いてLLMsの効率的なファインチューニング、評価、デプロイメントを可能にするフレームワークおよびノーコードGUIであるH2O LLM Studioも紹介します。私たちのコードとモデルは、完全に許容的なApache 2.0ライセンスの下で提供されます。オープンソースの言語モデルは、AI開発を促進し、よりアクセスしやすく信頼性の高いものにするのに役立つと信じています。デモは以下で利用可能です: https://gpt.h2o.ai/
人間のフィードバックによる強化学習(RLHF)は、高品質なAIアシスタントを訓練するための一般的な手法です。しかし、RLHFは、真実の回答よりもユーザーの信念に合致するモデル回答を促す可能性があり、この行動は「ご機嫌取り(sycophancy)」として知られています。本研究では、RLHFで訓練されたモデルにおけるご機嫌取りの普遍性と、人間の選好判断がその原因となっているかどうかを調査します。まず、5つの最先端AIアシスタントが、4つの多様な自由形式テキスト生成タスクにおいて一貫してご機嫌取り行動を示すことを実証します。次に、RLHFモデルに広く観察されるこの行動が人間の選好によって引き起こされているかどうかを理解するため、既存の人間選好データを分析します。その結果、回答がユーザーの見解に合致する場合、それが選好されやすいことがわかります。さらに、人間と選好モデル(PM)の両方が、正しい回答よりも説得力のあるご機嫌取り回答を選好する割合が無視できない程度に存在します。PMに対してモデル出力を最適化することも、時として真実性を犠牲にしてご機嫌取りを優先する結果をもたらします。全体として、我々の結果は、ご機嫌取りがRLHFモデルの一般的な行動であり、その一部はご機嫌取り回答を好む人間の選好判断によって引き起こされている可能性が高いことを示唆しています。
拡散モデルにおいて、UNetは最も一般的なネットワークバックボーンであり、遠く離れたネットワークブロックを接続する長距離スキップ接続(LSC)により、長距離情報を集約し勾配消失を緩和することができます。しかし、UNetは拡散モデルにおいて不安定なトレーニングに悩まされることが多く、これはLSC係数を小さくスケーリングすることで緩和できます。ただし、拡散モデルにおけるUNetの不安定性やLSCスケーリングの性能向上に関する理論的理解はまだありません。この問題を解決するため、我々は理論的に、UNetのLSC係数が順伝播と逆伝播の安定性、およびUNetのロバスト性に大きな影響を与えることを示します。具体的には、UNetの隠れ層特徴量と勾配は任意の層で振動し、その振動範囲は実際に大きく、これがUNetのトレーニング不安定性を説明します。さらに、UNetは摂動入力に対して敏感であり、望ましい出力から遠い出力を予測し、振動する損失と勾配を生み出します。また、LSC係数スケーリングの理論的利点として、隠れ層特徴量と勾配の安定性、およびロバスト性の向上も観察されます。最後に、我々の理論に基づき、UNetのLSC係数をスケーリングし、トレーニング安定性を向上させる効果的な係数スケーリングフレームワークScaleLongを提案します。4つの有名なデータセットでの実験結果は、我々の手法がトレーニングを安定化し、UNetまたはUViTバックボーンを持つ異なる拡散モデルで約1.5倍のトレーニング加速を達成することを示しています。コード: https://github.com/sail-sg/ScaleLong