翻訳付きの日次キュレーションされたAI研究論文
ChatGPTに代表される大規模言語モデル(LLM)は、その優れた自然言語処理能力により大きな注目を集めています。しかしながら、これらのLLMは信頼性の分野において多くの課題を抱えています。そのため、LLMの信頼性を確保することが重要なテーマとして浮上しています。本論文では、TrustLLMを紹介します。これは、LLMの信頼性に関する包括的な研究であり、信頼性の異なる次元における原則、確立されたベンチマーク、主流のLLMの信頼性の評価と分析、そして未解決の課題と将来の方向性についての議論を含んでいます。具体的には、まず、信頼性のあるLLMのための8つの異なる次元にわたる原則を提案します。これらの原則に基づいて、真実性、安全性、公平性、堅牢性、プライバシー、機械倫理を含む6つの次元にわたるベンチマークを確立します。次に、TrustLLMにおいて16の主流LLMを評価する研究を提示し、30以上のデータセットを用いて分析を行います。我々の調査結果は、まず、一般的に信頼性と有用性(すなわち、機能的な有効性)が正の相関関係にあることを示しています。第二に、プロプライエタリなLLMは、信頼性の面でほとんどのオープンソースのLLMを上回っており、広くアクセス可能なオープンソースLLMの潜在的なリスクについて懸念を提起しています。しかし、いくつかのオープンソースLLMはプロプライエタリなものに非常に近い性能を示しています。第三に、一部のLLMは信頼性を示すために過剰に調整されている可能性があり、良性のプロンプトを有害と誤解して応答しないことで、有用性を損なっていることに注意が必要です。最後に、モデル自体だけでなく、信頼性を支える技術においても透明性を確保することの重要性を強調します。どのような信頼性技術が採用されているかを知ることは、その有効性を分析する上で重要です。
本技術レポートでは、Latent Consistency Model(LCM)とControlNetを先進的なPIXART-{\alpha}モデルに統合したテキストから画像を生成するフレームワーク、PIXART-{\delta}を紹介します。PIXART-{\alpha}は、1024px解像度の高品質な画像を非常に効率的なトレーニングプロセスで生成する能力で知られています。PIXART-{\delta}にLCMを統合することで、推論速度が大幅に向上し、わずか2~4ステップで高品質な画像を生成できるようになりました。特に、PIXART-{\delta}は1024x1024ピクセルの画像を0.5秒で生成するというブレークスルーを達成し、PIXART-{\alpha}と比較して7倍の改善を実現しています。さらに、PIXART-{\delta}は32GBのV100 GPUで1日以内に効率的にトレーニング可能な設計となっています。8ビット推論機能(von Platen et al., 2023)を備えており、8GBのGPUメモリ制約下でも1024pxの画像を合成できるため、ユーザビリティとアクセシビリティが大幅に向上しています。また、ControlNetに似たモジュールを組み込むことで、テキストから画像への拡散モデルに対するきめ細かい制御が可能になります。本論文では、Transformerに特化した新しいControlNet-Transformerアーキテクチャを導入し、高品質な画像生成とともに明示的な制御性を実現しています。最先端のオープンソース画像生成モデルとして、PIXART-{\delta}はStable Diffusionファミリーのモデルに代わる有望な選択肢を提供し、テキストから画像を生成する技術に大きく貢献しています。
Transformerは、従来の最先端NLPモデルであるリカレントニューラルネットワーク(RNN)とは概念的にも異なると考えられてきました。本研究では、デコーダのみのTransformerが、実際には無限の隠れ状態サイズを持つRNNの変種である無限多状態RNNとして概念化できることを示します。さらに、事前学習済みのTransformerを、隠れ状態のサイズを固定することで有限多状態RNNに変換できることも示します。既存のTransformerキャッシュ圧縮技術のいくつかがこのような変換ポリシーとして捉えられることを観察し、これらのポリシーと比較してよりシンプルな新たなポリシー、TOVAを導入します。いくつかの長距離タスクにおける実験では、TOVAが他のすべてのベースラインポリシーを上回り、完全な(無限の)モデルにほぼ匹敵する性能を示し、場合によっては元のキャッシュサイズの1/8しか使用しないことがわかりました。これらの結果は、TransformerデコーダLLMが実際にはRNNのように振る舞うことが多いことを示しています。また、Transformerの最も深刻な計算上のボトルネックの一つであるキャッシュメモリのサイズを軽減する選択肢を提示しています。私たちはコードをhttps://github.com/schwartz-lab-NLP/TOVAで公開しています。
人間は戦略的な欺瞞的行動を取ることが可能です。つまり、ほとんどの状況では親切に振る舞いますが、機会が与えられると、別の目的を追求するために全く異なる行動を取ります。もしAIシステムがこのような欺瞞的戦略を学習した場合、現在の最先端の安全訓練技術を用いてそれを検出し、除去することはできるでしょうか?この疑問を研究するため、私たちは大規模言語モデル(LLM)における欺瞞的行動の概念実証例を構築しました。例えば、プロンプトに2023年と記載されている場合は安全なコードを書くが、2024年と記載されている場合は悪用可能なコードを挿入するモデルを訓練しました。その結果、このようなバックドア付きの行動は、標準的な安全訓練技術(教師ありファインチューニング、強化学習、敵対的訓練など)では除去されない持続的なものにできることがわかりました。バックドア付きの行動は、最大規模のモデルや、訓練プロセスを欺くための連鎖的思考(chain-of-thought)を生成するように訓練されたモデルで最も持続的であり、連鎖的思考が蒸留されてもその持続性は残りました。さらに、バックドアを除去するのではなく、敵対的訓練はモデルにバックドアのトリガーをより良く認識させることで、安全でない行動を効果的に隠すことを教えることがわかりました。私たちの結果は、一度モデルが欺瞞的行動を示すと、標準的な技術ではその欺瞞を除去できず、安全であるという誤った印象を与える可能性があることを示唆しています。
本論文では、3DシーンのNeRF再構成における生成的なオブジェクト挿入のための新手法InseRFを紹介する。InseRFは、ユーザーが提供するテキスト記述と参照視点における2Dバウンディングボックスに基づいて、3Dシーンに新しいオブジェクトを生成する。最近、テキストから画像への拡散モデルの強力な事前知識を3D生成モデリングに活用することで、3Dシーン編集の手法が大きく進化している。既存の手法は、スタイルや外観の変更や既存オブジェクトの削除による3Dシーン編集に有効であるが、新しいオブジェクトの生成は依然として課題となっており、本研究ではこの問題に取り組む。具体的には、3Dオブジェクト挿入をシーンの参照視点における2Dオブジェクト挿入に基づいて行うことを提案する。2D編集は、単一視点オブジェクト再構成手法を用いて3Dに変換される。再構成されたオブジェクトは、単眼深度推定手法の事前知識に基づいてシーンに挿入される。我々は、様々な3Dシーンにおいて本手法を評価し、提案するコンポーネントの詳細な分析を提供する。複数の3Dシーンにおけるオブジェクトの生成的挿入に関する実験結果は、既存手法と比較して本手法の有効性を示している。InseRFは、明示的な3D情報を入力として必要とせず、制御可能で3D整合性のあるオブジェクト挿入を実現する。詳細はプロジェクトページ(https://mohamad-shahbazi.github.io/inserf)を参照されたい。
既存のフォトリアルな再照明可能な手モデルは、異なる視点、ポーズ、照明条件下での特定の個人に基づく大量の観測データを必要とし、自然な照明や新しい個人への一般化において課題に直面しています。このギャップを埋めるため、我々はURHandを提案します。これは、視点、ポーズ、照明、個人を跨いで一般化する初のユニバーサルな再照明可能な手モデルです。本モデルは、スマートフォンで撮影した画像を用いた数ショットでのパーソナライズを可能とし、新しい照明条件下でのフォトリアルなレンダリングを実現します。パーソナライズプロセスを簡素化しつつフォトリアリズムを維持するため、我々は数百の個人の手をライトステージでマルチビュー撮影したデータに基づく強力なユニバーサル再照明可能な事前モデルを構築しました。鍵となる課題は、自然照明下での一般化を損なうことなく、個人ごとの忠実度と鮮明なディテールを維持しつつ、個人を跨いだトレーニングをスケールアップすることです。この目的のために、我々は物理ベースのシェーディングを入力特徴量として取り込む空間的に変化する線形照明モデルをニューラルレンダラーとして提案します。非線形活性化関数とバイアスを除去することで、我々が特別に設計した照明モデルは光輸送の線形性を明示的に保持します。これにより、ライトステージデータからのシングルステージトレーニングが可能となり、多様な個人にわたる任意の連続照明下でのリアルタイムレンダリングへの一般化を実現します。さらに、物理ベースモデルと我々のニューラル再照明モデルの共同学習を導入し、忠実度と一般化をさらに向上させます。大規模な実験により、我々のアプローチが品質と一般化性の両面で既存手法を凌駕する優れた性能を達成することを示します。また、未見の個人の短時間のスマートフォンスキャンからのURHandの迅速なパーソナライズも実証します。
大規模言語モデル(LLM)は強力な対話エージェントですが、特定の機能を果たすように専門化することは難しい場合があります。人間が生成した指示とサンプル応答を用いてモデルをチューニングする「指示チューニング」(Ouyang et al., 2022)は、そのための有効な方法として証明されていますが、a) 利用可能でない場合がある、または b) 生成にコストがかかる大量のデータサンプルを必要とします。さらに、単一の指示ではなく、対話内で特定のワークフローに従わせることを目的とする場合、このコストは増加します。強化学習における自己対戦技術と、LLMを人間エージェントとしてシミュレートする手法に着想を得て、私たちはLLMがさまざまな役割で会話を行うことでデータ収集をより効果的に行う方法を提案します。このアプローチでは、LLMの「自己会話」を通じてトレーニングデータを生成し、それを精緻化して教師ありファインチューニングに利用します。また、対話の(部分的)成功を自動的に測定する方法を導入します。この指標は、生成された会話データをフィルタリングし、LLMのトレーニングにフィードバックするために使用されます。自動評価と人間による評価に基づいて、このような自己会話データが結果を改善することを示します。さらに、生成された対話の質を示すさまざまな特性と、それらがトレーニングデータとしての潜在的な有用性にどのように関連するかを検証します。
Chain of Thought(CoT)は、大規模言語モデル(LLM)の推論能力を向上させる上で重要な役割を果たします。しかし、CoTの有効性とプロンプト内の推論ステップの長さとの相関関係は、依然としてほとんど解明されていません。この問題を明らかにするため、私たちはいくつかの実証実験を行い、その関係を探りました。具体的には、CoTのデモンストレーション内の根拠となる推論ステップを拡張および圧縮する実験を設計し、他のすべての要素を一定に保ちました。その結果、以下の重要な知見が得られました。 第一に、プロンプト内の推論ステップを長くすることは、たとえプロンプトに新しい情報を追加しなくても、複数のデータセットにわたってLLMの推論能力を大幅に向上させることが示されました。逆に、推論ステップを短縮することは、重要な情報を保持していたとしても、モデルの推論能力を著しく低下させました。この発見は、CoTプロンプトにおけるステップ数の重要性を強調し、複雑な問題解決シナリオでLLMの潜在能力をより効果的に活用するための実践的な指針を提供します。 第二に、CoTのパフォーマンスとデモンストレーションで使用される根拠との関係も調査しました。驚くべきことに、結果は、誤った根拠であっても、必要な推論の長さを維持していれば、良好な結果をもたらす可能性があることを示しました。 第三に、推論ステップを増やすことの利点はタスク依存性があることが観察されました。単純なタスクでは少ないステップで済むのに対し、複雑なタスクでは長い推論シーケンスから大きな恩恵を受けることがわかりました。
ビジョン・ランゲージモデルの最近の進歩は、画像とテキストのデータの豊富さに大きく起因しています。私たちは、この成功をビデオ・ランゲージモデルにも再現することを目指していますが、人間がキュレーションしたビデオとテキストのデータが十分に存在しません。そこで、合成された指示データを用いて、強力な画像・ランゲージベースラインからビデオ・ランゲージモデルをファインチューニングすることにしました。その結果得られたビデオ・ランゲージモデルは、数百万のビデオを自動ラベリングし、高品質なキャプションを生成するために使用されます。適応されたビデオ・ランゲージモデルは、幅広いビデオ・ランゲージベンチマークで良好なパフォーマンスを示します。例えば、オープンエンドのNExT-QAにおいて、これまでの最高記録を2.8%上回りました。さらに、私たちのモデルは、以前に見たことのないビデオに対して詳細な説明を生成し、既存の手法よりも優れたテキストの監督を提供します。実験結果によると、これらの自動生成キャプションに対してコントラスティブにトレーニングされたビデオ・ランゲージデュアルエンコーダモデルは、ビジョン・ランゲージモデルを活用した最強のベースラインよりも3.8%優れています。私たちの最良のモデルは、MSR-VTTのゼロショットテキスト・トゥ・ビデオ検索において、最先端の手法を6%上回りました。
インターネット上のコンテンツのうち最大60%が英語で公開されている一方で、世界人口のうち英語話者は18.8%に過ぎず、母語とする人はわずか5.1%に留まっています。この乖離は、オンライン情報へのアクセスにおける格差を生んでいます。残念ながら、ビデオのダビング(ビデオの音声トラックを翻訳版に置き換えること)を自動化するプロセスは、依然として複雑で困難な課題です。これは、正確なタイミング、顔の動きの同期、およびプロソディのマッチングを必要とするパイプラインによるものです。エンドツーエンドのダビングは解決策を提供しますが、データ不足がエンドツーエンドおよびパイプラインベースの手法の進展を妨げています。本研究では、自動ダビング、同時通訳、ガイド付きビデオ要約、ジャンル/テーマ/スタイル分類など、さまざまなビデオ関連タスクをサポートする、日本語と英語の425,000以上のアライメントされたアニメーションビデオセグメントからなる包括的なデータセット「Anim-400K」を紹介します。このデータセットは、研究目的でhttps://github.com/davidmchan/Anim400Kに公開されています。
スコア蒸留サンプリング(Score Distillation Sampling, SDS)は、最近登場したものの既に広く普及している手法であり、テキストプロンプトを用いて最適化問題を制御するために画像拡散モデルを利用します。本論文では、SDSの損失関数について詳細な分析を行い、その定式化に内在する問題を特定し、驚くほど簡単でありながら効果的な修正を提案します。具体的には、損失を異なる要素に分解し、ノイズの多い勾配を生み出す成分を分離します。元の定式化では、ノイズを補うために高いテキストガイダンスが使用され、望ましくない副作用を引き起こしていました。代わりに、画像拡散モデルのタイムステップ依存のノイズ除去の欠陥を模倣する浅いネットワークを訓練し、それを効果的に排除します。我々は、最適化ベースの画像合成と編集、ゼロショット画像変換ネットワークの訓練、テキストから3Dへの合成など、いくつかの定性的および定量的な実験を通じて、新しい損失定式化の汎用性と有効性を実証します。
Transformerベースの大規模言語モデル(LLM)は多くの分野で広く使用されており、LLM推論の効率性は実用化において重要なトピックとなっています。しかし、LLMは通常、モデル構造が複雑で膨大な演算を伴い、自己回帰モードで推論を行うため、高効率なシステム設計は困難な課題です。 本論文では、低レイテンシと高スループットを実現する効率的なLLM推論ソリューションを提案します。まず、LLMデコーダ層を簡素化するため、データ移動と要素単位の演算を融合することでメモリアクセス頻度を低減し、システムレイテンシを削減します。また、セグメントKVキャッシュポリシーを提案し、リクエストとレスポンスのトークンのキー/値を別々の物理メモリに保持することで、デバイスメモリ管理を効率化し、ランタイムバッチサイズの拡大とシステムスループットの向上を図ります。さらに、セグメントKVキャッシュソリューションに基づく融合ポリシーに適合するよう、カスタマイズされたScaled-Dot-Product-Attentionカーネルを設計します。本LLM推論ソリューションをIntel GPU上に実装し、公開しています。標準的なHuggingFace実装と比較して、提案ソリューションはIntel GPU上で一部の主要なLLMにおいて最大7倍のトークンレイテンシ低減と27倍のスループット向上を達成しました。