翻訳付きの日次キュレーションされたAI研究論文
最後の一行のコードしか変更できない開発者を想像してみてください。そのような状況では、関数が正しく動作するまでに何度も最初から書き直さなければならないでしょう。自然言語からコードを生成する自己回帰モデルも同様の制約を抱えています。つまり、生成された初期のトークンを容易に見直すことができないのです。私たちはこの制約を解決するため、CodeFusionという事前学習済み拡散コード生成モデルを提案します。CodeFusionは、エンコードされた自然言語を条件として、完全なプログラムを反復的にノイズ除去することでこの問題に対処します。私たちはCodeFusionを、Bash、Python、Microsoft Excelの条件付き書式(CF)ルールに対する自然言語からコードへの生成タスクで評価しました。実験の結果、CodeFusion(7500万パラメータ)は、トップ1精度において最先端の自己回帰システム(3億5000万~1750億パラメータ)と同等の性能を発揮し、多様性と品質のバランスが優れているため、トップ3およびトップ5精度ではそれらを上回りました。
本論文では、大規模言語モデル(LLM)の効率的な訓練のためのFP8低ビットデータフォーマットを探求します。我々の重要な洞察は、LLM訓練における勾配やオプティマイザ状態などのほとんどの変数が、モデルの精度を損なうことなく、ハイパーパラメータの変更を必要とせずに低精度データフォーマットを採用できるという点です。具体的には、LLM訓練のための新しいFP8自動混合精度フレームワークを提案します。このフレームワークは、LLMの混合精度および分散並列訓練を効率化するために、3つのレベルのFP8活用を提供します。これにより、8ビット勾配、オプティマイザ状態、および分散学習を段階的に組み込んでいきます。実験結果では、H100 GPUプラットフォーム上でのGPT-175Bモデルの訓練中に、我々のFP8混合精度訓練フレームワークが、実メモリ使用量を42%削減し、広く採用されているBF16フレームワーク(Megatron-LM)よりも64%高速に動作し、Nvidia Transformer Engineの速度を17%上回りました。これにより、大規模基盤モデルの訓練コストが大幅に削減されます。さらに、我々のFP8混合精度訓練手法は汎用的であり、LLMの指示チューニングや人間のフィードバックを用いた強化学習などの他のタスクにもシームレスに適用でき、ファインチューニングの費用を節約できます。我々のFP8低精度訓練フレームワークは、{https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}でオープンソースとして公開されています。
本論文では、大規模言語モデル(LLM)が複雑な現実世界のタスクを解決するためにマルチモーダルツールを活用できる新しいフレームワーク「ControlLLM」を提案します。LLMの優れた性能にもかかわらず、曖昧なユーザープロンプト、不正確なツール選択とパラメータ設定、非効率なツールスケジューリングにより、ツールの呼び出しには依然として課題があります。これらの課題を克服するため、本フレームワークは以下の3つの主要コンポーネントで構成されています:(1)複雑なタスクを明確な入力と出力を持つサブタスクに分解するタスク分解器、(2)事前に構築されたツールグラフ上で最適な解決パスを探索するThoughts-on-Graph(ToG)パラダイム(このグラフは異なるツール間のパラメータと依存関係を指定)、(3)解決パスを解釈し、異なる計算デバイス上でツールを効率的に実行する豊富なツールボックスを備えた実行エンジン。本フレームワークを画像、音声、ビデオ処理を含む多様なタスクで評価し、既存の手法と比較して優れた精度、効率性、汎用性を実証しました。
オンデバイス学習と効率的なファインチューニングにより、継続的でプライバシー保護されたカスタマイズ(例:個人データを用いた大規模言語モデルのローカルファインチューニング)が可能となります。しかし、既存のトレーニングフレームワークは、強力なアクセラレータ(例:GPU、TPU)を備えたクラウドサーバー向けに設計されており、リソース制約やエッジハードウェアの多様性といった課題に直面するエッジでの学習に最適化されていません。本論文では、PockEngineを紹介します。これは、様々なエッジデバイスでのファインチューニングを可能にする、小さく、スパースで効率的なエンジンです。PockEngineはスパースなバックプロパゲーションをサポートします。これにより、後方グラフをプルーニングし、モデル品質を維持しながら、メモリ節約とレイテンシ削減を実現します。次に、PockEngineはコンパイルファーストです。トレーニンググラフ全体(前方、後方、最適化ステップを含む)がコンパイル時に導出されるため、ランタイムオーバーヘッドが削減され、グラフ変換の機会がもたらされます。PockEngineはまた、豊富なトレーニンググラフ最適化を統合しており、オペレータの並べ替えやバックエンドの切り替えを含むトレーニングコストをさらに加速します。PockEngineは多様なアプリケーション、フロントエンド、ハードウェアバックエンドをサポートします。PyTorch/TensorFlow/Jaxで定義されたモデルを柔軟にコンパイルし、モバイルCPU/GPU/DSPにバイナリを展開します。我々は、PockEngineをビジョンモデルと大規模言語モデルの両方で評価しました。PockEngineは、既存のTensorFlow(Raspberry Pi)に対して最大15倍の高速化、Jetson AGX Orinでのバックプロパゲーションにおいて5.6倍のメモリ節約を達成しました。特に、PockEngineはNVIDIA Jetson AGX Orin上でLLaMav2-7Bのファインチューニングを550トークン/秒で可能にし、PyTorchよりも7.9倍高速でした。
大規模言語モデル(LLM)は自然言語タスクにおいて有望であるが、金融のような複雑な領域に直接適用する際には困難を抱えている。LLMは関連する情報を推論し統合するのに苦労する。我々は、LLMが金融タスクをより適切に処理できるようにするためのデータ中心のアプローチを提案する。重要な洞察は、LLMに一度にすべてを詰め込むのではなく、データを前処理し事前に理解することがより効果的であるという点だ。我々は、マルチタスクプロンプトベースのファインチューニングを用いてデータの前処理と事前理解を実現する金融LLM(FLLM)を作成した。しかし、各タスクに対するラベル付きデータは不足している。手動アノテーションのコストを克服するため、FLLMの出力から得られた疑似ラベルを修正することでトレーニングデータを自動生成する帰納的拡張推論(AAR)を採用した。実験結果は、AARを組み込んだデータ中心のFLLMが、生のテキスト用に設計されたベースラインの金融LLMを大幅に上回り、金融分析および解釈タスクにおいて最先端の性能を達成することを示している。また、金融分析および解釈のための新しいベンチマークをオープンソースとして公開した。我々の方法論は、複雑な現実世界の領域におけるLLMの可能性を引き出すための有望な道筋を提供する。
大規模言語モデル(LLM)および関連する製品やサービスにおける責任あるAI(RAI)指標の自動計測のためのフレームワークを提案する。LLMから生じる危害を自動的に計測する本フレームワークは、既存の技術的および社会技術的専門知識を基盤とし、GPT-4のような最先端のLLMの能力を活用する。このフレームワークを用いて、さまざまなLLMがRAI関連の原則にどのように違反するかを調査する複数のケーススタディを実施した。本フレームワークは、将来新たな危害領域の計測を作成するために、ドメイン固有の社会技術的専門知識と併用することが可能である。このフレームワークを実装することで、より高度な危害計測の取り組みを可能にし、LLMの責任ある使用を推進することを目指す。
本論文では、実世界のシーンにおける単一画像からの新視点合成のための3D-aware拡散モデル「ZeroNVS」を提案する。既存手法はマスクされた背景を持つ単一物体を対象としているが、我々は複雑な背景を伴う実世界の多物体シーンがもたらす課題に対処する新たな技術を考案した。具体的には、物体中心、屋内、屋外シーンを網羅する複数のデータソースを用いて生成事前分布を学習する。データ混合による深度スケールの曖昧さといった問題に対処するため、新たなカメラ条件付けパラメータ化と正規化スキームを提案する。さらに、360度シーンの蒸留においてScore Distillation Sampling(SDS)が複雑な背景の分布を切り詰める傾向にあることを観察し、合成される新視点の多様性を向上させる「SDSアンカリング」を導入する。本モデルは、DTUデータセットにおけるゼロショット設定でのLPIPSにおいて新たなstate-of-the-artを達成し、DTUで特別に訓練された手法をも上回る性能を示す。さらに、単一画像からの新視点合成の新たなベンチマークとして挑戦的なMip-NeRF 360データセットを適応し、この設定においても優れた性能を実証する。コードとデータはhttp://kylesargent.github.io/zeronvs/で公開されている。
ニューラルラジアンスフィールド(NeRF)は、複雑なシーンの高品質な新視点合成を実現する強力な3D表現として証明されています。NeRFはグラフィックス、ビジョン、ロボティクスに応用されていますが、レンダリング速度の遅さや特徴的な視覚的アーティファクトの問題により、多くのユースケースでの採用が妨げられています。本研究では、オートエンコーダ(AE)とNeRFを組み合わせることを検討し、色ではなく潜在特徴をレンダリングし、その後畳み込みデコードする手法を提案します。その結果得られる潜在空間NeRFは、標準的な色空間NeRFよりも高品質な新視点を生成でき、AEが特定の視覚的アーティファクトを補正する一方で、レンダリング速度が3倍以上高速化されます。我々の手法は、NeRFの効率を改善する他の技術と直交しています。さらに、AEアーキテクチャを縮小することで効率と画質のトレードオフを制御でき、性能のわずかな低下で13倍以上の高速レンダリングを実現します。我々のアプローチが、特に連続学習を必要とする多くのロボティクスシナリオのように、微分可能性を保持することが有用な場合に、下流タスクのための効率的かつ高忠実度な3Dシーン表現の基盤となることを期待しています。
大規模言語モデル(LLM)が、具現化された視覚タスクに対する汎用的なポリシーとして適応可能であることを示します。本手法「Large LAnguage model Reinforcement Learning Policy(LLaRP)」は、事前学習済みの凍結されたLLMを適応させ、テキスト指示と視覚的なエゴセントリック観察を入力として受け取り、環境内で直接行動を出力します。強化学習を用いて、LLaRPは環境との相互作用のみを通じて「見て行動する」ように訓練されます。LLaRPは、タスク指示の複雑な言い換えに対して頑健であり、新たな最適行動を必要とする新しいタスクに一般化できることを示します。特に、1,000の未見タスクにおいて42%の成功率を達成し、これは他の一般的な学習ベースラインやLLMのゼロショット適用の成功率の1.7倍に相当します。最後に、言語条件付きの大規模マルチタスク具現化AI問題の研究を支援するため、150,000の訓練タスクと1,000のテストタスクからなる新たなベンチマーク「Language Rearrangement」を公開します。未見のLanguage Rearrangement指示におけるLLaRPの動作例はhttps://llm-rl.github.ioでご覧いただけます。
大規模言語モデルは、インターネットから収集された膨大な量のテキストデータで訓練されます。このデータには、世界に関する事実と誤った情報の両方が含まれています。言語モデルは、この矛盾したデータの中で真実と虚偽を見分けることができるのでしょうか?言語モデルがコーパスを生成する異なるエージェントをモデル化できるという見解を拡張し、私たちは言語モデルが「真実を語るペルソナ」をモデル化することで、真実のテキストをクラスタリングできると仮説を立てました。このペルソナとは、真実のテキストを生成する可能性が高く、類似した特徴を共有するエージェントのグループです。例えば、WikipediaやScienceなどの信頼できる情報源は、通常フォーマルな文体を使用し、一貫した主張を行います。このペルソナをモデル化することで、言語モデルは、各エージェントが訓練テキストを生成した特定の文脈を超えて、真実性を一般化することができます。例えば、モデルは「Wikipedia」というエージェントが「Science」によってのみ生成されたトピックについても真実を語るように振る舞うと推論できます。なぜなら、それらは同じペルソナを共有しているからです。私たちはまず、次の2つの観察を通じてペルソナ仮説の証拠を示します:(1)モデルの回答が真実であるかどうかを、生成される前に探ることができる;(2)モデルを一連の事実でファインチューニングすると、未見のトピックに対する真実性が向上する。次に、算術を合成環境として使用し、言語モデルが真と偽の文を分離し、エージェント間で真実性を一般化できることを示します。ただし、これは訓練データ内のエージェントが真実の生成プロセスを共有し、真実のペルソナを作成できる場合に限ります。全体として、私たちの研究結果は、モデルがデータ内の階層構造を利用して、真実性のような抽象的な概念を学習できることを示唆しています。