翻訳付きの日次キュレーションされたAI研究論文
深層生成モデルの進展に伴い、音楽生成への関心が高まっています。しかし、テキスト記述に基づく音楽生成、いわゆるテキストtoミュージックは、音楽構造の複雑さと高いサンプリングレートの要件から、依然として困難な課題です。このタスクの重要性にもかかわらず、既存の生成モデルは音楽の品質、計算効率、汎化性能において制約があります。本論文では、テキストtoミュージック生成のための汎用的な高忠実度モデルであるJEN-1を紹介します。JEN-1は、自己回帰型と非自己回帰型のトレーニングを組み合わせた拡散モデルです。インコンテキスト学習を通じて、JEN-1はテキストガイドによる音楽生成、音楽インペインティング、継続など、さまざまな生成タスクを実行します。評価結果は、JEN-1がテキストと音楽の整合性および音楽品質において最先端の手法を上回り、計算効率を維持していることを示しています。デモはhttp://futureverse.com/research/jen/demos/jen1でご覧いただけます。
大規模言語モデルが進化するにつれ、これらのモデルの能力を活用して自身の出力を改善する技術への関心が高まっています。本研究では、Shepherdという、応答を批評し改善案を提案するために特別に調整された言語モデルを紹介します。Shepherdは、未調整のモデルでは識別が難しい多様なエラーを特定し、それらを改善するための提案を行う能力を拡張しています。我々のアプローチの中核となるのは、コミュニティからのフィードバックと人間による注釈からキュレートされた高品質なフィードバックデータセットです。Shepherdは小規模(7Bパラメータ)であるにもかかわらず、その批評はChatGPTを含む既存のモデルと同等かそれ以上に評価されています。GPT-4を用いた評価では、Shepherdは競合する代替モデルに対して平均53-87%の勝率を達成しています。人間による評価では、Shepherdは他のモデルを明確に上回り、平均的にChatGPTとほぼ同等の性能を示しています。
大規模言語モデル(LLM)の最近の進展は、その多様な能力を示しています。本論文では、小規模バッチのオンデバイスシナリオにおけるLLM推論を加速するための新しいアルゴリズム、段階的投機的デコードを提案します。小規模バッチ推論の低い演算密度に対処するため、従来の投機的デコードの研究を改善します。まず、投機的バッチをツリー構造に再構築し、生成コストを削減し、バッチあたりの期待トークン数を増加させます。次に、第二段階の投機的デコードを追加します。これらの改善を組み合わせることで、762MパラメータのGPT-2-Lモデルにおいて、単一バッチのデコードレイテンシを3.16倍削減しつつ、出力品質を完全に維持することに成功しました。
3D物体検出における偽陰性(FN)、例えば歩行者、車両、その他の障害物の検出漏れは、自動運転において潜在的に危険な状況を引き起こす可能性があります。この問題は致命的であるにもかかわらず、多くの現在の3D検出手法では十分に研究されていません。本研究では、Hard Instance Probing(HIP)を提案します。これは、FNを多段階的に特定し、モデルが難しいインスタンスを掘り下げることに集中するよう導く一般的なパイプラインです。3D物体検出において、この手法をFocalFormer3Dとして具体化しました。これは、難しい物体を掘り下げ、予測の再現率を向上させることに優れた、シンプルでありながら効果的な検出器です。FocalFormer3Dは、難しい物体を発見するための多段階クエリ生成と、大量の物体候補から効率的に物体を識別するためのボックスレベルトランスフォーマーデコーダを特徴としています。nuScenesおよびWaymoデータセットでの実験結果は、FocalFormer3Dの優れた性能を裏付けています。この利点により、LiDARおよびマルチモーダル設定の両方において、検出と追跡の両方で強力な性能を発揮します。特に、FocalFormer3DはnuScenes検出ベンチマークで70.5 mAPおよび73.9 NDSを達成し、nuScenes追跡ベンチマークでは72.1 AMOTAを記録し、いずれもnuScenes LiDARリーダーボードで1位を獲得しました。私たちのコードはhttps://github.com/NVlabs/FocalFormer3Dで公開されています。