翻訳付きの日次キュレーションされたAI研究論文
オーディオブックは文学作品のアクセシビリティを劇的に向上させ、読者の関与を高めることができます。しかし、オーディオブックの作成、編集、公開には数百時間もの人的労力がかかります。本論文では、オンラインの電子書籍から高品質なオーディオブックを自動生成するシステムを提案します。特に、ニューラルテキスト読み上げ技術の最新の進展を活用し、プロジェクト・グーテンベルクの電子書籍コレクションから数千冊の人間レベルの品質を持つオープンライセンスのオーディオブックを作成・公開しました。私たちの手法は、多様な構造を持つ書籍の適切なサブセットを識別し、数百冊の書籍を並行して処理することができます。また、ユーザーがオーディオブックの話す速度やスタイル、感情的なイントネーションをカスタマイズできるだけでなく、少量のサンプル音声を使用して希望の声に合わせることも可能です。この研究は、5000冊以上のオープンライセンスのオーディオブックと、ユーザーが迅速にカスタマイズされたオーディオブックを作成できるインタラクティブなデモを提供しました。オーディオブックコレクションを聴くには、https://aka.ms/audiobook をご覧ください。
スパースなMixture-of-Expertsモデル(MoE)は、入力トークンごとにモデルパラメータの小さなサブセットのみを活性化することで、モデルサイズと推論効率を切り離す能力から、最近注目を集めています。そのため、スパースMoEは前例のないスケーラビリティを実現し、自然言語処理やコンピュータビジョンなどの分野で大きな成功を収めています。本研究では、スパースMoEを活用してVision Transformers(ViTs)をスケールダウンし、リソースに制約のあるビジョンアプリケーションにとってより魅力的なものにすることを探求します。この目的のために、個々のパッチではなく画像全体をエキスパートにルーティングする、簡素化されモバイルフレンドリーなMoE設計を提案します。また、ルーターをガイドするためにスーパークラス情報を使用する、安定したMoEトレーニング手順を提案します。私たちのスパースなMobile Vision MoE(V-MoE)が、対応する密なViTよりも性能と効率の間でより良いトレードオフを達成できることを実証的に示します。例えば、ViT-Tinyモデルでは、私たちのMobile V-MoEはImageNet-1kで密な対応モデルを3.39%上回ります。わずか54M FLOPsの推論コストを持つさらに小さなViTバリアントでは、私たちのMoEは4.66%の改善を達成します。
本論文では、高精細な3Dアバターのキャプチャと再構築のための新しいフレームワーク、Tracking-free Relightable Avatar(TRAvatar)を提案する。従来の手法と比較して、TRAvatarはより実用的で効率的な設定で動作する。具体的には、TRAvatarはライトステージで様々な照明条件下でキャプチャされた動画シーケンスを用いて学習され、多様なシーンでのリアルなリライティングとリアルタイムアニメーションを可能にする。さらに、TRAvatarはトラッキング不要のアバターキャプチャを可能とし、照明条件の変化下での正確な表面トラッキングの必要性を排除する。我々の貢献は二つある。第一に、照明の線形性を明示的に構築し保証する新しいネットワークアーキテクチャを提案する。単純なグループライトキャプチャで学習されたTRAvatarは、単一のフォワードパスでリアルタイムに外観を予測し、任意の環境マップ下での高品質なリライティング効果を達成する。第二に、画像シーケンスに基づいて顔の形状とリライタブルな外観をゼロから共同最適化し、トラッキングを暗黙的に学習する。このトラッキング不要のアプローチは、異なる照明条件下でのフレーム間の時間的対応関係を確立するための堅牢性をもたらす。広範な定性的および定量的な実験により、我々のフレームワークがフォトリアルなアバターアニメーションとリライティングにおいて優れた性能を達成することが実証された。