翻訳付きの日次キュレーションされたAI研究論文
言語モデルの最近の進歩により、大きな進歩が達成されました。 新たな里程碑であるGPT-4oは、人間とのリアルタイム会話を可能にし、 ほぼ人間に匹敵する自然な流暢さを示しました。このような人間とコンピュータの相互作用には、 音声モダリティで直接推論を行い、ストリーミングで出力を生成する能力を持つモデルが必要とされます。 しかし、これは現在の学術モデルの到達範囲を超えており、通常は音声合成のために追加のTTSシステムに依存しているため、望ましくない遅延が生じています。本論文では、オーディオベースのエンドツーエンド会話モデルであるMini-Omniを紹介し、リアルタイム音声インタラクションが可能です。この能力を達成するために、テキスト指示音声生成方法を提案し、推論時にはバッチ並列戦略を採用してパフォーマンスをさらに向上させます。また、当社の手法は、他の研究がリアルタイムインタラクション機能を確立するのに役立ち、元のモデルの言語能力を最小限に低下させることなく維持するのにも役立ちます。このトレーニング手法を「Any Model Can Talk」と呼びます。また、音声出力に最適化されたモデルを微調整するためのVoiceAssistant-400Kデータセットを紹介します。Mini-Omniは、リアルタイム音声インタラクションのための最初の完全なエンドツーエンド、オープンソースモデルであり、将来の研究に貴重な可能性を提供しています。
ファウンデーションモデルは、時系列予測(TSF)における有望なアプローチとして登場しています。既存の手法は、大規模言語モデル(LLMs)を微調整するか、大規模な時系列データセットを構築してTSFファウンデーションモデルを開発しています。しかしながら、これらの手法は、厳しいクロスドメインのギャップやドメイン内の異質性による課題に直面しています。本論文では、画像と時系列の間の本質的な類似性に基づいて、豊富で高品質な自然画像からTSFファウンデーションモデルを構築する新たなアプローチを探求します。両ドメイン間のギャップを埋めるために、TSFタスクを画像再構成タスクとして再定義し、さらにImageNetデータセットで事前学習された視覚マスク付きオートエンコーダ(MAE)によって処理されます。驚くべきことに、時系列ドメインでのさらなる適応なしに、提案されたVisionTSは、既存のTSFファウンデーションモデルと比較して優れたゼロショット予測性能を達成することができました。最小限の微調整により、VisionTSは予測をさらに改善し、ほとんどの場合で最先端の性能を達成することができました。これらの結果は、視覚モデルがTSFにとって無料の昼食である可能性を示唆し、コンピュータビジョンとTSFの間の将来のクロスドメイン研究の可能性を強調しています。当該コードは、https://github.com/Keytoyze/VisionTS で公開されています。