ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

1

ミニオムニ:言語モデルは、ストリーミング中に聞き、話しながら考えることができる
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Aug 29
ByZhifei Xie, Changqiao Wu
52
6

言語モデルの最近の進歩により、大きな進歩が達成されました。 新たな里程碑であるGPT-4oは、人間とのリアルタイム会話を可能にし、 ほぼ人間に匹敵する自然な流暢さを示しました。このような人間とコンピュータの相互作用には、 音声モダリティで直接推論を行い、ストリーミングで出力を生成する能力を持つモデルが必要とされます。 しかし、これは現在の学術モデルの到達範囲を超えており、通常は音声合成のために追加のTTSシステムに依存しているため、望ましくない遅延が生じています。本論文では、オーディオベースのエンドツーエンド会話モデルであるMini-Omniを紹介し、リアルタイム音声インタラクションが可能です。この能力を達成するために、テキスト指示音声生成方法を提案し、推論時にはバッチ並列戦略を採用してパフォーマンスをさらに向上させます。また、当社の手法は、他の研究がリアルタイムインタラクション機能を確立するのに役立ち、元のモデルの言語能力を最小限に低下させることなく維持するのにも役立ちます。このトレーニング手法を「Any Model Can Talk」と呼びます。また、音声出力に最適化されたモデルを微調整するためのVoiceAssistant-400Kデータセットを紹介します。Mini-Omniは、リアルタイム音声インタラクションのための最初の完全なエンドツーエンド、オープンソースモデルであり、将来の研究に貴重な可能性を提供しています。

2

VisionTS: ビジュアルマスク付きオートエンコーダーは、フリーランチのゼロショット時系列予測器です。
VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

Aug 30
ByMouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu
39
2

ファウンデーションモデルは、時系列予測(TSF)における有望なアプローチとして登場しています。既存の手法は、大規模言語モデル(LLMs)を微調整するか、大規模な時系列データセットを構築してTSFファウンデーションモデルを開発しています。しかしながら、これらの手法は、厳しいクロスドメインのギャップやドメイン内の異質性による課題に直面しています。本論文では、画像と時系列の間の本質的な類似性に基づいて、豊富で高品質な自然画像からTSFファウンデーションモデルを構築する新たなアプローチを探求します。両ドメイン間のギャップを埋めるために、TSFタスクを画像再構成タスクとして再定義し、さらにImageNetデータセットで事前学習された視覚マスク付きオートエンコーダ(MAE)によって処理されます。驚くべきことに、時系列ドメインでのさらなる適応なしに、提案されたVisionTSは、既存のTSFファウンデーションモデルと比較して優れたゼロショット予測性能を達成することができました。最小限の微調整により、VisionTSは予測をさらに改善し、ほとんどの場合で最先端の性能を達成することができました。これらの結果は、視覚モデルがTSFにとって無料の昼食である可能性を示唆し、コンピュータビジョンとTSFの間の将来のクロスドメイン研究の可能性を強調しています。当該コードは、https://github.com/Keytoyze/VisionTS で公開されています。

Sep 2
Sep 3
Sep 4