번역이 포함된 일일 선별된 AI 연구 논문
언어 모델의 최근 발전은 상당한 진전을 이루었습니다. GPT-4o는 새로운 이정표로서 실시간 대화를 통해 인간들과의 자연스러운 유창성을 보여주며 중요한 발전을 이루었습니다. 이러한 인간-컴퓨터 상호작용은 음성 모드에서 직접 추론을 수행하고 스트리밍 출력을 생성할 수 있는 능력을 갖춘 모델이 필요합니다. 그러나 현재의 학술적 모델은 일반적으로 음성 합성을 위해 추가 TTS 시스템에 의존하므로 원치 않는 지연이 발생합니다. 본 논문에서는 실시간 음성 상호작용이 가능한 오디오 기반 엔드 투 엔드 대화 모델인 Mini-Omni을 소개합니다. 이 능력을 달성하기 위해 우리는 텍스트 지시 음성 생성 방법을 제안하며 추론 중 배치-병렬 전략을 통해 성능을 더욱 향상시킵니다. 우리의 방법은 또한 최소한의 저하로 원래 모델의 언어 능력을 유지하고 다른 작업이 실시간 상호작용 능력을 확립할 수 있도록 돕습니다. 이 교육 방법을 "Any Model Can Talk"이라고 부릅니다. 또한 음성 출력에 최적화된 모델을 세밀하게 조정하기 위한 VoiceAssistant-400K 데이터셋을 소개합니다. 우리의 최고 지식으로, Mini-Omni은 미래 연구에 유용한 잠재력을 제공하는 실시간 음성 상호작용을 위한 최초의 완전한 엔드 투 엔드, 오픈 소스 모델입니다.
기초 모델은 시계열 예측(TSF)에서 유망한 접근 방식으로 등장했습니다. 기존 접근법은 대규모 언어 모델(LLMs)을 세밀하게 조정하거나 대규모 시계열 데이터셋을 구축하여 TSF 기초 모델을 개발합니다. 그러나 이러한 방법은 심한 교차 도메인 간격 또는 도메인 내 이질성으로 인한 어려움에 직면합니다. 본 논문에서는 이미지와 시계열 간의 본질적 유사성을 기반으로 풍부하고 고품질의 자연 이미지에서 TSF 기초 모델을 구축하는 새로운 방법을 탐구합니다. 두 도메인 간 간극을 좁히기 위해 TSF 작업을 이미지 재구성 작업으로 재정의하고, ImageNet 데이터셋에서 사전 학습된 시각 마스크 자기 지도 오토인코더(MAE)에 의해 추가 처리됩니다. 놀랍게도, 시계열 도메인에서 추가적인 조정 없이 제안된 VisionTS는 기존 TSF 기초 모델보다 우수한 제로샷 예측 성능을 달성할 수 있었습니다. 최소한의 세밀한 조정으로 VisionTS는 예측을 개선하고 대부분의 경우 최첨단 성능을 달성할 수 있었습니다. 이러한 결과는 시각 모델이 TSF에 대한 무료 점심이 될 수 있으며, 컴퓨터 비전과 TSF 간의 미래 교차 도메인 연구의 잠재력을 강조합니다. 저희의 코드는 https://github.com/Keytoyze/VisionTS에서 공개되어 있습니다.