Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в области языковых моделей привели к значительному прогрессу. GPT-4o, как новый веха, позволил проводить разговоры в реальном времени с людьми, демонстрируя близкую к человеческой естественную беглость. Такое взаимодействие человека с компьютером требует моделей с возможностью выполнять рассуждения непосредственно с аудио-модальностью и генерировать вывод в потоке. Однако это остается вне досягаемости текущих академических моделей, поскольку они обычно зависят от дополнительных систем синтеза речи для речевого синтеза, что приводит к нежелательной задержке. В данной статье представлен Mini-Omni, аудио-ориентированная конверсационная модель end-to-end, способная к взаимодействию в реальном времени. Для достижения этой возможности мы предлагаем метод генерации речи по текстовой инструкции, а также стратегии параллельной обработки пакетов во время вывода для дальнейшего увеличения производительности. Наш метод также помогает сохранить языковые возможности исходной модели с минимальным ухудшением, что позволяет другим работам устанавливать возможности взаимодействия в реальном времени. Мы называем этот метод обучения "Любая Модель Может Говорить". Мы также представляем набор данных VoiceAssistant-400K для донастройки моделей, оптимизированных для речевого вывода. На нашем лучшем понимании, Mini-Omni является первой полностью end-to-end, открытой моделью для взаимодействия в реальном времени с речью, предлагающей ценный потенциал для будущих исследований.
Фундаментальные модели стали перспективным подходом в прогнозировании временных рядов (TSF). Существующие подходы либо донастраивают большие языковые модели (LLM), либо создают масштабные наборы данных временных рядов для разработки фундаментальных моделей TSF. Однако эти методы сталкиваются с вызовами из-за серьезного междоменного разрыва или гетерогенности внутри домена. В данной статье мы исследуем новый путь к созданию фундаментальной модели TSF из богатых и высококачественных естественных изображений, основанный на внутренних сходствах между изображениями и временными рядами. Для преодоления разрыва между двумя доменами мы переформулируем задачу TSF как задачу восстановления изображения, которая затем обрабатывается визуальным маскированным автоэнкодером (MAE), предварительно обученным на наборе данных ImageNet. Удивительно, без дополнительной адаптации в домене временных рядов предложенная VisionTS смогла достичь превосходной производительности прогнозирования с нулевой настройкой по сравнению с существующими фундаментальными моделями TSF. С минимальной донастройкой VisionTS могла дополнительно улучшить прогнозирование и достичь передовой производительности в большинстве случаев. Эти результаты подтверждают, что визуальные модели могут быть "бесплатным обедом" для TSF и подчеркивают потенциал для будущих исследований между доменами компьютерного зрения и TSF. Наш код общедоступен по адресу https://github.com/Keytoyze/VisionTS.