Articoli di ricerca IA selezionati quotidianamente con traduzioni
Recenti progressi nei modelli linguistici hanno ottenuto significativi avanzamenti. GPT-4o, come nuovo traguardo, ha reso possibili conversazioni in tempo reale con gli esseri umani, dimostrando una fluidità naturale quasi umana. Tale interazione uomo-computer richiede modelli con la capacità di eseguire ragionamenti direttamente con la modalità audio e generare output in streaming. Tuttavia, ciò rimane al di là della portata dei modelli accademici attuali, poiché dipendono tipicamente da sistemi TTS aggiuntivi per la sintesi vocale, con conseguente latenza indesiderata. Questo articolo introduce il Mini-Omni, un modello conversazionale end-to-end basato sull'audio, in grado di interagire in tempo reale con la voce. Per raggiungere questa capacità, proponiamo un metodo di generazione vocale istruita dal testo, insieme a strategie batch-parallelo durante l'inferenza per potenziare ulteriormente le prestazioni. Il nostro metodo aiuta anche a mantenere le capacità linguistiche originali del modello con una degradazione minima, consentendo ad altri lavori di stabilire capacità di interazione in tempo reale. Chiamiamo questo metodo di addestramento "Any Model Can Talk". Introduciamo inoltre il dataset VoiceAssistant-400K per ottimizzare i modelli per l'output vocale. A quanto sappiamo, Mini-Omni è il primo modello completamente end-to-end open-source per l'interazione vocale in tempo reale, offrendo un potenziale valore per la ricerca futura.
I modelli fondamentali sono emersi come un approccio promettente nella previsione delle serie temporali (TSF). Gli approcci esistenti consistono nel raffinare i grandi modelli linguistici (LLM) o nel costruire set di dati su larga scala di serie temporali per sviluppare modelli fondamentali di TSF. Tuttavia, questi metodi affrontano sfide a causa del grave divario tra domini o dell'eterogeneità all'interno del dominio. In questo articolo, esploriamo una nuova strada per costruire un modello fondamentale di TSF da immagini naturali ricche e di alta qualità, basata sulle similitudini intrinseche tra immagini e serie temporali. Per colmare il divario tra i due domini, riformuliamo il compito di TSF come un compito di ricostruzione di immagini, che viene ulteriormente elaborato da un autoencoder visivo mascherato (MAE) preaddestrato in modo auto-supervisionato sul dataset ImageNet. Sorprendentemente, senza ulteriore adattamento nel dominio delle serie temporali, il VisionTS proposto potrebbe raggiungere prestazioni di previsione superiori a zero rispetto ai modelli fondamentali di TSF esistenti. Con una minima messa a punto, VisionTS potrebbe migliorare ulteriormente la previsione e raggiungere prestazioni all'avanguardia nella maggior parte dei casi. Questi risultati suggeriscono che i modelli visivi potrebbero rappresentare un vantaggio per la TSF e mettono in evidenza il potenziale per futura ricerca inter-dominio tra computer vision e TSF. Il nostro codice è disponibile pubblicamente su https://github.com/Keytoyze/VisionTS.