Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in taalmodellen hebben aanzienlijke vooruitgang geboekt. GPT-4o, als een nieuwe mijlpaal, heeft realtime gesprekken met mensen mogelijk gemaakt, waarbij het bijna menselijke natuurlijke vlotheid demonstreert. Dergelijke mens-computerinteractie vereist modellen met de mogelijkheid om direct redenering uit te voeren met de audiomodus en uitvoer in realtime te genereren. Dit blijft echter buiten het bereik van huidige academische modellen, aangezien deze doorgaans afhankelijk zijn van extra TTS-systemen voor spraaksynthese, wat resulteert in ongewenste latentie. Dit artikel introduceert Mini-Omni, een op audio gebaseerd end-to-end conversatiemodel, in staat tot realtime spraakinteractie. Om deze mogelijkheid te bereiken, stellen we een tekst-geïnstrueerde spraakgeneratiemethode voor, samen met batch-parallelle strategieën tijdens de inferentie om de prestaties verder te verbeteren. Onze methode helpt ook om de taalvaardigheden van het oorspronkelijke model te behouden met minimale achteruitgang, waardoor andere werken realtime interactiecapaciteiten kunnen ontwikkelen. We noemen deze trainingsmethode "Any Model Can Talk". We introduceren ook het VoiceAssistant-400K-dataset om modellen te fine-tunen die zijn geoptimaliseerd voor spraakuitvoer. Voor zover wij weten, is Mini-Omni het eerste volledig end-to-end, open-source model voor realtime spraakinteractie, dat waardevol potentieel biedt voor toekomstig onderzoek.
Foundation models zijn naar voren gekomen als een veelbelovende aanpak in tijdreeksvoorspelling (TSF). Bestaande methoden passen ofwel grote taalmmodellen (LLMs) aan of bouwen grootschalige tijdreeksdatasets om TSF-foundationmodellen te ontwikkelen. Deze methoden worden echter geconfronteerd met uitdagingen vanwege de grote kloof tussen domeinen of de heterogeniteit binnen een domein. In dit artikel verkennen we een nieuwe weg om een TSF-foundationmodel te bouwen vanuit rijke en hoogwaardige natuurlijke afbeeldingen, gebaseerd op de intrinsieke overeenkomsten tussen afbeeldingen en tijdreeksen. Om de kloof tussen de twee domeinen te overbruggen, herformuleren we de TSF-taak als een beeldreconstructietaak, die vervolgens wordt verwerkt door een visuele masked autoencoder (MAE) die zelfvoorzienend is voorgetraind op de ImageNet-dataset. Verrassend genoeg kan de voorgestelde VisionTS, zonder verdere aanpassing in het tijdreeksdomein, superieure zero-shot voorspellingsprestaties behalen in vergelijking met bestaande TSF-foundationmodellen. Met minimale fine-tuning kan VisionTS de voorspelling verder verbeteren en in de meeste gevallen state-of-the-art prestaties bereiken. Deze bevindingen suggereren dat visuele modellen een 'gratis lunch' kunnen zijn voor TSF en benadrukken het potentieel voor toekomstig cross-domeinonderzoek tussen computervisie en TSF. Onze code is openbaar beschikbaar op https://github.com/Keytoyze/VisionTS.