Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récentes avancées dans les modèles de langage ont permis des progrès significatifs. GPT-4o, en tant que nouveau jalon, a permis des conversations en temps réel avec des humains, démontrant une fluidité naturelle proche de celle des humains. Une telle interaction homme-machine nécessite des modèles capables de raisonner directement avec la modalité audio et de générer des sorties en continu. Cependant, cela reste hors de portée des modèles académiques actuels, car ils dépendent généralement de systèmes TTS supplémentaires pour la synthèse vocale, entraînant une latence indésirable. Cet article présente le Mini-Omni, un modèle conversationnel audio de bout en bout, capable d'interaction vocale en temps réel. Pour atteindre cette capacité, nous proposons une méthode de génération de discours guidée par le texte, ainsi que des stratégies de parallélisme de lots lors de l'inférence pour améliorer encore les performances. Notre méthode aide également à conserver les capacités linguistiques du modèle original avec une dégradation minimale, permettant à d'autres travaux d'établir des capacités d'interaction en temps réel. Nous appelons cette méthode d'entraînement "Any Model Can Talk". Nous introduisons également l'ensemble de données VoiceAssistant-400K pour affiner les modèles optimisés pour la sortie vocale. À notre connaissance, Mini-Omni est le premier modèle entièrement open source de bout en bout pour l'interaction vocale en temps réel, offrant un potentiel précieux pour la recherche future.
Les modèles fondamentaux ont émergé comme une approche prometteuse dans la prévision de séries temporelles (PST). Les approches existantes consistent soit à affiner de grands modèles de langage (GML), soit à construire des ensembles de données de séries temporelles à grande échelle pour développer des modèles fondamentaux de PST. Cependant, ces méthodes sont confrontées à des défis en raison de l'écart sévère entre les domaines ou de l'hétérogénéité dans le domaine. Dans cet article, nous explorons une nouvelle voie pour construire un modèle fondamental de PST à partir d'images naturelles riches et de haute qualité, basée sur les similarités intrinsèques entre les images et les séries temporelles. Pour combler l'écart entre les deux domaines, nous reformulons la tâche de PST comme une tâche de reconstruction d'image, qui est ensuite traitée par un autoencodeur masqué visuel (MAE) pré-entraîné de manière auto-supervisée sur l'ensemble de données ImageNet. De manière surprenante, sans adaptation supplémentaire dans le domaine des séries temporelles, le VisionTS proposé a pu obtenir des performances de prévision supérieures en zéro-shot par rapport aux modèles fondamentaux de PST existants. Avec un ajustement minimal, le VisionTS a pu améliorer davantage la prévision et atteindre des performances de pointe dans la plupart des cas. Ces résultats suggèrent que les modèles visuels pourraient être une aubaine pour la PST et soulignent le potentiel de futures recherches inter-domaines entre la vision par ordinateur et la PST. Notre code est disponible publiquement sur https://github.com/Keytoyze/VisionTS.