Articoli di ricerca IA selezionati quotidianamente con traduzioni
Costruire sistemi di intelligenza artificiale incarnata in grado di seguire istruzioni linguistiche arbitrarie in qualsiasi ambiente 3D rappresenta una sfida fondamentale per la creazione di un'IA generale. Raggiungere questo obiettivo richiede imparare a fondare il linguaggio nella percezione e nelle azioni incarnate, al fine di portare a termine compiti complessi. Il progetto Scalable, Instructable, Multiworld Agent (SIMA) affronta questa sfida addestrando agenti a seguire istruzioni libere in una vasta gamma di ambienti virtuali 3D, inclusi ambienti di ricerca curati e videogiochi commerciali aperti. Il nostro obiettivo è sviluppare un agente istruibile in grado di realizzare qualsiasi cosa un essere umano possa fare in qualsiasi ambiente 3D simulato. Il nostro approccio si concentra sulla generalità guidata dal linguaggio, imponendo il minor numero possibile di assunzioni. I nostri agenti interagiscono con gli ambienti in tempo reale utilizzando un'interfaccia generica e simile a quella umana: gli input sono osservazioni visive e istruzioni linguistiche, mentre gli output sono azioni da tastiera e mouse. Questo approccio generale è impegnativo, ma consente agli agenti di fondare il linguaggio in molti ambienti visivamente complessi e semanticamente ricchi, permettendoci anche di eseguire facilmente gli agenti in nuovi ambienti. In questo articolo descriviamo la nostra motivazione e il nostro obiettivo, i progressi iniziali ottenuti e i promettenti risultati preliminari su diversi ambienti di ricerca e una varietà di videogiochi commerciali.
I modelli generativi basati su audio per la musica hanno compiuto grandi progressi di recente, ma finora non sono riusciti a produrre brani musicali completi con una struttura musicale coerente. Dimostriamo che addestrando un modello generativo su contesti temporali lunghi è possibile produrre musica di lunga durata fino a 4 minuti e 45 secondi. Il nostro modello consiste in un diffusion-transformer che opera su una rappresentazione latente continua altamente sottocampionata (frequenza latente di 21,5 Hz). Ottiene generazioni all'avanguardia secondo metriche sulla qualità audio e l'allineamento al prompt, e test soggettivi rivelano che produce musica completa con una struttura coerente.