Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le recenti valutazioni dei Large Language Models (LLMs) si sono concentrate sul testare le loro capacità zero-shot/few-shot per compiti di base di elaborazione del linguaggio naturale e sulla loro abilità di tradurre istruzioni in API di strumenti. Tuttavia, la valutazione degli LLMs che utilizzano strumenti complessi per completare istruzioni multi-turn e multi-modali in un ambiente complesso e multi-modale non è stata ancora esplorata. Per colmare questa lacuna, introduciamo il benchmark PowerPoint Task Completion (PPTC) per valutare la capacità degli LLMs di creare e modificare file PPT basandosi sulle istruzioni dell'utente. Esso contiene 279 sessioni multi-turn che coprono argomenti diversi e centinaia di istruzioni che coinvolgono operazioni multi-modali. Proponiamo inoltre il sistema di valutazione PPTX-Match che valuta se gli LLMs completano l'istruzione basandosi sul file di previsione piuttosto che sulla sequenza API di riferimento, supportando così varie sequenze API generate dagli LLMs. Misuriamo 3 LLMs chiusi e 6 LLMs open-source. I risultati mostrano che GPT-4 supera gli altri LLMs con un'accuratezza del 75,1% nei test di dialogo a turno singolo, ma incontra difficoltà nel completare intere sessioni, raggiungendo solo un'accuratezza del 6% per sessione. Identifichiamo tre principali cause di errore nel nostro benchmark: accumulo di errori nella sessione multi-turn, elaborazione di modelli PPT lunghi e percezione multi-modale. Questi rappresentano grandi sfide per i futuri sistemi LLM e agenti. Rilasciamo i dati, il codice e il sistema di valutazione di PPTC all'indirizzo https://github.com/gydpku/PPTC.
Proponiamo Fast Language-Audio Pre-training (FLAP), un approccio auto-supervisionato che apprende in modo efficiente ed efficace rappresentazioni allineate di audio e linguaggio attraverso mascheramento, apprendimento contrastivo e ricostruzione. Per garantire efficienza, FLAP elimina casualmente token dello spettrogramma audio, concentrandosi esclusivamente su quelli rimanenti per l'auto-supervisione. Attraverso l'apprendimento contrastivo inter-modale, FLAP apprende ad allineare rappresentazioni accoppiate di audio e testo in uno spazio latente condiviso. In particolare, FLAP sfrutta molteplici viste aumentate tramite mascheramento per il contrasto inter-modale e apprende a ricostruire la porzione mascherata dei token audio. Inoltre, FLAP utilizza modelli linguistici di grandi dimensioni (LLM) per aumentare gli input testuali, contribuendo a migliorare le prestazioni. Questi approcci portano a rappresentazioni audio-testo più robuste e informative, consentendo a FLAP di raggiungere prestazioni all'avanguardia (SoTA) nelle attività di recupero audio-testo su AudioCaps (raggiungendo il 53,0% R@1) e Clotho (raggiungendo il 25,5% R@1).
Presentiamo EmerNeRF, un approccio semplice ma potente per l'apprendimento di rappresentazioni spazio-temporali di scene dinamiche di guida. Basato su campi neurali, EmerNeRF cattura simultaneamente la geometria della scena, l'aspetto, il movimento e la semantica attraverso un processo di auto-avviamento. EmerNeRF si fonda su due componenti principali: in primo luogo, stratifica le scene in campi statici e dinamici. Questa scomposizione emerge puramente dall'auto-supervisione, consentendo al nostro modello di apprendere da fonti di dati generali e non controllate. In secondo luogo, EmerNeRF parametrizza un campo di flusso indotto dal campo dinamico e utilizza questo campo di flusso per aggregare ulteriormente le caratteristiche multi-frame, amplificando la precisione di rendering degli oggetti dinamici. L'accoppiamento di questi tre campi (statico, dinamico e di flusso) consente a EmerNeRF di rappresentare scene altamente dinamiche in modo autonomo, senza fare affidamento su annotazioni di oggetti di verità fondamentale o modelli pre-addestrati per la segmentazione di oggetti dinamici o la stima del flusso ottico. Il nostro metodo raggiunge prestazioni all'avanguardia nella simulazione di sensori, superando significativamente i metodi precedenti nella ricostruzione di scene statiche (+2.93 PSNR) e dinamiche (+3.70 PSNR). Inoltre, per rafforzare la generalizzazione semantica di EmerNeRF, solleviamo le caratteristiche di un modello visivo di fondazione 2D nello spazio-tempo 4D e affrontiamo un bias posizionale generale nei moderni Transformer, migliorando significativamente le prestazioni di percezione 3D (ad esempio, un miglioramento relativo del 37.50% nell'accuratezza della previsione di occupazione in media). Infine, costruiamo un dataset diversificato e impegnativo composto da 120 sequenze per valutare i campi neurali in contesti estremi e altamente dinamici.