Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo un nuovo benchmark per valutare le capacità di gioco di ruolo dei modelli linguistici. Il nostro approccio sfrutta i modelli linguistici stessi per emulare gli utenti in conversazioni dinamiche a più turni e valutare i dialoghi risultanti. Il framework è composto da tre componenti principali: un modello giocatore che assume un ruolo di personaggio specifico, un modello interrogatore che simula il comportamento dell'utente e un modello giudice che valuta la qualità della conversazione. Abbiamo condotto esperimenti confrontando le valutazioni automatizzate con le annotazioni umane per convalidare il nostro approccio, dimostrando forti correlazioni su diversi criteri. Questo lavoro fornisce una base per una valutazione robusta e dinamica delle capacità del modello in scenari interattivi.
Lo sviluppo rapido dei Grandi Modelli Linguistici (LLM) per applicazioni nel settore sanitario ha suscitato richieste di valutazioni olistiche al di là dei benchmark frequentemente citati come USMLE, per riflettere meglio le prestazioni reali. Sebbene le valutazioni reali siano indicatori preziosi dell'utilità, spesso sono in ritardo rispetto all'evoluzione dei LLM, rendendo probabilmente obsolete le scoperte al momento del dispiegamento. Questo scollegamento temporale rende necessaria un'ampia valutazione iniziale che possa guidare la selezione del modello per applicazioni cliniche specifiche. Presentiamo MEDIC, un framework che valuta i LLM su cinque dimensioni critiche di competenza clinica: ragionamento medico, etica e pregiudizi, comprensione dei dati e del linguaggio, apprendimento contestuale e sicurezza clinica. MEDIC presenta un innovativo framework di incrocio che quantifica le prestazioni dei LLM su aree come copertura e rilevamento di allucinazioni, senza richiedere output di riferimento. Applichiamo MEDIC per valutare i LLM su domande e risposte mediche, sicurezza, sintesi, generazione di note e altre attività. I nostri risultati mostrano disparità di prestazioni tra dimensioni del modello, modelli di base rispetto a quelli raffinati medicalmente e hanno implicazioni sulla selezione del modello per applicazioni che richiedono specifiche capacità del modello, come bassa allucinazione o minor costo di inferenza. La valutazione multifattoriale di MEDIC rivela questi compromessi di prestazioni, colmando il divario tra capacità teoriche e implementazione pratica in contesti sanitari, garantendo che i modelli più promettenti siano identificati e adattati per diverse applicazioni nel settore sanitario.
Nonostante il potenziale degli agenti basati su modelli linguistici per risolvere compiti del mondo reale come la navigazione web, i metodi attuali faticano ancora con compiti a lungo termine con traiettorie d'azione complesse. Al contrario, gli esseri umani possono risolvere in modo flessibile compiti complessi imparando flussi di lavoro riutilizzabili da esperienze passate e usando tali flussi per guidare azioni future. Per costruire agenti che possano beneficiare in modo simile da questo processo, introduciamo la Memoria del Flusso di Lavoro dell'Agente (AWM), un metodo per indurre routine comunemente riutilizzate, cioè flussi di lavoro, e fornire selettivamente flussi di lavoro all'agente per guidare le generazioni successive. AWM si applica in modo flessibile sia a scenari offline che online, dove gli agenti inducono flussi di lavoro dagli esempi di addestramento in anticipo o dalle query di test al volo. Sperimentiamo su due importanti benchmark di navigazione web - Mind2Web e WebArena - che coprono complessivamente 1000+ compiti da 200+ domini tra viaggi, shopping e social media, tra gli altri. AWM migliora in modo sostanziale i risultati di base del 24,6% e del 51,1% sul tasso di successo relativo su Mind2Web e WebArena riducendo il numero di passaggi necessari per risolvere con successo i compiti di WebArena. Inoltre, AWM online generalizza in modo robusto nelle valutazioni cross-task, cross-website e cross-domain, superando i risultati di base da 8,9 a 14,0 punti assoluti man mano che si ampliano i divari nella distribuzione dei compiti di addestramento e test.
Nonostante i notevoli progressi nella generazione di immagini in 3D, i metodi esistenti faticano ancora a produrre immagini coerenti multi-view con texture ad alta risoluzione nei dettagli, specialmente nel paradigma della diffusione 2D che manca di consapevolezza 3D. In questo lavoro, presentiamo il modello Image-to-3D ad alta risoluzione (Hi3D), un nuovo paradigma basato sulla diffusione video che ridefinisce un'immagine singola in immagini multi-view come generazione di immagini sequenziali consapevoli del 3D (cioè, generazione di video orbitali). Questa metodologia approfondisce la conoscenza sottostante della coerenza temporale nel modello di diffusione video che generalizza bene la coerenza geometrica attraverso molteplici visualizzazioni nella generazione 3D. Tecnicamente, Hi3D potenzia innanzitutto il modello di diffusione video pre-addestrato con una precedente consapevolezza del 3D (condizione della posizione della fotocamera), producendo immagini multi-view con dettagli di texture a bassa risoluzione. Viene appreso un raffinatore video-to-video consapevole del 3D per scalare ulteriormente le immagini multi-view con dettagli di texture ad alta risoluzione. Tali immagini multi-view ad alta risoluzione vengono ulteriormente aumentate con visualizzazioni innovative attraverso lo Splatting Gaussiano 3D, che vengono infine sfruttate per ottenere mesh ad alta fedeltà tramite la ricostruzione 3D. Esperimenti approfonditi sia sulla sintesi di visualizzazioni innovative che sulla ricostruzione di visualizzazioni singole dimostrano che il nostro Hi3D riesce a produrre immagini coerenti multi-view superiori con texture altamente dettagliate. Il codice sorgente e i dati sono disponibili su https://github.com/yanghb22-fdu/Hi3D-Official.
I Transformer lineari con attenzione e le loro varianti con gate, rinomati per consentire l'addestramento parallelo e un'efficace inferenza ricorrente, tuttavia presentano ancora limiti nelle attività intensive di richiamo rispetto ai Transformer tradizionali e richiedono risorse significative per l'addestramento da zero. Questo articolo introduce l'Attenzione a Slot con Gate (GSA), che potenzia l'Attenzione con Controllo della Memoria Limitata (ABC) incorporando un meccanismo di gating ispirato all'Attenzione Lineare con Gate (GLA). Fondamentalmente, GSA consiste in un GLA a due strati collegati tramite softmax, utilizzando una lettura della memoria consapevole del contesto e un'oblio adattivo per migliorare la capacità di memoria mantenendo un formato di stato ricorrente compatto. Questo design migliora notevolmente l'efficienza sia dell'addestramento che dell'inferenza attraverso l'algoritmo di addestramento efficiente in termini di hardware di GLA e la riduzione delle dimensioni dello stato. Inoltre, mantenere l'operazione softmax è particolarmente vantaggioso nei contesti di "ottimizzazione dei Transformer preaddestrati per le RNN" (T2R), riducendo la necessità di un ampio addestramento da zero. Esperimenti approfonditi confermano le prestazioni superiori di GSA in scenari che richiedono il richiamo in contesto e nei contesti T2R.
La tecnica di prompting Chain-of-Thought (CoT) rivela che i grandi modelli linguistici sono capaci di eseguire un ragionamento complesso tramite passaggi intermedi. Il prompting CoT è principalmente suddiviso in tre approcci. Il primo approccio utilizza prompt diretti come "Pensiamo passo dopo passo" per generare un processo di pensiero sequenziale prima di fornire una risposta. Il secondo approccio fa uso di dimostrazioni create dall'uomo passo dopo passo per guidare il processo di ragionamento del modello. Il terzo automatizza la generazione di dimostrazioni ragionate con il prompt "Pensiamo passo dopo passo". Questo approccio talvolta porta a errori di ragionamento, evidenziando la necessità di diversificare le dimostrazioni per mitigarne gli effetti fuorvianti. Tuttavia, dimostrazioni diverse pongono sfide per rappresentazioni efficaci. In questo lavoro, proponiamo ECHO, un metodo di prompting a catena di pensiero autoarmonizzato. Esso consolida diversi percorsi di soluzione in un modello di soluzione uniforme ed efficace. ECHO dimostra la migliore performance complessiva attraverso tre domini di ragionamento.
gsplat è una libreria open-source progettata per addestrare e sviluppare metodi di Gaussian Splatting. Presenta un'interfaccia con binding in Python compatibile con la libreria PyTorch e un back-end con kernel CUDA altamente ottimizzati. gsplat offre numerose funzionalità che migliorano l'ottimizzazione dei modelli di Gaussian Splatting, tra cui miglioramenti dell'ottimizzazione per velocità, memoria e tempi di convergenza. I risultati sperimentali dimostrano che gsplat raggiunge fino al 10% di tempo di addestramento inferiore e 4 volte meno memoria rispetto all'implementazione originale. Utilizzato in diversi progetti di ricerca, gsplat è attivamente mantenuto su GitHub. Il codice sorgente è disponibile su https://github.com/nerfstudio-project/gsplat con licenza Apache 2.0. Accogliamo con favore i contributi dalla comunità open-source.
"Un'idea non è altro che una nuova combinazione di vecchi elementi" (Young, J.W.). L'ampia adozione dei Grandi Modelli Linguistici (LLM) e di ChatGPT disponibili pubblicamente ha segnato un significativo punto di svolta nell'integrazione dell'Intelligenza Artificiale (IA) nella vita quotidiana delle persone. Questo studio esplora la capacità dei LLM nella generazione di nuove idee di ricerca basate sulle informazioni provenienti dai paper di ricerca. Abbiamo condotto un'esame approfondito di 4 LLM in cinque domini (ad esempio, Chimica, Informatica, Economia, Medicina e Fisica). Abbiamo scoperto che le future idee di ricerca generate da Claude-2 e GPT-4 sono più allineate alla prospettiva dell'autore rispetto a GPT-3.5 e Gemini. Abbiamo inoltre riscontrato che Claude-2 genera idee di ricerca future più diverse rispetto a GPT-4, GPT-3.5 e Gemini 1.0. Abbiamo inoltre condotto una valutazione umana della novità, rilevanza e fattibilità delle future idee di ricerca generate. Questa indagine offre spunti sul ruolo in evoluzione dei LLM nella generazione di idee, evidenziandone sia le capacità che i limiti. Il nostro lavoro contribuisce agli sforzi in corso per valutare e utilizzare i modelli linguistici per generare future idee di ricerca. Mettiamo a disposizione pubblicamente i nostri dataset e codici.
Presentiamo un framework per apprendere a generare musica di sottofondo da video in ingresso. A differenza dei lavori esistenti che si basano su annotazioni musicali simboliche, limitate in quantità e diversità, il nostro metodo sfrutta video su larga scala accompagnati da musica di sottofondo. Ciò consente al nostro modello di imparare a generare musica realistica e diversificata. Per raggiungere questo obiettivo, sviluppiamo un Transformer generativo video-musica con un nuovo schema di allineamento semantico video-musica. Il nostro modello utilizza un obiettivo di apprendimento congiunto autoregressivo e contrastivo, che incoraggia la generazione di musica allineata con il contenuto video di alto livello. Introduciamo inoltre un nuovo schema di allineamento video-beat per abbinare i beat musicali generati con i movimenti a basso livello nel video. Infine, per catturare segnali visivi dettagliati in un video necessari per la generazione realistica di musica di sottofondo, introduciamo una nuova architettura di codifica video temporale, che ci consente di elaborare efficacemente video composti da molti frame campionati in modo denso. Addestriamo il nostro framework sul nostro nuovo dataset DISCO-MV, composto da 2,2M campioni video-musica, che è di ordini di grandezza superiore rispetto a qualsiasi dataset precedente utilizzato per la generazione di musica video. Il nostro metodo supera gli approcci esistenti sui dataset DISCO-MV e MusicCaps secondo varie metriche di valutazione della generazione musicale, inclusa la valutazione umana. I risultati sono disponibili su https://genjib.github.io/project_page/VMAs/index.html
Proponiamo GauFace, una nuova rappresentazione Gaussian Splatting, progettata per un'animazione efficiente e il rendering di asset facciali basati sulla fisica. Sfruttando forti vincoli geometrici e ottimizzazione vincolata, GauFace garantisce una rappresentazione Gaussiana ordinata e strutturata, offrendo un'alta fedeltà e un'interazione facciale in tempo reale di 30fps@1440p su una piattaforma mobile Snapdragon 8 Gen 2. Successivamente, introduciamo TransGS, un trasformatore di diffusione che traduce istantaneamente asset facciali basati sulla fisica nelle corrispondenti rappresentazioni GauFace. In particolare, adottiamo un flusso di lavoro basato su patch per gestire efficacemente il vasto numero di Gaussiane. Introduciamo inoltre un nuovo schema di campionamento allineato ai pixel con codifica posizionale UV per garantire la capacità di throughput e la qualità del rendering degli asset GauFace generati dal nostro TransGS. Una volta addestrato, TransGS può tradurre istantaneamente asset facciali con condizioni di illuminazione nella rappresentazione GauFace. Con le ricche modalità di condizionamento, consente anche capacità di modifica e animazione che ricordano i tradizionali flussi di lavoro CG. Conduciamo valutazioni approfondite e studi utente, confrontando renderer tradizionali offline e online, nonché recenti metodi di rendering neurale, che dimostrano le prestazioni superiori del nostro approccio per il rendering di asset facciali. Mostriamo inoltre diverse applicazioni immersive di asset facciali utilizzando il nostro approccio TransGS e la rappresentazione GauFace, su varie piattaforme come PC, telefoni e persino visori VR.
Dato che i Grandi Modelli Linguistici (LLM) hanno fatto progressi significativi nella scrittura di codice, possono ora essere utilizzati per riprodurre autonomamente i risultati dai repository di ricerca? Tale capacità sarebbe un vantaggio per la comunità di ricerca, aiutando i ricercatori a convalidare, comprendere ed estendere lavori precedenti. Per avanzare verso questo obiettivo, presentiamo SUPER, il primo benchmark progettato per valutare la capacità dei LLM nel configurare ed eseguire compiti dai repository di ricerca. SUPER mira a catturare le sfide realistiche affrontate dai ricercatori che lavorano con i repository di ricerca di Machine Learning (ML) e Elaborazione del Linguaggio Naturale (NLP). Il nostro benchmark comprende tre insiemi di problemi distinti: 45 problemi end-to-end con soluzioni esperte annotate, 152 sottoproblemi derivati dall'insieme esperto che si concentrano su sfide specifiche (ad esempio, configurare un trainer), e 602 problemi generati automaticamente per lo sviluppo su larga scala. Introduciamo varie misure di valutazione per valutare sia il successo del compito che il progresso, utilizzando soluzioni gold quando disponibili o approssimazioni diversamente. Mostrando che gli approcci all'avanguardia faticano a risolvere questi problemi con il miglior modello (GPT-4o) che risolve solo il 16,3% dell'insieme end-to-end e il 46,1% degli scenari. Questo illustra la sfida di questo compito e suggerisce che SUPER possa fungere da risorsa preziosa per la comunità per fare e misurare progressi.
Questo articolo introduce MVLLaVA, un agente intelligente progettato per compiti di sintesi di nuove visualizzazioni. MVLLaVA integra diversi modelli di diffusione multi-vista con un ampio modello multimodale, LLaVA, consentendogli di gestire in modo efficiente una vasta gamma di compiti. MVLLaVA rappresenta una piattaforma versatile e unificata che si adatta a diversi tipi di input, inclusa un'immagine singola, una didascalia descrittiva o un cambiamento specifico nell'azimut di visualizzazione, guidato da istruzioni linguistiche per la generazione del punto di vista. Sviluppiamo attentamente modelli di istruzioni specifici per il compito, che vengono successivamente utilizzati per perfezionare LLaVA. Di conseguenza, MVLLaVA acquisisce la capacità di generare immagini di nuove visualizzazioni basate sulle istruzioni dell'utente, dimostrando la sua flessibilità attraverso diversi compiti. Sono stati condotti esperimenti per convalidare l'efficacia di MVLLaVA, dimostrando le sue prestazioni robuste e la sua versatilità nel affrontare diverse sfide di sintesi di nuove visualizzazioni.
Gli ultimi anni hanno visto un aumento nello sviluppo dei modelli fondamentali delle proteine, migliorando significativamente le prestazioni nella previsione delle proteine e nei compiti generativi che vanno dalla previsione della struttura 3D e progettazione delle proteine alla dinamica conformazionale. Tuttavia, le capacità e i limiti associati a questi modelli rimangono poco compresi a causa dell'assenza di un quadro di valutazione unificato. Per colmare questa lacuna, presentiamo ProteinBench, un quadro di valutazione olistico progettato per migliorare la trasparenza dei modelli fondamentali delle proteine. Il nostro approccio consiste in tre componenti chiave: (i) Una classificazione tassonomica dei compiti che comprendono ampiamente le principali sfide nel dominio delle proteine, basata sulle relazioni tra diverse modalità proteiche; (ii) Un approccio di valutazione multi-metrico che valuta le prestazioni su quattro dimensioni chiave: qualità, novità, diversità e robustezza; e (iii) Analisi approfondite da vari obiettivi degli utenti, fornendo una visione olistica delle prestazioni del modello. La nostra valutazione completa dei modelli fondamentali delle proteine rivela diversi risultati chiave che gettano luce sulle attuali capacità e limitazioni. Per promuovere la trasparenza e facilitare ulteriori ricerche, rilasciamo il dataset di valutazione, il codice e una classifica pubblica per ulteriori analisi e un toolkit modulare generale. Intendiamo che ProteinBench sia un benchmark in evoluzione per stabilire un quadro di valutazione standardizzato e approfondito per i modelli fondamentali delle proteine, guidando il loro sviluppo e applicazione e promuovendo la collaborazione all'interno del settore.
I modelli generativi addestrati su larga scala possono ora produrre testo, video e, più recentemente, dati scientifici come le strutture cristalline. Nelle applicazioni degli approcci generativi alla scienza dei materiali, e in particolare alle strutture cristalline, l'orientamento dell'esperto del settore sotto forma di istruzioni di alto livello può essere essenziale affinché un sistema automatizzato produca cristalli candidati che siano validi per la ricerca successiva. In questo lavoro, formuliamo la generazione di linguaggio-struttura end-to-end come un problema di ottimizzazione multi-obiettivo e proponiamo Generative Hierarchical Materials Search (GenMS) per la generazione controllata di strutture cristalline. GenMS è composto da (1) un modello linguistico che prende in input linguaggio naturale di alto livello e genera informazioni testuali intermedie su un cristallo (ad esempio, formule chimiche), e (2) un modello di diffusione che prende informazioni intermedie in input e genera strutture cristalline a valori continui a basso livello. GenMS utilizza inoltre una rete neurale grafica per prevedere le proprietà (ad esempio, energia di formazione) dalle strutture cristalline generate. Durante l'inferenza, GenMS sfrutta tutti e tre i componenti per condurre una ricerca ad albero in avanti sullo spazio delle possibili strutture. Gli esperimenti mostrano che GenMS supera altre alternative che utilizzano direttamente modelli linguistici per generare strutture sia nel soddisfare le richieste dell'utente sia nella generazione di strutture a bassa energia. Confermiamo che GenMS è in grado di generare strutture cristalline comuni come perovskiti doppie o spinelli, esclusivamente da input di linguaggio naturale, e quindi può costituire la base per una generazione di strutture più complesse in un prossimo futuro.