Articoli di ricerca IA selezionati quotidianamente con traduzioni
StarCraft II rappresenta uno degli ambienti di apprendimento per rinforzo simulato più impegnativi; è parzialmente osservabile, stocastico, multi-agente e padroneggiare StarCraft II richiede una pianificazione strategica su lunghi orizzonti temporali con un'esecuzione in tempo reale a basso livello. Inoltre, vanta una scena competitiva professionale attiva. StarCraft II è particolarmente adatto per far progredire gli algoritmi di RL offline, sia per la sua natura impegnativa sia perché Blizzard ha rilasciato un enorme dataset composto da milioni di partite di StarCraft II giocate da giocatori umani. Questo articolo sfrutta tale risorsa e stabilisce un benchmark, chiamato AlphaStar Unplugged, introducendo sfide senza precedenti per l'apprendimento per rinforzo offline. Definiamo un dataset (un sottoinsieme della release di Blizzard), strumenti che standardizzano un'API per metodi di machine learning e un protocollo di valutazione. Presentiamo inoltre agenti di base, tra cui il comportamento clonato, varianti offline di actor-critic e MuZero. Miglioriamo lo stato dell'arte degli agenti utilizzando solo dati offline e raggiungiamo un tasso di vittoria del 90% contro l'agente di clonazione del comportamento di AlphaStar precedentemente pubblicato.
I Modelli Linguistici di Grandi Dimensioni (LLM) stanno diventando sempre più intelligenti e autonomi, puntando a missioni pragmatiche nel mondo reale che vanno oltre i tradizionali compiti di NLP. Di conseguenza, è emersa l'urgente necessità di valutare gli LLM come agenti in compiti complessi all'interno di ambienti interattivi. Presentiamo AgentBench, un benchmark multidimensionale in evoluzione che attualmente comprende 8 ambienti distinti per valutare le capacità di ragionamento e decision-making degli LLM in contesti di generazione aperta e multi-turn. I nostri test estesi su 25 LLM (inclusi modelli API e open-source) dimostrano che, sebbene i migliori LLM commerciali mostrino una forte capacità di agire come agenti in ambienti complessi, esiste una significativa disparità di prestazioni rispetto ai concorrenti open-source. AgentBench funge anche come componente di un progetto in corso con una copertura più ampia e una considerazione più profonda verso una valutazione sistematica degli LLM. I dataset, gli ambienti e un pacchetto di valutazione integrato per AgentBench sono disponibili all'indirizzo https://github.com/THUDM/AgentBench.
Creare avatar 3D espressivi, diversificati e di alta qualità a partire da descrizioni testuali altamente personalizzate e da indicazioni di posa è un compito impegnativo, a causa della complessità della modellazione e della texturizzazione in 3D che garantiscono dettagli e vari stili (realistici, fittizi, ecc.). Presentiamo AvatarVerse, una pipeline stabile per generare avatar 3D di alta qualità e espressivi partendo esclusivamente da descrizioni testuali e indicazioni di posa. Nello specifico, introduciamo un modello di diffusione 2D condizionato dal segnale DensePose per stabilire il controllo della posa 3D degli avatar attraverso immagini 2D, il che migliora la coerenza visiva in scenari parzialmente osservati. Questo approccio affronta il noto problema di Janus e stabilizza significativamente il processo di generazione. Inoltre, proponiamo una strategia di sintesi 3D progressiva ad alta risoluzione, che ottiene un miglioramento sostanziale nella qualità degli avatar 3D creati. A tal fine, la pipeline proposta di AvatarVerse raggiunge una modellazione 3D zero-shot di avatar 3D che non solo sono più espressivi, ma anche di qualità e fedeltà superiori rispetto ai lavori precedenti. Valutazioni qualitative rigorose e studi utente dimostrano la superiorità di AvatarVerse nella sintesi di avatar 3D ad alta fedeltà, stabilendo un nuovo standard nella creazione di avatar 3D di alta qualità e stabili. La nostra pagina del progetto è: https://avatarverse3d.github.io
I recenti modelli generativi testo-immagine ci hanno permesso di trasformare le nostre parole in immagini vivaci e accattivanti. L'ondata di tecniche di personalizzazione che ne è seguita ci ha anche consentito di immaginare concetti unici in nuovi contesti. Tuttavia, rimane una domanda intrigante: come possiamo generare un nuovo concetto immaginario che non è mai stato visto prima? In questo articolo, presentiamo il compito della generazione creativa testo-immagine, in cui cerchiamo di generare nuovi membri di una categoria ampia (ad esempio, generare un animale domestico che differisce da tutti quelli esistenti). Sfruttiamo i modelli Diffusion Prior, poco studiati, e dimostriamo che il problema della generazione creativa può essere formulato come un processo di ottimizzazione sullo spazio di output del diffusion prior, risultando in un insieme di "vincoli di priorità". Per evitare che il nostro concetto generato converga in membri esistenti, incorporiamo un modello di domanda-risposta che aggiunge in modo adattivo nuovi vincoli al problema di ottimizzazione, incoraggiando il modello a scoprire creazioni sempre più uniche. Infine, dimostriamo che i nostri vincoli di priorità possono anche servire come un forte meccanismo di miscelazione, permettendoci di creare ibridi tra concetti generati, introducendo ancora più flessibilità nel processo creativo.
I grandi modelli linguistici (LLM) hanno dimostrato una notevole capacità di generalizzazione, come la comprensione di entità e relazioni arbitrarie. L'ottimizzazione tramite istruzioni si è rivelata efficace per distillare gli LLM in modelli più efficienti in termini di costi, come Alpaca e Vicuna. Tuttavia, tali modelli "studenti" rimangono ancora ampiamente inferiori rispetto agli LLM originali nelle applicazioni downstream. In questo articolo, esploriamo la distillazione mirata con un'ottimizzazione tramite istruzioni focalizzata su obiettivi specifici, per addestrare modelli studenti che possano eccellere in un'ampia classe di applicazioni, come l'estrazione aperta di informazioni. Utilizzando il riconoscimento di entità nominate (NER) come caso di studio, mostriamo come ChatGPT possa essere distillato in modelli UniversalNER molto più piccoli per il NER aperto. Per la valutazione, abbiamo assemblato il più grande benchmark NER fino ad oggi, comprendente 43 dataset in 9 domini diversi come biomedicina, programmazione, social media, diritto e finanza. Senza utilizzare alcuna supervisione diretta, UniversalNER raggiunge una precisione NER notevole su decine di migliaia di tipi di entità, superando modelli ottimizzati tramite istruzioni generali come Alpaca e Vicuna di oltre 30 punti F1 assoluti in media. Con una frazione minima di parametri, UniversalNER non solo acquisisce la capacità di ChatGPT di riconoscere tipi di entità arbitrari, ma supera anche la sua precisione NER di 7-9 punti F1 assoluti in media. Sorprendentemente, UniversalNER supera di gran lunga anche i sistemi all'avanguardia ottimizzati per più compiti tramite istruzioni, come InstructUIE, che utilizza esempi NER supervisionati. Abbiamo anche condotto studi di ablazione approfonditi per valutare l'impatto di vari componenti nel nostro approccio di distillazione. Rilasceremo la ricetta di distillazione, i dati e i modelli UniversalNER per facilitare future ricerche sulla distillazione mirata.
Vedere è credere, tuttavia, il meccanismo sottostante di come le percezioni visive umane siano intrecciate con le nostre cognizioni rimane ancora un mistero. Grazie ai recenti progressi sia nelle neuroscienze che nell'intelligenza artificiale, siamo stati in grado di registrare le attività cerebrali evocate visivamente e di imitare la capacità di percezione visiva attraverso approcci computazionali. In questo articolo, ci concentriamo sulla ricostruzione degli stimoli visivi ricostruendo le immagini osservate basandoci su segnali cerebrali accessibili in modo portatile, ovvero i dati dell'elettroencefalografia (EEG). Poiché i segnali EEG sono dinamici in formato di serie temporali e sono notoriamente rumorosi, elaborare ed estrarre informazioni utili richiede uno sforzo più dedicato; in questo articolo, proponiamo una pipeline completa, denominata NeuroImagen, per ricostruire immagini di stimoli visivi a partire dai segnali EEG. Nello specifico, incorporiamo una decodifica innovativa delle informazioni percettive multi-livello per ottenere output multi-granulari dai dati EEG forniti. Un modello di diffusione latente sfrutterà quindi le informazioni estratte per ricostruire immagini di stimoli visivi ad alta risoluzione. I risultati sperimentali hanno dimostrato l'efficacia della ricostruzione delle immagini e la superiore performance quantitativa del metodo da noi proposto.
Con i recenti progressi nell'elaborazione del linguaggio naturale, i Modelli Linguistici di Grande Scala (LLM) sono emersi come strumenti potenti per varie applicazioni nel mondo reale. Nonostante le loro capacità, le abilità generative intrinseche degli LLM potrebbero rivelarsi insufficienti per gestire compiti complessi che richiedono una combinazione di pianificazione delle attività e utilizzo di strumenti esterni. In questo articolo, proponiamo innanzitutto un framework strutturato specificamente per Agenti AI basati su LLM e discutiamo le capacità cruciali necessarie per affrontare problemi intricati. All'interno di questo framework, progettiamo due tipi distinti di agenti (ovvero, agente a un passo e agente sequenziale) per eseguire il processo di inferenza. Successivamente, istanziamo il framework utilizzando vari LLM e valutiamo le loro abilità di Pianificazione delle Attività e Utilizzo degli Strumenti (TPTU) su compiti tipici. Evidenziando i risultati chiave e le sfide, il nostro obiettivo è fornire una risorsa utile per ricercatori e professionisti per sfruttare il potere degli LLM nelle loro applicazioni AI. Il nostro studio sottolinea il notevole potenziale di questi modelli, identificando al contempo aree che necessitano di ulteriori indagini e miglioramenti.
Nel tentativo di ottenere una migliore visibilità su un modello di apprendimento automatico per comprenderne e mitigarne i rischi associati, una fonte potenzialmente preziosa di evidenza è: quali esempi di addestramento contribuiscono maggiormente a un determinato comportamento? Le funzioni di influenza mirano a rispondere a un controfattuale: come cambierebbero i parametri del modello (e quindi i suoi output) se una determinata sequenza fosse aggiunta al set di addestramento? Sebbene le funzioni di influenza abbiano fornito intuizioni per modelli di piccole dimensioni, è difficile scalarle a modelli linguistici di grandi dimensioni (LLM) a causa della difficoltà di calcolare un prodotto vettore-inverso-Hessiano (IHVP). Utilizziamo l'approssimazione Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) per scalare le funzioni di influenza fino a LLM con fino a 52 miliardi di parametri. Nei nostri esperimenti, EK-FAC raggiunge un'accuratezza simile a quella degli stimatori tradizionali delle funzioni di influenza nonostante il calcolo dell'IHVP sia ordini di grandezza più veloce. Investigiamo due tecniche algoritmiche per ridurre il costo del calcolo dei gradienti delle sequenze di addestramento candidate: filtraggio TF-IDF e raggruppamento delle query. Utilizziamo le funzioni di influenza per investigare i modelli di generalizzazione degli LLM, inclusa la sparsità dei modelli di influenza, l'aumento dell'astrazione con la scala, le abilità matematiche e di programmazione, la generalizzazione cross-linguistica e il comportamento di interpretazione di ruoli. Nonostante molte forme apparentemente sofisticate di generalizzazione, identifichiamo una limitazione sorprendente: le influenze decadono quasi a zero quando l'ordine delle frasi chiave viene invertito. Nel complesso, le funzioni di influenza ci forniscono un nuovo strumento potente per studiare le proprietà di generalizzazione degli LLM.
L'ingrandimento del movimento ci aiuta a visualizzare moti sottili e impercettibili. Tuttavia, i metodi precedenti funzionano solo per video 2D catturati con una telecamera fissa. Presentiamo un metodo di ingrandimento del movimento 3D in grado di amplificare moti sottili da scene riprese con una telecamera in movimento, supportando anche il rendering da nuove prospettive. Rappresentiamo la scena con campi di radianza variabili nel tempo e sfruttiamo il principio euleriano per l'ingrandimento del movimento per estrarre e amplificare la variazione dell'embedding di un punto fisso nel tempo. Studiamo e validiamo il nostro principio proposto per l'ingrandimento del movimento 3D utilizzando sia campi di radianza impliciti che basati su tri-piani come rappresentazione sottostante della scena 3D. Valutiamo l'efficacia del nostro metodo su scene sia sintetiche che reali, catturate con diverse configurazioni della telecamera.
I recenti progressi nei Modelli Linguistico-Visuali di Grande Scala (LVLM) hanno dimostrato significativi avanzamenti nell'affrontare compiti multimodali complessi. Tra questi sviluppi all'avanguardia, il Bard di Google si distingue per le sue notevoli capacità multimodali, promuovendo una comprensione e un ragionamento completi in vari domini. Questo lavoro presenta una valutazione precoce e olistica delle abilità multimodali degli LVLM, con un particolare focus su Bard, proponendo una variante leggera di LVLM-eHub, denominata Tiny LVLM-eHub. Rispetto alla versione standard, Tiny LVLM-eHub possiede diverse proprietà interessanti. In primo luogo, fornisce una valutazione sistematica di sei categorie di capacità multimodali, tra cui percezione visiva, acquisizione di conoscenza visiva, ragionamento visivo, senso comune visivo, allucinazione di oggetti e intelligenza incarnata, attraverso una valutazione quantitativa di 42 benchmark visivi standard relativi al testo. In secondo luogo, conduce un'analisi approfondita delle previsioni degli LVLM utilizzando la Valutazione di Ensemble ChatGPT (CEE), che porta a una valutazione robusta e accurata e mostra un migliore allineamento con la valutazione umana rispetto all'approccio di corrispondenza delle parole. In terzo luogo, comprende solo 2.1K coppie immagine-testo, facilitando l'uso per i professionisti per valutare i propri LVLM offline. Attraverso un'ampia analisi sperimentale, questo studio dimostra che Bard supera i precedenti LVLM nella maggior parte delle capacità multimodali, ad eccezione dell'allucinazione di oggetti, alla quale Bard è ancora suscettibile. Tiny LVLM-eHub serve come valutazione di base per vari LVLM e incoraggia strategie innovative mirate a far progredire le tecniche multimodali. Il nostro progetto è disponibile pubblicamente all'indirizzo https://github.com/OpenGVLab/Multi-Modality-Arena.
I modelli linguistici di grandi dimensioni esistenti devono essere eseguiti K volte per generare una sequenza di K token. In questo articolo, presentiamo RecycleGPT, un modello linguistico generativo con una velocità di decodifica rapida, ottenuta riciclando gli stati del modello pre-generati senza eseguire l'intero modello in più passaggi. Il nostro approccio si basa sull'osservazione che i token adiacenti in una sequenza hanno solitamente forti correlazioni e che il token successivo in una sequenza può essere ragionevolmente indovinato o dedotto in base a quelli precedenti. Attraverso valutazioni teoriche e test pratici su compiti di generazione del testo downstream, dimostriamo l'efficacia del nostro approccio nel ridurre la latenza di inferenza, ottenendo un accelerazione fino a 1,4x mantenendo un'elevata prestazione.
Nel contesto del controllo industriale, lo sviluppo di controller ad alte prestazioni con pochi campioni e un basso debito tecnico è particolarmente interessante. I modelli di base, dotati di una ricca conoscenza a priori ottenuta attraverso il pre-addestramento su corpus di scala Internet, hanno il potenziale per diventare ottimi controller se adeguatamente guidati da prompt. In questo articolo, prendiamo come esempio il controllo HVAC (Riscaldamento, Ventilazione e Condizionamento dell'Aria) negli edifici per esaminare le capacità di GPT-4 (uno dei modelli di base di prima fascia) come controller. Per controllare l'HVAC, abbiamo incapsulato il compito come un gioco linguistico, fornendo a GPT-4, ad ogni passo, un testo che include una breve descrizione del compito, diverse dimostrazioni selezionate e l'osservazione corrente, eseguendo poi le azioni restituite da GPT-4. Abbiamo condotto una serie di esperimenti per rispondere alle seguenti domande: 1) Quanto bene può GPT-4 controllare l'HVAC? 2) Quanto bene può GPT-4 generalizzare a diversi scenari di controllo HVAC? 3) In che modo le diverse parti del contesto testuale influenzano le prestazioni? In generale, abbiamo riscontrato che GPT-4 raggiunge prestazioni paragonabili ai metodi di apprendimento per rinforzo (RL) con pochi campioni e un basso debito tecnico, indicando il potenziale di applicazione diretta dei modelli di base ai compiti di controllo industriale.
Recentemente, i Neural Radiance Fields (NeRF) hanno dimostrato un notevole successo nella sintesi di nuove visualizzazioni, nella ricostruzione di superfici, ecc. Tuttavia, poiché nessuna riflessione fisica è considerata nel loro processo di rendering, i NeRF interpretano erroneamente la riflessione nello specchio come una scena virtuale separata, portando a una ricostruzione imprecisa dello specchio e a riflessioni incoerenti tra più visualizzazioni nello specchio. In questo articolo, presentiamo un nuovo framework di rendering neurale, denominato Mirror-NeRF, in grado di apprendere la geometria e la riflessione accurata dello specchio e di supportare varie applicazioni di manipolazione della scena con specchi, come l'aggiunta di nuovi oggetti o specchi nella scena e la sintesi delle riflessioni di questi nuovi oggetti negli specchi, il controllo della ruvidità dello specchio, ecc. Per raggiungere questo obiettivo, proponiamo un campo di radianza unificato introducendo la probabilità di riflessione e tracciando i raggi seguendo il modello di trasporto della luce di Whitted Ray Tracing, e sviluppiamo anche diverse tecniche per facilitare il processo di apprendimento. Esperimenti e confronti su dataset sia sintetici che reali dimostrano la superiorità del nostro metodo. Il codice e il materiale supplementare sono disponibili sulla pagina web del progetto: https://zju3dv.github.io/Mirror-NeRF/.
Lo sviluppo di librerie software per il deep learning ha permesso progressi significativi nel campo, consentendo agli utenti di concentrarsi sulla modellazione, mentre la libreria si occupa del compito noioso e dispendioso in termini di tempo di ottimizzare l'esecuzione per gli acceleratori hardware moderni. Tuttavia, ciò ha beneficiato solo particolari tipi di modelli di deep learning, come i Transformers, le cui primitive si mappano facilmente al calcolo vettorizzato. I modelli che tengono esplicitamente conto di oggetti strutturati, come alberi e segmentazioni, non hanno beneficiato allo stesso modo perché richiedono algoritmi personalizzati difficili da implementare in forma vettorizzata. SynJax affronta direttamente questo problema fornendo un'implementazione vettorizzata efficiente di algoritmi di inferenza per distribuzioni strutturate che coprono allineamento, etichettatura, segmentazione, alberi di costituenza e alberi di copertura. Con SynJax possiamo costruire modelli differenziabili su larga scala che modellano esplicitamente la struttura nei dati. Il codice è disponibile all'indirizzo https://github.com/deepmind/synjax.
La quantizzazione è diventata una tecnica di compressione mainstream per ridurre le dimensioni del modello, i requisiti computazionali e il consumo energetico delle moderne reti neurali profonde (DNN). Con il miglioramento del supporto numerico nell'hardware recente, che include molteplici varianti di numeri interi e in virgola mobile, la quantizzazione a precisione mista è diventata necessaria per ottenere risultati di alta qualità con un costo del modello ridotto. I precedenti metodi di quantizzazione a precisione mista hanno eseguito una ricerca di quantizzazione post-addestramento, che compromette l'accuratezza, o una ricerca di quantizzazione differenziabile, che porta a un elevato utilizzo di memoria a causa del branching. Pertanto, proponiamo la prima ricerca di quantizzazione a precisione mista one-shot che elimina la necessità di riaddestramento sia per i modelli interi che per quelli a bassa precisione in virgola mobile. Valutiamo la nostra ricerca di quantizzazione in virgola mobile e intera (FLIQS) su molteplici reti convoluzionali e modelli di vision transformer per scoprire modelli Pareto-ottimali. Il nostro approccio individua modelli che migliorano rispetto alla precisione uniforme, alla precisione mista manuale e ai recenti metodi di ricerca di quantizzazione intera. Con la proposta ricerca di quantizzazione intera, aumentiamo l'accuratezza di ResNet-18 su ImageNet di 1,31 punti percentuali e di ResNet-50 di 0,90 punti percentuali, mantenendo un costo del modello equivalente rispetto ai metodi precedenti. Inoltre, per la prima volta, esploriamo una nuova ricerca di quantizzazione a precisione mista in virgola mobile e miglioriamo MobileNetV2 fino a 0,98 punti percentuali rispetto ai precedenti modelli FP8 all'avanguardia. Infine, estendiamo FLIQS per cercare simultaneamente uno spazio di quantizzazione congiunto e di architettura neurale, migliorando l'accuratezza su ImageNet di 2,69 punti percentuali con un costo del modello simile in uno spazio di ricerca MobileNetV2.
I modelli generativi profondi possono generare audio ad alta fedeltà condizionati da vari tipi di rappresentazioni (ad esempio, mel-spettrogrammi, Coefficienti Cepstrali a Frequenza Mel (MFCC)). Recentemente, tali modelli sono stati utilizzati per sintetizzare forme d'onda audio condizionate su rappresentazioni altamente compresse. Sebbene questi metodi producano risultati impressionanti, sono inclini a generare artefatti udibili quando il condizionamento è difettoso o imperfetto. Un approccio alternativo di modellazione è l'uso di modelli di diffusione. Tuttavia, questi sono stati principalmente utilizzati come vocoder vocali (cioè, condizionati su mel-spettrogrammi) o per generare segnali con una frequenza di campionamento relativamente bassa. In questo lavoro, proponiamo un framework basato sulla diffusione multi-banda ad alta fedeltà che genera qualsiasi tipo di modalità audio (ad esempio, voce, musica, suoni ambientali) da rappresentazioni discrete a basso bitrate. A parità di bit rate, l'approccio proposto supera le tecniche generative più avanzate in termini di qualità percettiva. Il codice di addestramento e valutazione, insieme ai campioni audio, è disponibile sulla pagina Github facebookresearch/audiocraft.