Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) sono passati dall'essere inesistenti all'essere onnipresenti nel discorso sul machine learning nel giro di pochi anni. A causa del rapido ritmo del campo, è difficile identificare le sfide rimanenti e le aree di applicazione già fruttuose. In questo articolo, miriamo a stabilire un insieme sistematico di problemi aperti e di successi applicativi, in modo che i ricercatori di ML possano comprendere più rapidamente lo stato attuale del campo e diventare produttivi.
Dalla fine del 2022, i Large Language Models (LLM) hanno acquisito una notevole rilevanza, con modelli come ChatGPT e Bard che hanno raggiunto milioni di utenti. Ogni settimana vengono annunciati centinaia di nuovi LLM, molti dei quali vengono depositati su Hugging Face, un repository di modelli di machine learning e dataset. Ad oggi, quasi 16.000 modelli di generazione di testo sono stati caricati sulla piattaforma. Data l'enorme afflusso di LLM, è interessante sapere quali architetture, impostazioni, metodi di addestramento e famiglie di LLM siano popolari o in tendenza. Tuttavia, non esiste un indice completo degli LLM disponibili. Sfruttiamo la nomenclatura relativamente sistematica degli LLM su Hugging Face per eseguire clustering gerarchico e identificare comunità tra gli LLM utilizzando n-grammi e la frequenza del termine inversa alla frequenza nei documenti (TF-IDF). I nostri metodi identificano con successo famiglie di LLM e raggruppano accuratamente i modelli in sottogruppi significativi. Presentiamo un'applicazione web pubblica per navigare ed esplorare Constellation, il nostro atlante di 15.821 LLM. Constellation genera rapidamente una varietà di visualizzazioni, tra cui dendrogrammi, grafici, word cloud e scatter plot. Constellation è disponibile al seguente link: https://constellation.sites.stanford.edu/.
In un'era in cui la generazione di contenuti visivi è sempre più guidata dal machine learning, l'integrazione del feedback umano nei modelli generativi presenta significative opportunità per migliorare l'esperienza dell'utente e la qualità degli output. Questo studio esplora strategie per incorporare il feedback umano iterativo nel processo generativo di modelli di testo-immagine basati su diffusione. Proponiamo FABRIC, un approccio senza addestramento applicabile a un'ampia gamma di modelli di diffusione popolari, che sfrutta il livello di self-attention presente nelle architetture più utilizzate per condizionare il processo di diffusione su un insieme di immagini di feedback. Per garantire una valutazione rigorosa del nostro approccio, introduciamo una metodologia di valutazione completa, offrendo un meccanismo robusto per quantificare le prestazioni dei modelli visivi generativi che integrano il feedback umano. Dimostriamo che i risultati della generazione migliorano attraverso molteplici cicli di feedback iterativo, ottimizzando implicitamente preferenze arbitrarie dell'utente. Le potenziali applicazioni di questi risultati si estendono a campi come la creazione di contenuti personalizzati e la personalizzazione.
La composizione a livelli è uno dei flussi di lavoro più popolari nell'editing di immagini, sia tra i dilettanti che tra i professionisti. Ispirati dal successo dei modelli di diffusione, esploriamo la composizione a livelli da una prospettiva di generazione di immagini stratificate. Invece di generare un'immagine, proponiamo di generare simultaneamente lo sfondo, il primo piano, la maschera del livello e l'immagine composta. Per raggiungere la generazione di immagini stratificate, addestriamo un autoencoder in grado di ricostruire immagini stratificate e addestriamo modelli di diffusione sulla rappresentazione latente. Un vantaggio del problema proposto è quello di abilitare flussi di lavoro di composizione migliori, oltre a produrre immagini di alta qualità. Un altro vantaggio è la produzione di maschere di livello di qualità superiore rispetto a quelle prodotte da un passaggio separato di segmentazione delle immagini. I risultati sperimentali dimostrano che il metodo proposto è in grado di generare immagini stratificate di alta qualità e stabilisce un punto di riferimento per lavori futuri.
I modelli linguistici e i modelli linguistico-visivi hanno recentemente dimostrato capacità senza precedenti in termini di comprensione delle intenzioni umane, ragionamento, comprensione delle scene e comportamenti simili alla pianificazione, in forma testuale, tra molti altri. In questo lavoro, indaghiamo come incorporare e sfruttare tali abilità negli agenti di Apprendimento per Rinforzo (Reinforcement Learning, RL). Progettiamo un framework che utilizza il linguaggio come strumento di ragionamento centrale, esplorando come ciò consenta a un agente di affrontare una serie di sfide fondamentali dell'RL, come l'esplorazione efficiente, il riutilizzo dei dati di esperienza, la pianificazione delle competenze e l'apprendimento dalle osservazioni, che tradizionalmente richiedono algoritmi separati e progettati verticalmente. Testiamo il nostro metodo in un ambiente simulato di manipolazione robotica con ricompense sparse, in cui un robot deve impilare un insieme di oggetti. Dimostriamo miglioramenti sostanziali delle prestazioni rispetto ai baseline in termini di efficienza nell'esplorazione e capacità di riutilizzare i dati da dataset offline, e illustriamo come riutilizzare le competenze apprese per risolvere nuovi compiti o imitare video di esperti umani.
Nonostante i progressi nell'IA conversazionale, i modelli linguistici incontrano difficoltà nel gestire una varietà di compiti conversazionali, e le raccolte di dataset di dialogo esistenti spesso mancano di diversità e completezza. Per affrontare questi problemi, introduciamo DialogStudio: la più vasta e diversificata raccolta di dataset di dialogo, unificati in un formato coerente pur preservando le loro informazioni originali. La nostra raccolta include dati provenienti da dialoghi a dominio aperto, dialoghi orientati al compito, comprensione del linguaggio naturale, raccomandazione conversazionale, riepilogo di dialoghi e dialoghi basati sulla conoscenza, rendendola una risorsa estremamente ricca e diversificata per la ricerca sui dialoghi e l'addestramento di modelli. Per migliorare ulteriormente l'utilità di DialogStudio, identifichiamo le licenze per ciascun dataset e progettiamo prompt sensibili al dominio per dialoghi selezionati, al fine di facilitare il fine-tuning basato su istruzioni. Inoltre, sviluppiamo modelli di IA conversazionale utilizzando la raccolta di dataset, e i nostri esperimenti in scenari di apprendimento zero-shot e few-shot dimostrano la superiorità di DialogStudio. Per aumentare la trasparenza e supportare la ricerca basata su dataset e compiti, nonché il pre-addestramento di modelli linguistici, tutti i dataset, le licenze, i codici e i modelli associati a DialogStudio sono resi pubblicamente accessibili all'indirizzo https://github.com/salesforce/DialogStudio.
C'è un crescente interesse per i sistemi di controllo dispositivi in grado di interpretare istruzioni in linguaggio naturale umano ed eseguirle su un dispositivo digitale controllando direttamente la sua interfaccia utente. Presentiamo un dataset per la ricerca sul controllo dispositivi, Android in the Wild (AITW), che è di ordini di grandezza più ampio rispetto ai dataset attuali. Il dataset contiene dimostrazioni umane di interazioni con dispositivi, inclusi schermi e azioni, e le corrispondenti istruzioni in linguaggio naturale. È composto da 715k episodi che coprono 30k istruzioni uniche, quattro versioni di Android (v10-13) e otto tipi di dispositivi (da Pixel 2 XL a Pixel 6) con diverse risoluzioni dello schermo. Contiene task multi-step che richiedono una comprensione semantica del linguaggio e del contesto visivo. Questo dataset presenta una nuova sfida: le azioni disponibili tramite l'interfaccia utente devono essere dedotte dal loro aspetto visivo. Inoltre, invece di semplici azioni basate sugli elementi dell'interfaccia utente, lo spazio delle azioni è composto da gesti precisi (ad esempio, scorrimenti orizzontali per operare widget a carosello). Organizziamo il nostro dataset per incoraggiare l'analisi della robustezza dei sistemi di controllo dispositivi, ovvero quanto bene un sistema si comporta in presenza di nuove descrizioni di task, nuove applicazioni o nuove versioni della piattaforma. Sviluppiamo due agenti e riportiamo le prestazioni sul dataset. Il dataset è disponibile all'indirizzo https://github.com/google-research/google-research/tree/master/android_in_the_wild.
I LLM hanno dimostrato di essere promettenti nel replicare comportamenti simili a quelli umani in attività di crowdsourcing che in precedenza si pensava fossero esclusive delle capacità umane. Tuttavia, gli sforzi attuali si concentrano principalmente su compiti atomici semplici. Esploriamo se i LLM possano replicare pipeline di crowdsourcing più complesse. Scopriamo che i moderni LLM possono simulare alcune delle capacità dei crowdworker in questi "algoritmi di computazione umana", ma il livello di successo è variabile e influenzato dalla comprensione delle capacità dei LLM da parte dei richiedenti, dalle specifiche competenze richieste per i sotto-compiti e dalla modalità di interazione ottimale per eseguire questi sotto-compiti. Riflettiamo sulle diverse sensibilità alle istruzioni tra umani e LLM, sottolineiamo l'importanza di implementare meccanismi di sicurezza orientati all'uomo per i LLM e discutiamo il potenziale di addestrare umani e LLM con competenze complementari. In modo cruciale, dimostriamo che la replicazione delle pipeline di crowdsourcing offre una piattaforma preziosa per investigare (1) i punti di forza relativi dei LLM su diversi compiti (attraverso il confronto incrociato delle loro prestazioni sui sotto-compiti) e (2) il potenziale dei LLM in compiti complessi, dove possono completare parte delle attività lasciando altre agli umani.
Il rendering realistico centrato sull'uomo svolge un ruolo chiave sia nella visione artificiale che nella grafica computerizzata. Negli anni sono stati compiuti rapidi progressi nell'aspetto algoritmico, tuttavia i dataset e i benchmark esistenti per il rendering centrato sull'uomo sono piuttosto limitati in termini di diversità, che sono cruciali per l'effetto di rendering. I ricercatori sono solitamente costretti a esplorare e valutare un piccolo insieme di problemi di rendering sui dataset attuali, mentre le applicazioni nel mondo reale richiedono metodi robusti in diversi scenari. In questo lavoro, presentiamo DNA-Rendering, un repository su larga scala e ad alta fedeltà di dati sulle prestazioni umane per il rendering di attori neurali. DNA-Rendering presenta diversi attributi allettanti. Innanzitutto, il nostro dataset contiene oltre 1500 soggetti umani, 5000 sequenze di movimento e un volume di dati di 67,5 milioni di frame. In secondo luogo, forniamo risorse ricche per ogni soggetto: punti chiave 2D/3D del corpo umano, maschere in primo piano, modelli SMPLX, materiali per abbigliamento/accessori, immagini multi-vista e video. Queste risorse migliorano l'accuratezza dei metodi attuali nei compiti di rendering a valle. In terzo luogo, abbiamo costruito un sistema multi-vista professionale per acquisire dati, che comprende 60 telecamere sincrone con una risoluzione massima di 4096 x 3000, una velocità di 15 fps e rigorosi passaggi di calibrazione della telecamera, garantendo risorse di alta qualità per l'addestramento e la valutazione dei compiti. Insieme al dataset, forniamo un benchmark su larga scala e quantitativo a pieno titolo, con più compiti per valutare i progressi esistenti nei metodi di sintesi di nuove viste, sintesi di animazione di nuove pose e rendering di nuove identità. In questo manoscritto, descriviamo il nostro sforzo DNA-Rendering come una rivelazione di nuove osservazioni, sfide e direzioni future per il rendering centrato sull'uomo. Il dataset, il codice e i benchmark saranno pubblicamente disponibili all'indirizzo https://dna-rendering.github.io/.
Gli ottimizzatori basati su gradienti adattivi, in particolare Adam, hanno lasciato il segno nell'addestramento di modelli di deep learning su larga scala. Il punto di forza di tali ottimizzatori è che mostrano una convergenza rapida pur essendo più robusti nella scelta degli iperparametri. Tuttavia, spesso generalizzano peggio rispetto ai metodi non adattivi. Studi recenti hanno collegato questa differenza di prestazioni alla selezione di minimi piatti: i metodi adattivi tendono a trovare soluzioni in bacini più accentuati del paesaggio della funzione di perdita, il che a sua volta danneggia la generalizzazione. Per superare questo problema, proponiamo una nuova versione di Adam arricchita con memoria che promuove l'esplorazione verso minimi più piatti utilizzando un buffer di termini di momento critici durante l'addestramento. Intuitivamente, l'uso del buffer fa sì che l'ottimizzatore superi il bacino di attrazione se questo non è sufficientemente ampio. Dimostriamo empiricamente che il nostro metodo migliora le prestazioni di diverse varianti di Adam su compiti standard di modellazione linguistica supervisionata e classificazione di immagini.