Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo lavoro presenta un'analisi dell'efficacia dell'utilizzo di reti feed-forward standard e poco profonde per emulare il comportamento del meccanismo di attenzione nel modello Transformer originale, un'architettura all'avanguardia per compiti di sequenza-a-sequenza. Sostituiamo elementi chiave del meccanismo di attenzione nel Transformer con semplici reti feed-forward, addestrate utilizzando i componenti originali tramite distillazione della conoscenza. I nostri esperimenti, condotti sul dataset IWSLT2017, rivelano la capacità di questi "Transformer senza attenzione" di competere con le prestazioni dell'architettura originale. Attraverso rigorosi studi di ablazione e sperimentando con vari tipi e dimensioni di reti sostitutive, offriamo approfondimenti che supportano la fattibilità del nostro approccio. Ciò non solo getta luce sull'adattabilità delle reti feed-forward poco profonde nell'emulare i meccanismi di attenzione, ma sottolinea anche il loro potenziale nel semplificare architetture complesse per compiti di sequenza-a-sequenza.
I modelli generativi per la sintesi di oggetti 3D hanno registrato progressi significativi grazie all'incorporazione di conoscenze pregliate distillate da modelli di diffusione 2D. Tuttavia, persistono sfide legate a incoerenze geometriche multi-vista e a velocità di generazione lenta all'interno degli attuali framework di sintesi 3D. Ciò può essere attribuito a due fattori: in primo luogo, la carenza di abbondanti conoscenze geometriche a priori nell'ottimizzazione, e in secondo luogo, il problema di intreccio tra geometria e texture nei metodi convenzionali di generazione 3D. In risposta, introduciamo MetaDreammer, un approccio di ottimizzazione in due fasi che sfrutta ricche conoscenze pregliate 2D e 3D. Nella prima fase, ci concentriamo sull'ottimizzazione della rappresentazione geometrica per garantire coerenza multi-vista e accuratezza degli oggetti 3D. Nella seconda fase, ci focalizziamo sull'affinamento della geometria e sull'ottimizzazione della texture, ottenendo così un oggetto 3D più raffinato. Sfruttando rispettivamente le conoscenze pregliate 2D e 3D nelle due fasi, mitigiamo efficacemente l'interdipendenza tra geometria e texture. MetaDreamer stabilisce obiettivi di ottimizzazione chiari per ciascuna fase, consentendo un risparmio significativo di tempo nel processo di generazione 3D. In definitiva, MetaDreamer è in grado di generare oggetti 3D di alta qualità basati su prompt testuali in meno di 20 minuti, e, per quanto ne sappiamo, rappresenta il metodo più efficiente per la generazione da testo a 3D. Inoltre, introduciamo il controllo tramite immagini nel processo, migliorando la controllabilità della generazione 3D. Ampia evidenza empirica conferma che il nostro metodo non solo è altamente efficiente, ma raggiunge anche un livello di qualità all'avanguardia rispetto alle attuali tecniche di generazione 3D state-of-the-art.
In questo lavoro, dimostriamo che i modelli generativi testo-immagine possono essere "invertiti" per valutare le proprie capacità di comprensione testo-immagine in modo completamente automatizzato. Il nostro metodo, chiamato SelfEval, utilizza il modello generativo per calcolare la probabilità di immagini reali dati i prompt testuali, rendendo il modello generativo direttamente applicabile a compiti discriminativi. Utilizzando SelfEval, riadattiamo dataset standard creati per valutare modelli discriminativi multimodali testo-immagine per valutare i modelli generativi in modo granulare: analizzando le loro prestazioni nel legame di attributi, riconoscimento dei colori, conteggio, riconoscimento delle forme e comprensione spaziale. Per quanto ne sappiamo, SelfEval è la prima metrica automatizzata a mostrare un elevato grado di accordo con le valutazioni umane di riferimento (gold-standard) per misurare la fedeltà al testo su più modelli e benchmark. Inoltre, SelfEval ci consente di valutare i modelli generativi su compiti complessi come il punteggio immagine di Winoground, dove dimostrano prestazioni competitive rispetto ai modelli discriminativi. Mostriamo anche gravi limiti delle metriche automatizzate standard, come il CLIP-score, nel misurare la fedeltà al testo su benchmark come DrawBench, e come SelfEval superi questi problemi. Speriamo che SelfEval consenta una valutazione automatizzata facile e affidabile per i modelli di diffusione.
Nonostante le prestazioni scalabili dei vision transformer (ViT), gli elevati costi computazionali (sia in fase di addestramento che di inferenza) ne minano la posizione nelle applicazioni industriali. La quantizzazione post-addestramento (PTQ), che regola i ViT con un piccolo dataset e li esegue in un formato a basso numero di bit, affronta bene il problema dei costi ma purtroppo comporta maggiori cali di prestazioni nei casi a bit più bassi. In questo articolo, introduciamo I&S-ViT, un metodo innovativo che regola la PTQ dei ViT in modo inclusivo e stabile. I&S-ViT identifica innanzitutto due problemi nella PTQ dei ViT: (1) L'inefficienza della quantizzazione nel quantizzatore log2 prevalente per le attivazioni post-Softmax; (2) Un paesaggio di perdita accidentato e amplificato nella granularità di quantizzazione a grana grossa per le attivazioni post-LayerNorm. Successivamente, I&S-ViT affronta questi problemi introducendo: (1) Un nuovo quantizzatore shift-uniform-log2 (SULQ) che incorpora un meccanismo di shift seguito da una quantizzazione uniforme per ottenere sia una rappresentazione inclusiva del dominio che un'approssimazione accurata della distribuzione; (2) Una strategia di ottimizzazione smooth in tre fasi (SOS) che amalgama i punti di forza della quantizzazione per canale e per livello per consentire un apprendimento stabile. Valutazioni complete su diverse attività di visione confermano la superiorità di I&S-ViT rispetto ai metodi PTQ esistenti per i ViT, in particolare negli scenari a basso numero di bit. Ad esempio, I&S-ViT migliora le prestazioni del ViT-B a 3 bit di un impressionante 50,68%.
I grandi modelli linguistici (LLM) hanno dimostrato miglioramenti significativi nelle capacità di ragionamento e decisione e possono condurre conversazioni naturali con gli utenti. Molti lavori recenti cercano di potenziare gli assistenti basati su LLM con strumenti esterni, in modo che possano accedere a informazioni private o aggiornate e compiere azioni per conto degli utenti. Per misurare meglio le prestazioni di questi assistenti, questo articolo introduce ToolTalk, un benchmark costituito da intenti complessi dell'utente che richiedono l'uso di strumenti multi-step specificati attraverso il dialogo. ToolTalk contiene 28 strumenti raggruppati in 7 plugin e include un'implementazione simulata completa di ciascuno strumento, consentendo una valutazione completamente automatizzata degli assistenti che si basano sul feedback di esecuzione. ToolTalk enfatizza inoltre strumenti che influenzano esternamente il mondo, piuttosto che solo strumenti per la consultazione o la ricerca di informazioni. Valutiamo GPT-3.5 e GPT-4 su ToolTalk, ottenendo tassi di successo rispettivamente del 26% e del 50%. La nostra analisi degli errori rivela tre categorie principali e suggerisce alcune direzioni future per il miglioramento. Rilasciamo ToolTalk all'indirizzo https://github.com/microsoft/ToolTalk.
Le politiche robotiche odierne mostrano prestazioni inferiori quando si tratta di generalizzare in ambienti nuovi. Il feedback correttivo umano rappresenta una forma cruciale di guida per abilitare tale generalizzazione. Tuttavia, adattarsi e apprendere da correzioni umane in tempo reale è un'impresa non banale: non solo i robot devono ricordare il feedback umano nel tempo per recuperare le informazioni corrette in nuovi contesti e ridurre il tasso di intervento, ma devono anche essere in grado di rispondere a feedback che possono variare da correzioni arbitrarie sulle preferenze umane di alto livello a regolazioni di basso livello dei parametri delle abilità. In questo lavoro, presentiamo Distillation and Retrieval of Online Corrections (DROC), un sistema basato su modelli linguistici di grandi dimensioni (LLM) in grado di rispondere a forme arbitrarie di feedback linguistico, distillare conoscenza generalizzabile dalle correzioni e recuperare esperienze passate rilevanti basandosi su similarità testuale e visiva per migliorare le prestazioni in contesti nuovi. DROC è in grado di rispondere a una sequenza di correzioni linguistiche in tempo reale che affrontano errori sia nei piani di alto livello che nei primitivi di abilità di basso livello. Dimostriamo che DROC distilla efficacemente le informazioni rilevanti dalla sequenza di correzioni online in una base di conoscenza e recupera tale conoscenza in contesti con nuove istanze di compiti o oggetti. DROC supera altre tecniche che generano direttamente codice robotico tramite LLM utilizzando solo la metà del numero totale di correzioni necessarie nel primo round e richiede poche o nessuna correzione dopo due iterazioni. Mostriamo ulteriori risultati, video, prompt e codice su https://sites.google.com/stanford.edu/droc.