Articoli di ricerca IA selezionati quotidianamente con traduzioni
Avanzare la frontiera delle architetture subquadratiche per i Modelli Linguistici (LM) è cruciale nel campo in rapida evoluzione dell'elaborazione del linguaggio naturale. Le innovazioni attuali, inclusi i Modelli a Spazio di Stati, sono state inizialmente celebrate per aver superato le prestazioni dei Transformer nei compiti di modellazione del linguaggio. Tuttavia, questi modelli hanno rivelato carenze nelle capacità essenziali di Apprendimento in Contesto - un dominio in cui il Transformer tradizionalmente eccelle. Il modello Based è emerso come una soluzione ibrida, combinando un Transformer Lineare con un kernel ispirato all'espansione di Taylor delle funzioni esponenziali, potenziato da reti convoluzionali. Riflettendo l'abilità in contesto del Transformer, è diventato un forte contendente nel campo. Nel nostro lavoro, presentiamo una singola ed elegante modifica al kernel Based che amplifica le sue capacità di Apprendimento in Contesto, valutate con il compito di Richiamo Associativo Multi-Query e il processo complessivo di modellazione del linguaggio, come dimostrato sul dataset Pile.
Questo articolo affronta la sfida di elaborare documenti lunghi utilizzando modelli generativi basati su trasformatori. Per valutare diversi approcci, introduciamo BABILong, un nuovo benchmark progettato per valutare le capacità dei modelli nell'estrarre e processare fatti distribuiti all'interno di testi estesi. La nostra valutazione, che include benchmark per GPT-4 e RAG, rivela che i metodi comuni sono efficaci solo per sequenze fino a 10^4 elementi. Al contrario, il fine-tuning di GPT-2 con aumentazioni di memoria ricorrenti gli consente di gestire compiti che coinvolgono fino a 10^7 elementi. Questo risultato rappresenta un salto sostanziale, poiché è di gran lunga l'input più lungo elaborato da qualsiasi modello di rete neurale aperto fino ad oggi, dimostrando un miglioramento significativo nelle capacità di elaborazione per sequenze lunghe.
Sfruttare le lunghe storie di interazione degli utenti è essenziale per raccomandazioni di contenuti personalizzate. Il successo dei modelli linguistici pre-addestrati (PLM) nel campo dell'elaborazione del linguaggio naturale (NLP) ha portato al loro utilizzo per codificare le storie degli utenti e gli elementi candidati, inquadrando le raccomandazioni di contenuti come compiti di corrispondenza semantica testuale. Tuttavia, i lavori esistenti continuano a lottare con l'elaborazione di testi storici degli utenti molto lunghi e con un'interazione insufficiente tra utente e elemento. In questo articolo, introduciamo un framework di raccomandazione basato sui contenuti, SPAR, che affronta efficacemente le sfide dell'estrazione degli interessi olistici degli utenti dalla lunga storia di interazione. Ciò viene ottenuto sfruttando PLM, strati di poli-attenzione e meccanismi di sparsità dell'attenzione per codificare la storia dell'utente in modo basato su sessioni. Le caratteristiche dell'utente e dell'elemento vengono sufficientemente fuse per la previsione dell'interazione, mantenendo rappresentazioni autonome per entrambe le parti, il che è efficiente per il dispiegamento pratico del modello. Inoltre, miglioriamo il profilo dell'utente sfruttando un modello linguistico di grandi dimensioni (LLM) per estrarre interessi globali dalla storia di interazione dell'utente. Esperimenti estesi su due dataset di riferimento dimostrano che il nostro framework supera i metodi state-of-the-art (SoTA) esistenti.
I grandi modelli linguistici (LLM) sono diventati uno strumento dominante e importante per i ricercatori nel campo dell'elaborazione del linguaggio naturale (NLP) in un'ampia gamma di attività. Oggi, molti ricercatori utilizzano gli LLM per la generazione di dati sintetici, la valutazione di compiti, il fine-tuning, la distillazione e altri flussi di lavoro di ricerca che coinvolgono modelli in loop. Tuttavia, l'uso di questi modelli presenta delle sfide che derivano dalla loro scala, dalla loro natura closed source e dalla mancanza di strumenti standardizzati per questi nuovi e emergenti flussi di lavoro. La rapida ascesa di questi modelli e queste sfide uniche hanno avuto un impatto negativo immediato sulla scienza aperta e sulla riproducibilità del lavoro che li utilizza. In questo articolo, presentiamo DataDreamer, una libreria Python open source che consente ai ricercatori di scrivere codice semplice per implementare potenti flussi di lavoro con LLM. DataDreamer aiuta inoltre i ricercatori a seguire le migliori pratiche che proponiamo per incoraggiare la scienza aperta e la riproducibilità. La libreria e la documentazione sono disponibili all'indirizzo https://github.com/datadreamer-dev/DataDreamer.
La creazione di video è diventata sempre più popolare, ma le competenze e lo sforzo richiesti per l'editing spesso rappresentano ostacoli per i principianti. In questo articolo, esploriamo l'integrazione di modelli linguistici di grandi dimensioni (LLM) nel flusso di lavoro di editing video per ridurre queste barriere. La nostra visione progettuale si concretizza in LAVE, un sistema innovativo che offre assistenza tramite agenti basati su LLM e funzionalità di editing potenziate dal linguaggio. LAVE genera automaticamente descrizioni linguistiche per i filmati dell'utente, che fungono da base per consentire all'LLM di elaborare i video e assistere nelle attività di editing. Quando l'utente fornisce obiettivi di editing, l'agente pianifica ed esegue azioni rilevanti per raggiungerli. Inoltre, LAVE consente agli utenti di modificare i video sia tramite l'agente che attraverso la manipolazione diretta dell'interfaccia utente, offrendo flessibilità e permettendo la rifinitura manuale delle azioni dell'agente. Il nostro studio utente, che ha coinvolto otto partecipanti che spaziavano da principianti a editor esperti, ha dimostrato l'efficacia di LAVE. I risultati hanno anche gettato luce sulle percezioni degli utenti riguardo al paradigma di editing assistito da LLM proposto e al suo impatto sulla creatività e sul senso di co-creazione degli utenti. Sulla base di questi risultati, proponiamo implicazioni progettuali per informare lo sviluppo futuro dell'editing di contenuti assistito da agenti.
La valutazione automatica affiancata è emersa come un approccio promettente per valutare la qualità delle risposte dei grandi modelli linguistici (LLM). Tuttavia, l'analisi dei risultati derivanti da questo metodo di valutazione solleva sfide di scalabilità e interpretabilità. In questo articolo, presentiamo LLM Comparator, uno strumento innovativo di analisi visiva per analizzare in modo interattivo i risultati della valutazione automatica affiancata. Lo strumento supporta flussi di lavoro interattivi che consentono agli utenti di comprendere quando e perché un modello performa meglio o peggio rispetto a un modello di riferimento, e in che modo le risposte di due modelli differiscono qualitativamente. Abbiamo progettato e sviluppato lo strumento in modo iterativo, collaborando strettamente con ricercatori e ingegneri di una grande azienda tecnologica. Questo articolo descrive nel dettaglio le sfide degli utenti che abbiamo identificato, la progettazione e lo sviluppo dello strumento, e uno studio osservativo condotto con partecipanti che valutano regolarmente i loro modelli.
I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più diffusi nei sistemi conversazionali grazie alla loro avanzata capacità di comprensione e generazione in contesti generali. Tuttavia, la loro efficacia nei dialoghi orientati al compito (TOD), che richiedono non solo la generazione di risposte ma anche un efficace tracciamento dello stato del dialogo (DST) all'interno di compiti e domini specifici, rimane meno soddisfacente. In questo lavoro, proponiamo un nuovo approccio chiamato FnCTOD per risolvere il DST con gli LLM attraverso il richiamo di funzioni. Questo metodo migliora il DST zero-shot, consentendo l'adattamento a diversi domini senza la necessità di un'ampia raccolta di dati o di un'ottimizzazione del modello. I nostri risultati sperimentali dimostrano che il nostro approccio raggiunge prestazioni eccezionali sia con modelli open-source di dimensioni modeste che con modelli proprietari: con il prompting in-context, consente a vari modelli da 7B o 13B parametri di superare il precedente stato dell'arte (SOTA) raggiunto da ChatGPT e migliora le prestazioni di ChatGPT, superando il SOTA del 5,6% in media JGA. I risultati individuali per GPT-3.5 e GPT-4 sono aumentati rispettivamente del 4,8% e del 14%. Mostriamo inoltre che, attraverso il fine-tuning su una piccola raccolta di dialoghi orientati al compito, è possibile dotare modelli di dimensioni modeste, in particolare un modello LLaMA2-Chat da 13B parametri, di capacità di richiamo di funzioni e prestazioni DST paragonabili a ChatGPT, mantenendo le loro capacità di chat. Prevediamo di rendere open-source il codice sperimentale e il modello.
I modelli di diffusione si sono dimostrati altamente efficaci nella generazione di immagini e video; tuttavia, continuano a presentare sfide compositive quando generano immagini di dimensioni variabili a causa di dati di addestramento a scala singola. L'adattamento di grandi modelli di diffusione pre-addestrati per risoluzioni più elevate richiede risorse computazionali e di ottimizzazione sostanziali, ma ottenere una capacità di generazione paragonabile ai modelli a bassa risoluzione rimane difficile. Questo articolo propone un nuovo modello di diffusione a cascata autonoma che sfrutta la ricca conoscenza acquisita da un modello ben addestrato a bassa risoluzione per un rapido adattamento alla generazione di immagini e video a risoluzione più elevata, impiegando paradigmi di upsampling senza sintonizzazione o a basso costo. Integrando una sequenza di moduli di upsampling multi-scala, il modello di diffusione a cascata autonoma può adattarsi efficientemente a una risoluzione più alta, preservando le capacità compositive e di generazione originali. Proponiamo inoltre una strategia di riprogrammazione del rumore guidata da pivot per accelerare il processo di inferenza e migliorare i dettagli strutturali locali. Rispetto alla messa a punto completa, il nostro approccio ottiene un'accelerazione dell'addestramento di 5X e richiede solo 0,002M parametri aggiuntivi da sintonizzare. Esperimenti estensivi dimostrano che il nostro approccio può adattarsi rapidamente alla sintesi di immagini e video a risoluzione più elevata con una messa a punto di soli 10k passi, con praticamente nessun tempo di inferenza aggiuntivo.
Questo articolo dimostra che un modello linguistico progressivamente allineato può efficacemente collegare encoder visivi congelati e grandi modelli linguistici (LLM). Mentre l'architettura fondamentale e i metodi di pre-addestramento degli encoder visivi e degli LLM sono stati ampiamente studiati, l'architettura e la strategia di addestramento degli adattatori visione-linguaggio variano significativamente tra i lavori recenti. La nostra ricerca intraprende un'esplorazione approfondita dell'architettura all'avanguardia del perceiver resampler e costruisce una solida baseline. Tuttavia, osserviamo che l'allineamento visione-linguaggio con il perceiver resampler mostra una convergenza lenta e una scalabilità limitata, con una mancanza di supervisione diretta. Per affrontare questo problema, proponiamo PaLM2-VAdapter, che impiega un modello linguistico progressivamente allineato come adattatore visione-linguaggio. Rispetto alla solida baseline con perceiver resampler, il nostro metodo mostra empiricamente una convergenza più rapida, prestazioni superiori e una scalabilità più forte. Esperimenti estesi su vari compiti di Visual Question Answering (VQA) e di generazione di didascalie, sia su immagini che su video, dimostrano che il nostro modello possiede capacità di comprensione visiva e ragionamento multimodale all'avanguardia. In particolare, il nostro metodo raggiunge questi progressi con il 30~70% in meno di parametri rispetto ai grandi modelli visione-linguaggio all'avanguardia, segnando un significativo miglioramento in termini di efficienza.
Presentiamo Universal Manipulation Interface (UMI) — un framework per la raccolta dati e l'apprendimento di politiche che consente il trasferimento diretto di abilità da dimostrazioni umane in contesti reali a politiche robotiche implementabili. UMI utilizza pinze portatili accoppiate a un'attenta progettazione dell'interfaccia per consentire una raccolta dati portatile, a basso costo e ricca di informazioni per dimostrazioni di manipolazione bimanuale e dinamica complesse. Per facilitare l'apprendimento di politiche implementabili, UMI incorpora un'interfaccia per le politiche progettata con cura, con corrispondenza della latenza al momento dell'inferenza e una rappresentazione delle azioni basata su traiettorie relative. Le politiche apprese risultanti sono indipendenti dall'hardware e implementabili su più piattaforme robotiche. Dotato di queste caratteristiche, il framework UMI sblocca nuove capacità di manipolazione robotica, consentendo comportamenti dinamici, bimanuali, precisi e a lungo orizzonte generalizzabili in modo zero-shot, semplicemente modificando i dati di addestramento per ciascun compito. Dimostriamo la versatilità e l'efficacia di UMI con esperimenti completi nel mondo reale, in cui le politiche apprese tramite UMI generalizzano in modo zero-shot a nuovi ambienti e oggetti quando addestrate su dimostrazioni umane diverse. Il sistema hardware e software di UMI è open-source e disponibile all'indirizzo https://umi-gripper.github.io.
La ricostruzione e il rendering di oggetti 3D a partire da viste estremamente sparse è di fondamentale importanza per promuovere le applicazioni delle tecniche di visione 3D e migliorare l'esperienza utente. Tuttavia, le immagini provenienti da viste sparse contengono informazioni 3D molto limitate, portando a due sfide significative: 1) Difficoltà nel costruire una coerenza multi-vista poiché le immagini disponibili per il matching sono troppo poche; 2) Informazioni parzialmente omesse o altamente compresse sull'oggetto a causa di una copertura insufficiente delle viste. Per affrontare queste sfide, proponiamo GaussianObject, un framework per rappresentare e renderizzare l'oggetto 3D utilizzando lo splatting Gaussiano, che raggiunge un'elevata qualità di rendering con solo 4 immagini in input. Introduciamo inizialmente tecniche di visual hull e eliminazione dei floater, che iniettano esplicitamente priorità strutturali nel processo di ottimizzazione iniziale per aiutare a costruire la coerenza multi-vista, ottenendo una rappresentazione Gaussiana 3D approssimativa. Successivamente, costruiamo un modello di riparazione Gaussiano basato su modelli di diffusione per integrare le informazioni omesse sull'oggetto, dove i Gaussiani vengono ulteriormente raffinati. Progettiamo una strategia di auto-generazione per ottenere coppie di immagini per l'addestramento del modello di riparazione. Il nostro GaussianObject viene valutato su diversi dataset impegnativi, tra cui MipNeRF360, OmniObject3D e OpenIllumination, ottenendo risultati di ricostruzione robusti a partire da sole 4 viste e superando significativamente i precedenti metodi all'avanguardia.
La diversità di contesti in cui i modelli linguistici di grandi dimensioni (LLM) vengono implementati richiede la capacità di modificare o personalizzare i comportamenti predefiniti del modello per incorporare requisiti e preferenze sfumati. Un'interfaccia comoda per specificare tali adattamenti del modello è il feedback verbale di alto livello, come "Non usare emoji quando redigi email per il mio capo". Tuttavia, sebbene scrivere feedback di alto livello sia molto più semplice rispetto alla raccolta di annotazioni per il reinforcement learning da feedback umano (RLHF), abbiamo osservato che semplicemente fornire al modello tale feedback porta a una sovrageneralizzazione del feedback in contesti in cui non è rilevante. Studiamo il problema di incorporare feedback verbale senza tale sovrageneralizzazione, ispirando un nuovo metodo chiamato Critiche Contestualizzate con Ottimizzazione Vincolata delle Preferenze (C3PO). C3PO utilizza un feedback di alto livello per generare un piccolo dataset sintetico di preferenze che specifica come il feedback dovrebbe (e non dovrebbe) essere applicato. Successivamente, ottimizza il modello in base ai dati sintetici di preferenza, minimizzando la divergenza dal modello originale per prompt in cui il feedback non si applica. I nostri risultati sperimentali indicano che il nostro approccio applica efficacemente il feedback verbale agli scenari rilevanti preservando i comportamenti esistenti per altri contesti. Sia per feedback di alto livello generati da esseri umani che da GPT-4, C3PO aderisce efficacemente al feedback fornito in modo comparabile ai baseline in-context, riducendo la sovrageneralizzazione del 30%.