HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

12 papers found

I Transformer Lineari con Funzioni Kernel Apprendibili sono Modelli In-Contesto Migliori
Linear Transformers with Learnable Kernel Functions are Better In-Context Models

Feb 16

ByYaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov

Avanzare la frontiera delle architetture subquadratiche per i Modelli Linguistici (LM) è cruciale nel campo in rapida evoluzione dell'elaborazione del linguaggio naturale. Le innovazioni attuali, inclusi i Modelli a Spazio di Stati, sono state inizialmente celebrate per aver superato le prestazioni dei Transformer nei compiti di modellazione del linguaggio. Tuttavia, questi modelli hanno rivelato carenze nelle capacità essenziali di Apprendimento in Contesto - un dominio in cui il Transformer tradizionalmente eccelle. Il modello Based è emerso come una soluzione ibrida, combinando un Transformer Lineare con un kernel ispirato all'espansione di Taylor delle funzioni esponenziali, potenziato da reti convoluzionali. Riflettendo l'abilità in contesto del Transformer, è diventato un forte contendente nel campo. Nel nostro lavoro, presentiamo una singola ed elegante modifica al kernel Based che amplifica le sue capacità di Apprendimento in Contesto, valutate con il compito di Richiamo Associativo Multi-Query e il processo complessivo di modellazione del linguaggio, come dimostrato sul dataset Pile.

Alla ricerca di aghi in un pagliaio da 10 milioni: la memoria ricorrente trova ciò che i grandi modelli linguistici perdono
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss

Feb 16

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

Questo articolo affronta la sfida di elaborare documenti lunghi utilizzando modelli generativi basati su trasformatori. Per valutare diversi approcci, introduciamo BABILong, un nuovo benchmark progettato per valutare le capacità dei modelli nell'estrarre e processare fatti distribuiti all'interno di testi estesi. La nostra valutazione, che include benchmark per GPT-4 e RAG, rivela che i metodi comuni sono efficaci solo per sequenze fino a 10^4 elementi. Al contrario, il fine-tuning di GPT-2 con aumentazioni di memoria ricorrenti gli consente di gestire compiti che coinvolgono fino a 10^7 elementi. Questo risultato rappresenta un salto sostanziale, poiché è di gran lunga l'input più lungo elaborato da qualsiasi modello di rete neurale aperto fino ad oggi, dimostrando un miglioramento significativo nelle capacità di elaborazione per sequenze lunghe.

SPAR: Raccomandazione Personalizzata Basata sui Contenuti tramite Attenzione Prolungata all'Engagement
SPAR: Personalized Content-Based Recommendation via Long Engagement Attention

Feb 16

ByChiyu Zhang, Yifei Sun, Jun Chen, Jie Lei, Muhammad Abdul-Mageed, Sinong Wang, Rong Jin, Sem Park, Ning Yao, Bo Long

Sfruttare le lunghe storie di interazione degli utenti è essenziale per raccomandazioni di contenuti personalizzate. Il successo dei modelli linguistici pre-addestrati (PLM) nel campo dell'elaborazione del linguaggio naturale (NLP) ha portato al loro utilizzo per codificare le storie degli utenti e gli elementi candidati, inquadrando le raccomandazioni di contenuti come compiti di corrispondenza semantica testuale. Tuttavia, i lavori esistenti continuano a lottare con l'elaborazione di testi storici degli utenti molto lunghi e con un'interazione insufficiente tra utente e elemento. In questo articolo, introduciamo un framework di raccomandazione basato sui contenuti, SPAR, che affronta efficacemente le sfide dell'estrazione degli interessi olistici degli utenti dalla lunga storia di interazione. Ciò viene ottenuto sfruttando PLM, strati di poli-attenzione e meccanismi di sparsità dell'attenzione per codificare la storia dell'utente in modo basato su sessioni. Le caratteristiche dell'utente e dell'elemento vengono sufficientemente fuse per la previsione dell'interazione, mantenendo rappresentazioni autonome per entrambe le parti, il che è efficiente per il dispiegamento pratico del modello. Inoltre, miglioriamo il profilo dell'utente sfruttando un modello linguistico di grandi dimensioni (LLM) per estrarre interessi globali dalla storia di interazione dell'utente. Esperimenti estesi su due dataset di riferimento dimostrano che il nostro framework supera i metodi state-of-the-art (SoTA) esistenti.

DataDreamer: Uno Strumento per la Generazione di Dati Sintetici e Flussi di Lavoro Riproducibili per LLM
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

Feb 16

ByAjay Patel, Colin Raffel, Chris Callison-Burch

I grandi modelli linguistici (LLM) sono diventati uno strumento dominante e importante per i ricercatori nel campo dell'elaborazione del linguaggio naturale (NLP) in un'ampia gamma di attività. Oggi, molti ricercatori utilizzano gli LLM per la generazione di dati sintetici, la valutazione di compiti, il fine-tuning, la distillazione e altri flussi di lavoro di ricerca che coinvolgono modelli in loop. Tuttavia, l'uso di questi modelli presenta delle sfide che derivano dalla loro scala, dalla loro natura closed source e dalla mancanza di strumenti standardizzati per questi nuovi e emergenti flussi di lavoro. La rapida ascesa di questi modelli e queste sfide uniche hanno avuto un impatto negativo immediato sulla scienza aperta e sulla riproducibilità del lavoro che li utilizza. In questo articolo, presentiamo DataDreamer, una libreria Python open source che consente ai ricercatori di scrivere codice semplice per implementare potenti flussi di lavoro con LLM. DataDreamer aiuta inoltre i ricercatori a seguire le migliori pratiche che proponiamo per incoraggiare la scienza aperta e la riproducibilità. La libreria e la documentazione sono disponibili all'indirizzo https://github.com/datadreamer-dev/DataDreamer.

LAVE: Assistenza Agente Potenziata da LLM e Aumento Linguistico per il Montaggio Video
LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing

Feb 15

ByBryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi

La creazione di video è diventata sempre più popolare, ma le competenze e lo sforzo richiesti per l'editing spesso rappresentano ostacoli per i principianti. In questo articolo, esploriamo l'integrazione di modelli linguistici di grandi dimensioni (LLM) nel flusso di lavoro di editing video per ridurre queste barriere. La nostra visione progettuale si concretizza in LAVE, un sistema innovativo che offre assistenza tramite agenti basati su LLM e funzionalità di editing potenziate dal linguaggio. LAVE genera automaticamente descrizioni linguistiche per i filmati dell'utente, che fungono da base per consentire all'LLM di elaborare i video e assistere nelle attività di editing. Quando l'utente fornisce obiettivi di editing, l'agente pianifica ed esegue azioni rilevanti per raggiungerli. Inoltre, LAVE consente agli utenti di modificare i video sia tramite l'agente che attraverso la manipolazione diretta dell'interfaccia utente, offrendo flessibilità e permettendo la rifinitura manuale delle azioni dell'agente. Il nostro studio utente, che ha coinvolto otto partecipanti che spaziavano da principianti a editor esperti, ha dimostrato l'efficacia di LAVE. I risultati hanno anche gettato luce sulle percezioni degli utenti riguardo al paradigma di editing assistito da LLM proposto e al suo impatto sulla creatività e sul senso di co-creazione degli utenti. Sulla base di questi risultati, proponiamo implicazioni progettuali per informare lo sviluppo futuro dell'editing di contenuti assistito da agenti.

LLM Comparator: Analisi Visuale per la Valutazione Comparativa di Modelli Linguistici di Grandi Dimensioni
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models

Feb 16

ByMinsuk Kahng, Ian Tenney, Mahima Pushkarna, Michael Xieyang Liu, James Wexler, Emily Reif, Krystal Kallarackal, Minsuk Chang, Michael Terry, Lucas Dixon

La valutazione automatica affiancata è emersa come un approccio promettente per valutare la qualità delle risposte dei grandi modelli linguistici (LLM). Tuttavia, l'analisi dei risultati derivanti da questo metodo di valutazione solleva sfide di scalabilità e interpretabilità. In questo articolo, presentiamo LLM Comparator, uno strumento innovativo di analisi visiva per analizzare in modo interattivo i risultati della valutazione automatica affiancata. Lo strumento supporta flussi di lavoro interattivi che consentono agli utenti di comprendere quando e perché un modello performa meglio o peggio rispetto a un modello di riferimento, e in che modo le risposte di due modelli differiscono qualitativamente. Abbiamo progettato e sviluppato lo strumento in modo iterativo, collaborando strettamente con ricercatori e ingegneri di una grande azienda tecnologica. Questo articolo descrive nel dettaglio le sfide degli utenti che abbiamo identificato, la progettazione e lo sviluppo dello strumento, e uno studio osservativo condotto con partecipanti che valutano regolarmente i loro modelli.

I grandi modelli linguistici come tracker dello stato del dialogo zero-shot attraverso il richiamo di funzioni
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling

Feb 16

ByZekun Li, Zhiyu Zoey Chen, Mike Ross, Patrick Huber, Seungwhan Moon, Zhaojiang Lin, Xin Luna Dong, Adithya Sagar, Xifeng Yan, Paul A. Crook

I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più diffusi nei sistemi conversazionali grazie alla loro avanzata capacità di comprensione e generazione in contesti generali. Tuttavia, la loro efficacia nei dialoghi orientati al compito (TOD), che richiedono non solo la generazione di risposte ma anche un efficace tracciamento dello stato del dialogo (DST) all'interno di compiti e domini specifici, rimane meno soddisfacente. In questo lavoro, proponiamo un nuovo approccio chiamato FnCTOD per risolvere il DST con gli LLM attraverso il richiamo di funzioni. Questo metodo migliora il DST zero-shot, consentendo l'adattamento a diversi domini senza la necessità di un'ampia raccolta di dati o di un'ottimizzazione del modello. I nostri risultati sperimentali dimostrano che il nostro approccio raggiunge prestazioni eccezionali sia con modelli open-source di dimensioni modeste che con modelli proprietari: con il prompting in-context, consente a vari modelli da 7B o 13B parametri di superare il precedente stato dell'arte (SOTA) raggiunto da ChatGPT e migliora le prestazioni di ChatGPT, superando il SOTA del 5,6% in media JGA. I risultati individuali per GPT-3.5 e GPT-4 sono aumentati rispettivamente del 4,8% e del 14%. Mostriamo inoltre che, attraverso il fine-tuning su una piccola raccolta di dialoghi orientati al compito, è possibile dotare modelli di dimensioni modeste, in particolare un modello LLaMA2-Chat da 13B parametri, di capacità di richiamo di funzioni e prestazioni DST paragonabili a ChatGPT, mantenendo le loro capacità di chat. Prevediamo di rendere open-source il codice sperimentale e il modello.

Realizzare un Ridimensionamento Economico: Un Modello di Diffusione a Cascata Automatica per l'Adattamento a Risoluzioni Superiori
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Feb 16

ByLanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen

I modelli di diffusione si sono dimostrati altamente efficaci nella generazione di immagini e video; tuttavia, continuano a presentare sfide compositive quando generano immagini di dimensioni variabili a causa di dati di addestramento a scala singola. L'adattamento di grandi modelli di diffusione pre-addestrati per risoluzioni più elevate richiede risorse computazionali e di ottimizzazione sostanziali, ma ottenere una capacità di generazione paragonabile ai modelli a bassa risoluzione rimane difficile. Questo articolo propone un nuovo modello di diffusione a cascata autonoma che sfrutta la ricca conoscenza acquisita da un modello ben addestrato a bassa risoluzione per un rapido adattamento alla generazione di immagini e video a risoluzione più elevata, impiegando paradigmi di upsampling senza sintonizzazione o a basso costo. Integrando una sequenza di moduli di upsampling multi-scala, il modello di diffusione a cascata autonoma può adattarsi efficientemente a una risoluzione più alta, preservando le capacità compositive e di generazione originali. Proponiamo inoltre una strategia di riprogrammazione del rumore guidata da pivot per accelerare il processo di inferenza e migliorare i dettagli strutturali locali. Rispetto alla messa a punto completa, il nostro approccio ottiene un'accelerazione dell'addestramento di 5X e richiede solo 0,002M parametri aggiuntivi da sintonizzare. Esperimenti estensivi dimostrano che il nostro approccio può adattarsi rapidamente alla sintesi di immagini e video a risoluzione più elevata con una messa a punto di soli 10k passi, con praticamente nessun tempo di inferenza aggiuntivo.

PaLM2-VAdapter: Modello Linguistico Progressivamente Allineato Come Adattatore Visivo-Linguistico Potente
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

Feb 16

ByJunfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang

Questo articolo dimostra che un modello linguistico progressivamente allineato può efficacemente collegare encoder visivi congelati e grandi modelli linguistici (LLM). Mentre l'architettura fondamentale e i metodi di pre-addestramento degli encoder visivi e degli LLM sono stati ampiamente studiati, l'architettura e la strategia di addestramento degli adattatori visione-linguaggio variano significativamente tra i lavori recenti. La nostra ricerca intraprende un'esplorazione approfondita dell'architettura all'avanguardia del perceiver resampler e costruisce una solida baseline. Tuttavia, osserviamo che l'allineamento visione-linguaggio con il perceiver resampler mostra una convergenza lenta e una scalabilità limitata, con una mancanza di supervisione diretta. Per affrontare questo problema, proponiamo PaLM2-VAdapter, che impiega un modello linguistico progressivamente allineato come adattatore visione-linguaggio. Rispetto alla solida baseline con perceiver resampler, il nostro metodo mostra empiricamente una convergenza più rapida, prestazioni superiori e una scalabilità più forte. Esperimenti estesi su vari compiti di Visual Question Answering (VQA) e di generazione di didascalie, sia su immagini che su video, dimostrano che il nostro modello possiede capacità di comprensione visiva e ragionamento multimodale all'avanguardia. In particolare, il nostro metodo raggiunge questi progressi con il 30~70% in meno di parametri rispetto ai grandi modelli visione-linguaggio all'avanguardia, segnando un significativo miglioramento in termini di efficienza.

Interfaccia Universale di Manipolazione: Insegnamento Robotico in Ambiente Reale Senza Robot in Ambiente Reale
Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

Feb 15

ByCheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song

Presentiamo Universal Manipulation Interface (UMI) — un framework per la raccolta dati e l'apprendimento di politiche che consente il trasferimento diretto di abilità da dimostrazioni umane in contesti reali a politiche robotiche implementabili. UMI utilizza pinze portatili accoppiate a un'attenta progettazione dell'interfaccia per consentire una raccolta dati portatile, a basso costo e ricca di informazioni per dimostrazioni di manipolazione bimanuale e dinamica complesse. Per facilitare l'apprendimento di politiche implementabili, UMI incorpora un'interfaccia per le politiche progettata con cura, con corrispondenza della latenza al momento dell'inferenza e una rappresentazione delle azioni basata su traiettorie relative. Le politiche apprese risultanti sono indipendenti dall'hardware e implementabili su più piattaforme robotiche. Dotato di queste caratteristiche, il framework UMI sblocca nuove capacità di manipolazione robotica, consentendo comportamenti dinamici, bimanuali, precisi e a lungo orizzonte generalizzabili in modo zero-shot, semplicemente modificando i dati di addestramento per ciascun compito. Dimostriamo la versatilità e l'efficacia di UMI con esperimenti completi nel mondo reale, in cui le politiche apprese tramite UMI generalizzano in modo zero-shot a nuovi ambienti e oggetti quando addestrate su dimostrazioni umane diverse. Il sistema hardware e software di UMI è open-source e disponibile all'indirizzo https://umi-gripper.github.io.

GaussianObject: Basta Quattro Immagini per Ottenere un Oggetto 3D di Alta Qualità con Gaussian Splatting
GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting

Feb 15

ByChen Yang, Sikuang Li, Jiemin Fang, Ruofan Liang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian

La ricostruzione e il rendering di oggetti 3D a partire da viste estremamente sparse è di fondamentale importanza per promuovere le applicazioni delle tecniche di visione 3D e migliorare l'esperienza utente. Tuttavia, le immagini provenienti da viste sparse contengono informazioni 3D molto limitate, portando a due sfide significative: 1) Difficoltà nel costruire una coerenza multi-vista poiché le immagini disponibili per il matching sono troppo poche; 2) Informazioni parzialmente omesse o altamente compresse sull'oggetto a causa di una copertura insufficiente delle viste. Per affrontare queste sfide, proponiamo GaussianObject, un framework per rappresentare e renderizzare l'oggetto 3D utilizzando lo splatting Gaussiano, che raggiunge un'elevata qualità di rendering con solo 4 immagini in input. Introduciamo inizialmente tecniche di visual hull e eliminazione dei floater, che iniettano esplicitamente priorità strutturali nel processo di ottimizzazione iniziale per aiutare a costruire la coerenza multi-vista, ottenendo una rappresentazione Gaussiana 3D approssimativa. Successivamente, costruiamo un modello di riparazione Gaussiano basato su modelli di diffusione per integrare le informazioni omesse sull'oggetto, dove i Gaussiani vengono ulteriormente raffinati. Progettiamo una strategia di auto-generazione per ottenere coppie di immagini per l'addestramento del modello di riparazione. Il nostro GaussianObject viene valutato su diversi dataset impegnativi, tra cui MipNeRF360, OmniObject3D e OpenIllumination, ottenendo risultati di ricostruzione robusti a partire da sole 4 viste e superando significativamente i precedenti metodi all'avanguardia.

RLVF: Apprendimento dal Feedback Verbale senza Sovrageneralizzazione
RLVF: Learning from Verbal Feedback without Overgeneralization

Feb 16

ByMoritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen, Sheryl Hsu, Archit Sharma, Chelsea Finn

La diversità di contesti in cui i modelli linguistici di grandi dimensioni (LLM) vengono implementati richiede la capacità di modificare o personalizzare i comportamenti predefiniti del modello per incorporare requisiti e preferenze sfumati. Un'interfaccia comoda per specificare tali adattamenti del modello è il feedback verbale di alto livello, come "Non usare emoji quando redigi email per il mio capo". Tuttavia, sebbene scrivere feedback di alto livello sia molto più semplice rispetto alla raccolta di annotazioni per il reinforcement learning da feedback umano (RLHF), abbiamo osservato che semplicemente fornire al modello tale feedback porta a una sovrageneralizzazione del feedback in contesti in cui non è rilevante. Studiamo il problema di incorporare feedback verbale senza tale sovrageneralizzazione, ispirando un nuovo metodo chiamato Critiche Contestualizzate con Ottimizzazione Vincolata delle Preferenze (C3PO). C3PO utilizza un feedback di alto livello per generare un piccolo dataset sintetico di preferenze che specifica come il feedback dovrebbe (e non dovrebbe) essere applicato. Successivamente, ottimizza il modello in base ai dati sintetici di preferenza, minimizzando la divergenza dal modello originale per prompt in cui il feedback non si applica. I nostri risultati sperimentali indicano che il nostro approccio applica efficacemente il feedback verbale agli scenari rilevanti preservando i comportamenti esistenti per altri contesti. Sia per feedback di alto livello generati da esseri umani che da GPT-4, C3PO aderisce efficacemente al feedback fornito in modo comparabile ai baseline in-context, riducendo la sovrageneralizzazione del 30%.

Realizzare un Ridimensionamento Economico: Un Modello di Diffusione a Cascata Automatica per l'Adattamento a Risoluzioni Superiori
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Feb 16

ByLanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen