HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

11 papers found

RAPTOR: Elaborazione Ricorsiva Astratta per il Recupero Organizzato ad Albero
RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

Jan 31

ByParth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning

I modelli linguistici potenziati dal retrieval possono adattarsi meglio ai cambiamenti dello stato del mondo e incorporare conoscenze di nicchia. Tuttavia, la maggior parte dei metodi esistenti recupera solo brevi segmenti contigui da un corpus di retrieval, limitando la comprensione olistica del contesto complessivo del documento. Introduciamo un approccio innovativo che prevede l'incorporazione ricorsiva, il clustering e la sintesi di segmenti di testo, costruendo un albero con diversi livelli di sintesi dal basso verso l'alto. Al momento dell'inferenza, il nostro modello RAPTOR effettua il retrieval da questo albero, integrando informazioni da documenti lunghi a diversi livelli di astrazione. Esperimenti controllati dimostrano che il retrieval con sintesi ricorsive offre miglioramenti significativi rispetto ai tradizionali modelli linguistici potenziati dal retrieval in diverse attività. Nelle attività di risposta a domande che richiedono ragionamenti complessi e multi-step, otteniamo risultati all'avanguardia; ad esempio, combinando il retrieval di RAPTOR con l'uso di GPT-4, possiamo migliorare la migliore prestazione sul benchmark QuALITY del 20% in termini di accuratezza assoluta.

Infini-gram: Scalabilità di Modelli Linguistici n-gram Illimitati fino a un Trilione di Token
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

Jan 30

ByJiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi

I modelli linguistici n-gram sono ancora rilevanti in questa era dei grandi modelli linguistici neurali (LLM)? La nostra risposta è sì, e ne dimostriamo il valore sia nell'analisi del testo che nel miglioramento dei LLM neurali. Tuttavia, ciò richiede una modernizzazione dei modelli n-gram in due aspetti. Innanzitutto, li addestriamo sulla stessa scala di dati dei LLM neurali — 1,4 trilioni di token. Questo è il più grande modello n-gram mai costruito. In secondo luogo, i modelli n-gram esistenti utilizzano valori di n piccoli che ne limitano le prestazioni; noi invece permettiamo che n sia arbitrariamente grande, introducendo un nuovo modello linguistico infty-gram con backoff. Invece di pre-calcolare le tabelle di conteggio degli n-gram (che sarebbe molto costoso), sviluppiamo un motore chiamato infini-gram — alimentato da array di suffissi — che può calcolare le probabilità degli infty-gram (così come degli n-gram con n arbitrario) con una latenza a livello di millisecondi. Il framework infty-gram e il motore infini-gram ci permettono di condurre molte analisi nuove e interessanti su testi scritti da esseri umani e generati da macchine: scopriamo che il modello linguistico infty-gram ha un'accuratezza piuttosto elevata nella previsione del token successivo (47%) e può integrare i LLM neurali per ridurre notevolmente le loro perplessità nella modellazione del linguaggio. Quando analizziamo testi generati da macchine, osserviamo anche irregolarità nel livello di accordo macchina–infty-gram rispetto alla lunghezza del suffisso, il che indica carenze nel pre-addestramento dei LLM neurali e negli embedding posizionali dei Transformer. Rendiamo open-source il nostro motore infini-gram nella speranza di favorire ulteriori studi su come utilizzare al meglio le informazioni verbatim estratte da grandi corpora testuali.

Agile ma Sicuro: Apprendimento di Locomozione Ad Alta Velocità Senza Collisioni per Robot a Gambe
Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion

Jan 31

ByTairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi

I robot a zampe che navigano in ambienti affollati devono essere contemporaneamente agili per un'esecuzione efficiente dei compiti e sicuri per evitare collisioni con ostacoli o esseri umani. Gli studi esistenti sviluppano controller conservativi (< 1,0 m/s) per garantire la sicurezza, oppure si concentrano sull'agilità senza considerare potenziali collisioni fatali. Questo articolo introduce Agile But Safe (ABS), un framework di controllo basato sull'apprendimento che consente una locomozione agile e priva di collisioni per robot quadrupedi. ABS comprende una politica agile per eseguire abilità motorie agili in mezzo agli ostacoli e una politica di recupero per prevenire fallimenti, collaborando per ottenere una navigazione ad alta velocità e priva di collisioni. Il passaggio tra le politiche in ABS è governato da una rete di valore reach-avoid appresa teoricamente, che guida anche la politica di recupero come funzione obiettivo, proteggendo così il robot in un ciclo chiuso. Il processo di formazione coinvolge l'apprendimento della politica agile, della rete di valore reach-avoid, della politica di recupero e di una rete di rappresentazione esterocettiva, tutto in simulazione. Questi moduli addestrati possono essere direttamente implementati nel mondo reale con sensori e calcolo a bordo, portando a una navigazione ad alta velocità e priva di collisioni in spazi confinati sia interni che esterni, con ostacoli sia statici che dinamici.

LongAlign: Una Ricetta per l'Allineamento di Contesti Lunghi nei Modelli Linguistici di Grande Scala
LongAlign: A Recipe for Long Context Alignment of Large Language Models

Jan 31

ByYushi Bai, Xin Lv, Jiajie Zhang, Yuze He, Ji Qi, Lei Hou, Jie Tang, Yuxiao Dong, Juanzi Li

Estendere i modelli linguistici di grandi dimensioni per gestire efficacemente contesti lunghi richiede un fine-tuning su istruzioni con sequenze di input di lunghezza simile. Per affrontare questa sfida, presentiamo LongAlign -- una ricetta che comprende i dati di istruzione, l'addestramento e la valutazione per l'allineamento di contesti lunghi. In primo luogo, costruiamo un dataset di istruzioni lunghe utilizzando Self-Instruct. Per garantire la diversità dei dati, copriamo un'ampia gamma di task provenienti da varie fonti di contesti lunghi. In secondo luogo, adottiamo strategie di impacchettamento e ordinamento dei batch per accelerare il fine-tuning supervisionato su dati con distribuzioni di lunghezza variabile. Inoltre, sviluppiamo un metodo di ponderazione della perdita per bilanciare il contributo alla perdita tra diverse sequenze durante l'addestramento con impacchettamento. In terzo luogo, introduciamo il benchmark LongBench-Chat per valutare le capacità di seguire istruzioni su query di lunghezza compresa tra 10k e 100k. Gli esperimenti dimostrano che LongAlign supera le ricette esistenti per i modelli linguistici di grandi dimensioni nei task di contesto lungo fino al 30\%, mantenendo al contempo la loro competenza nella gestione di task brevi e generici. Il codice, i dati e i modelli allineati per contesti lunghi sono open-source all'indirizzo https://github.com/THUDM/LongAlign.

AnimateLCM: Accelerare l'Animazione di Modelli di Diffusione Personalizzati e Adattatori con Apprendimento della Coerenza Disaccoppiato
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Feb 1

ByFu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li

I modelli di diffusione video stanno attirando un'attenzione crescente per la loro capacità di produrre video coerenti e di alta fedeltà. Tuttavia, il processo iterativo di rimozione del rumore li rende computazionalmente intensivi e lunghi, limitandone le applicazioni. Ispirati dal Modello di Consistenza (CM) che distilla modelli di diffusione di immagini pre-addestrati per accelerare il campionamento con un numero minimo di passaggi e dalla sua estensione di successo, il Modello di Consistenza Latente (LCM) nella generazione condizionata di immagini, proponiamo AnimateLCM, che consente la generazione di video ad alta fedeltà con un numero minimo di passaggi. Invece di condurre direttamente l'apprendimento della consistenza sul dataset video grezzo, proponiamo una strategia di apprendimento della consistenza disaccoppiata che separa la distillazione delle conoscenze pregresse sulla generazione di immagini e sulla generazione del movimento, migliorando l'efficienza dell'addestramento e la qualità visiva della generazione. Inoltre, per consentire l'integrazione di adattatori plug-and-play nella comunità di diffusione stabile per ottenere varie funzionalità (ad esempio, ControlNet per la generazione controllabile), proponiamo una strategia efficiente per adattare gli adattatori esistenti al nostro modello di consistenza video condizionato al testo distillato o per addestrare adattatori da zero senza compromettere la velocità di campionamento. Validiamo la strategia proposta nella generazione di video condizionata all'immagine e nella generazione di video condizionata al layout, ottenendo risultati di primo livello. I risultati sperimentali convalidano l'efficacia del nostro metodo. Codice e pesi saranno resi pubblici. Ulteriori dettagli sono disponibili su https://github.com/G-U-N/AnimateLCM.

Uso Efficiente degli Strumenti con Ragionamento a Catena di Astrazioni
Efficient Tool Use with Chain-of-Abstraction Reasoning

Jan 30

BySilin Gao, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, Tianlu Wang

Per ottenere un ragionamento fedele che si allinei con le aspettative umane, i grandi modelli linguistici (LLM) devono ancorare il loro ragionamento a conoscenze del mondo reale (ad esempio, fatti web, regole matematiche e fisiche). Gli strumenti aiutano gli LLM ad accedere a questa conoscenza esterna, ma rimangono sfide per il fine-tuning degli agenti LLM (ad esempio, Toolformer) per invocare strumenti in problemi di ragionamento a più passaggi, dove chiamate di strumenti interconnesse richiedono una pianificazione olistica ed efficiente dell'uso degli strumenti. In questo lavoro, proponiamo un nuovo metodo affinché gli LLM possano sfruttare meglio gli strumenti nel ragionamento a più passaggi. Il nostro metodo, Chain-of-Abstraction (CoA), addestra gli LLM a decodificare prima catene di ragionamento con segnaposto astratti, e poi a chiamare strumenti di dominio per concretizzare ogni catena di ragionamento riempiendo conoscenze specifiche. Questa pianificazione con catene astratte consente agli LLM di apprendere strategie di ragionamento più generali, che sono robuste ai cambiamenti di conoscenza di dominio (ad esempio, risultati matematici) rilevanti per diverse domande di ragionamento. Permette inoltre agli LLM di eseguire la decodifica e la chiamata di strumenti esterni in parallelo, evitando il ritardo di inferenza causato dall'attesa delle risposte degli strumenti. Nei domini del ragionamento matematico e delle domande Wiki QA, dimostriamo che il nostro metodo supera costantemente i precedenti baseline di catena di pensiero e strumenti aumentati sia su set di test in-distribuzione che out-of-distribution, con un miglioramento medio di ~6% in termini di accuratezza assoluta nelle risposte. Gli agenti LLM addestrati con il nostro metodo mostrano anche un uso più efficiente degli strumenti, con una velocità di inferenza in media ~1,4 volte più veloce rispetto ai baseline di LLM aumentati con strumenti.

Progressi nella Generazione 3D: Una Rassegna
Advances in 3D Generation: A Survey

Jan 31

ByXiaoyu Li, Qi Zhang, Di Kang, Weihao Cheng, Yiming Gao, Jingbo Zhang, Zhihao Liang, Jing Liao, Yan-Pei Cao, Ying Shan

La generazione di modelli 3D rappresenta il cuore della computer grafica ed è stata al centro di decenni di ricerca. Con l'emergere di rappresentazioni neurali avanzate e modelli generativi, il campo della generazione di contenuti 3D si sta sviluppando rapidamente, consentendo la creazione di modelli 3D sempre più di alta qualità e diversificati. La rapida crescita di questo settore rende difficile rimanere aggiornati su tutti i recenti sviluppi. In questa rassegna, ci proponiamo di introdurre le metodologie fondamentali dei metodi di generazione 3D e di stabilire una roadmap strutturata, che comprende rappresentazione 3D, metodi di generazione, dataset e applicazioni corrispondenti. Nello specifico, introduciamo le rappresentazioni 3D che fungono da spina dorsale per la generazione 3D. Inoltre, forniamo una panoramica completa della letteratura in rapida crescita sui metodi di generazione, categorizzati in base al tipo di paradigmi algoritmici, inclusi la generazione feedforward, la generazione basata su ottimizzazione, la generazione procedurale e la sintesi generativa di nuove viste. Infine, discutiamo i dataset disponibili, le applicazioni e le sfide aperte. Speriamo che questa rassegna aiuti i lettori a esplorare questo entusiasmante argomento e a favorire ulteriori progressi nel campo della generazione di contenuti 3D.

Qualsiasi cosa in Qualsiasi Scena: Inserimento Fotorealistico di Oggetti in Video
Anything in Any Scene: Photorealistic Video Object Insertion

Jan 30

ByChen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, Jie Yang, Zhuorui Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan, Xiaoyin Zheng, Tao Wang, Cheng Lu

La simulazione video realistica ha dimostrato un potenziale significativo in diverse applicazioni, dalla realtà virtuale alla produzione cinematografica. Ciò è particolarmente vero per gli scenari in cui la cattura di video in ambienti reali risulta impraticabile o costosa. Gli approcci esistenti nella simulazione video spesso non riescono a modellare accuratamente l'ambiente luminoso, rappresentare la geometria degli oggetti o raggiungere elevati livelli di fotorealismo. In questo articolo, proponiamo "Anything in Any Scene", un nuovo e generico framework per la simulazione video realistica che inserisce in modo fluido qualsiasi oggetto in un video dinamico esistente, con una forte enfasi sul realismo fisico. Il nostro framework generale proposto comprende tre processi chiave: 1) integrare un oggetto realistico in un video di scena dato con un posizionamento appropriato per garantire il realismo geometrico; 2) stimare la distribuzione della luce del cielo e dell'ambiente e simulare ombre realistiche per migliorare il realismo luminoso; 3) impiegare una rete di trasferimento di stile che perfeziona l'output video finale per massimizzare il fotorealismo. Sperimentalmente dimostriamo che il framework "Anything in Any Scene" produce video simulati con un elevato realismo geometrico, luminoso e fotorealistico. Mitigando significativamente le sfide associate alla generazione di dati video, il nostro framework offre una soluzione efficiente e conveniente per l'acquisizione di video di alta qualità. Inoltre, le sue applicazioni si estendono ben oltre l'aumento dei dati video, mostrando un potenziale promettente nella realtà virtuale, nell'editing video e in varie altre applicazioni incentrate sul video. Si prega di visitare il nostro sito web del progetto https://anythinginanyscene.github.io per accedere al codice del progetto e a ulteriori risultati video ad alta risoluzione.

Iena Spazzina: Distillare i Trasformatori in Modelli a Convoluzione Lunga
Scavenging Hyena: Distilling Transformers into Long Convolution Models

Jan 31

ByTokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang

La rapida evoluzione dei Large Language Models (LLM), esemplificata da architetture come GPT-4, ha ridefinito il panorama del natural language processing. Questo articolo introduce un approccio pionieristico per affrontare le preoccupazioni legate all'efficienza nel pre-training degli LLM, proponendo l'uso della distillazione della conoscenza per il trasferimento cross-architettura. Sfruttando le intuizioni del meccanismo efficiente Hyena, il nostro metodo sostituisce le testine di attenzione nei modelli transformer con Hyena, offrendo un'alternativa economica al pre-training tradizionale e affrontando la sfida di elaborare informazioni contestuali lunghe, intrinseca ai meccanismi di attenzione quadratica. A differenza dei metodi convenzionali focalizzati sulla compressione, la nostra tecnica non solo migliora la velocità di inferenza, ma supera anche il pre-training in termini di accuratezza ed efficienza. Nell'era degli LLM in evoluzione, il nostro lavoro contribuisce alla ricerca di soluzioni AI sostenibili, bilanciando potenza computazionale e impatto ambientale.

ReplaceAnything3D: Modifica di Scene 3D Guidata da Testo con Campi di Radianza Neurale Composizionali
ReplaceAnything3D:Text-Guided 3D Scene Editing with Compositional Neural Radiance Fields

Jan 31

ByEdward Bartrum, Thu Nguyen-Phuoc, Chris Xie, Zhengqin Li, Numair Khan, Armen Avetisyan, Douglas Lanman, Lei Xiao

Presentiamo il modello ReplaceAnything3D (RAM3D), un innovativo metodo di editing di scene 3D guidato da testo che consente la sostituzione di oggetti specifici all'interno di una scena. Dati immagini multi-vista di una scena, un prompt di testo che descrive l'oggetto da sostituire e un prompt di testo che descrive il nuovo oggetto, il nostro approccio "Cancella e Sostituisci" può scambiare efficacemente gli oggetti nella scena con contenuti appena generati, mantenendo la coerenza 3D attraverso più punti di vista. Dimostriamo la versatilità di ReplaceAnything3D applicandolo a varie scene 3D realistiche, mostrando risultati di oggetti in primo piano modificati che si integrano bene con il resto della scena senza comprometterne l'integrità complessiva.

CARFF: Campo di Radianza con Auto-Codifica Condizionata per la Previsione di Scene 3D
CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting

Jan 31

ByJiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez

Proponiamo CARFF: Conditional Auto-encoded Radiance Field per la previsione di scene 3D, un metodo per prevedere scene 3D future date osservazioni passate, come immagini egocentriche 2D. Il nostro metodo mappa un'immagine a una distribuzione su configurazioni latenti 3D plausibili utilizzando un encoder probabilistico e prevede l'evoluzione delle scene ipotizzate nel tempo. La nostra rappresentazione latente della scene condiziona un Neural Radiance Field (NeRF) globale per rappresentare un modello di scena 3D, che consente previsioni spiegabili e applicazioni downstream dirette. Questo approccio va oltre il precedente lavoro sul rendering neurale considerando scenari complessi di incertezza negli stati e nelle dinamiche ambientali. Utilizziamo un addestramento in due fasi di Pose-Conditional-VAE e NeRF per apprendere rappresentazioni 3D. Inoltre, prevediamo autoregressivamente le rappresentazioni latenti delle scene come un processo decisionale di Markov parzialmente osservabile, sfruttando una rete a densità mista. Dimostriamo l'utilità del nostro metodo in scenari realistici utilizzando il simulatore di guida CARLA, dove CARFF può essere utilizzato per abilitare una pianificazione efficiente delle traiettorie e delle contingenze in complessi scenari di guida autonoma multi-agente che coinvolgono occlusioni visive.

Qualsiasi cosa in Qualsiasi Scena: Inserimento Fotorealistico di Oggetti in Video
Anything in Any Scene: Photorealistic Video Object Insertion

Jan 30

ByChen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, Jie Yang, Zhuorui Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan, Xiaoyin Zheng, Tao Wang, Cheng Lu