HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

12 papers found

I Libri di Testo Sono Tutto Ciò di Cui Hai Bisogno
Textbooks Are All You Need

Jun 20

BySuriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li

154

Presentiamo phi-1, un nuovo modello linguistico di grandi dimensioni per il codice, con dimensioni significativamente più ridotte rispetto ai modelli concorrenti: phi-1 è un modello basato su Transformer con 1,3 miliardi di parametri, addestrato per 4 giorni su 8 GPU A100, utilizzando una selezione di dati di "qualità da manuale" provenienti dal web (6 miliardi di token) e manuali ed esercizi generati sinteticamente con GPT-3.5 (1 miliardo di token). Nonostante questa scala ridotta, phi-1 raggiunge un'accuratezza pass@1 del 50,6% su HumanEval e del 55,5% su MBPP. Inoltre, mostra proprietà emergenti sorprendenti rispetto a phi-1-base, il nostro modello prima della fase di fine-tuning su un dataset di esercizi di programmazione, e phi-1-small, un modello più piccolo con 350 milioni di parametri addestrato con la stessa pipeline di phi-1 che raggiunge comunque il 45% su HumanEval.

MotionGPT: Modelli Linguistici Affinati sono Generatori di Movimento a Scopo Generale
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

Jun 19

ByYaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, Wanli Ouyang

La generazione di movimenti umani realistici a partire da descrizioni di azioni specifiche ha registrato progressi significativi grazie alla crescente richiesta di esseri umani digitali. Sebbene i lavori recenti abbiano ottenuto risultati impressionanti nella generazione di movimenti direttamente da descrizioni testuali delle azioni, spesso supportano solo una singola modalità del segnale di controllo, il che limita la loro applicazione nell'industria reale degli esseri umani digitali. Questo articolo presenta un generatore di movimenti a scopo generale (MotionGPT) in grado di utilizzare segnali di controllo multimodali, come testo e pose a singolo fotogramma, per generare movimenti umani consecutivi, trattando i segnali multimodali come token di input speciali nei modelli linguistici di grandi dimensioni (LLM). Nello specifico, prima quantizziamo i segnali di controllo multimodali in codici discreti e poi li formuliamo in un'istruzione di prompt unificata per chiedere agli LLM di generare la risposta in termini di movimento. Il nostro MotionGPT dimostra un modello unificato di generazione di movimenti umani con segnali di controllo multimodali, regolando solo lo 0,4% dei parametri dell'LLM. Per quanto ne sappiamo, MotionGPT è il primo metodo in grado di generare movimenti umani attraverso segnali di controllo multimodali, e speriamo che possa gettare luce su questa nuova direzione. I codici verranno rilasciati dopo l'accettazione.

HomeRobot: Manipolazione Mobile a Vocabolario Aperto
HomeRobot: Open-Vocabulary Mobile Manipulation

Jun 20

BySriram Yenamandra, Arun Ramachandran, Karmesh Yadav, Austin Wang, Mukul Khanna, Theophile Gervet, Tsung-Yen Yang, Vidhi Jain, Alexander William Clegg, John Turner, Zsolt Kira, Manolis Savva, Angel Chang, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton

HomeRobot (sostantivo): Un robot accessibile e adattabile che naviga nelle abitazioni e manipola una vasta gamma di oggetti per completare attività quotidiane. La Manipolazione Mobile a Vocabolario Aperto (Open-Vocabulary Mobile Manipulation, OVMM) è il problema di raccogliere qualsiasi oggetto in un ambiente non visto precedentemente e posizionarlo in una località specificata. Questa è una sfida fondamentale affinché i robot possano diventare assistenti utili negli ambienti umani, poiché implica affrontare sotto-problemi provenienti da vari ambiti della robotica: percezione, comprensione del linguaggio, navigazione e manipolazione sono tutti essenziali per l'OVMM. Inoltre, l'integrazione delle soluzioni a questi sotto-problemi presenta sfide significative. Per promuovere la ricerca in questo settore, introduciamo il benchmark HomeRobot OVMM, in cui un agente naviga in ambienti domestici per afferrare oggetti nuovi e posizionarli su ripiani target. HomeRobot è composto da due componenti: una componente di simulazione, che utilizza un ampio e diversificato set di oggetti curati in nuovi ambienti domestici multi-stanza di alta qualità; e una componente nel mondo reale, che fornisce uno stack software per il robot a basso costo Hello Robot Stretch, incoraggiando la replicazione di esperimenti reali tra i laboratori. Implementiamo sia baseline di apprendimento per rinforzo che euristici (basati su modello) e mostriamo evidenze di trasferimento da simulazione a realtà. Le nostre baseline raggiungono un tasso di successo del 20% nel mondo reale; i nostri esperimenti identificano modi in cui futuri lavori di ricerca potrebbero migliorare le prestazioni. Guarda i video sul nostro sito: https://ovmm.github.io/.

RepoFusion: Addestramento di Modelli di Codice per Comprendere il Tuo Repository
RepoFusion: Training Code Models to Understand Your Repository

Jun 19

ByDisha Shrivastava, Denis Kocetkov, Harm de Vries, Dzmitry Bahdanau, Torsten Scholak

Nonostante l'enorme successo dei Large Language Models (LLM) negli assistenti di codifica come GitHub Copilot, questi modelli faticano a comprendere il contesto presente nei repository (ad esempio, importazioni, classi genitore, file con nomi simili, ecc.), producendo così completamenti di codice inaccurati. Questo effetto è più pronunciato quando si utilizzano questi assistenti per repository che il modello non ha visto durante l'addestramento, come software proprietario o progetti di codice in fase di sviluppo. Recenti lavori hanno dimostrato il potenziale di utilizzare il contesto del repository durante l'inferenza. In questo lavoro, estendiamo questa idea e proponiamo RepoFusion, un framework per addestrare modelli a incorporare il contesto rilevante del repository. Esperimenti sul completamento di codice a singola riga mostrano che i nostri modelli addestrati con il contesto del repository superano significativamente modelli di codice molto più grandi come CodeGen-16B-multi (circa 73 volte più grande) e si avvicinano alle prestazioni del modello StarCoderBase, circa 70 volte più grande, che è stato addestrato con l'obiettivo Fill-in-the-Middle. Riteniamo che questi risultati siano una dimostrazione innovativa e convincente dei vantaggi che l'addestramento con il contesto del repository può portare. Abbiamo condotto ampi studi di ablazione per investigare l'impatto delle scelte progettuali come il tipo di contesto, il numero di contesti, la lunghezza del contesto e l'inizializzazione all'interno del nostro framework. Infine, rilasciamo Stack-Repo, un dataset di 200 repository Java con licenze permissive e file quasi-deduplicati, arricchiti con tre tipi di contesti di repository. Inoltre, rendiamo disponibili il codice e i checkpoint addestrati del nostro lavoro. Le nostre risorse rilasciate possono essere trovate all'indirizzo https://huggingface.co/RepoFusion.

Completamento di Point-Cloud con Modelli di Diffusione Testo-Immagine Pre-addestrati
Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Jun 18

ByYoni Kasten, Ohad Rahamim, Gal Chechik

I dati di point-cloud raccolti nelle applicazioni del mondo reale sono spesso incompleti. I dati mancano tipicamente a causa di oggetti osservati da punti di vista parziali, che catturano solo una prospettiva o un angolo specifico. Inoltre, i dati possono essere incompleti a causa di occlusioni e campionamenti a bassa risoluzione. Gli approcci esistenti di completamento si basano su dataset di oggetti predefiniti per guidare il completamento di point-cloud rumorosi e incompleti. Tuttavia, questi approcci performano male quando testati su oggetti Out-Of-Distribution (OOD), che sono scarsamente rappresentati nel dataset di addestramento. Qui sfruttiamo i recenti progressi nella generazione di immagini guidata da testo, che hanno portato a importanti svolte nella generazione di forme guidata da testo. Descriviamo un approccio chiamato SDS-Complete che utilizza un modello di diffusione pre-addestrato da testo a immagine e sfrutta la semantica testuale di un dato point-cloud incompleto di un oggetto, per ottenere una rappresentazione completa della superficie. SDS-Complete può completare una varietà di oggetti utilizzando l'ottimizzazione al momento del test senza la costosa raccolta di informazioni 3D. Valutiamo SDS-Complete su oggetti scansionati incompleti, catturati da sensori di profondità del mondo reale e scanner LiDAR. Troviamo che ricostruisce efficacemente oggetti assenti dai dataset comuni, riducendo la perdita di Chamfer del 50% in media rispetto ai metodi attuali. Pagina del progetto: https://sds-complete.github.io/

GLIMMER: riecheggiatore di memoria con interazione tardiva generalizzata
GLIMMER: generalized late-interaction memory reranker

Jun 17

ByMichiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Sumit Sanghai, William W. Cohen, Joshua Ainslie

L'aumento della memoria è un approccio potente per incorporare in modo efficiente informazioni esterne nei modelli linguistici, ma comporta una riduzione delle prestazioni rispetto al recupero di testo. Recenti lavori hanno introdotto LUMEN, un ibrido di memoria-recupero che pre-calcola parzialmente la memoria e aggiorna le rappresentazioni della memoria al volo con un encoder live più piccolo. Proponiamo GLIMMER, che migliora questo approccio attraverso 1) lo sfruttamento dell'accesso gratuito alle potenti rappresentazioni della memoria applicando un riordinatore superficiale sulla memoria per migliorare drasticamente la qualità del recupero a basso costo, e 2) l'integrazione di un addestramento multi-task per apprendere una memoria e un encoder live più generali e di qualità superiore. GLIMMER ottiene significativi miglioramenti nelle prestazioni a velocità più elevate rispetto a LUMEN e FiD sul benchmark KILT di task ad alta intensità di conoscenza.

RoboCat: Un Agente Fondamentale Auto-Migliorante per la Manipolazione Robotica
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Jun 20

ByKonstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad Żołna, Scott Reed, Sergio Gómez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Rothörl, José Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, Nicolas Heess

La capacità di sfruttare esperienze robotiche eterogenee provenienti da diversi robot e compiti per padroneggiare rapidamente nuove abilità e incarnazioni ha il potenziale di trasformare l'apprendimento robotico. Ispirati dai recenti progressi nei modelli di base per la visione e il linguaggio, proponiamo un agente di base per la manipolazione robotica. Questo agente, chiamato RoboCat, è un trasformatore decisionale condizionato da obiettivi visivi in grado di elaborare esperienze visive etichettate con azioni multi-incarnazione. Questi dati abbracciano un vasto repertorio di abilità di controllo motorio provenienti da bracci robotici simulati e reali con diversi set di osservazioni e azioni. Con RoboCat, dimostriamo la capacità di generalizzare a nuovi compiti e robot, sia in modalità zero-shot sia attraverso l'adattamento utilizzando solo 100-1000 esempi per il compito target. Mostriamo inoltre come un modello addestrato possa essere utilizzato per generare dati per iterazioni di addestramento successive, fornendo così un elemento di base per un ciclo di miglioramento autonomo. Investigiamo le capacità dell'agente, con valutazioni su larga scala sia in simulazione sia su tre diverse incarnazioni di robot reali. Rileviamo che, man mano che aumentiamo e diversifichiamo i suoi dati di addestramento, RoboCat non solo mostra segni di trasferimento tra compiti, ma diventa anche più efficiente nell'adattarsi a nuovi compiti.

Guidare i Modelli Linguistici per il Codice con Contesto Globale utilizzando Monitori
Guiding Language Models of Code with Global Context using Monitors

Jun 19

ByLakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K. Lahiri, Sriram K. Rajamani

I modelli linguistici di codice (LMs) funzionano bene quando il codice circostante in prossimità della generazione fornisce un contesto sufficiente. Questo non è vero quando diventa necessario utilizzare tipi o funzionalità definiti in un altro modulo o libreria, specialmente quelli non visti durante l'addestramento. Gli LMs soffrono di una consapevolezza limitata di tale contesto globale e finiscono per allucinare, ad esempio, utilizzando in modo errato tipi definiti in altri file. Recenti lavori cercano di superare questo problema recuperando informazioni globali per arricchire il contesto locale. Tuttavia, questo gonfia il prompt o richiede modifiche all'architettura e ulteriore addestramento. Gli ambienti di sviluppo integrati (IDEs) assistono gli sviluppatori portando il contesto globale a portata di mano utilizzando l'analisi statica. Estendiamo questa assistenza, di cui godono gli sviluppatori, anche agli LMs. Proponiamo una nozione di monitor che utilizzano l'analisi statica in background per guidare la decodifica. A differenza del recupero a priori, l'analisi statica viene invocata iterativamente durante l'intero processo di decodifica, fornendo i suggerimenti più rilevanti su richiesta. Dimostriamo l'utilità della nostra proposta monitorando l'uso coerente dei tipi degli identificatori ogni volta che un LM genera codice per la dereferenziazione di oggetti. Per valutare il nostro approccio, abbiamo curato PragmaticCode, un dataset di progetti open-source con i loro ambienti di sviluppo. Su modelli di varia scala di parametri, mostriamo che la decodifica guidata dal monitor migliora costantemente la capacità di un LM non solo di generare identificatori che corrispondono alla verità di base, ma anche di migliorare i tassi di compilazione e la concordanza con la verità di base. Troviamo che LMs con meno parametri, quando guidati dal nostro monitor, possono superare LMs più grandi. Con la decodifica guidata dal monitor, SantaCoder-1.1B raggiunge un tasso di compilazione migliore e una corrispondenza del prossimo identificatore rispetto al modello molto più grande text-davinci-003. I dataset e il codice saranno rilasciati su https://aka.ms/monitors4codegen.

BayLing: Colmare il divario tra allineamento cross-linguale e seguimento delle istruzioni attraverso la traduzione interattiva per i grandi modelli linguistici
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models

Jun 19

ByShaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng

I grandi modelli linguistici (LLM) hanno dimostrato una notevole abilità nella comprensione e generazione del linguaggio. Passando dai LLM di base ai LLM che seguono istruzioni, la regolazione delle istruzioni svolge un ruolo cruciale nell'allineare i LLM alle preferenze umane. Tuttavia, gli LLM esistenti sono generalmente focalizzati sull'inglese, portando a prestazioni inferiori nelle lingue non inglesi. Per migliorare le prestazioni per le lingue non inglesi, è necessario raccogliere dati di addestramento specifici per la lingua per i LLM di base e costruire istruzioni specifiche per la lingua per la regolazione delle istruzioni, entrambi compiti onerosi. Per minimizzare il carico di lavoro umano, proponiamo di trasferire le capacità di generazione del linguaggio e di seguire istruzioni dall'inglese ad altre lingue attraverso un compito di traduzione interattiva. Abbiamo sviluppato BayLing, un LLM che segue istruzioni, utilizzando LLaMA come LLM di base e costruendo automaticamente istruzioni di traduzione interattiva per la regolazione delle istruzioni. Valutazioni estensive dimostrano che BayLing raggiunge prestazioni comparabili a GPT-3.5-turbo, nonostante utilizzi una dimensione dei parametri considerevolmente più piccola, pari a soli 13 miliardi. I risultati sperimentali sui compiti di traduzione mostrano che BayLing raggiunge il 95% della capacità di traduzione a turno singolo rispetto a GPT-4 con valutazione automatica e il 96% della capacità di traduzione interattiva rispetto a GPT-3.5-turbo con valutazione umana. Per stimare le prestazioni su compiti generali, abbiamo creato un set di test di istruzioni multi-turn chiamato BayLing-80. I risultati sperimentali su BayLing-80 indicano che BayLing raggiunge l'89% delle prestazioni rispetto a GPT-3.5-turbo. BayLing dimostra anche prestazioni eccezionali nella valutazione delle conoscenze del GaoKao cinese e del SAT inglese, risultando secondo solo a GPT-3.5-turbo tra una moltitudine di LLM che seguono istruzioni. Demo, homepage, codice e modelli di BayLing sono disponibili.

Diffusione con Modelli Diretti: Risoluzione di Problemi Inversi Stocastici Senza Supervisione Diretta
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

Jun 20

ByAyush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann

I modelli di diffusione per la riduzione del rumore sono una potente tipologia di modelli generativi utilizzati per catturare distribuzioni complesse di segnali del mondo reale. Tuttavia, la loro applicabilità è limitata a scenari in cui i campioni di addestramento sono facilmente disponibili, il che non è sempre il caso nelle applicazioni reali. Ad esempio, nella grafica inversa, l'obiettivo è generare campioni da una distribuzione di scene 3D che si allineano con una determinata immagine, ma le scene 3D di riferimento non sono disponibili e sono accessibili solo immagini 2D. Per affrontare questa limitazione, proponiamo una nuova classe di modelli probabilistici di diffusione per la riduzione del rumore che imparano a campionare da distribuzioni di segnali che non sono mai osservati direttamente. Invece, questi segnali vengono misurati indirettamente attraverso un modello diretto differenziabile noto, che produce osservazioni parziali del segnale sconosciuto. Il nostro approccio prevede l'integrazione diretta del modello diretto nel processo di riduzione del rumore. Questa integrazione collega efficacemente la modellazione generativa delle osservazioni con la modellazione generativa dei segnali sottostanti, consentendo l'addestramento end-to-end di un modello generativo condizionale sui segnali. Durante l'inferenza, il nostro approccio consente di campionare dalla distribuzione dei segnali sottostanti che sono coerenti con una determinata osservazione parziale. Dimostriamo l'efficacia del nostro metodo su tre impegnativi compiti di visione artificiale. Ad esempio, nel contesto della grafica inversa, il nostro modello consente di campionare direttamente dalla distribuzione di scene 3D che si allineano con una singola immagine 2D in input.

Meta-Personalizzazione di Modelli Visione-Linguaggio per Individuare Istanza Nominate nei Video
Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Jun 16

ByChun-Hsiao Yeh, Bryan Russell, Josef Sivic, Fabian Caba Heilbron, Simon Jenni

I modelli visione-linguaggio su larga scala (VLM) hanno dimostrato risultati impressionanti nelle applicazioni di ricerca guidata dal linguaggio. Sebbene questi modelli consentano query a livello di categoria, attualmente faticano nelle ricerche personalizzate per momenti in un video in cui appare un'istanza specifica di un oggetto, come "Il mio cane Biscotto". Presentiamo i seguenti tre contributi per affrontare questo problema. In primo luogo, descriviamo un metodo per meta-personalizzare un VLM pre-addestrato, ovvero imparare come apprendere a personalizzare un VLM al momento del test per effettuare ricerche nei video. Il nostro metodo estende il vocabolario di token del VLM apprendendo nuovi word embedding specifici per ciascuna istanza. Per catturare solo le caratteristiche specifiche dell'istanza, rappresentiamo ogni embedding dell'istanza come una combinazione di caratteristiche globali condivise e apprese della categoria. In secondo luogo, proponiamo di apprendere tale personalizzazione senza una supervisione umana esplicita. Il nostro approccio identifica automaticamente i momenti delle istanze visive nominate nei video utilizzando trascrizioni e la similarità visione-linguaggio nello spazio di embedding del VLM. Infine, introduciamo This-Is-My, un benchmark per il recupero di istanze video personalizzate. Valutiamo il nostro approccio su This-Is-My e DeepFashion2, dimostrando un miglioramento relativo del 15% rispetto allo stato dell'arte su quest'ultimo dataset.

Trascrizione musicale multitraccia con un Perceiver tempo-frequenza
Multitrack Music Transcription with a Time-Frequency Perceiver

Jun 19

ByWei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung

La trascrizione musicale multitraccia mira a convertire un input audio musicale nelle note musicali di più strumenti simultaneamente. Si tratta di un compito molto impegnativo che tipicamente richiede un modello più complesso per ottenere risultati soddisfacenti. Inoltre, i lavori precedenti si concentrano principalmente sulla trascrizione di strumenti regolari, trascurando però le voci, che di solito rappresentano la fonte di segnale più importante se presenti in un brano musicale. In questo articolo, proponiamo una nuova architettura di rete neurale profonda, Perceiver TF, per modellare la rappresentazione tempo-frequenza dell'input audio per la trascrizione multitraccia. Perceiver TF amplia l'architettura Perceiver introducendo un'espansione gerarchica con un ulteriore strato Transformer per modellare la coerenza temporale. Di conseguenza, il nostro modello eredita i vantaggi di Perceiver, che offre una migliore scalabilità, consentendogli di gestire efficacemente la trascrizione di molti strumenti in un unico modello. Negli esperimenti, addestriamo un Perceiver TF per modellare 12 classi di strumenti oltre alla voce in un approccio di apprendimento multi-task. I nostri risultati dimostrano che il sistema proposto supera le controparti state-of-the-art (ad esempio, MT3 e SpecTNT) su vari dataset pubblici.

BayLing: Colmare il divario tra allineamento cross-linguale e seguimento delle istruzioni attraverso la traduzione interattiva per i grandi modelli linguistici
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models

Jun 19

ByShaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng