Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo phi-1, un nuovo modello linguistico di grandi dimensioni per il codice, con dimensioni significativamente più ridotte rispetto ai modelli concorrenti: phi-1 è un modello basato su Transformer con 1,3 miliardi di parametri, addestrato per 4 giorni su 8 GPU A100, utilizzando una selezione di dati di "qualità da manuale" provenienti dal web (6 miliardi di token) e manuali ed esercizi generati sinteticamente con GPT-3.5 (1 miliardo di token). Nonostante questa scala ridotta, phi-1 raggiunge un'accuratezza pass@1 del 50,6% su HumanEval e del 55,5% su MBPP. Inoltre, mostra proprietà emergenti sorprendenti rispetto a phi-1-base, il nostro modello prima della fase di fine-tuning su un dataset di esercizi di programmazione, e phi-1-small, un modello più piccolo con 350 milioni di parametri addestrato con la stessa pipeline di phi-1 che raggiunge comunque il 45% su HumanEval.
La generazione di movimenti umani realistici a partire da descrizioni di azioni specifiche ha registrato progressi significativi grazie alla crescente richiesta di esseri umani digitali. Sebbene i lavori recenti abbiano ottenuto risultati impressionanti nella generazione di movimenti direttamente da descrizioni testuali delle azioni, spesso supportano solo una singola modalità del segnale di controllo, il che limita la loro applicazione nell'industria reale degli esseri umani digitali. Questo articolo presenta un generatore di movimenti a scopo generale (MotionGPT) in grado di utilizzare segnali di controllo multimodali, come testo e pose a singolo fotogramma, per generare movimenti umani consecutivi, trattando i segnali multimodali come token di input speciali nei modelli linguistici di grandi dimensioni (LLM). Nello specifico, prima quantizziamo i segnali di controllo multimodali in codici discreti e poi li formuliamo in un'istruzione di prompt unificata per chiedere agli LLM di generare la risposta in termini di movimento. Il nostro MotionGPT dimostra un modello unificato di generazione di movimenti umani con segnali di controllo multimodali, regolando solo lo 0,4% dei parametri dell'LLM. Per quanto ne sappiamo, MotionGPT è il primo metodo in grado di generare movimenti umani attraverso segnali di controllo multimodali, e speriamo che possa gettare luce su questa nuova direzione. I codici verranno rilasciati dopo l'accettazione.
HomeRobot (sostantivo): Un robot accessibile e adattabile che naviga nelle abitazioni e manipola una vasta gamma di oggetti per completare attività quotidiane. La Manipolazione Mobile a Vocabolario Aperto (Open-Vocabulary Mobile Manipulation, OVMM) è il problema di raccogliere qualsiasi oggetto in un ambiente non visto precedentemente e posizionarlo in una località specificata. Questa è una sfida fondamentale affinché i robot possano diventare assistenti utili negli ambienti umani, poiché implica affrontare sotto-problemi provenienti da vari ambiti della robotica: percezione, comprensione del linguaggio, navigazione e manipolazione sono tutti essenziali per l'OVMM. Inoltre, l'integrazione delle soluzioni a questi sotto-problemi presenta sfide significative. Per promuovere la ricerca in questo settore, introduciamo il benchmark HomeRobot OVMM, in cui un agente naviga in ambienti domestici per afferrare oggetti nuovi e posizionarli su ripiani target. HomeRobot è composto da due componenti: una componente di simulazione, che utilizza un ampio e diversificato set di oggetti curati in nuovi ambienti domestici multi-stanza di alta qualità; e una componente nel mondo reale, che fornisce uno stack software per il robot a basso costo Hello Robot Stretch, incoraggiando la replicazione di esperimenti reali tra i laboratori. Implementiamo sia baseline di apprendimento per rinforzo che euristici (basati su modello) e mostriamo evidenze di trasferimento da simulazione a realtà. Le nostre baseline raggiungono un tasso di successo del 20% nel mondo reale; i nostri esperimenti identificano modi in cui futuri lavori di ricerca potrebbero migliorare le prestazioni. Guarda i video sul nostro sito: https://ovmm.github.io/.
Nonostante l'enorme successo dei Large Language Models (LLM) negli assistenti di codifica come GitHub Copilot, questi modelli faticano a comprendere il contesto presente nei repository (ad esempio, importazioni, classi genitore, file con nomi simili, ecc.), producendo così completamenti di codice inaccurati. Questo effetto è più pronunciato quando si utilizzano questi assistenti per repository che il modello non ha visto durante l'addestramento, come software proprietario o progetti di codice in fase di sviluppo. Recenti lavori hanno dimostrato il potenziale di utilizzare il contesto del repository durante l'inferenza. In questo lavoro, estendiamo questa idea e proponiamo RepoFusion, un framework per addestrare modelli a incorporare il contesto rilevante del repository. Esperimenti sul completamento di codice a singola riga mostrano che i nostri modelli addestrati con il contesto del repository superano significativamente modelli di codice molto più grandi come CodeGen-16B-multi (circa 73 volte più grande) e si avvicinano alle prestazioni del modello StarCoderBase, circa 70 volte più grande, che è stato addestrato con l'obiettivo Fill-in-the-Middle. Riteniamo che questi risultati siano una dimostrazione innovativa e convincente dei vantaggi che l'addestramento con il contesto del repository può portare. Abbiamo condotto ampi studi di ablazione per investigare l'impatto delle scelte progettuali come il tipo di contesto, il numero di contesti, la lunghezza del contesto e l'inizializzazione all'interno del nostro framework. Infine, rilasciamo Stack-Repo, un dataset di 200 repository Java con licenze permissive e file quasi-deduplicati, arricchiti con tre tipi di contesti di repository. Inoltre, rendiamo disponibili il codice e i checkpoint addestrati del nostro lavoro. Le nostre risorse rilasciate possono essere trovate all'indirizzo https://huggingface.co/RepoFusion.
I dati di point-cloud raccolti nelle applicazioni del mondo reale sono spesso incompleti. I dati mancano tipicamente a causa di oggetti osservati da punti di vista parziali, che catturano solo una prospettiva o un angolo specifico. Inoltre, i dati possono essere incompleti a causa di occlusioni e campionamenti a bassa risoluzione. Gli approcci esistenti di completamento si basano su dataset di oggetti predefiniti per guidare il completamento di point-cloud rumorosi e incompleti. Tuttavia, questi approcci performano male quando testati su oggetti Out-Of-Distribution (OOD), che sono scarsamente rappresentati nel dataset di addestramento. Qui sfruttiamo i recenti progressi nella generazione di immagini guidata da testo, che hanno portato a importanti svolte nella generazione di forme guidata da testo. Descriviamo un approccio chiamato SDS-Complete che utilizza un modello di diffusione pre-addestrato da testo a immagine e sfrutta la semantica testuale di un dato point-cloud incompleto di un oggetto, per ottenere una rappresentazione completa della superficie. SDS-Complete può completare una varietà di oggetti utilizzando l'ottimizzazione al momento del test senza la costosa raccolta di informazioni 3D. Valutiamo SDS-Complete su oggetti scansionati incompleti, catturati da sensori di profondità del mondo reale e scanner LiDAR. Troviamo che ricostruisce efficacemente oggetti assenti dai dataset comuni, riducendo la perdita di Chamfer del 50% in media rispetto ai metodi attuali. Pagina del progetto: https://sds-complete.github.io/
L'aumento della memoria è un approccio potente per incorporare in modo efficiente informazioni esterne nei modelli linguistici, ma comporta una riduzione delle prestazioni rispetto al recupero di testo. Recenti lavori hanno introdotto LUMEN, un ibrido di memoria-recupero che pre-calcola parzialmente la memoria e aggiorna le rappresentazioni della memoria al volo con un encoder live più piccolo. Proponiamo GLIMMER, che migliora questo approccio attraverso 1) lo sfruttamento dell'accesso gratuito alle potenti rappresentazioni della memoria applicando un riordinatore superficiale sulla memoria per migliorare drasticamente la qualità del recupero a basso costo, e 2) l'integrazione di un addestramento multi-task per apprendere una memoria e un encoder live più generali e di qualità superiore. GLIMMER ottiene significativi miglioramenti nelle prestazioni a velocità più elevate rispetto a LUMEN e FiD sul benchmark KILT di task ad alta intensità di conoscenza.
La capacità di sfruttare esperienze robotiche eterogenee provenienti da diversi robot e compiti per padroneggiare rapidamente nuove abilità e incarnazioni ha il potenziale di trasformare l'apprendimento robotico. Ispirati dai recenti progressi nei modelli di base per la visione e il linguaggio, proponiamo un agente di base per la manipolazione robotica. Questo agente, chiamato RoboCat, è un trasformatore decisionale condizionato da obiettivi visivi in grado di elaborare esperienze visive etichettate con azioni multi-incarnazione. Questi dati abbracciano un vasto repertorio di abilità di controllo motorio provenienti da bracci robotici simulati e reali con diversi set di osservazioni e azioni. Con RoboCat, dimostriamo la capacità di generalizzare a nuovi compiti e robot, sia in modalità zero-shot sia attraverso l'adattamento utilizzando solo 100-1000 esempi per il compito target. Mostriamo inoltre come un modello addestrato possa essere utilizzato per generare dati per iterazioni di addestramento successive, fornendo così un elemento di base per un ciclo di miglioramento autonomo. Investigiamo le capacità dell'agente, con valutazioni su larga scala sia in simulazione sia su tre diverse incarnazioni di robot reali. Rileviamo che, man mano che aumentiamo e diversifichiamo i suoi dati di addestramento, RoboCat non solo mostra segni di trasferimento tra compiti, ma diventa anche più efficiente nell'adattarsi a nuovi compiti.
I modelli linguistici di codice (LMs) funzionano bene quando il codice circostante in prossimità della generazione fornisce un contesto sufficiente. Questo non è vero quando diventa necessario utilizzare tipi o funzionalità definiti in un altro modulo o libreria, specialmente quelli non visti durante l'addestramento. Gli LMs soffrono di una consapevolezza limitata di tale contesto globale e finiscono per allucinare, ad esempio, utilizzando in modo errato tipi definiti in altri file. Recenti lavori cercano di superare questo problema recuperando informazioni globali per arricchire il contesto locale. Tuttavia, questo gonfia il prompt o richiede modifiche all'architettura e ulteriore addestramento. Gli ambienti di sviluppo integrati (IDEs) assistono gli sviluppatori portando il contesto globale a portata di mano utilizzando l'analisi statica. Estendiamo questa assistenza, di cui godono gli sviluppatori, anche agli LMs. Proponiamo una nozione di monitor che utilizzano l'analisi statica in background per guidare la decodifica. A differenza del recupero a priori, l'analisi statica viene invocata iterativamente durante l'intero processo di decodifica, fornendo i suggerimenti più rilevanti su richiesta. Dimostriamo l'utilità della nostra proposta monitorando l'uso coerente dei tipi degli identificatori ogni volta che un LM genera codice per la dereferenziazione di oggetti. Per valutare il nostro approccio, abbiamo curato PragmaticCode, un dataset di progetti open-source con i loro ambienti di sviluppo. Su modelli di varia scala di parametri, mostriamo che la decodifica guidata dal monitor migliora costantemente la capacità di un LM non solo di generare identificatori che corrispondono alla verità di base, ma anche di migliorare i tassi di compilazione e la concordanza con la verità di base. Troviamo che LMs con meno parametri, quando guidati dal nostro monitor, possono superare LMs più grandi. Con la decodifica guidata dal monitor, SantaCoder-1.1B raggiunge un tasso di compilazione migliore e una corrispondenza del prossimo identificatore rispetto al modello molto più grande text-davinci-003. I dataset e il codice saranno rilasciati su https://aka.ms/monitors4codegen.
I grandi modelli linguistici (LLM) hanno dimostrato una notevole abilità nella comprensione e generazione del linguaggio. Passando dai LLM di base ai LLM che seguono istruzioni, la regolazione delle istruzioni svolge un ruolo cruciale nell'allineare i LLM alle preferenze umane. Tuttavia, gli LLM esistenti sono generalmente focalizzati sull'inglese, portando a prestazioni inferiori nelle lingue non inglesi. Per migliorare le prestazioni per le lingue non inglesi, è necessario raccogliere dati di addestramento specifici per la lingua per i LLM di base e costruire istruzioni specifiche per la lingua per la regolazione delle istruzioni, entrambi compiti onerosi. Per minimizzare il carico di lavoro umano, proponiamo di trasferire le capacità di generazione del linguaggio e di seguire istruzioni dall'inglese ad altre lingue attraverso un compito di traduzione interattiva. Abbiamo sviluppato BayLing, un LLM che segue istruzioni, utilizzando LLaMA come LLM di base e costruendo automaticamente istruzioni di traduzione interattiva per la regolazione delle istruzioni. Valutazioni estensive dimostrano che BayLing raggiunge prestazioni comparabili a GPT-3.5-turbo, nonostante utilizzi una dimensione dei parametri considerevolmente più piccola, pari a soli 13 miliardi. I risultati sperimentali sui compiti di traduzione mostrano che BayLing raggiunge il 95% della capacità di traduzione a turno singolo rispetto a GPT-4 con valutazione automatica e il 96% della capacità di traduzione interattiva rispetto a GPT-3.5-turbo con valutazione umana. Per stimare le prestazioni su compiti generali, abbiamo creato un set di test di istruzioni multi-turn chiamato BayLing-80. I risultati sperimentali su BayLing-80 indicano che BayLing raggiunge l'89% delle prestazioni rispetto a GPT-3.5-turbo. BayLing dimostra anche prestazioni eccezionali nella valutazione delle conoscenze del GaoKao cinese e del SAT inglese, risultando secondo solo a GPT-3.5-turbo tra una moltitudine di LLM che seguono istruzioni. Demo, homepage, codice e modelli di BayLing sono disponibili.
I modelli di diffusione per la riduzione del rumore sono una potente tipologia di modelli generativi utilizzati per catturare distribuzioni complesse di segnali del mondo reale. Tuttavia, la loro applicabilità è limitata a scenari in cui i campioni di addestramento sono facilmente disponibili, il che non è sempre il caso nelle applicazioni reali. Ad esempio, nella grafica inversa, l'obiettivo è generare campioni da una distribuzione di scene 3D che si allineano con una determinata immagine, ma le scene 3D di riferimento non sono disponibili e sono accessibili solo immagini 2D. Per affrontare questa limitazione, proponiamo una nuova classe di modelli probabilistici di diffusione per la riduzione del rumore che imparano a campionare da distribuzioni di segnali che non sono mai osservati direttamente. Invece, questi segnali vengono misurati indirettamente attraverso un modello diretto differenziabile noto, che produce osservazioni parziali del segnale sconosciuto. Il nostro approccio prevede l'integrazione diretta del modello diretto nel processo di riduzione del rumore. Questa integrazione collega efficacemente la modellazione generativa delle osservazioni con la modellazione generativa dei segnali sottostanti, consentendo l'addestramento end-to-end di un modello generativo condizionale sui segnali. Durante l'inferenza, il nostro approccio consente di campionare dalla distribuzione dei segnali sottostanti che sono coerenti con una determinata osservazione parziale. Dimostriamo l'efficacia del nostro metodo su tre impegnativi compiti di visione artificiale. Ad esempio, nel contesto della grafica inversa, il nostro modello consente di campionare direttamente dalla distribuzione di scene 3D che si allineano con una singola immagine 2D in input.
I modelli visione-linguaggio su larga scala (VLM) hanno dimostrato risultati impressionanti nelle applicazioni di ricerca guidata dal linguaggio. Sebbene questi modelli consentano query a livello di categoria, attualmente faticano nelle ricerche personalizzate per momenti in un video in cui appare un'istanza specifica di un oggetto, come "Il mio cane Biscotto". Presentiamo i seguenti tre contributi per affrontare questo problema. In primo luogo, descriviamo un metodo per meta-personalizzare un VLM pre-addestrato, ovvero imparare come apprendere a personalizzare un VLM al momento del test per effettuare ricerche nei video. Il nostro metodo estende il vocabolario di token del VLM apprendendo nuovi word embedding specifici per ciascuna istanza. Per catturare solo le caratteristiche specifiche dell'istanza, rappresentiamo ogni embedding dell'istanza come una combinazione di caratteristiche globali condivise e apprese della categoria. In secondo luogo, proponiamo di apprendere tale personalizzazione senza una supervisione umana esplicita. Il nostro approccio identifica automaticamente i momenti delle istanze visive nominate nei video utilizzando trascrizioni e la similarità visione-linguaggio nello spazio di embedding del VLM. Infine, introduciamo This-Is-My, un benchmark per il recupero di istanze video personalizzate. Valutiamo il nostro approccio su This-Is-My e DeepFashion2, dimostrando un miglioramento relativo del 15% rispetto allo stato dell'arte su quest'ultimo dataset.
La trascrizione musicale multitraccia mira a convertire un input audio musicale nelle note musicali di più strumenti simultaneamente. Si tratta di un compito molto impegnativo che tipicamente richiede un modello più complesso per ottenere risultati soddisfacenti. Inoltre, i lavori precedenti si concentrano principalmente sulla trascrizione di strumenti regolari, trascurando però le voci, che di solito rappresentano la fonte di segnale più importante se presenti in un brano musicale. In questo articolo, proponiamo una nuova architettura di rete neurale profonda, Perceiver TF, per modellare la rappresentazione tempo-frequenza dell'input audio per la trascrizione multitraccia. Perceiver TF amplia l'architettura Perceiver introducendo un'espansione gerarchica con un ulteriore strato Transformer per modellare la coerenza temporale. Di conseguenza, il nostro modello eredita i vantaggi di Perceiver, che offre una migliore scalabilità, consentendogli di gestire efficacemente la trascrizione di molti strumenti in un unico modello. Negli esperimenti, addestriamo un Perceiver TF per modellare 12 classi di strumenti oltre alla voce in un approccio di apprendimento multi-task. I nostri risultati dimostrano che il sistema proposto supera le controparti state-of-the-art (ad esempio, MT3 e SpecTNT) su vari dataset pubblici.