Articoli di ricerca IA selezionati quotidianamente con traduzioni
La scelta onnipresente e dimostrativamente subottimale di ridimensionare le immagini a una risoluzione fissa prima di elaborarle con modelli di computer vision non è stata ancora sfidata con successo. Tuttavia, modelli come il Vision Transformer (ViT) offrono una modellazione flessibile basata su sequenze, e quindi lunghezze variabili delle sequenze di input. Sfruttiamo questa caratteristica con NaViT (Native Resolution ViT), che utilizza il packing di sequenze durante l'addestramento per elaborare input con risoluzioni e rapporti d'aspetto arbitrari. Oltre a un utilizzo flessibile del modello, dimostriamo un miglioramento dell'efficienza nell'addestramento su larga scala sia per il pre-addestramento supervisionato che per quello contrastivo su coppie immagine-testo. NaViT può essere trasferito in modo efficiente a task standard come la classificazione di immagini e video, il rilevamento di oggetti e la segmentazione semantica, portando a risultati migliorati su benchmark di robustezza e fairness. Al momento dell'inferenza, la flessibilità nella risoluzione dell'input può essere utilizzata per navigare agevolmente il compromesso costo-prestazioni in fase di test. Crediamo che NaViT segni un allontanamento dalla pipeline standard di input e modellazione progettata per le CNN, utilizzata dalla maggior parte dei modelli di computer vision, e rappresenti una direzione promettente per i ViT.
Proponiamo l'In-context Autoencoder (ICAE) per la compressione del contesto in un modello linguistico di grandi dimensioni (LLM). L'ICAE è composto da due moduli: un encoder adattabile addestrato con LoRA a partire da un LLM per comprimere un contesto lungo in un numero limitato di slot di memoria, e un decoder fisso rappresentato dall'LLM target che può condizionarsi sugli slot di memoria per vari scopi. Inizialmente, pre-addestriamo l'ICAE utilizzando sia obiettivi di auto-codifica che di modellazione del linguaggio su un ampio corpus di dati testuali, consentendogli di generare slot di memoria che rappresentano in modo accurato e completo il contesto originale. Successivamente, ottimizziamo l'ICAE pre-addestrato su una piccola quantità di dati di istruzione per migliorare la sua interazione con vari prompt e produrre risposte desiderabili. I risultati sperimentali dimostrano che l'ICAE, addestrato con il nostro paradigma di pre-addestramento e ottimizzazione, può generare efficacemente slot di memoria con una compressione del contesto di 4 volte, sui quali l'LLM target può condizionarsi per rispondere a vari prompt. I risultati promettenti evidenziano le significative implicazioni dell'ICAE per il suo approccio innovativo al problema del contesto lungo e il suo potenziale nel ridurre i costi computazionali e di memoria per l'inferenza degli LLM nella pratica, suggerendo ulteriori ricerche sulla gestione del contesto per un LLM. Il nostro codice e i dati saranno rilasciati a breve.
I grandi modelli linguistici (LLM) dimostrano una notevole capacità di comprendere, ragionare e generare testo seguendo istruzioni in linguaggio naturale. Tuttavia, lo sviluppo degli LLM si è concentrato principalmente su lingue ad alto livello di risorse, come l'inglese, limitando così la loro applicabilità e la ricerca in altre lingue. Di conseguenza, presentiamo PolyLM, un LLM multilingue addestrato su 640 miliardi (B) di token, disponibile in due dimensioni: 1,7B e 13B. Per potenziare le sue capacità multilingue, abbiamo 1) integrato dati bilingui nel set di addestramento; e 2) adottato una strategia di apprendimento curriculare che aumenta la proporzione di dati non in inglese dal 30% nella prima fase al 60% nella fase finale durante il pre-addestramento. Inoltre, proponiamo un metodo di auto-istruzione multilingue che genera automaticamente 132,7K istruzioni multilingue diverse per l'ottimizzazione del modello. Per valutare le prestazioni del modello, abbiamo raccolto diversi compiti multilingue esistenti, tra cui comprensione multilingue, risposta a domande, generazione e traduzione. Esperimenti estensivi dimostrano che PolyLM supera altri modelli open-source come LLaMA e BLOOM nei compiti multilingue, mantenendo prestazioni comparabili in inglese. I nostri modelli, insieme ai dati di istruzione e al benchmark multilingue, sono disponibili al seguente indirizzo: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
Nonostante il dominio e l'efficacia del ridimensionamento, che ha portato a reti di grandi dimensioni con centinaia di miliardi di parametri, la necessità di addestrare modelli sovraparametrizzati rimane poco compresa, e approcci alternativi non rendono necessariamente più economico l'addestramento di modelli ad alte prestazioni. In questo articolo, esploriamo tecniche di addestramento a basso rango come approccio alternativo per addestrare grandi reti neurali. Introduciamo un nuovo metodo chiamato ReLoRA, che utilizza aggiornamenti a basso rango per addestrare reti ad alto rango. Applichiamo ReLoRA al pre-addestramento di modelli linguistici basati su transformer con fino a 350 milioni di parametri e dimostriamo prestazioni comparabili a quelle dell'addestramento regolare di reti neurali. Inoltre, osserviamo che l'efficienza di ReLoRA aumenta con la dimensione del modello, rendendolo un approccio promettente per addestrare in modo efficiente reti con miliardi di parametri. I nostri risultati gettano luce sul potenziale delle tecniche di addestramento a basso rango e sulle loro implicazioni per le leggi di ridimensionamento.
Questo articolo introduce InternVid, un dataset multimodale su larga scala centrato sui video che consente l'apprendimento di rappresentazioni video-testo potenti e trasferibili per la comprensione e la generazione multimodale. Il dataset InternVid contiene oltre 7 milioni di video della durata complessiva di quasi 760.000 ore, producendo 234 milioni di clip video accompagnati da descrizioni dettagliate per un totale di 4,1 miliardi di parole. Il nostro contributo principale è lo sviluppo di un approccio scalabile per costruire in modo autonomo un dataset video-testo di alta qualità utilizzando modelli linguistici di grandi dimensioni (LLM), dimostrandone così l'efficacia nell'apprendimento di rappresentazioni video-linguistiche su larga scala. Nello specifico, utilizziamo un approccio multi-scala per generare descrizioni relative ai video. Inoltre, introduciamo ViCLIP, un modello di apprendimento di rappresentazioni video-testo basato su ViT-L. Appreso su InternVid tramite apprendimento contrastivo, questo modello dimostra prestazioni leader nel riconoscimento di azioni zero-shot e una performance competitiva nel recupero video. Oltre alle attività di base di comprensione video come il riconoscimento e il recupero, il nostro dataset e modello hanno ampie applicazioni. Sono particolarmente utili per generare dati video-testo intervallati per l'apprendimento di un sistema di dialogo centrato sui video, avanzando la ricerca nella generazione da video a testo e da testo a video. Queste risorse proposte forniscono uno strumento per ricercatori e professionisti interessati alla comprensione e generazione multimodale dei video.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato risultati impressionanti nello sviluppo di agenti di pianificazione generalisti per compiti diversificati. Tuttavia, l'ancoraggio di questi piani in ambienti estesi, multi-piano e multi-stanza rappresenta una sfida significativa per la robotica. Introduciamo SayPlan, un approccio scalabile alla pianificazione di compiti su larga scala basata su LLM per la robotica, utilizzando rappresentazioni di grafi di scena 3D (3DSG). Per garantire la scalabilità del nostro approccio, abbiamo: (1) sfruttato la natura gerarchica dei 3DSG per consentire agli LLM di condurre una ricerca semantica di sottografi rilevanti per il compito a partire da una rappresentazione ridotta e collassata del grafo completo; (2) ridotto l'orizzonte di pianificazione per l'LLM integrando un pianificatore di percorso classico e (3) introdotto una pipeline di ripianificazione iterativa che affina il piano iniziale utilizzando feedback da un simulatore di grafi di scena, correggendo azioni non fattibili ed evitando fallimenti nella pianificazione. Valutiamo il nostro approccio su due ambienti su larga scala che coprono fino a 3 piani, 36 stanze e 140 oggetti, e dimostriamo che il nostro approccio è in grado di ancorare piani di compiti su larga scala e a lungo orizzonte da istruzioni astratte e in linguaggio naturale per l'esecuzione da parte di un robot manipolatore mobile.
I grandi modelli linguistici tipicamente subiscono due fasi di addestramento: il pretraining e il finetuning. Nonostante il pretraining su larga scala conferisca al modello forti capacità di generare risposte in linguaggio naturale, questi modelli pretrainati possono comunque fallire nel comprendere le istruzioni umane in alcuni casi. Per migliorare la capacità dei modelli linguistici di interpretare e rispondere alle istruzioni, il finetuning su istruzioni è emerso come un metodo critico in questo ambito. Studi recenti hanno scoperto che i grandi modelli linguistici possono essere sottoposti a finetuning per ottenere buone prestazioni anche con una piccola quantità di dati di alta qualità per il seguire istruzioni. Tuttavia, la selezione di dataset di alta qualità per il finetuning dei modelli linguistici manca ancora di linee guida chiare da seguire. In questo articolo, proponiamo InstructMining, una regola lineare per valutare la qualità dei dati per il seguire istruzioni. Formuliamo InstructMining utilizzando specifici indicatori di linguaggio naturale. Per investigare la relazione tra la qualità dei dati e questi indicatori, conduciamo ulteriori esperimenti di finetuning su larga scala. I risultati degli esperimenti vengono poi applicati per stimare i parametri in InstructMining. Per investigare ulteriormente le sue prestazioni, utilizziamo InstructMining per selezionare dati di alta qualità da dataset non visti. I risultati dimostrano che InstructMining può aiutare a selezionare campioni relativamente di alta qualità da vari dataset per il seguire istruzioni. Rispetto ai modelli sottoposti a finetuning su dataset non filtrati, i modelli sottoposti a finetuning su dataset selezionati da InstructMining performano meglio nel 42,5% dei casi.
I grandi modelli linguistici (LLM), come GPT-4, hanno dimostrato capacità straordinarie in un'ampia gamma di compiti, comprese le applicazioni sanitarie. In questo articolo, studiamo come gli LLM possano essere utilizzati per scalare la curazione delle conoscenze biomediche. Scopriamo che, sebbene gli LLM possiedano già una competenza decente nella strutturazione del testo biomedico, attraverso la distillazione in un modello studente specifico per il compito mediante apprendimento auto-supervisionato, si possono ottenere miglioramenti sostanziali rispetto agli LLM preconfigurati, con ulteriori vantaggi come costi ridotti, efficienza e accesso a modelli white-box. Condividiamo uno studio di caso sull'estrazione di eventi avversi da farmaci (ADE), un'area importante per migliorare l'assistenza sanitaria. Nella valutazione standard dell'estrazione di ADE, un modello PubMedBERT distillato da GPT-3.5 ha raggiunto un'accuratezza comparabile ai modelli supervisionati all'avanguardia senza utilizzare dati etichettati. Nonostante sia oltre 1.000 volte più piccolo, il modello distillato ha superato il suo insegnante GPT-3.5 di oltre 6 punti assoluti in F1 e GPT-4 di oltre 5 punti assoluti. Studi di ablazione sulla scelta del modello di distillazione (ad esempio, PubMedBERT rispetto a BioGPT) e sull'architettura di estrazione degli ADE hanno fornito indicazioni sulle migliori pratiche per l'estrazione di conoscenze biomediche. Simili miglioramenti sono stati ottenuti attraverso la distillazione per altre attività standard di estrazione di conoscenze biomediche, come le associazioni gene-malattia e le informazioni sanitarie protette, illustrando ulteriormente il potenziale di questo approccio.
Il successo della serie GPT dimostra che GPT è in grado di estrarre informazioni generali dalle sequenze, apportando così benefici a tutti i task downstream. Questo ci motiva a utilizzare modelli pre-addestrati per esplorare le informazioni nascoste nelle sequenze di DNA. Tuttavia, i requisiti di dati e task nell'analisi delle sequenze di DNA sono complessi e diversificati, poiché i dati relativi al DNA includono diversi tipi di informazioni, come sequenze, livelli di espressione, ecc., mentre attualmente non esiste un modello specificamente progettato per queste caratteristiche. Presentiamo quindi DNAGPT, un modello fondazionale generalizzato pre-addestrato su oltre 10 miliardi di coppie di basi provenienti da 9 specie, che può essere fine-tuned per qualsiasi task di analisi delle sequenze di DNA. Il nostro modello è in grado di elaborare o produrre simultaneamente sequenze di DNA e numeri. Inoltre, il nostro design unico dei token consente agli utenti di progettare prompt in base alle proprie esigenze di task, rendendolo applicabile a qualsiasi tipo di task. Abbiamo valutato il nostro modello su task di classificazione, regressione e generazione. Dimostriamo che DNAGPT beneficia del pre-addestramento e può quindi apportare miglioramenti delle prestazioni a qualsiasi task downstream. Il nostro modello non è solo un nuovo tentativo nel campo dell'analisi dei genomi, ma fornisce anche una nuova direzione per l'applicazione dei modelli fondazionali in biologia.
Prima di implementare un modello linguistico (LM) in un determinato dominio, è fondamentale valutarne la tendenza a generare informazioni fattualmente errate in tale ambito. I metodi di valutazione esistenti per la generazione di fatti si concentrano su fatti campionati dal LM stesso, e quindi non controllano l'insieme dei fatti valutati, rischiando di sottorappresentare fatti rari e improbabili. Proponiamo FACTOR: Factual Assessment via Corpus TransfORmation, un approccio scalabile per valutare la fattualità dei LM. FACTOR trasforma automaticamente un corpus fattuale di interesse in un benchmark che valuta la propensione del LM a generare fatti veri dal corpus rispetto a affermazioni simili ma errate. Utilizziamo il nostro framework per creare due benchmark: Wiki-FACTOR e News-FACTOR. Dimostriamo che: (i) i punteggi del nostro benchmark aumentano con la dimensione del modello e migliorano quando il LM è potenziato con il retrieval; (ii) il punteggio del benchmark è correlato con la perplessità, ma le due metriche non concordano sempre sulla classifica dei modelli; e (iii) quando perplessità e punteggio del benchmark divergono, quest'ultimo riflette meglio la fattualità nella generazione aperta, come misurato da annotatori umani. Rendiamo disponibili i nostri dati e il codice all'indirizzo https://github.com/AI21Labs/factor.
Nonostante la straordinaria capacità di generare immagini di alta qualità dimostrata dai recenti modelli di testo-immagine, gli approcci attuali spesso faticano a comporre efficacemente oggetti con attributi e relazioni diversi in una scena complessa e coerente. Proponiamo T2I-CompBench, un benchmark completo per la generazione compositiva di immagini da testo in contesti aperti, costituito da 6.000 prompt testuali compositivi suddivisi in 3 categorie (associazione di attributi, relazioni tra oggetti e composizioni complesse) e 6 sottocategorie (associazione di colore, associazione di forma, associazione di texture, relazioni spaziali, relazioni non spaziali e composizioni complesse). Proponiamo inoltre diverse metriche di valutazione specificamente progettate per valutare la generazione compositiva di immagini da testo. Introduciamo un nuovo approccio, denominato Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), per potenziare le capacità di generazione compositiva di immagini da testo nei modelli preaddestrati. Sono stati condotti esperimenti e valutazioni estensivi per confrontare i metodi precedenti su T2I-CompBench e per validare l'efficacia delle nostre metriche di valutazione proposte e dell'approccio GORS. La pagina del progetto è disponibile all'indirizzo https://karine-h.github.io/T2I-CompBench/.
La comprensione testuale e semantica delle immagini è essenziale per generare didascalie appropriate. Tale comprensione richiede il rilevamento degli oggetti, la modellazione delle relazioni tra di essi, una valutazione della semantica della scena e, infine, la rappresentazione delle conoscenze estratte in uno spazio linguistico. Per ottenere capacità linguistiche avanzate garantendo buone corrispondenze tra immagine e linguaggio, i modelli linguistici (LM) preaddestrati sono stati condizionati su modelli multimodali (immagine-testo) preaddestrati che consentono input di immagini. Ciò richiede un allineamento della rappresentazione dell'immagine del modello multimodale con le rappresentazioni linguistiche di un LM generativo. Tuttavia, non è chiaro come trasferire al meglio la semantica rilevata dall'encoder visivo del modello multimodale al LM. Introduciamo due nuovi modi di costruire una mappatura lineare che trasferisce con successo la semantica tra gli spazi di embedding dei due modelli preaddestrati. Il primo allinea lo spazio di embedding dell'encoder linguistico multimodale con lo spazio di embedding del LM preaddestrato tramite corrispondenze di token. Il secondo sfrutta dati aggiuntivi costituiti da coppie immagine-testo per costruire la mappatura direttamente dallo spazio visivo a quello linguistico. Utilizzando le nostre mappature semantiche, sblocchiamo la generazione di didascalie per i LM senza accesso alle informazioni sul gradiente. Utilizzando diverse fonti di dati, otteniamo prestazioni solide nella generazione di didascalie sui dataset MS-COCO e Flickr30k. Anche in presenza di dati limitati, il nostro metodo supera parzialmente le prestazioni di altri concorrenti zero-shot e persino finetuned. I nostri studi di ablazione dimostrano che anche LM con soli 250M di parametri possono generare didascalie decenti utilizzando le nostre mappature semantiche. Il nostro approccio rende la generazione di didascalie più accessibile per istituzioni con risorse computazionali limitate.
Man mano che lo spazio di applicazione dei modelli linguistici continua a evolversi, sorge spontanea la domanda su come possiamo adattare rapidamente i modelli a nuovi compiti. Affrontiamo questa classica questione da una prospettiva di apprendimento continuo, in cui miriamo a continuare a perfezionare modelli addestrati su compiti precedenti su nuovi compiti, con l'obiettivo di "trasferire" conoscenze rilevanti. Tuttavia, questa strategia comporta anche il rischio di fare più danni che benefici, ovvero il trasferimento negativo. In questo articolo, costruiamo un nuovo benchmark di sequenze di compiti che mirano a diversi possibili scenari di trasferimento che si potrebbero affrontare, come una sequenza di compiti con un alto potenziale di trasferimento positivo, un alto potenziale di trasferimento negativo, nessun effetto atteso o una miscela di ciascuno. Un apprendista ideale dovrebbe essere in grado di sfruttare al massimo le informazioni da tutti i compiti che hanno un potenziale di trasferimento positivo, evitando al contempo gli effetti negativi di eventuali compiti distraenti che potrebbero confonderlo. Proponiamo quindi un apprendista semplice ma efficace che soddisfa molti dei nostri desiderata semplicemente sfruttando una strategia selettiva per inizializzare nuovi modelli dai checkpoint dei compiti precedenti. Tuttavia, permangono delle limitazioni, e speriamo che questo benchmark possa aiutare la comunità a costruire e analizzare ulteriormente tali apprendisti.
I grandi modelli linguistici (LLM) hanno dimostrato di possedere una ricchezza di conoscenza utilizzabile che può essere estratta per la manipolazione robotica sotto forma di ragionamento e pianificazione. Nonostante i progressi, la maggior parte si basa ancora su primitive di movimento predefinite per eseguire le interazioni fisiche con l'ambiente, che rimane un collo di bottiglia significativo. In questo lavoro, miriamo a sintetizzare traiettorie robotiche, ovvero una sequenza densa di punti di riferimento a 6 gradi di libertà (6-DoF) per l'end-effector, per una vasta gamma di compiti di manipolazione dati un insieme aperto di istruzioni e un insieme aperto di oggetti. Raggiungiamo questo obiettivo osservando innanzitutto che gli LLM eccellono nell'inferire affordance e vincoli data un'istruzione linguistica in forma libera. Ancora più importante, sfruttando le loro capacità di scrittura di codice, possono interagire con un modello visivo-linguistico (VLM) per comporre mappe di valore 3D, radicando così la conoscenza nello spazio di osservazione dell'agente. Le mappe di valore composte vengono quindi utilizzate in un framework di pianificazione basato su modelli per sintetizzare in modalità zero-shot traiettorie robotiche a ciclo chiuso, con robustezza alle perturbazioni dinamiche. Dimostriamo inoltre come il framework proposto possa trarre vantaggio da esperienze online, apprendendo in modo efficiente un modello di dinamica per scene che coinvolgono interazioni ricche di contatto. Presentiamo uno studio su larga scala del metodo proposto in ambienti sia simulati che con robot reali, mostrando la capacità di eseguire una vasta gamma di compiti di manipolazione quotidiana specificati in linguaggio naturale libero. Sito web del progetto: https://voxposer.github.io
Le telecamere eye-in-hand hanno dimostrato di essere promettenti nel migliorare l'efficienza del campionamento e la generalizzazione nella manipolazione robotica basata sulla visione. Tuttavia, per l'imitazione robotica, è ancora costoso far sì che un operatore umano raccolga grandi quantità di dimostrazioni esperte con un robot reale. I video di esseri umani che eseguono compiti, d'altra parte, sono molto più economici da raccogliere poiché eliminano la necessità di competenze nella teleoperazione robotica e possono essere rapidamente catturati in un'ampia gamma di scenari. Pertanto, le dimostrazioni video umane rappresentano una fonte di dati promettente per apprendere politiche di manipolazione robotica generalizzabili su larga scala. In questo lavoro, arricchiamo dataset ristretti di imitazione robotica con ampie dimostrazioni video umane non etichettate per migliorare notevolmente la generalizzazione delle politiche visuomotorie eye-in-hand. Sebbene esista un evidente divario di dominio visivo tra i dati umani e quelli robotici, il nostro framework non necessita di impiegare alcun metodo esplicito di adattamento di dominio, poiché sfruttiamo l'osservabilità parziale delle telecamere eye-in-hand insieme a un semplice schema di mascheramento delle immagini fisso. Su una suite di otto compiti del mondo reale che coinvolgono il controllo di bracci robotici sia a 3 gradi di libertà (DoF) che a 6 DoF, il nostro metodo migliora i tassi di successo delle politiche di manipolazione eye-in-hand del 58% (in valore assoluto) in media, consentendo ai robot di generalizzare sia a nuove configurazioni ambientali che a nuovi compiti non presenti nei dati di dimostrazione robotica. Guarda i risultati video su https://giving-robots-a-hand.github.io/.