Articoli di ricerca IA selezionati quotidianamente con traduzioni
La modifica delle immagini guidata da testo è ampiamente necessaria nella vita quotidiana, spaziando dall'uso personale ad applicazioni professionali come Photoshop. Tuttavia, i metodi esistenti sono o zero-shot o addestrati su un dataset sintetizzato automaticamente, che contiene un elevato volume di rumore. Pertanto, richiedono ancora molta regolazione manuale per produrre risultati desiderabili nella pratica. Per affrontare questo problema, introduciamo MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), il primo dataset su larga scala, annotato manualmente, per la modifica di immagini reali guidata da istruzioni che copre scenari diversi: modifica a turno singolo, a turni multipli, con maschera fornita e senza maschera. MagicBrush comprende oltre 10K triple annotate manualmente (immagine sorgente, istruzione, immagine target), che supportano l'addestramento di modelli su larga scala per la modifica delle immagini guidata da testo. Abbiamo fine-tunato InstructPix2Pix su MagicBrush e dimostrato che il nuovo modello può produrre immagini molto migliori secondo la valutazione umana. Abbiamo inoltre condotto esperimenti estesi per valutare le baseline attuali per la modifica delle immagini da molteplici dimensioni, tra cui valutazioni quantitative, qualitative e umane. I risultati rivelano la natura impegnativa del nostro dataset e il divario tra le baseline attuali e le esigenze di modifica del mondo reale.
I Large Language Model (LLM) hanno rivoluzionato il Natural Language Processing (NLP) ma richiedono risorse GPU massicce per l'addestramento. Abbassare la soglia per l'addestramento degli LLM incoraggerebbe una maggiore partecipazione da parte dei ricercatori, portando benefici sia al mondo accademico che alla società. Mentre gli approcci esistenti si sono concentrati sul fine-tuning efficiente in termini di parametri, che regola o aggiunge un numero limitato di parametri, pochi hanno affrontato la sfida di regolare tutti i parametri degli LLM con risorse limitate. In questo lavoro, proponiamo un nuovo ottimizzatore, LOw-Memory Optimization (LOMO), che fonde il calcolo del gradiente e l'aggiornamento dei parametri in un unico passaggio per ridurre l'uso della memoria. Integrando LOMO con tecniche esistenti di risparmio della memoria, riduciamo l'uso della memoria al 10,8% rispetto all'approccio standard (soluzione DeepSpeed). Di conseguenza, il nostro approccio consente il fine-tuning completo dei parametri di un modello da 65B su una singola macchina con 8 RTX 3090, ciascuna con 24GB di memoria.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato una notevole abilità nella generazione di codice, ma continuano a incontrare difficoltà in compiti di programmazione complessi. L'autoriparazione -- in cui il modello individua e corregge gli errori nel proprio codice -- è recentemente diventata un metodo popolare per migliorare le prestazioni in questi contesti. Tuttavia, nella letteratura esistono solo studi molto limitati su come e quando l'autoriparazione funziona efficacemente, e ci si potrebbe chiedere fino a che punto un modello sia realmente in grado di fornire un feedback accurato sul motivo per cui il codice è errato quando quel codice è stato generato dallo stesso modello. In questo articolo, analizziamo la capacità di GPT-3.5 e GPT-4 di eseguire l'autoriparazione su APPS, un dataset impegnativo composto da una varietà di problemi di programmazione. A tal fine, stabiliamo una nuova strategia di valutazione denominata pass@t che misura il tasso di successo dei compiti rispetto al numero totale di token campionati dal modello, consentendo un confronto equo con approcci basati esclusivamente sul campionamento. Con questa strategia di valutazione, scopriamo che l'efficacia dell'autoriparazione è visibile solo in GPT-4. Osserviamo inoltre che l'autoriparazione è limitata dalla fase di feedback; utilizzando GPT-4 per fornire feedback sui programmi generati da GPT-3.5 e utilizzando programmatori umani esperti per fornire feedback sui programmi generati da GPT-4, otteniamo significativi miglioramenti delle prestazioni.
Presentiamo AvatarBooth, un metodo innovativo per generare avatar 3D di alta qualità utilizzando prompt testuali o immagini specifiche. A differenza degli approcci precedenti che possono sintetizzare avatar solo basandosi su semplici descrizioni testuali, il nostro metodo consente la creazione di avatar personalizzati a partire da immagini casuali del viso o del corpo, pur supportando la generazione e la modifica del modello basata su testo. Il nostro contributo principale è il controllo preciso della generazione degli avatar attraverso l'uso di modelli di diffusione ottimizzati separatamente per il viso e il corpo umano. Ciò ci permette di catturare dettagli intricati dell'aspetto facciale, dell'abbigliamento e degli accessori, ottenendo generazioni di avatar altamente realistiche. Inoltre, introduciamo un vincolo di coerenza della posa nel processo di ottimizzazione per migliorare la coerenza multi-vista delle immagini della testa sintetizzate dal modello di diffusione, eliminando così l'interferenza dovuta a pose umane non controllate. In aggiunta, presentiamo una strategia di rendering multi-risoluzione che facilita la supervisione da grossolana a fine della generazione di avatar 3D, migliorando così le prestazioni del sistema proposto. Il modello di avatar risultante può essere ulteriormente modificato utilizzando descrizioni testuali aggiuntive e guidato da sequenze di movimento. Gli esperimenti dimostrano che AvatarBooth supera i precedenti metodi testo-a-3D in termini di qualità di rendering e geometrica, sia con prompt testuali che con immagini specifiche. Si prega di visitare il nostro sito web del progetto all'indirizzo https://zeng-yifei.github.io/avatarbooth_page/.
La rilevazione di oggetti a vocabolario aperto ha tratto grande beneficio dai modelli preaddestrati di visione e linguaggio, ma è ancora limitata dalla quantità di dati di addestramento per la rilevazione disponibili. Sebbene i dati di addestramento per la rilevazione possano essere ampliati utilizzando coppie immagine-testo del Web come supervisione debole, ciò non è stato fatto su scale paragonabili al preaddestramento a livello di immagine. Qui, aumentiamo la scala dei dati di rilevazione con l'auto-addestramento, che utilizza un rilevatore esistente per generare annotazioni pseudo-box su coppie immagine-testo. Le principali sfide nell'aumentare la scala dell'auto-addestramento sono la scelta dello spazio delle etichette, il filtraggio delle pseudo-annotazioni e l'efficienza dell'addestramento. Presentiamo il modello OWLv2 e la ricetta di auto-addestramento OWL-ST, che affrontano queste sfide. OWLv2 supera le prestazioni dei precedenti rilevatori a vocabolario aperto all'avanguardia già a scale di addestramento comparabili (~10 milioni di esempi). Tuttavia, con OWL-ST, possiamo scalare a oltre 1 miliardo di esempi, ottenendo un ulteriore grande miglioramento: con un'architettura L/14, OWL-ST migliora l'AP sulle classi rare di LVIS, per le quali il modello non ha visto annotazioni box umane, dal 31,2% al 44,6% (miglioramento relativo del 43%). OWL-ST sblocca l'addestramento su scala Web per la localizzazione in mondi aperti, simile a quanto visto per la classificazione delle immagini e la modellazione del linguaggio.
Presentiamo un approccio di pre-addestramento sensorimotorio auto-supervisionato per la robotica. Il nostro modello, denominato RPT, è un Transformer che opera su sequenze di token sensorimotori. Data una sequenza di immagini della telecamera, stati propriocettivi del robot e azioni passate, codifichiamo la sequenza intervallata in token, mascheriamo un sottoinsieme casuale e addestriamo un modello a prevedere il contenuto mascherato. Ipotesizziamo che se il robot è in grado di prevedere il contenuto mancante, abbia acquisito un buon modello del mondo fisico che gli consente di agire. RPT è progettato per operare su rappresentazioni visive latenti, il che rende la previsione trattabile, consente di scalare a modelli 10 volte più grandi e di eseguire inferenze a 10 Hz su un robot reale. Per valutare il nostro approccio, abbiamo raccolto un dataset di 20.000 traiettorie del mondo reale in 9 mesi utilizzando una combinazione di algoritmi di pianificazione del movimento e di presa basati su modelli. Rileviamo che il pre-addestramento su questi dati supera costantemente l'addestramento da zero, porta a miglioramenti di 2 volte nel compito di impilamento di blocchi e presenta proprietà di scalabilità favorevoli.
I modelli a spazio di stato (SSM) hanno dimostrato risultati impressionanti in compiti che richiedono la modellazione di dipendenze a lungo raggio e si adattano efficientemente a sequenze lunghe grazie alla loro complessità di runtime subquadratica. Originariamente progettati per segnali continui, gli SSM hanno mostrato prestazioni superiori in una vasta gamma di compiti, sia nel campo della visione che dell'audio; tuttavia, gli SSM rimangono ancora indietro rispetto alle prestazioni dei Transformer nei compiti di modellazione del linguaggio. In questo lavoro, proponiamo uno strato ibrido denominato Block-State Transformer (BST), che combina internamente un sottostrato SSM per la contestualizzazione a lungo raggio e un sottostrato Block Transformer per la rappresentazione a breve termine delle sequenze. Studiamo tre varianti diverse e completamente parallelizzabili che integrano SSM e attenzione a blocchi. Dimostriamo che il nostro modello supera architetture basate su Transformer simili in termini di perplessità nella modellazione del linguaggio e si generalizza a sequenze più lunghe. Inoltre, il Block-State Transformer mostra un aumento di velocità di oltre dieci volte a livello di strato rispetto al Block-Recurrent Transformer quando viene impiegata la parallelizzazione del modello.
La ricerca sulle leggi di scalabilità ha dimostrato che i modelli linguistici di grandi dimensioni (LM) mostrano miglioramenti prevedibili nella perdita complessiva con l'aumento della scala (dimensioni del modello, dati di addestramento e risorse computazionali). Qui presentiamo prove a sostegno dell'ipotesi che i LM possano mostrare una scalabilità inversa, ovvero una peggiore prestazione nei compiti con l'aumento della scala, ad esempio a causa di difetti nell'obiettivo di addestramento e nei dati. Forniamo evidenze empiriche di scalabilità inversa su 11 dataset raccolti attraverso un concorso pubblico, l'Inverse Scaling Prize, con un premio consistente. Attraverso l'analisi di questi dataset, insieme ad altri esempi presenti in letteratura, identifichiamo quattro potenziali cause di scalabilità inversa: (i) la preferenza a ripetere sequenze memorizzate piuttosto che seguire le istruzioni contestuali, (ii) l'imitazione di modelli indesiderati nei dati di addestramento, (iii) compiti che contengono un'attività distraente semplice su cui i LM potrebbero concentrarsi, invece del compito reale più difficile, e (iv) dimostrazioni few-shot corrette ma fuorvianti del compito. Rilasciamo i dataset vincitori su https://inversescaling.com/data per consentire ulteriori indagini sulla scalabilità inversa. I nostri compiti hanno contribuito alla scoperta di tendenze di scalabilità a forma di U e a U invertita, in cui una tendenza iniziale si inverte, suggerendo che le tendenze di scalabilità sono meno affidabili nel prevedere il comportamento di modelli su larga scala rispetto a quanto precedentemente compreso. Nel complesso, i nostri risultati suggeriscono che esistono compiti per i quali l'aumento della scala del modello da solo potrebbe non portare a progressi e che è necessario un pensiero più attento sui dati e sugli obiettivi per l'addestramento dei modelli linguistici.
Recenti lavori hanno studiato la sintesi testo-audio utilizzando grandi quantità di dati accoppiati testo-audio. Tuttavia, le registrazioni audio con annotazioni testuali di alta qualità possono essere difficili da acquisire. In questo lavoro, affrontiamo la sintesi testo-audio utilizzando video non etichettati e modelli pre-addestrati di linguaggio-visione. Proponiamo di apprendere la corrispondenza testo-audio desiderata sfruttando la modalità visiva come ponte. Addestriamo un modello di diffusione condizionale per generare la traccia audio di un video, dato un fotogramma video codificato da un modello pre-addestrato di contrastive language-image pretraining (CLIP). Al momento del test, esploriamo inizialmente l'esecuzione di un trasferimento di modalità zero-shot e condizioniamo il modello di diffusione con una query testuale codificata da CLIP. Tuttavia, osserviamo un calo significativo delle prestazioni rispetto alle query basate su immagini. Per colmare questo divario, adottiamo ulteriormente un modello di diffusione prior pre-addestrato per generare un'embedding di immagine CLIP dato un'embedding di testo CLIP. I nostri risultati mostrano l'efficacia del metodo proposto e che il diffusore prior pre-addestrato può ridurre il divario nel trasferimento di modalità. Sebbene ci concentriamo sulla sintesi testo-audio, il modello proposto può anche generare audio da query basate su immagini e mostra prestazioni competitive rispetto a un modello all'avanguardia di sintesi immagine-audio in un test di ascolto soggettivo. Questo studio offre una nuova direzione per affrontare la sintesi testo-audio che sfrutta la corrispondenza audio-visiva naturalmente presente nei video e la potenza dei modelli pre-addestrati di linguaggio-visione.
L’impiego di modelli linguistici di grandi dimensioni (LLM) può comportare rischi legati a output dannosi, come discorsi tossici o disonesti. Ricerche precedenti hanno introdotto strumenti che inducono output dannosi al fine di identificare e mitigare tali rischi. Sebbene si tratti di un passo valido verso la messa in sicurezza dei modelli linguistici, questi approcci si basano tipicamente su un classificatore preesistente per gli output indesiderati. Ciò ne limita l’applicazione a situazioni in cui il tipo di comportamento dannoso è noto con precisione in anticipo. Tuttavia, questo trascura una sfida centrale del red teaming: sviluppare una comprensione contestuale dei comportamenti che un modello può manifestare. Inoltre, quando un tale classificatore esiste già, il red teaming ha un valore marginale limitato, poiché il classificatore potrebbe essere utilizzato semplicemente per filtrare i dati di addestramento o gli output del modello. In questo lavoro, consideriamo il red teaming nell’ipotesi che l’avversario operi partendo da una specificazione di alto livello e astratta di comportamento indesiderato. Il red team è chiamato a perfezionare/estendere questa specificazione e a identificare metodi per indurre tale comportamento nel modello. Il nostro framework di red teaming si compone di tre passaggi: 1) Esplorare il comportamento del modello nel contesto desiderato; 2) Stabilire una misura del comportamento indesiderato (ad esempio, un classificatore addestrato per riflettere valutazioni umane); e 3) Sfruttare le vulnerabilità del modello utilizzando questa misura e una metodologia di red teaming consolidata. Applichiamo questo approccio per eseguire il red teaming dei modelli GPT-2 e GPT-3, scoprendo sistematicamente classi di prompt che inducono affermazioni tossiche e disoneste. Nel farlo, costruiamo e rilasciamo anche il dataset CommonClaim, composto da 20.000 affermazioni etichettate da soggetti umani come verità di conoscenza comune, falsità di conoscenza comune o né l’una né l’altra. Il codice è disponibile all’indirizzo https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim è disponibile all’indirizzo https://github.com/thestephencasper/common_claim.
Gli esseri umani possiedono la capacità cognitiva di comprendere le scene in modo composizionale. Per dotare i sistemi di intelligenza artificiale di abilità simili, l'apprendimento di rappresentazioni centrate sugli oggetti mira ad acquisire rappresentazioni di singoli oggetti da scene visive senza alcuna supervisione. Sebbene i recenti progressi nell'apprendimento di rappresentazioni centrate sugli oggetti abbiano ottenuto risultati notevoli su dataset di sintesi complessi, rimane una grande sfida per l'applicazione in scene reali complesse. Una delle ragioni essenziali è la scarsità di dataset del mondo reale specificamente progettati per metodi di apprendimento di rappresentazioni centrate sugli oggetti. Per risolvere questo problema, proponiamo un dataset versatile di scene su tavolo per l'apprendimento centrato sugli oggetti chiamato OCTScenes, che è stato meticolosamente progettato per servire come benchmark per confrontare, valutare e analizzare i metodi di apprendimento di rappresentazioni centrate sugli oggetti. OCTScenes contiene 5000 scene su tavolo con un totale di 15 oggetti di uso quotidiano. Ogni scena è catturata in 60 frame che coprono una prospettiva a 360 gradi. Di conseguenza, OCTScenes è un dataset benchmark versatile che può soddisfare simultaneamente la valutazione dei metodi di apprendimento di rappresentazioni centrate sugli oggetti su compiti di scene statiche, dinamiche e multi-vista. Sono stati condotti esperimenti estesi di metodi di apprendimento di rappresentazioni centrate sugli oggetti per scene statiche, dinamiche e multi-vista su OCTScenes. I risultati dimostrano le carenze dei metodi all'avanguardia nell'apprendere rappresentazioni significative da dati del mondo reale, nonostante le loro prestazioni impressionanti su dataset di sintesi complessi. Inoltre, OCTScenes può servire come catalizzatore per far progredire i metodi all'avanguardia esistenti, ispirandoli ad adattarsi alle scene del mondo reale. Il dataset e il codice sono disponibili all'indirizzo https://huggingface.co/datasets/Yinxuan/OCTScenes.
Presentiamo CAJun, un innovativo framework gerarchico di apprendimento e controllo che consente ai robot quadrupedi di eseguire salti continui con distanze adattive. CAJun è composto da una politica centroidale di alto livello e da un controllore delle zampe di basso livello. In particolare, utilizziamo il reinforcement learning (RL) per addestrare la politica centroidale, che specifica la temporizzazione dell'andatura, la velocità della base e la posizione del piede oscillante per il controllore delle zampe. Il controllore delle zampe ottimizza i comandi motori per le zampe in oscillazione e in appoggio in base alla temporizzazione dell'andatura, per inseguire l'obiettivo del piede oscillante e i comandi di velocità della base utilizzando il controllo ottimo. Inoltre, riformuliamo l'ottimizzatore della zampa in appoggio nel controllore delle zampe per accelerare l'addestramento della politica di un ordine di grandezza. Il nostro sistema combina la versatilità dell'apprendimento con la robustezza del controllo ottimo. Integrando il RL con metodi di controllo ottimo, il nostro sistema raggiunge la versatilità dell'apprendimento pur beneficiando della robustezza dei metodi di controllo, rendendolo facilmente trasferibile a robot reali. Dimostriamo che, dopo 20 minuti di addestramento su una singola GPU, CAJun può eseguire salti continui e lunghi con distanze adattive su un robot Go1, con piccoli gap tra simulazione e realtà. Inoltre, il robot può saltare oltre gap con una larghezza massima di 70 cm, oltre il 40% in più rispetto ai metodi esistenti.