Articoli di ricerca IA selezionati quotidianamente con traduzioni
Per interagire con gli esseri umani nel mondo, gli agenti devono comprendere i diversi tipi di linguaggio che le persone utilizzano, correlarli al mondo visivo e agire in base a essi. Mentre gli agenti attuali imparano a eseguire semplici istruzioni linguistiche attraverso ricompense legate ai compiti, il nostro obiettivo è costruire agenti che sfruttino un linguaggio diversificato che trasmetta conoscenza generale, descriva lo stato del mondo, fornisca feedback interattivo e molto altro. La nostra idea chiave è che il linguaggio aiuta gli agenti a prevedere il futuro: ciò che sarà osservato, come si comporterà il mondo e quali situazioni saranno premiate. Questa prospettiva unisce la comprensione del linguaggio con la previsione del futuro come un potente obiettivo di apprendimento auto-supervisionato. Presentiamo Dynalang, un agente che apprende un modello mondiale multimodale in grado di prevedere rappresentazioni future di testo e immagini e impara ad agire attraverso simulazioni immaginate del modello. A differenza degli agenti tradizionali che utilizzano il linguaggio solo per prevedere azioni, Dynalang acquisisce una ricca comprensione del linguaggio utilizzando il linguaggio passato anche per prevedere il linguaggio futuro, i video e le ricompense. Oltre ad apprendere dall'interazione online in un ambiente, Dynalang può essere preaddestrato su dataset di testo, video o entrambi, senza azioni o ricompense. Dall'utilizzo di suggerimenti linguistici in mondi a griglia alla navigazione di scansioni fotorealistiche di case, Dynalang utilizza diversi tipi di linguaggio per migliorare le prestazioni nei compiti, inclusi descrizioni dell'ambiente, regole del gioco e istruzioni.
Presentiamo OpenFlamingo, una famiglia di modelli autoregressivi visione-linguaggio con parametri che vanno da 3B a 9B. OpenFlamingo rappresenta uno sforzo continuo per realizzare una replica open-source dei modelli Flamingo di DeepMind. Su sette dataset visione-linguaggio, i modelli OpenFlamingo raggiungono in media tra l'80% e l'89% delle prestazioni dei corrispondenti modelli Flamingo. Questo rapporto tecnico descrive i nostri modelli, i dati di addestramento, gli iperparametri e la suite di valutazione. Condividiamo i nostri modelli e il codice all'indirizzo https://github.com/mlfoundations/open_flamingo.
Il ragionamento matematico rappresenta una sfida significativa per i grandi modelli linguistici (LLM), mentre la relazione di scala rispetto alla capacità degli LLM è ancora poco esplorata. In questo articolo, indaghiamo come la perdita durante il pre-training, la quantità di dati supervisionati e la quantità di dati aumentati influenzino le prestazioni di ragionamento di un LLM supervisionato. Scopriamo che la perdita durante il pre-training è un indicatore migliore delle prestazioni del modello rispetto al numero di parametri del modello. Applichiamo il fine-tuning supervisionato (SFT) con diverse quantità di dati supervisionati e troviamo empiricamente una relazione log-lineare tra la quantità di dati e le prestazioni del modello, osservando che i modelli migliori traggono meno vantaggio dall'aumento dei dataset supervisionati. Per aumentare il numero di campioni di dati e migliorare le prestazioni del modello senza alcuno sforzo umano, proponiamo di applicare il Fine-Tuning con Campionamento di Rifiuto (RFT). L'RFT utilizza modelli supervisionati per generare e raccogliere percorsi di ragionamento corretti come dataset aumentati per il fine-tuning. Troviamo che, con campioni aumentati contenenti percorsi di ragionamento più distinti, l'RFT migliora maggiormente le prestazioni di ragionamento matematico degli LLM. Inoltre, scopriamo che l'RFT apporta maggiori miglioramenti per gli LLM meno performanti. Infine, combiniamo i campioni di rifiuto provenienti da più modelli, portando LLaMA-7B a un'accuratezza del 49,3%, superando significativamente l'accuratezza del fine-tuning supervisionato (SFT) del 35,9%.
I modelli di diffusione hanno mostrato risultati promettenti nei compiti di generazione cross-modale, inclusa la generazione da testo a immagine e da testo ad audio. Tuttavia, la generazione di musica, come tipo speciale di audio, presenta sfide uniche a causa della limitata disponibilità di dati musicali e di questioni sensibili legate al copyright e al plagio. In questo articolo, per affrontare queste sfide, costruiamo innanzitutto un modello all'avanguardia per la generazione da testo a musica, MusicLDM, che adatta le architetture di Stable Diffusion e AudioLDM al dominio musicale. Raggiungiamo questo obiettivo riaddestrando il modello di pre-addestramento contrastivo linguaggio-audio (CLAP) e il vocoder Hifi-GAN, come componenti di MusicLDM, su una raccolta di campioni di dati musicali. Successivamente, per affrontare le limitazioni dei dati di addestramento e per evitare il plagio, sfruttiamo un modello di tracciamento del beat e proponiamo due diverse strategie di mixup per l'aumentazione dei dati: mixup audio sincrono al beat e mixup latente sincrono al beat, che ricombinano l'audio di addestramento direttamente o tramite uno spazio di embedding latenti, rispettivamente. Tali strategie di mixup incoraggiano il modello a interpolare tra i campioni musicali di addestramento e a generare nuova musica all'interno dell'inviluppo convesso dei dati di addestramento, rendendo la musica generata più diversificata pur rimanendo fedele allo stile corrispondente. Oltre alle metriche di valutazione popolari, progettiamo diverse nuove metriche di valutazione basate sul punteggio CLAP per dimostrare che il nostro MusicLDM proposto e le strategie di mixup sincrono al beat migliorano sia la qualità che la novità della musica generata, nonché la corrispondenza tra il testo di input e la musica generata.
I modelli linguistici dimostrano una notevole capacità di generalizzare le rappresentazioni apprese in una modalità per applicarle a compiti successivi in altre modalità. Possiamo ricondurre questa abilità a singoli neuroni? Studiamo il caso in cui un trasformatore di testo congelato viene potenziato con la visione utilizzando un codificatore visivo auto-supervisionato e una singola proiezione lineare appresa su un compito di immagine-a-testo. Gli output dello strato di proiezione non sono immediatamente decodificabili in linguaggio che descrive il contenuto dell'immagine; invece, scopriamo che la traduzione tra modalità avviene più in profondità all'interno del trasformatore. Introduciamo una procedura per identificare "neuroni multimodali" che convertono rappresentazioni visive in testo corrispondente, e decodificare i concetti che iniettano nel flusso residuo del modello. In una serie di esperimenti, mostriamo che i neuroni multimodali operano su specifici concetti visivi attraverso gli input e hanno un effetto causale sistematico sulla generazione di didascalie per immagini.
Presentiamo il dataset HANDAL per la stima della posa a livello di categoria e la previsione delle affordance. A differenza dei dataset precedenti, il nostro si concentra su oggetti manipolabili pronti per la robotica, di dimensioni e forma adeguate per una presa funzionale da parte di manipolatori robotici, come pinze, utensili e cacciaviti. Il nostro processo di annotazione è semplificato, richiedendo solo una singola fotocamera commerciale e un'elaborazione semi-automatizzata, consentendoci di produrre annotazioni 3D di alta qualità senza ricorrere al crowdsourcing. Il dataset è composto da 308k fotogrammi annotati provenienti da 2.2k video di 212 oggetti del mondo reale in 17 categorie. Ci concentriamo su oggetti di hardware e utensili da cucina per facilitare la ricerca in scenari pratici in cui un manipolatore robotico deve interagire con l'ambiente oltre il semplice spostamento o la presa indiscriminata. Descriviamo l'utilità del nostro dataset per la stima della posa+scala a 6 gradi di libertà a livello di categoria e per compiti correlati. Forniamo inoltre mesh ricostruite in 3D di tutti gli oggetti e delineiamo alcuni dei colli di bottiglia da affrontare per democratizzare la raccolta di dataset come questo.
Presentiamo il progetto All-Seeing (AS): un insieme di dati su larga scala e un modello per il riconoscimento e la comprensione di tutto ciò che esiste nel mondo aperto. Utilizzando un motore di dati scalabile che incorpora feedback umano e modelli efficienti in un ciclo iterativo, abbiamo creato un nuovo dataset (AS-1B) con oltre 1 miliardo di regioni annotate con tag semantici, coppie di domande e risposte, e descrizioni dettagliate. Questo dataset copre un'ampia gamma di 3,5 milioni di concetti comuni e rari nel mondo reale, e contiene 132,2 miliardi di token che descrivono i concetti e i loro attributi. Sfruttando questo nuovo dataset, abbiamo sviluppato il modello All-Seeing (ASM), un framework unificato per il riconoscimento e la comprensione visiva panottica. Il modello è addestrato con prompt linguistici aperti e posizioni, il che gli consente di generalizzare a vari compiti di visione e linguaggio con prestazioni zero-shot notevoli, tra cui il recupero testo-regione, il riconoscimento di regioni, la generazione di descrizioni e il question-answering. Speriamo che questo progetto possa servire come base per la ricerca sull'intelligenza artificiale generale visione-linguaggio. I modelli e il dataset saranno rilasciati su https://github.com/OpenGVLab/All-Seeing, e una demo è disponibile su https://huggingface.co/spaces/OpenGVLab/all-seeing.
Questo articolo presenta un rilevatore DETR migliorato che mantiene una natura "semplice": utilizza una mappa di caratteristiche a scala singola e calcoli di cross-attention globali senza vincoli di località specifici, in contrasto con i precedenti rilevatori DETR di punta che reintroducono bias induttivi architetturali di multi-scala e località nel decodificatore. Dimostriamo che due tecnologie semplici sono sorprendentemente efficaci all'interno di un design semplice per compensare la mancanza di mappe di caratteristiche multi-scala e vincoli di località. La prima è un termine di bias di posizione relativa box-to-pixel (BoxRPB) aggiunto alla formulazione della cross-attention, che guida efficacemente ogni query a concentrarsi sulla regione dell'oggetto corrispondente, fornendo anche flessibilità di codifica. La seconda è il pre-addestramento del backbone basato su modellazione mascherata dell'immagine (MIM), che aiuta a apprendere rappresentazioni con capacità di localizzazione fine e si dimostra cruciale per rimediare alle dipendenze dalle mappe di caratteristiche multi-scala. Incorporando queste tecnologie e i recenti progressi nella formazione e nella formulazione del problema, il DETR "semplice" migliorato ha mostrato miglioramenti eccezionali rispetto al rilevatore DETR originale. Utilizzando il dataset Object365 per il pre-addestramento, ha raggiunto un'accuratezza di 63.9 mAP con un backbone Swin-L, risultando altamente competitivo rispetto ai rilevatori all'avanguardia che si basano pesantemente su mappe di caratteristiche multi-scala e estrazione di caratteristiche basate su regioni. Il codice è disponibile all'indirizzo https://github.com/impiga/Plain-DETR.
Il gioco immaginativo rappresenta un ambito della creatività che potrebbe consentire ai robot di interagire con il mondo circostante in modo molto più personificato. Il gioco immaginativo può essere visto come l'atto di prendere oggetti e luoghi reali e utilizzarli come oggetti e luoghi immaginari in scenari virtuali. Abbiamo adottato la capacità di generazione di storie dei modelli linguistici di grandi dimensioni (LLM) per ottenere le storie utilizzate nel gioco immaginativo, partendo da prompt scritti da esseri umani. Queste storie generate verranno semplificate e mappate in sequenze di azioni che possono guidare l'agente nel gioco immaginativo. Per valutare se l'agente è in grado di portare a termine con successo il gioco immaginativo, abbiamo anche progettato un gioco di avventura testuale per simulare una casa come area di gioco in cui l'agente può interagire.
La fotografia a lunga esposizione produce immagini straordinarie, rappresentando gli elementi in movimento di una scena con un effetto di mosso. Viene generalmente impiegata in due modalità, producendo un effetto di sfocatura in primo piano o sullo sfondo. Le immagini con sfocatura in primo piano sono tradizionalmente catturate con una fotocamera montata su un treppiede e ritraggono elementi in movimento in primo piano, come acqua setosa o scie luminose, su uno sfondo paesaggistico perfettamente nitido. Le immagini con sfocatura sullo sfondo, chiamate anche fotografia di panning, vengono catturate mentre la fotocamera segue un soggetto in movimento, producendo un'immagine di un soggetto nitido su uno sfondo sfocato dal movimento relativo. Entrambe le tecniche sono notoriamente impegnative e richiedono attrezzature aggiuntive e competenze avanzate. In questo articolo, descriviamo un sistema di fotografia computazionale a raffica che opera in un'app per fotocamera di uno smartphone tenuto in mano e raggiunge questi effetti in modo completamente automatico, con un semplice tocco del pulsante di scatto. Il nostro approccio rileva e segmenta prima il soggetto saliente. Tracciamo il movimento della scena su più fotogrammi e allineiamo le immagini per preservare la nitidezza desiderata e produrre scie di movimento esteticamente piacevoli. Catturiamo una raffica sottoesposta e selezioniamo il sottoinsieme di fotogrammi di input che produrrà scie di sfocatura di lunghezza controllata, indipendentemente dalla velocità del movimento della scena o della fotocamera. Prevediamo il movimento tra i fotogrammi e sintetizziamo la sfocatura da movimento per riempire i gap temporali tra i fotogrammi di input. Infine, componiamo l'immagine sfocata con l'esposizione regolare nitida per proteggere la nitidezza dei volti o delle aree della scena che si muovono appena, e produciamo una fotografia finale ad alta risoluzione e ad alto intervallo dinamico (HDR). Il nostro sistema democratizza una capacità precedentemente riservata ai professionisti e rende questo stile creativo accessibile alla maggior parte dei fotografi amatoriali. Ulteriori informazioni e materiale supplementare sono disponibili sulla pagina del nostro progetto: https://motion-mode.github.io/
Le mesh dinamiche colorate (DCM) sono ampiamente utilizzate in varie applicazioni; tuttavia, queste mesh possono subire diversi processi, come la compressione o la trasmissione, che possono distorcerle e degradarne la qualità. Per facilitare lo sviluppo di metriche oggettive per le DCM e studiare l'influenza delle distorsioni tipiche sulla loro percezione, abbiamo creato il database Tencent - dynamic colored mesh database (TDMD), contenente otto oggetti DCM di riferimento con sei distorsioni tipiche. Utilizzando sequenze video processate (PVS) derivate dalle DCM, abbiamo condotto un esperimento soggettivo su larga scala che ha prodotto 303 campioni DCM distorti con punteggi medi di opinione, rendendo il TDMD il più grande database DCM disponibile a nostra conoscenza. Questo database ci ha permesso di studiare l'impatto di diversi tipi di distorsione sulla percezione umana e di offrire raccomandazioni per la compressione delle DCM e attività correlate. Inoltre, abbiamo valutato tre tipi di metriche oggettive all'avanguardia sul TDMD, tra cui metriche basate su immagini, su punti e su video. I nostri risultati sperimentali evidenziano i punti di forza e di debolezza di ciascuna metrica e forniamo suggerimenti sulla selezione delle metriche nelle applicazioni pratiche delle DCM. Il TDMD sarà reso disponibile pubblicamente al seguente indirizzo: https://multimedia.tencent.com/resources/tdmd.