Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Transfusion, una metodologia per addestrare un modello multi-modale su dati discreti e continui. Transfusion combina la funzione di perdita del language modeling (predizione del token successivo) con la diffusione per addestrare un singolo trasformatore su sequenze di modalità miste. Pre-addestriamo diversi modelli Transfusion fino a 7 miliardi di parametri da zero su un mix di dati testuali e immagini, stabilendo leggi di scalabilità rispetto a una varietà di benchmark uni- e cross-modali. I nostri esperimenti dimostrano che Transfusion scala significativamente meglio rispetto alla quantizzazione delle immagini e all'addestramento di un modello linguistico su token discreti di immagini. Introducendo strati di codifica e decodifica specifici per ciascuna modalità, possiamo ulteriormente migliorare le prestazioni dei modelli Transfusion, arrivando persino a comprimere ciascuna immagine in soli 16 patch. Dimostriamo inoltre che scalare la nostra metodologia Transfusion a 7 miliardi di parametri e 2 trilioni di token multi-modali produce un modello in grado di generare immagini e testo alla pari con modelli di diffusione e linguistici di scala simile, raccogliendo i benefici di entrambi gli approcci.
I recenti progressi nei Large Language Models (LLM) hanno notevolmente migliorato l'interpretazione e l'elaborazione di dati tabellari, introducendo capacità precedentemente inimmaginabili. Nonostante questi risultati, gli LLM incontrano ancora sfide significative quando applicati in scenari industriali, in particolare a causa della maggiore complessità di ragionamento richiesta con dati tabellari del mondo reale, evidenziando un divario notevole tra benchmark accademici e applicazioni pratiche. Per affrontare questa discrepanza, conduciamo un'indagine dettagliata sull'applicazione di dati tabellari in scenari industriali e proponiamo un benchmark completo e complesso, TableBench, che include 18 campi all'interno di quattro categorie principali di capacità di risposta a domande su tabelle (TableQA). Inoltre, introduciamo TableLLM, addestrato sul nostro set di addestramento meticolosamente costruito TableInstruct, raggiungendo prestazioni comparabili a GPT-3.5. Esperimenti massicci condotti su TableBench indicano che sia gli LLM open-source che quelli proprietari hanno ancora un margine significativo di miglioramento per soddisfare le esigenze del mondo reale, dove il modello più avanzato, GPT-4, raggiunge solo un punteggio modesto rispetto agli esseri umani.
Includere codice nella miscela di dati di pre-addestramento, anche per modelli non specificamente progettati per il codice, è diventata una pratica comune nel pre-addestramento di LLM. Sebbene ci sia un consenso aneddotico tra i professionisti sul fatto che i dati di codice svolgano un ruolo vitale nelle prestazioni generali degli LLM, ci sono solo lavori limitati che analizzano l'impatto preciso del codice su compiti non legati al codice. In questo lavoro, indaghiamo sistematicamente l'impatto dei dati di codice sulle prestazioni generali. Ci chiediamo "qual è l'impatto dei dati di codice utilizzati nel pre-addestramento su una vasta gamma di compiti a valle oltre la generazione di codice". Eseguiamo ampie ablazioni e valutiamo su un'ampia gamma di compiti di ragionamento in linguaggio naturale, compiti di conoscenza del mondo, benchmark di codice e tassi di vittoria LLM-as-a-judge per modelli con dimensioni che vanno da 470M a 2,8B parametri. In tutte le configurazioni, troviamo risultati coerenti che il codice è un elemento costitutivo critico per la generalizzazione ben oltre i compiti di codifica e che i miglioramenti alla qualità del codice hanno un impatto sproporzionato su tutti i compiti. In particolare, rispetto al pre-addestramento basato solo su testo, l'aggiunta di codice comporta un aumento relativo fino all'8,2% nel ragionamento in linguaggio naturale (NL), al 4,2% nella conoscenza del mondo, al 6,6% nei tassi di vittoria generativi e un aumento di 12 volte nelle prestazioni del codice, rispettivamente. Il nostro lavoro suggerisce che gli investimenti nella qualità del codice e la conservazione del codice durante il pre-addestramento hanno impatti positivi.
Proponiamo l'ordinamento delle rappresentazioni di patch tra diverse viste come un nuovo segnale di apprendimento auto-supervisionato per migliorare le rappresentazioni pre-addestrate. A tal fine, introduciamo NeCo: Patch Neighbor Consistency, una nuova funzione di perdita di addestramento che impone la consistenza dei vicini più prossimi a livello di patch tra un modello studente e un modello insegnante, rispetto a batch di riferimento. Il nostro metodo sfrutta una tecnica di ordinamento differenziabile applicata sulle rappresentazioni pre-addestrate, come i registri DINOv2, per avviare il segnale di apprendimento e migliorarle ulteriormente. Questo addestramento post-pretraining denso porta a prestazioni superiori su vari modelli e dataset, nonostante richieda solo 19 ore su una singola GPU. Dimostriamo che questo metodo genera encoder di feature dense di alta qualità e stabilisce diversi nuovi risultati all'avanguardia: +5,5% e +6% per la segmentazione semantica non parametrica in-context su ADE20k e Pascal VOC, e +7,2% e +5,7% per le valutazioni di segmentazione lineare su COCO-Things e -Stuff.
I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più diffusi in applicazioni a contesto lungo come chatbot interattivi, analisi di documenti e flussi di lavoro di agenti, ma è complesso gestire richieste a contesto lungo con bassa latenza e alto throughput. Il decoding speculativo (SD) è una tecnica ampiamente utilizzata per ridurre la latenza senza sacrificare le prestazioni, ma la saggezza convenzionale suggerisce che la sua efficacia sia limitata a dimensioni ridotte del batch. In MagicDec, dimostriamo che, sorprendentemente, SD può ottenere un'accelerazione anche in un regime di inferenza ad alto throughput per sequenze da moderate a lunghe. Ancora più interessante, una strategia intelligente di drafting può ottenere una maggiore accelerazione all'aumentare della dimensione del batch, come evidenziato dalla nostra rigorosa analisi. MagicDec identifica innanzitutto i colli di bottiglia che si spostano con l'aumento della dimensione del batch e della lunghezza della sequenza, e utilizza queste intuizioni per implementare il decoding speculativo in modo più efficace per l'inferenza ad alto throughput. Successivamente, sfrutta modelli di draft con cache KV sparsa per affrontare il collo di bottiglia KV che scala sia con la lunghezza della sequenza che con la dimensione del batch.
I modelli di diffusione si sono affermati come leader nella generazione di immagini da testo grazie alle loro impressionanti capacità. Tuttavia, la loro risoluzione fissa delle immagini durante l'addestramento spesso comporta sfide nella generazione di immagini ad alta risoluzione, come inesattezze semantiche e replicazione di oggetti. Questo articolo introduce MegaFusion, un approccio innovativo che estende i modelli esistenti di generazione di immagini da testo basati sulla diffusione verso una generazione efficiente a risoluzioni più elevate senza ulteriori fine-tuning o adattamenti aggiuntivi. Nello specifico, utilizziamo una strategia innovativa di troncamento e rilievo per collegare i processi di denoising attraverso diverse risoluzioni, consentendo la generazione di immagini ad alta risoluzione in modo da grossolano a fine. Inoltre, integrando convoluzioni dilatate e una riprogrammazione del rumore, adattiamo ulteriormente i priori del modello per risoluzioni più elevate. La versatilità e l'efficacia di MegaFusion lo rendono universalmente applicabile sia ai modelli di diffusione nello spazio latente che in quello pixel, insieme ad altri modelli derivati. Esperimenti estensivi confermano che MegaFusion migliora significativamente la capacità dei modelli esistenti di produrre immagini di megapixel e vari rapporti d'aspetto, richiedendo solo circa il 40% del costo computazionale originale.
Nell'era attuale, in cui i grandi modelli linguistici (LLM) sono integrati in numerose applicazioni del mondo reale, garantire la loro sicurezza e robustezza è cruciale per un utilizzo responsabile dell'IA. I metodi automatizzati di red teaming svolgono un ruolo chiave in questo processo generando attacchi avversari per identificare e mitigare le potenziali vulnerabilità di questi modelli. Tuttavia, i metodi esistenti spesso presentano prestazioni lente, una diversità categoriale limitata e un elevato consumo di risorse. Sebbene il Rainbow Teaming, un approccio recente, affronti la sfida della diversità inquadrando la generazione di prompt avversari come una ricerca di qualità-diversità, rimane lento e richiede un mutatore fine-tuned di grandi dimensioni per ottenere prestazioni ottimali. Per superare queste limitazioni, proponiamo Ferret, un nuovo approccio che si basa sul Rainbow Teaming generando più mutazioni di prompt avversari per iterazione e utilizzando una funzione di punteggio per classificare e selezionare il prompt avversario più efficace. Esploriamo varie funzioni di punteggio, inclusi modelli di ricompensa, Llama Guard e LLM-as-a-judge, per classificare le mutazioni avversarie in base al loro potenziale danno, migliorando così l'efficienza della ricerca di mutazioni dannose. I nostri risultati dimostrano che Ferret, utilizzando un modello di ricompensa come funzione di punteggio, migliora il tasso di successo complessivo degli attacchi (ASR) al 95%, che è il 46% in più rispetto al Rainbow Teaming. Inoltre, Ferret riduce il tempo necessario per raggiungere un ASR del 90% del 15,2% rispetto al baseline e genera prompt avversari trasferibili, ovvero efficaci su altri LLM di dimensioni maggiori. I nostri codici sono disponibili all'indirizzo https://github.com/declare-lab/ferret.
Un "match cut" è una comune tecnica di montaggio video in cui una coppia di inquadrature con una composizione simile transita fluidamente dall'una all'altra. Sebbene i match cut siano spesso visivi, alcuni match cut coinvolgono la transizione fluida dell'audio, dove suoni provenienti da fonti diverse si fondono in una transizione indistinguibile tra due inquadrature. In questo articolo, esploriamo la capacità di trovare e creare automaticamente "audio match cut" all'interno di video e film. Creiamo una rappresentazione audio auto-supervisionata per il match cut audio e sviluppiamo una pipeline di match cut audio da grossolana a fine che suggerisce inquadrature corrispondenti e crea l'audio miscelato. Inoltre, annotiamo un dataset per il compito proposto di audio match cut e confrontiamo la capacità di multiple rappresentazioni audio di trovare candidati per audio match cut. Infine, valutiamo diversi metodi per fondere due candidati audio corrispondenti con l'obiettivo di creare una transizione fluida. La pagina del progetto e gli esempi sono disponibili all'indirizzo: https://denfed.github.io/audiomatchcut/
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer presentano limitazioni come la generazione di risposte non sicure, ragionamenti inaffidabili, ecc. Gli approcci esistenti di intervento durante l'inferenza cercano di mitigare questi problemi affinando modelli aggiuntivi per produrre segnali di calibrazione (come ricompense) che guidino il processo di decodifica dell'LLM. Tuttavia, questa soluzione introduce un notevole sovraccarico in termini di tempo e spazio a causa dei modelli separati richiesti. Questo lavoro propone l'inserimento non invasivo di parametri (Otter), che consiste nell'inserire parametri aggiuntivi nell'architettura Transformer per prevedere segnali di calibrazione insieme all'output originale dell'LLM. Otter offre prestazioni all'avanguardia su molteplici task impegnativi, risparmiando fino all'86,5% di spazio aggiuntivo e al 98,5% di tempo aggiuntivo. Inoltre, Otter si integra perfettamente con i motori di inferenza esistenti, richiedendo solo una modifica di una riga di codice, e la risposta originale del modello rimane accessibile dopo l'inserimento dei parametri. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/chenhan97/Otter.
Il rapido progresso dei sistemi di generazione testo-immagine, esemplificato da modelli come Stable Diffusion, Midjourney, Imagen e DALL-E, ha accentuato le preoccupazioni riguardo al loro potenziale uso improprio. In risposta, aziende come Meta e Google hanno intensificato i loro sforzi per implementare tecniche di watermarking sulle immagini generate dall'IA, al fine di limitare la circolazione di contenuti visivi potenzialmente fuorvianti. Tuttavia, in questo articolo sosteniamo che i metodi attuali di watermarking delle immagini sono fragili e suscettibili di essere elusi attraverso attacchi di parafrasi visiva. Il parafrasatore visivo proposto opera in due fasi. Innanzitutto, genera una didascalia per l'immagine data utilizzando KOSMOS-2, uno dei più recenti sistemi all'avanguardia per la generazione di didascalie. In secondo luogo, passa sia l'immagine originale che la didascalia generata a un sistema di diffusione immagine-immagine. Durante la fase di denoising della pipeline di diffusione, il sistema genera un'immagine visivamente simile che è guidata dalla didascalia testuale. L'immagine risultante è una parafrasi visiva ed è priva di qualsiasi watermark. I nostri risultati empirici dimostrano che gli attacchi di parafrasi visiva possono rimuovere efficacemente i watermark dalle immagini. Questo articolo fornisce una valutazione critica, rivelando empiricamente la vulnerabilità delle tecniche di watermarking esistenti agli attacchi di parafrasi visiva. Sebbene non proponiamo soluzioni a questo problema, questo articolo rappresenta un invito all'azione per la comunità scientifica a dare priorità allo sviluppo di tecniche di watermarking più robuste. Il nostro dataset di parafrasi visiva, il primo nel suo genere, e il codice associato sono pubblicamente disponibili.
Il linguaggio specializzato e i concetti complessi della fisica rappresentano sfide significative per l'estrazione di informazioni attraverso l'Elaborazione del Linguaggio Naturale (NLP). Al centro delle applicazioni efficaci di NLP si trova il modello di incorporamento del testo, che converte il testo in rappresentazioni vettoriali dense per un'efficiente ricerca di informazioni e analisi semantica. In questo lavoro, introduciamo PhysBERT, il primo modello di incorporamento del testo specifico per la fisica. Pre-addestrato su un corpus curato di 1,2 milioni di articoli di fisica di arXiv e affinato con dati supervisionati, PhysBERT supera i principali modelli generici su compiti specifici della fisica, inclusa l'efficacia nell'affinamento per specifici sottodomini della fisica.
Il tracciamento visivo basato su telecamere ad eventi ha attirato sempre più attenzione negli ultimi anni grazie al principio di imaging unico e ai vantaggi di basso consumo energetico, ampia gamma dinamica e risoluzione temporale densa. Gli attuali algoritmi di tracciamento basati su eventi stanno gradualmente raggiungendo i loro limiti di prestazione, a causa dell'utilizzo del Transformer visivo e del modello statico per la localizzazione dell'oggetto target. In questo articolo, proponiamo un nuovo framework di tracciamento visivo basato su Mamba che adotta il modello di spazio degli stati con complessità lineare come rete di base. Le regioni di ricerca e il modello target vengono inseriti nella rete Mamba visiva per l'estrazione simultanea delle caratteristiche e l'interazione. I token di output delle regioni di ricerca verranno inseriti nella testa di tracciamento per la localizzazione del target. Ancora più importante, consideriamo l'introduzione di una strategia di aggiornamento dinamico del modello nel framework di tracciamento utilizzando la rete Memory Mamba. Considerando la diversità dei campioni nella libreria dei modelli target e apportando opportuni aggiustamenti al modulo di memoria del modello, è possibile integrare un modello dinamico più efficace. La combinazione efficace di modelli dinamici e statici consente al nostro algoritmo di tracciamento basato su Mamba di raggiungere un buon equilibrio tra precisione e costo computazionale su più dataset su larga scala, tra cui EventVOT, VisEvent e FE240hz. Il codice sorgente sarà rilasciato su https://github.com/Event-AHU/MambaEVT.
È stato a lungo un obiettivo di ricerca dotare le mani robotiche di una destrezza paragonabile a quella umana. Suonare il piano con robot bi-manuali costituisce un compito che combina sfide provenienti da attività dinamiche, come generare movimenti rapidi ma precisi, con problemi di manipolazione più lenti ma ricchi di contatti. Sebbene gli approcci basati sull'apprendimento per rinforzo abbiano mostrato risultati promettenti in contesti di singoli compiti, questi metodi faticano in un ambiente multi-brano. Il nostro lavoro mira a colmare questa lacuna e, di conseguenza, abilitare approcci di apprendimento per imitazione per il suonare il piano con robot su larga scala. A tal fine, introduciamo il dataset Robot Piano 1 Million (RP1M), contenente dati di movimento per il suonare il piano bi-manuale con oltre un milione di traiettorie. Formuliamo il posizionamento delle dita come un problema di trasporto ottimale, consentendo così l'annotazione automatica di grandi quantità di brani non etichettati. Il benchmarking degli approcci esistenti di apprendimento per imitazione dimostra che tali approcci raggiungono prestazioni all'avanguardia nel suonare il piano con robot sfruttando RP1M.
Il 3D Gaussian Splatting (3DGS) è diventato il metodo di rappresentazione 3D di fatto in molti compiti di visione artificiale. Ciò richiede una comprensione 3D direttamente in questo spazio di rappresentazione. Per facilitare la ricerca in questa direzione, abbiamo prima costruito un dataset su larga scala di 3DGS utilizzando i comuni dataset ShapeNet e ModelNet. Il nostro dataset, chiamato ShapeSplat, consiste in 65K oggetti provenienti da 87 categorie uniche, le cui etichette sono in linea con i rispettivi dataset. La creazione di questo dataset ha richiesto l'equivalente di 2 anni di calcolo su una GPU TITAN XP. Utilizziamo il nostro dataset per il pretraining non supervisionato e il fine-tuning supervisionato per compiti di classificazione e segmentazione. A tal fine, introduciamo \textit{Gaussian-MAE}, che mette in luce i benefici unici dell'apprendimento di rappresentazione dai parametri gaussiani. Attraverso esperimenti esaustivi, forniamo diverse intuizioni preziose. In particolare, dimostriamo che (1) la distribuzione dei centroidi GS ottimizzati differisce significativamente dalla controparte di nuvole di punti campionate uniformemente (utilizzata per l'inizializzazione); (2) questo cambiamento nella distribuzione comporta un degrado nella classificazione ma un miglioramento nei compiti di segmentazione quando si utilizzano solo i centroidi; (3) per sfruttare ulteriori parametri gaussiani, proponiamo il raggruppamento di feature gaussiane in uno spazio di feature normalizzato, insieme a un livello di pooling degli splat, offrendo una soluzione su misura per raggruppare e incorporare efficacemente gaussiane simili, il che porta a un miglioramento significativo nei compiti di fine-tuning.
La mobilità urbana e i sistemi di trasporto sono stati profondamente trasformati dall'avanzamento delle tecnologie dei veicoli autonomi. Baidu Apollo Go, un servizio pionieristico di robotaxi del colosso tecnologico cinese Baidu, è stato recentemente ampiamente implementato in città principali come Pechino e Wuhan, suscitando un crescente dibattito e offrendo uno sguardo sul futuro della mobilità urbana. Questo studio indaga le attitudini del pubblico verso Apollo Go in tutta la Cina utilizzando l'analisi del sentiment con un modello ibrido BERT su 36.096 post Weibo da gennaio a luglio 2024. L'analisi mostra che l'89,56% dei post relativi ad Apollo Go si concentra nel mese di luglio. Da gennaio a luglio, il sentiment pubblico è stato prevalentemente positivo, ma i commenti negativi hanno iniziato ad aumentare dopo che il servizio è diventato un argomento di tendenza il 21 luglio. L'analisi spaziale indica una forte correlazione tra le province con un'intensità di discussione elevata e quelle in cui Apollo Go è operativo. Inizialmente, Hubei e Guangdong dominavano il volume dei post online, ma entro luglio, Guangdong, Pechino e regioni internazionali avevano superato Hubei. Le attitudini variavano significativamente tra le province, con Xinjiang e Qinghai che mostravano ottimismo, mentre Tibet e Gansu esprimevano preoccupazioni riguardo all'impatto sui servizi di taxi tradizionali. L'analisi del sentiment ha rivelato che i commenti positivi si concentravano sulle applicazioni tecnologiche e sulle esperienze personali, mentre quelli negativi riguardavano principalmente la perdita di posti di lavoro e le preoccupazioni sulla sicurezza. In sintesi, questo studio evidenzia la divergenza nelle percezioni pubbliche dei servizi di ride-hailing autonomi, fornendo spunti preziosi per pianificatori, decisori politici e fornitori di servizi. Il modello è pubblicato su Hugging Face all'indirizzo https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao e il repository su GitHub all'indirizzo https://github.com/GIStudio/trb2024.