Articoli di ricerca IA selezionati quotidianamente con traduzioni
La capacità di gestire contesti lunghi è fondamentale per i modelli fondazionali multimodali. Presentiamo LongVILA, una soluzione completa per modelli visione-linguaggio a contesto lungo, che include sistema, addestramento del modello e sviluppo di dataset. Sul lato del sistema, introduciamo il primo sistema di Parallelismo di Sequenza Multi-Modale (MM-SP) che abilita l'addestramento e l'inferenza a contesto lungo, consentendo l'addestramento con una lunghezza di contesto di 2M su 256 GPU. MM-SP è anche efficiente, essendo da 2,1x a 5,7x più veloce rispetto al Parallelismo di Sequenza in stile Ring e da 1,1x a 1,4x più veloce rispetto a Megatron-LM in contesti esclusivamente testuali. Inoltre, si integra perfettamente con Hugging Face Transformers. Per l'addestramento del modello, proponiamo una pipeline in cinque fasi che comprende allineamento, pre-addestramento, estensione del contesto e fine-tuning supervisionato congiunto lungo-corto. Per quanto riguarda i dataset, costruiamo meticolosamente dataset di pre-addestramento su larga scala per il linguaggio visivo e dataset di istruzioni seguite su video lunghi per supportare il nostro processo di addestramento multi-fase. La soluzione completa estende il numero di frame fattibili di VILA di un fattore 128 (da 8 a 1024 frame) e migliora il punteggio di descrizione di video lunghi da 2,00 a 3,26 (1,6x), raggiungendo il 99,5% di accuratezza in un video di 1400 frame (274k lunghezza di contesto) "ago in un pagliaio". LongVILA-8B dimostra anche un miglioramento costante delle prestazioni su video lunghi all'interno del benchmark VideoMME all'aumentare dei frame del video.
I modelli di ricostruzione 3D in mondi aperti hanno recentemente attirato una significativa attenzione. Tuttavia, senza un adeguato bias induttivo 3D, i metodi esistenti comportano tipicamente costi di addestramento elevati e faticano a estrarre mesh 3D di alta qualità. In questo lavoro, introduciamo MeshFormer, un modello di ricostruzione a vista sparsa che sfrutta esplicitamente la struttura nativa 3D, la guida in ingresso e la supervisione durante l'addestramento. Nello specifico, invece di utilizzare una rappresentazione triplanare, memorizziamo le feature in voxel sparsi 3D e combiniamo i transformer con convoluzioni 3D per sfruttare una struttura 3D esplicita e un bias proiettivo. Oltre all'input RGB a vista sparsa, richiediamo alla rete di accettare in ingresso e generare mappe normali corrispondenti. Le mappe normali in ingresso possono essere predette da modelli di diffusione 2D, contribuendo significativamente alla guida e al perfezionamento dell'apprendimento della geometria. Inoltre, combinando la supervisione della Signed Distance Function (SDF) con il rendering della superficie, apprendiamo direttamente a generare mesh di alta qualità senza la necessità di complessi processi di addestramento multi-stadio. Incorporando questi bias 3D espliciti, MeshFormer può essere addestrato in modo efficiente e produrre mesh testurizzate di alta qualità con dettagli geometrici fini. Può anche essere integrato con modelli di diffusione 2D per abilitare rapidamente task di single-image-to-3D e text-to-3D. Pagina del progetto: https://meshformer3d.github.io
La segmentazione robusta e accurata delle scene è diventata una funzionalità centrale in vari compiti di riconoscimento visivo e navigazione. Ciò ha ispirato il recente sviluppo del Segment Anything Model (SAM), un modello di base per la segmentazione generale delle maschere. Tuttavia, SAM è principalmente adattato per immagini RGB a singola modalità, limitando la sua applicabilità a dati multi-modali acquisiti con suite di sensori ampiamente adottate, come LiDAR più RGB, profondità più RGB, termico più RGB, ecc. Sviluppiamo MM-SAM, un'estensione e ampliamento di SAM che supporta l'elaborazione cross-modale e multi-modale per una segmentazione robusta e migliorata con diverse suite di sensori. MM-SAM presenta due design chiave, ovvero il trasferimento cross-modale non supervisionato e la fusione multi-modale debolmente supervisionata, consentendo un adattamento efficiente in termini di etichette e parametri verso varie modalità di sensori. Affronta tre principali sfide: 1) l'adattamento verso diversi sensori non RGB per l'elaborazione a singola modalità, 2) l'elaborazione sinergica di dati multi-modali tramite fusione di sensori, e 3) l'addestramento senza maschere per diversi compiti downstream. Esperimenti estensivi dimostrano che MM-SAM supera costantemente SAM con ampi margini, dimostrando la sua efficacia e robustezza attraverso vari sensori e modalità di dati.
La generazione di video da testo (Text-to-Video, T2V) ha attirato notevole attenzione grazie alle sue ampie applicazioni nella generazione, modifica, miglioramento e traduzione di video, \etc. Tuttavia, la sintesi di video di alta qualità (HQ) è estremamente impegnativa a causa dei movimenti diversificati e complessi presenti nel mondo reale. La maggior parte dei lavori esistenti fatica a risolvere questo problema raccogliendo grandi quantità di video HQ, che sono inaccessibili alla comunità. In questo lavoro, dimostriamo che i dati pubblicamente disponibili, limitati e di bassa qualità (LQ), sono sufficienti per addestrare un generatore di video HQ senza necessità di ricaptazione o fine-tuning. Fattorizziamo l'intero processo di generazione T2V in due passaggi: generare un'immagine condizionata da una descrizione testuale altamente dettagliata e sintetizzare il video condizionato dall'immagine generata e da una descrizione concisa dei dettagli del movimento. Nello specifico, presentiamo Factorized-Dreamer, un framework spaziotemporale fattorizzato con diverse progettazioni critiche per la generazione T2V, tra cui un adattatore per combinare gli embedding di testo e immagine, un modulo di cross-attention pixel-aware per catturare le informazioni a livello di pixel, un codificatore di testo T5 per una migliore comprensione della descrizione del movimento e un PredictNet per supervisionare i flussi ottici. Introduciamo inoltre una schedulazione del rumore, che svolge un ruolo chiave nel garantire la qualità e la stabilità della generazione video. Il nostro modello riduce i requisiti in termini di descrizioni dettagliate e video HQ e può essere addestrato direttamente su dataset LQ limitati con descrizioni rumorose e brevi come WebVid-10M, allevando notevolmente il costo di raccolta di grandi quantità di coppie video-testo HQ. Esperimenti estensivi in una varietà di task di generazione T2V e da immagine a video dimostrano l'efficacia del nostro Factorized-Dreamer proposto. I nostri codici sorgente sono disponibili all'indirizzo https://github.com/yangxy/Factorized-Dreamer/.
La progettazione di chip si basa fortemente sulla generazione di circuiti booleani, come i grafi AND-Inverter (AIG), a partire da descrizioni funzionali come le tabelle di verità. Sebbene i recenti progressi nel deep learning abbiano mirato ad accelerare la progettazione dei circuiti, questi sforzi si sono concentrati principalmente su compiti diversi dalla sintesi, mentre i metodi euristici tradizionali hanno raggiunto un plateau. In questo articolo, introduciamo ShortCircuit, una nuova architettura basata su transformer che sfrutta le proprietà strutturali degli AIG e svolge un'esplorazione efficiente dello spazio. Contrariamente agli approcci precedenti che tentavano la generazione end-to-end di circuiti logici utilizzando reti neurali profonde, ShortCircuit adotta un processo in due fasi che combina apprendimento supervisionato con apprendimento per rinforzo per migliorare la generalizzazione a tabelle di verità non viste. Proponiamo inoltre una variante di AlphaZero per gestire lo spazio degli stati doppiamente esponenzialmente ampio e la scarsità dei reward, consentendo la scoperta di progetti quasi ottimali. Per valutare le prestazioni generative del nostro modello addestrato, estraiamo 500 tabelle di verità da un set di benchmark di 20 circuiti del mondo reale. ShortCircuit genera con successo AIG per l'84,6% delle tabelle di verità di test a 8 ingressi e supera lo strumento di sintesi logica all'avanguardia, ABC, del 14,61% in termini di dimensione dei circuiti.
La stima ottica del flusso in tempo reale ad alta precisione è cruciale per varie applicazioni nel mondo reale. Sebbene i recenti metodi di flusso ottico basati sull'apprendimento abbiano raggiunto un'elevata accuratezza, spesso comportano costi computazionali significativi. In questo articolo, proponiamo un metodo di flusso ottico altamente efficiente che bilancia un'elevata precisione con ridotte esigenze computazionali. Basandoci su NeuFlow v1, introduciamo nuovi componenti, tra cui un'architettura molto più leggera e un modulo di raffinamento veloce. Entrambi questi moduli contribuiscono a mantenere bassi i requisiti computazionali pur fornendo una precisione vicina allo stato dell'arte. Rispetto ad altri metodi all'avanguardia, il nostro modello ottiene un'accelerazione da 10x a 70x mantenendo prestazioni comparabili sia su dati sintetici che reali. È in grado di funzionare a oltre 20 FPS su immagini con risoluzione 512x384 su un Jetson Orin Nano. Il codice completo per l'addestramento e la valutazione è disponibile all'indirizzo https://github.com/neufieldrobotics/NeuFlow_v2.
La generazione 3D in mondi aperti ha recentemente attirato notevole attenzione. Sebbene molti metodi che trasformano una singola immagine in 3D abbiano prodotto risultati visivamente accattivanti, spesso mancano di una sufficiente controllabilità e tendono a generare regioni allucinate che potrebbero non corrispondere alle aspettative degli utenti. In questo articolo, esploriamo uno scenario importante in cui l'input è costituito da una o poche immagini 2D non posizionate di un singolo oggetto, con poca o nessuna sovrapposizione. Proponiamo un nuovo metodo, SpaRP, per ricostruire una mesh 3D con texture e stimare le pose relative della camera per queste immagini a vista sparsa. SpaRP estrae conoscenza da modelli di diffusione 2D e li perfeziona per dedurre implicitamente le relazioni spaziali 3D tra le viste sparse. Il modello di diffusione è addestrato a prevedere congiuntamente rappresentazioni surrogate per le pose della camera e immagini multi-vista dell'oggetto sotto pose note, integrando tutte le informazioni dalle viste sparse di input. Queste previsioni vengono poi sfruttate per realizzare la ricostruzione 3D e la stima delle pose, e il modello 3D ricostruito può essere utilizzato per affinare ulteriormente le pose della camera delle viste di input. Attraverso esperimenti estesi su tre dataset, dimostriamo che il nostro metodo non solo supera significativamente i metodi di base in termini di qualità della ricostruzione 3D e accuratezza della previsione delle pose, ma mostra anche una forte efficienza. Richiede solo circa 20 secondi per produrre una mesh con texture e le pose della camera per le viste di input. Pagina del progetto: https://chaoxu.xyz/sparp.
L'attribuzione accurata della paternità è cruciale per mantenere l'integrità dei contenuti digitali, migliorare le indagini forensi e mitigare i rischi di disinformazione e plagio. Affrontare l'imperativa necessità di una corretta attribuzione della paternità è essenziale per sostenere la credibilità e la responsabilità dell'autentica paternità. I rapidi progressi dei Modelli Linguistici di Grande Scala (LLM) hanno offuscato i confini tra la paternità umana e quella delle macchine, ponendo sfide significative ai metodi tradizionali. Presentiamo una revisione completa della letteratura che esamina le ultime ricerche sull'attribuzione della paternità nell'era degli LLM. Questo studio esplora sistematicamente il panorama di questo campo categorizzando quattro problemi rappresentativi: (1) Attribuzione di Testi Scritti da Umani; (2) Rilevamento di Testi Generati da LLM; (3) Attribuzione di Testi Generati da LLM; e (4) Attribuzione di Testi Co-scritti da Umani e LLM. Discutiamo inoltre le sfide legate a garantire la generalizzazione e l'interpretabilità dei metodi di attribuzione della paternità. La generalizzazione richiede la capacità di generalizzare attraverso vari domini, mentre l'interpretabilità enfatizza la fornitura di approfondimenti trasparenti e comprensibili sulle decisioni prese da questi modelli. Valutando i punti di forza e le limitazioni dei metodi e dei benchmark esistenti, identifichiamo i principali problemi aperti e le future direzioni di ricerca in questo campo. Questa revisione della letteratura funge da roadmap per ricercatori e professionisti interessati a comprendere lo stato dell'arte in questo campo in rapida evoluzione. Risorse aggiuntive e una lista curata di articoli sono disponibili e regolarmente aggiornate su https://llm-authorship.github.io.
L'inserimento corretto di oggetti virtuali in immagini di scene del mondo reale richiede una profonda comprensione dell'illuminazione, della geometria e dei materiali della scena, nonché del processo di formazione dell'immagine. Sebbene i recenti modelli di diffusione su larga scala abbiano dimostrato forti capacità generative e di inpainting, riscontriamo che i modelli attuali non "comprendono" sufficientemente la scena mostrata in una singola immagine per generare effetti di illuminazione coerenti (ombre, riflessi luminosi, ecc.) preservando al contempo l'identità e i dettagli dell'oggetto compositato. Proponiamo di utilizzare un modello di diffusione su larga scala personalizzato come guida per un processo di rendering inverso basato sulla fisica. Il nostro metodo recupera i parametri di illuminazione della scena e di tone-mapping, consentendo la composizione fotorealistica di oggetti virtuali arbitrari in singoli fotogrammi o video di scene interne o esterne. La nostra pipeline basata sulla fisica consente inoltre un affinamento automatico dei materiali e del tone-mapping.
In questo lavoro, proponiamo un approccio controllabile basato su traiettorie per la generazione di immagini da testo (T2I) che non richiede addestramento, denominato TraDiffusion. Questo metodo innovativo consente agli utenti di guidare agevolmente la generazione di immagini attraverso traiettorie del mouse. Per ottenere un controllo preciso, abbiamo progettato una funzione energetica di consapevolezza della distanza per guidare efficacemente le variabili latenti, garantendo che il focus della generazione rimanga all'interno delle aree definite dalla traiettoria. La funzione energetica comprende una funzione di controllo per avvicinare la generazione alla traiettoria specificata e una funzione di movimento per ridurre l'attività nelle aree lontane dalla traiettoria. Attraverso esperimenti estesi e valutazioni qualitative sul dataset COCO, i risultati dimostrano che TraDiffusion facilita un controllo delle immagini più semplice e naturale. Inoltre, evidenzia la capacità di manipolare regioni salienti, attributi e relazioni all'interno delle immagini generate, insieme a input visivi basati su traiettorie arbitrarie o potenziate.
Gli agenti basati su modelli linguistici (LM) per la cybersecurity, in grado di identificare autonomamente vulnerabilità ed eseguire exploit, hanno il potenziale di causare un impatto significativo nel mondo reale. I responsabili delle politiche, i fornitori di modelli e altri ricercatori nelle comunità di intelligenza artificiale e cybersecurity sono interessati a quantificare le capacità di tali agenti per contribuire a mitigare il rischio informatico e investigare opportunità per i test di penetrazione. A tal fine, introduciamo Cybench, un framework per specificare compiti di cybersecurity e valutare gli agenti su tali compiti. Includiamo 40 attività professionali di tipo Capture the Flag (CTF) provenienti da 4 diverse competizioni CTF, selezionate per essere recenti, significative e coprire un'ampia gamma di difficoltà. Ogni attività include la propria descrizione, file di partenza ed è inizializzata in un ambiente in cui un agente può eseguire comandi bash e osservare gli output. Poiché molte attività vanno oltre le capacità degli attuali agenti LM, introduciamo sottocompiti, che suddividono un'attività in passaggi intermedi per una valutazione più graduale; aggiungiamo sottocompiti per 17 delle 40 attività. Per valutare le capacità degli agenti, costruiamo un agente di cybersecurity e valutiamo 7 modelli: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat e Llama 3.1 405B Instruct. Senza guida, osserviamo che gli agenti sono in grado di risolvere solo le attività complete più semplici, che hanno richiesto ai team umani fino a 11 minuti per essere risolte, con Claude 3.5 Sonnet e GPT-4o che mostrano i tassi di successo più elevati. Infine, i sottocompiti forniscono un segnale più chiaro per misurare le prestazioni rispetto alle esecuzioni senza guida, con i modelli che raggiungono un tasso di successo del 3,2% più alto sulle attività complete con guida rispetto a quelle senza guida. Tutti i codici e i dati sono disponibili pubblicamente all'indirizzo https://cybench.github.io.