Articoli di ricerca IA selezionati quotidianamente con traduzioni
I moderni sistemi di intelligenza artificiale (AI) sono alimentati da modelli di base. Questo articolo presenta una nuova serie di modelli di base, denominata Llama 3. Si tratta di un insieme di modelli linguistici che supportano nativamente il multilinguismo, la codifica, il ragionamento e l'uso di strumenti. Il nostro modello più grande è un Transformer denso con 405 miliardi di parametri e una finestra contestuale fino a 128K token. Questo articolo presenta una valutazione empirica estensiva di Llama 3. Rileviamo che Llama 3 offre una qualità comparabile a quella dei principali modelli linguistici come GPT-4 su una vasta gamma di compiti. Rilasciamo pubblicamente Llama 3, incluse versioni pre-addestrate e post-addestrate del modello linguistico da 405 miliardi di parametri e il nostro modello Llama Guard 3 per la sicurezza degli input e degli output. L'articolo presenta inoltre i risultati di esperimenti in cui integriamo capacità di elaborazione di immagini, video e parlato in Llama 3 attraverso un approccio compositivo. Osserviamo che questo approccio si comporta in modo competitivo rispetto allo stato dell'arte nei compiti di riconoscimento di immagini, video e parlato. I modelli risultanti non sono ancora ampiamente rilasciati poiché sono ancora in fase di sviluppo.
I recenti progressi nei Diffusion Transformer (DiT) hanno dimostrato una notevole capacità nella produzione di contenuti video di alta qualità. Tuttavia, il potenziale dei modelli di diffusione basati su transformer per generare efficacemente video con movimento controllabile rimane un'area poco esplorata. Questo articolo introduce Tora, il primo framework DiT orientato alle traiettorie che integra contemporaneamente condizioni testuali, visive e di traiettoria per la generazione di video. Nello specifico, Tora è composto da un Trajectory Extractor (TE), un DiT Spaziale-Temporale e un Motion-guidance Fuser (MGF). Il TE codifica traiettorie arbitrarie in patch di movimento spazio-temporali gerarchiche utilizzando una rete di compressione video 3D. L'MGF integra le patch di movimento nei blocchi DiT per generare video coerenti che seguono le traiettorie. Il nostro design si integra perfettamente con la scalabilità del DiT, consentendo un controllo preciso della dinamica del contenuto video con diverse durate, rapporti d'aspetto e risoluzioni. Esperimenti estensivi dimostrano l'eccellenza di Tora nel raggiungere un'elevata fedeltà del movimento, simulando meticolosamente il movimento del mondo fisico. La pagina può essere trovata all'indirizzo https://ali-videoai.github.io/tora_video.
Presentiamo MoMa, una innovativa architettura modality-aware mixture-of-experts (MoE) progettata per il pre-training di modelli linguistici a fusione precoce e multimodali. MoMa elabora immagini e testo in sequenze arbitrarie suddividendo i moduli expert in gruppi specifici per modalità. Questi gruppi elaborano esclusivamente i token designati, impiegando un routing appreso all'interno di ciascun gruppo per mantenere un'adattività semanticamente informata. I nostri risultati empirici rivelano sostanziali guadagni di efficienza nel pre-training grazie a questa allocazione di parametri specifica per modalità. Con un budget di training di 1 trilione di token, il modello MoMa 1.4B, dotato di 4 expert per il testo e 4 per le immagini, ottiene impressionanti risparmi di FLOPs: 3.7x complessivi, con 2.6x per il testo e 5.2x per l'elaborazione delle immagini rispetto a una baseline densa equivalente in termini di calcolo, misurata dalla perdita di pre-training. Questo supera lo standard expert-choice MoE con 8 expert multimodali, che raggiunge risparmi complessivi di FLOPs di 3x (3x per il testo, 2.8x per le immagini). Combinare MoMa con mixture-of-depths (MoD) migliora ulteriormente i risparmi di FLOPs nel pre-training a 4.2x complessivi (testo: 3.4x, immagini: 5.3x), sebbene questa combinazione comprometta le prestazioni nell'inferenza causale a causa di una maggiore sensibilità all'accuratezza del router. Questi risultati dimostrano il potenziale di MoMa di far progredire significativamente l'efficienza del pre-training di modelli linguistici multimodali a fusione precoce, aprendo la strada a sistemi AI multimodali più efficienti in termini di risorse e capaci.
In questo articolo presentiamo Cross Language Agent -- Simultaneous Interpretation, CLASI, un sistema di traduzione simultanea del parlato (SiST) di alta qualità e simile a quello umano. Ispirati dai professionisti dell'interpretariato, utilizziamo una nuova strategia data-driven di lettura-scrittura per bilanciare la qualità della traduzione e la latenza. Per affrontare la sfida della traduzione di terminologie specifiche del dominio, CLASI impiega un modulo di recupero multi-modale per ottenere informazioni rilevanti che arricchiscono la traduzione. Supportato dai LLM, il nostro approccio è in grado di generare traduzioni tolleranti agli errori considerando l'audio in ingresso, il contesto storico e le informazioni recuperate. I risultati sperimentali dimostrano che il nostro sistema supera gli altri sistemi con margini significativi. Allineandoci ai professionisti dell'interpretariato, valutiamo CLASI con una metrica di valutazione umana migliore, la proporzione di informazioni valide (VIP), che misura la quantità di informazioni che possono essere trasmesse con successo agli ascoltatori. Negli scenari reali, dove i discorsi sono spesso disfluenti, informali e poco chiari, CLASI raggiunge un VIP dell'81,3% e del 78,0% rispettivamente per le direzioni di traduzione dal cinese all'inglese e dall'inglese al cinese. Al contrario, i sistemi commerciali o open-source all'avanguardia raggiungono solo il 35,4% e il 41,6%. Sul dataset estremamente difficile, dove altri sistemi ottengono un VIP inferiore al 13%, CLASI riesce comunque a raggiungere un VIP del 70%.
Presentiamo ShieldGemma, una suite completa di modelli di moderazione dei contenuti basati su LLM (Large Language Models) sviluppati su Gemma2. Questi modelli offrono previsioni robuste e all'avanguardia sui rischi legati alla sicurezza, coprendo tipologie chiave di danni (contenuti sessualmente espliciti, contenuti pericolosi, molestie, discorsi d'odio) sia negli input degli utenti che negli output generati da LLM. Valutando sia benchmark pubblici che interni, dimostriamo prestazioni superiori rispetto ai modelli esistenti, come Llama Guard (+10,8\% AU-PRC sui benchmark pubblici) e WildCard (+4,3\%). Inoltre, presentiamo una pipeline innovativa di curatela dei dati basata su LLM, adattabile a una varietà di task legati alla sicurezza e non solo. Abbiamo dimostrato una forte capacità di generalizzazione per modelli addestrati principalmente su dati sintetici. Rilasciando ShieldGemma, forniamo una risorsa preziosa per la comunità di ricerca, promuovendo la sicurezza degli LLM e abilitando la creazione di soluzioni di moderazione dei contenuti più efficaci per gli sviluppatori.
Il 1° Workshop sulla Contaminazione dei Dati (CONDA 2024) si concentra su tutti gli aspetti rilevanti della contaminazione dei dati nel campo dell'elaborazione del linguaggio naturale, dove la contaminazione dei dati è intesa come situazioni in cui i dati di valutazione sono inclusi nei corpora di pre-addestramento utilizzati per addestrare modelli su larga scala, compromettendo i risultati della valutazione. Il workshop ha promosso un task condiviso per raccogliere evidenze sulla contaminazione dei dati nei dataset e nei modelli attualmente disponibili. L'obiettivo del task condiviso e del database associato è aiutare la comunità a comprendere l'entità del problema e supportare i ricercatori nell'evitare di riportare risultati di valutazione su risorse note come contaminate. Il task condiviso fornisce un database pubblico strutturato e centralizzato per la raccolta di evidenze di contaminazione, aperto ai contributi della comunità tramite richieste di pool su GitHub. Questo primo articolo di compilazione si basa su 566 segnalazioni relative a 91 fonti contaminate, provenienti da un totale di 23 contributori. I dettagli dei singoli eventi di contaminazione sono disponibili sulla piattaforma. La piattaforma rimane online e aperta ai contributi della comunità.
La segmentazione semantica audio-visiva (AVSS) mira a segmentare e classificare oggetti sonori nei video utilizzando indizi acustici. Tuttavia, la maggior parte degli approcci opera sull'assunzione di un insieme chiuso e identifica solo categorie predefinite dai dati di addestramento, mancando della capacità di generalizzazione per rilevare categorie nuove in applicazioni pratiche. In questo articolo, introduciamo un nuovo compito: la segmentazione semantica audio-visiva a vocabolario aperto, estendendo il compito AVSS a scenari di mondo aperto oltre lo spazio delle etichette annotate. Si tratta di un compito più impegnativo che richiede il riconoscimento di tutte le categorie, anche quelle mai viste né udite durante l'addestramento. Inoltre, proponiamo il primo framework AVSS a vocabolario aperto, OV-AVSS, che consiste principalmente in due parti: 1) un modulo universale di localizzazione della sorgente sonora per eseguire la fusione audio-visiva e individuare tutti i potenziali oggetti sonori e 2) un modulo di classificazione a vocabolario aperto per prevedere le categorie con l'aiuto della conoscenza pregressa da modelli visione-linguaggio pre-addestrati su larga scala. Per valutare correttamente l'AVSS a vocabolario aperto, abbiamo suddiviso sottoinsiemi di addestramento e test zero-shot basati sul benchmark AVSBench-semantic, denominato AVSBench-OV. Esperimenti estensivi dimostrano la forte capacità di segmentazione e generalizzazione zero-shot del nostro modello su tutte le categorie. Sul dataset AVSBench-OV, OV-AVSS raggiunge il 55,43% di mIoU sulle categorie base e il 29,14% di mIoU sulle categorie nuove, superando il metodo zero-shot state-of-the-art del 41,88%/20,61% e il metodo a vocabolario aperto del 10,2%/11,6%. Il codice è disponibile all'indirizzo https://github.com/ruohaoguo/ovavss.
Presentiamo Berkeley Humanoid, una piattaforma di ricerca umanoide di media scala affidabile e a basso costo per il controllo basato sull'apprendimento. Il nostro robot leggero, costruito internamente, è progettato specificamente per algoritmi di apprendimento con bassa complessità di simulazione, movimento antropomorfo e alta affidabilità contro le cadute. Il ridotto divario sim-to-real del robot consente una locomozione agile e robusta su vari terreni in ambienti esterni, ottenuta con un semplice controller di apprendimento per rinforzo utilizzando una leggera randomizzazione del dominio. Inoltre, dimostriamo che il robot percorre centinaia di metri, cammina su un sentiero ripido non pavimentato e salta con una e due gambe, testimoniando le sue elevate prestazioni nella camminata dinamica. Capace di locomozione omnidirezionale e di resistere a grandi perturbazioni con una configurazione compatta, il nostro sistema mira a una distribuzione scalabile sim-to-real di sistemi umanoidi basati sull'apprendimento. Per maggiori dettagli, consultare http://berkeley-humanoid.com.
Le espressioni facciali e i movimenti delle mani sono necessari per esprimere le nostre emozioni e interagire con il mondo. Tuttavia, la maggior parte degli avatar umani 3D modellati da un video catturato casualmente supportano solo i movimenti del corpo, senza espressioni facciali e movimenti delle mani. In questo lavoro, presentiamo ExAvatar, un avatar umano 3D completo ed espressivo, appreso da un breve video monoculare. Progettiamo ExAvatar come una combinazione del modello parametrico di mesh per il corpo intero (SMPL-X) e del 3D Gaussian Splatting (3DGS). Le principali sfide sono 1) una diversità limitata di espressioni facciali e pose nel video e 2) l'assenza di osservazioni 3D, come scansioni 3D e immagini RGBD. La diversità limitata nel video rende non banale l'animazione con nuove espressioni facciali e pose. Inoltre, l'assenza di osservazioni 3D potrebbe causare una significativa ambiguità nelle parti del corpo non osservate nel video, il che può portare a evidenti artefatti sotto nuovi movimenti. Per affrontare queste sfide, introduciamo la nostra rappresentazione ibrida della mesh e delle Gaussiane 3D. La nostra rappresentazione ibrida tratta ogni Gaussiana 3D come un vertice sulla superficie con informazioni di connettività predefinite (ad esempio, facce triangolari) tra di esse, seguendo la topologia della mesh di SMPL-X. Ciò rende il nostro ExAvatar animabile con nuove espressioni facciali guidate dallo spazio delle espressioni facciali di SMPL-X. Inoltre, utilizzando regolarizzatori basati sulla connettività, riduciamo significativamente gli artefatti nelle nuove espressioni facciali e pose.
L'offuscamento dell'autore mira a mascherare l'identità di un autore all'interno di un testo alterando lo stile di scrittura, il vocabolario, la sintassi e altre caratteristiche linguistiche associate all'autore del testo. Questa alterazione deve bilanciare privacy e utilità. Mentre tecniche di offuscamento robuste possono nascondere efficacemente l'identità dell'autore, spesso degradano la qualità e l'utilità del testo per il suo scopo originario. Al contrario, mantenere un'elevata utilità tende a fornire una privacy insufficiente, rendendo più semplice per un avversario de-anonimizzare l'autore. Pertanto, raggiungere un compromesso ottimale tra questi due obiettivi contrastanti è cruciale. In questo articolo, proponiamo TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization, un nuovo metodo di offuscamento dell'autore non supervisionato il cui obiettivo è ottimizzare il compromesso tra privacy e utilità rigenerando l'intero testo considerando la sua utilità a valle. Il nostro approccio sfrutta l'ottimizzazione delle politiche come paradigma di fine-tuning su modelli linguistici di piccole dimensioni per riscrivere i testi preservando l'identità dell'autore e l'utilità del task a valle. Dimostriamo che il nostro approccio riduce significativamente l'accuratezza degli attaccanti preservando l'utilità. Rendiamo pubblicamente disponibili il nostro codice e i nostri modelli.
I modelli visivi di base attuali vengono addestrati esclusivamente su dati 2D non strutturati, limitando la loro comprensione della struttura 3D di oggetti e scene. In questo lavoro, dimostriamo che il fine-tuning su dati consapevoli della tridimensionalità migliora la qualità delle caratteristiche semantiche emergenti. Progettiamo un metodo per elevare le caratteristiche semantiche 2D in una rappresentazione efficiente basata su Gaussiane 3D, che ci consente di ri-renderizzarle per visualizzazioni arbitrarie. Utilizzando le caratteristiche renderizzate con consapevolezza 3D, progettiamo una strategia di fine-tuning per trasferire tale consapevolezza tridimensionale in un modello di base 2D. Dimostriamo che i modelli sottoposti a fine-tuning in questo modo producono caratteristiche che migliorano facilmente le prestazioni in compiti downstream come la segmentazione semantica e la stima della profondità attraverso semplici sonde lineari. È degno di nota che, nonostante il fine-tuning sia stato eseguito su un singolo dataset indoor, il miglioramento è trasferibile a una varietà di dataset indoor e a dataset fuori dominio. Speriamo che il nostro studio incoraggi la comunità a considerare l'iniezione di consapevolezza 3D durante l'addestramento di modelli di base 2D. Pagina del progetto: https://ywyue.github.io/FiT3D.
Incorporare una dimensione temporale nei modelli di diffusione di immagini pre-addestrati per la generazione di video è un approccio prevalente. Tuttavia, questo metodo è computazionalmente impegnativo e richiede dataset video su larga scala. Ancora più critico, l'eterogeneità tra i dataset di immagini e video spesso risulta in un oblio catastrofico delle competenze acquisite sulle immagini. Recenti tentativi di estrarre direttamente frammenti video dai modelli di diffusione di immagini hanno in parte mitigato questi problemi. Tuttavia, questi metodi possono generare solo brevi clip video con movimenti semplici e non riescono a catturare movimenti finemente dettagliati o deformazioni non grigliate. In questo articolo, proponiamo un nuovo algoritmo di campionamento video Zero-Shot, denominato ZS^2, in grado di campionare direttamente clip video di alta qualità da metodi esistenti di sintesi di immagini, come Stable Diffusion, senza alcun addestramento o ottimizzazione. Nello specifico, ZS^2 utilizza il modello di rumore dipendente e l'attenzione al momento temporale per garantire rispettivamente la coerenza del contenuto e dell'animazione. Questa capacità gli consente di eccellere in compiti correlati, come la generazione di video condizionati e specializzati nel contesto e l'editing video guidato da istruzioni. I risultati sperimentali dimostrano che ZS^2 raggiunge prestazioni all'avanguardia nella generazione di video zero-shot, superando occasionalmente i recenti metodi supervisionati. Homepage: https://densechen.github.io/zss/.
I campi neurali eccellono nella visione artificiale e nella robotica grazie alla loro capacità di comprendere il mondo visivo 3D, come dedurre la semantica, la geometria e la dinamica. Date le capacità dei campi neurali nel rappresentare densamente una scena 3D a partire da immagini 2D, ci poniamo la domanda: possiamo scalare il loro pre-addestramento auto-supervisionato, in particolare utilizzando autoencoder mascherati, per generare rappresentazioni 3D efficaci da immagini RGB con pose? Grazie al sorprendente successo nell'estendere i transformer a nuove modalità di dati, impieghiamo i Vision Transformer 3D standard per adattarli alla formulazione unica dei NeRF. Sfruttiamo la griglia volumetrica di NeRF come input denso per il transformer, contrapponendola ad altre rappresentazioni 3D come le nuvole di punti, dove la densità delle informazioni può essere disomogenea e la rappresentazione è irregolare. A causa della difficoltà di applicare autoencoder mascherati a una rappresentazione implicita, come NeRF, optiamo per estrarre una rappresentazione esplicita che canonizza le scene tra diversi domini utilizzando la traiettoria della fotocamera per il campionamento. Il nostro obiettivo è reso possibile mascherando patch casuali dalla griglia di radianza e densità di NeRF e impiegando un 3D Swin Transformer standard per ricostruire le patch mascherate. In questo modo, il modello può apprendere la struttura semantica e spaziale di scene complete. Pre-addestriamo questa rappresentazione su larga scala sui nostri dati proposti di immagini RGB con pose, per un totale di oltre 1,8 milioni di immagini. Una volta pre-addestrato, l'encoder viene utilizzato per un efficace trasferimento di apprendimento 3D. Il nostro nuovo pre-addestramento auto-supervisionato per NeRF, NeRF-MAE, scala in modo notevole e migliora le prestazioni su varie attività 3D impegnative. Utilizzando dati 2D con pose non etichettati per il pre-addestramento, NeRF-MAE supera significativamente il pre-addestramento 3D auto-supervisionato e le baseline di comprensione delle scene NeRF sui dataset Front3D e ScanNet, con un miglioramento assoluto delle prestazioni di oltre il 20% AP50 e l'8% AP25 per la rilevazione di oggetti 3D.