Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'ottimizzazione delle istruzioni è stata ampiamente adottata per garantire che i grandi modelli linguistici (LLM) seguano efficacemente le istruzioni degli utenti. Le capacità di seguire le istruzioni dei LLM dipendono pesantemente dai set di dati di istruzioni utilizzati per l'ottimizzazione. Di recente, sono emersi set di dati di istruzioni sintetiche come soluzione economicamente valida per fornire istruzioni diverse e di alta qualità ai LLM. Tuttavia, gli approcci esistenti generalmente assumono che modelli più grandi o più potenti siano insegnanti più efficaci per l'ottimizzazione delle istruzioni e quindi adottano semplicemente questi modelli come generatori di risposte alle istruzioni sintetiche. In questo articolo, mettiamo in discussione questa assunzione comunemente adottata. I nostri ampi esperimenti su cinque modelli di base e venti generatori di risposte rivelano che modelli più grandi e più potenti non sono necessariamente insegnanti più efficaci per modelli più piccoli. Ci riferiamo a questo fenomeno come Paradosso dei Modelli Più Grandi. Osserviamo che le metriche esistenti non riescono a prevedere con precisione l'efficacia dei generatori di risposte poiché ignorano la compatibilità tra insegnanti e modelli di base in fase di sintonizzazione. Sviluppiamo quindi una nuova metrica, chiamata Ricompensa Corretta per la Compatibilità (CAR), per misurare l'efficacia dei generatori di risposte. I nostri esperimenti su cinque modelli di base dimostrano che CAR supera quasi tutti i confronti.
Presentiamo JanusFlow, un potente framework che unifica la comprensione e la generazione di immagini in un singolo modello. JanusFlow introduce un'architettura minimalista che integra modelli linguistici autoregressivi con flusso rettificato, un metodo all'avanguardia nella modellazione generativa. La nostra scoperta chiave dimostra che il flusso rettificato può essere addestrato in modo diretto all'interno del framework del grande modello linguistico, eliminando la necessità di complesse modifiche architettoniche. Per migliorare ulteriormente le prestazioni del nostro modello unificato, adottiamo due strategie chiave: (i) disaccoppiare gli encoder di comprensione e generazione e (ii) allineare le loro rappresentazioni durante l'addestramento unificato. Estesi esperimenti mostrano che JanusFlow raggiunge prestazioni comparabili o superiori rispetto ai modelli specializzati nei rispettivi domini, superando significativamente gli approcci unificati esistenti su benchmark standard. Questo lavoro rappresenta un passo verso modelli visione-linguaggio più efficienti e versatili.
La segmentazione delle parti in 3D è un compito cruciale e impegnativo nella percezione tridimensionale, svolgendo un ruolo vitale in applicazioni come la robotica, la generazione 3D e l'editing 3D. Metodi recenti sfruttano i potenti Modelli di Visione del Linguaggio (VLMs) per la distillazione della conoscenza da 2D a 3D, raggiungendo la segmentazione delle parti in 3D senza utilizzare dati di addestramento. Tuttavia, questi metodi sono limitati dalla dipendenza da prompt di testo, che limita la scalabilità a set di dati non etichettati su larga scala e la flessibilità nel gestire ambiguità delle parti. In questo lavoro, presentiamo SAMPart3D, un framework scalabile per la segmentazione delle parti in 3D senza utilizzo di dati di addestramento che suddivide qualsiasi oggetto 3D in parti semantiche a molteplici livelli di granularità, senza richiedere insiemi di etichette di parti predefinite come prompt di testo. Per la scalabilità, utilizziamo modelli di base di visione agnostici rispetto al testo per distillare un'infrastruttura di estrazione delle caratteristiche in 3D, consentendo di scalare a grandi set di dati 3D non etichettati per apprendere ricche conoscenze 3D. Per la flessibilità, distilliamo caratteristiche 3D consapevoli della scala e delle parti per la segmentazione delle parti in 3D a molteplici livelli di granularità. Una volta ottenute le parti segmentate dalle caratteristiche 3D consapevoli della scala e delle parti, utilizziamo i VLM per assegnare etichette semantiche a ciascuna parte basandoci sulle rappresentazioni multi-view. Rispetto ai metodi precedenti, il nostro SAMPart3D può scalare al recente set di dati sugli oggetti 3D su larga scala Objaverse e gestire oggetti complessi e non ordinari. Inoltre, contribuiamo con un nuovo benchmark per la segmentazione delle parti in 3D per affrontare la mancanza di diversità e complessità degli oggetti e delle parti nei benchmark esistenti. Gli esperimenti mostrano che il nostro SAMPart3D supera significativamente i metodi esistenti di segmentazione delle parti in 3D senza utilizzo di dati di addestramento e può facilitare varie applicazioni come l'editing a livello di parti e la segmentazione interattiva.
Introduciamo BLIP3-KALE, un dataset di 218 milioni di coppie immagine-testo che colma il divario tra didascalie sintetiche descrittive e testi alternativi su larga scala basati su fatti web. KALE amplia le didascalie dense sintetiche delle immagini con testi alternativi su larga scala per generare didascalie di immagini basate su fatti. Il nostro approccio a due fasi sfrutta modelli di visione-linguaggio di grandi dimensioni e modelli linguistici per creare didascalie arricchite di conoscenza, che vengono poi utilizzate per addestrare un VLM specializzato per scalare il dataset. Addestriamo modelli di visione-linguaggio su KALE e dimostriamo miglioramenti nelle attività visione-linguaggio. I nostri esperimenti mostrano l'utilità di KALE per addestrare modelli multimodali più capaci e informati. Rilasciamo il dataset KALE su https://huggingface.co/datasets/Salesforce/blip3-kale
In questo articolo, sosteniamo che il calcolo iterativo con modelli di diffusione offra un paradigma potente non solo per la generazione ma anche per compiti di percezione visiva. Unifichiamo compiti come stima della profondità, flusso ottico e segmentazione sotto la traduzione immagine-immagine, e mostriamo come i modelli di diffusione beneficino dal ridimensionamento dell'addestramento e del calcolo al momento del test per questi compiti di percezione. Attraverso un'analisi attenta di questi comportamenti di ridimensionamento, presentiamo varie tecniche per addestrare in modo efficiente i modelli di diffusione per compiti di percezione visiva. I nostri modelli raggiungono prestazioni migliorate o comparabili ai metodi all'avanguardia utilizzando significativamente meno dati e calcoli. Per utilizzare il nostro codice e i modelli, consultare https://scaling-diffusion-perception.github.io.
I modelli generativi 3D su larga scala richiedono consistenti risorse computazionali, ma spesso non riescono a catturare dettagli fini e geometrie complesse ad alte risoluzioni. Attribuiamo questa limitazione all'inefficienza delle attuali rappresentazioni, che mancano della compattezza necessaria per modellare in modo efficace i modelli generativi. Per affrontare questo problema, introduciamo un nuovo approccio chiamato Diffusione Latente a Wavelet, o WaLa, che codifica le forme 3D in codifiche latenti basate su wavelet, compatte. In particolare, comprimiamo un campo di distanza firmato 256^3 in una griglia latente 12^3 volte 4, raggiungendo un impressionante rapporto di compressione di 2427x con una perdita minima di dettagli. Questo alto livello di compressione consente al nostro metodo di addestrare efficientemente reti generative su larga scala senza aumentare il tempo di inferenza. I nostri modelli, sia condizionali che incondizionati, contengono approssimativamente un miliardo di parametri e generano con successo forme 3D di alta qualità a una risoluzione di 256^3. Inoltre, WaLa offre un'inferezza rapida, producendo forme entro due o quattro secondi a seconda della condizione, nonostante la scala del modello. Dimostriamo prestazioni all'avanguardia su diversi set di dati, con miglioramenti significativi nella qualità della generazione, diversità ed efficienza computazionale. Rilasciamo il nostro codice open-source e, per quanto ne sappiamo, pubblichiamo i più grandi modelli generativi 3D preaddestrati attraverso diverse modalità.
La sintesi audio realistica che cattura fenomeni acustici accurati è essenziale per creare esperienze coinvolgenti nella realtà virtuale e aumentata. La sintesi del suono ricevuto in qualsiasi posizione si basa sull'analisi della risposta impulsiva (IR), che caratterizza come il suono si propaga in una scena lungo percorsi diversi prima di arrivare alla posizione dell'ascoltatore. In questo articolo, presentiamo il Rendering Acustico Volumetrico (AVR), un nuovo approccio che adatta le tecniche di rendering volumetrico per modellare le risposte impulsive acustiche. Mentre il rendering volumetrico è stato efficace nel modellare campi di radianza per immagini e rappresentazioni neurali di scene, le IR presentano sfide uniche come segnali a serie temporale. Per affrontare tali sfide, introduciamo il rendering volumetrico nel dominio delle frequenze e utilizziamo l'integrazione sferica per adattare le misurazioni dell'IR. Il nostro metodo costruisce un campo di risposta impulsiva che codifica intrinsecamente i principi di propagazione delle onde e raggiunge prestazioni all'avanguardia nella sintesi delle risposte impulsive per pose nuove. Gli esperimenti mostrano che AVR supera di gran lunga i metodi leader attuali. Inoltre, sviluppiamo una piattaforma di simulazione acustica, AcoustiX, che fornisce simulazioni dell'IR più accurate e realistiche rispetto ai simulatori esistenti. Il codice per AVR e AcoustiX è disponibile su https://zitonglan.github.io/avr.
È ormai pratica comune nel mondo degli affari acquistare l'accesso a grandi modelli linguistici (LLM) per l'inferenza piuttosto che auto-ospitarli, a causa dei significativi costi iniziali di infrastruttura hardware ed energetica. Tuttavia, come acquirente, non esiste un meccanismo per verificare l'autenticità del servizio pubblicizzato, compresa la piattaforma hardware di servizio, ad esempio che effettivamente venga utilizzata una NVIDIA H100. Inoltre, ci sono segnalazioni che suggeriscono che i fornitori di modelli possano consegnare modelli leggermente diversi da quelli pubblicizzati, spesso per farli funzionare su hardware meno costoso. In questo modo, un cliente paga un premio per accedere a un modello capace su hardware più costoso, ma finisce per essere servito da un modello (potenzialmente meno capace) più economico su hardware più economico. In questo articolo presentiamo l'\textbf{inferenza della piattaforma hardware e software (HSPI)} - un metodo per identificare l'architettura sottostante e lo stack software di un modello di apprendimento automatico (scatola nera) basandosi esclusivamente sul suo comportamento input-output. Il nostro metodo sfrutta le differenze intrinseche di varie architetture e compilatori per distinguere tra diversi tipi e stack software. Analizzando i pattern numerici nelle uscite del modello, proponiamo un framework di classificazione in grado di identificare con precisione l'hardware utilizzato per l'inferenza del modello e la configurazione software sottostante. I nostri risultati dimostrano la fattibilità di inferire il tipo di hardware da modelli scatola nera. Valutiamo l'HSPI rispetto ai modelli serviti su diversi hardware reali e scopriamo che in un contesto white-box possiamo distinguere tra diversi tipi con una precisione compresa tra l'83,9% e il 100%. Anche in un contesto black-box siamo in grado di ottenere risultati fino a tre volte superiori rispetto alla precisione di un'ipotesi casuale.