Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo la "Legge della Rappresentazione Visiva" nei modelli linguistici multimodali di grandi dimensioni (MLLM). Essa rivela una forte correlazione tra la combinazione di allineamento cross-modale, corrispondenza nella rappresentazione visiva e prestazioni degli MLLM. Quantifichiamo i due fattori utilizzando il punteggio di Allineamento e Corrispondenza (AC score). Attraverso esperimenti estesi che coinvolgono tredici diverse configurazioni di rappresentazione visiva e valutazioni su otto benchmark, scopriamo che il punteggio AC è linearmente correlato alle prestazioni del modello. Sfruttando questa relazione, siamo in grado di identificare e addestrare esclusivamente la rappresentazione visiva ottimale, che non richiede di perfezionare il modello linguistico ogni volta, con una riduzione del 99,7% del costo computazionale.
A partire da VisualGLM e CogVLM, abbiamo continuato a esplorare i modelli linguistico-visivi (VLM) perseguendo una migliore fusione visione-linguaggio, architetture efficienti per risoluzioni più elevate e modalità e applicazioni più ampie. Qui proponiamo la famiglia CogVLM2, una nuova generazione di modelli linguistico-visivi per la comprensione di immagini e video, che include CogVLM2, CogVLM2-Video e GLM-4V. Come modello per la comprensione delle immagini, CogVLM2 eredita l'architettura Visual Expert con ricette di addestramento migliorate sia nella fase di pre-training che di post-training, supportando una risoluzione di input fino a 1344x1344 pixel. Come modello per la comprensione video, CogVLM2-Video integra l'input multi-frame con timestamp e propone una costruzione automatizzata di dati per il temporal grounding. Degno di nota, la famiglia CogVLM2 ha ottenuto risultati all'avanguardia su benchmark come MMBench, MM-Vet, TextVQA, MVBench e VCGBench. Tutti i modelli sono open-source su https://github.com/THUDM/CogVLM2 e https://github.com/THUDM/GLM-4, contribuendo così al progresso del settore.
I modelli linguistici sono stati applicati con successo alla modellazione di segnali naturali, come immagini, video, parlato e audio. Un componente cruciale di questi modelli è il tokenizzatore codec, che comprime segnali naturali ad alta dimensionalità in token discreti a dimensionalità inferiore. In questo articolo, presentiamo WavTokenizer, che offre diversi vantaggi rispetto ai precedenti modelli codec acustici allo stato dell'arte nel dominio audio: 1) compressione estrema. Comprimendo i livelli di quantizzatori e la dimensione temporale del codec discreto, un secondo di audio a frequenza di campionamento di 24kHz richiede solo un singolo quantizzatore con 40 o 75 token. 2) qualità soggettiva migliorata. Nonostante il numero ridotto di token, WavTokenizer raggiunge una qualità di ricostruzione allo stato dell'arte con punteggi UTMOS eccezionali e contiene intrinsecamente informazioni semantiche più ricche. In particolare, otteniamo questi risultati progettando uno spazio VQ più ampio, finestre contestuali estese e reti di attention migliorate, oltre a introdurre un potente discriminatore multi-scala e una struttura a trasformata inversa di Fourier. Abbiamo condotto ampi esperimenti di ricostruzione nei domini del parlato, dell'audio e della musica. WavTokenizer ha mostrato prestazioni solide in varie metriche oggettive e soggettive rispetto ai modelli allo stato dell'arte. Abbiamo anche testato le informazioni semantiche, l'utilizzo VQ e l'adattabilità ai modelli generativi. Studi di ablazione completi confermano la necessità di ogni modulo in WavTokenizer. Il codice correlato, le demo e i modelli pre-addestrati sono disponibili su https://github.com/jishengpeng/WavTokenizer.
I progressi nella ricostruzione di scene 3D hanno trasformato immagini 2D del mondo reale in modelli 3D, producendo risultati tridimensionali realistici a partire da centinaia di foto di input. Nonostante il grande successo negli scenari di ricostruzione a visualizzazione densa, il rendering di una scena dettagliata a partire da un numero insufficiente di visualizzazioni catturate rimane un problema di ottimizzazione mal posto, che spesso si traduce in artefatti e distorsioni nelle aree non visibili. In questo articolo, proponiamo ReconX, un nuovo paradigma di ricostruzione di scene 3D che riformula l'ambigua sfida ricostruttiva come un compito di generazione temporale. L'intuizione chiave è sfruttare il forte *prior* generativo di modelli di diffusione video pre-addestrati su larga scala per la ricostruzione da visualizzazioni sparse. Tuttavia, la coerenza 3D tra le visualizzazioni fatica a essere preservata accuratamente nei fotogrammi video generati direttamente da modelli pre-addestrati. Per affrontare questo problema, dato un numero limitato di visualizzazioni di input, il ReconX proposto costruisce prima una nuvola di punti globale e la codifica in uno spazio contestuale come condizione della struttura 3D. Guidato da questa condizione, il modello di diffusione video sintetizza quindi fotogrammi video che sono sia dettagliati sia caratterizzati da un alto grado di coerenza 3D, garantendo la coerenza della scena da varie prospettive. Infine, recuperiamo la scena 3D dal video generato attraverso uno schema di ottimizzazione *confidence-aware* basato sul *3D Gaussian Splatting*. Esperimenti estesi su vari dataset del mondo reale mostrano la superiorità del nostro ReconX rispetto ai metodi allo stato dell'arte in termini di qualità e generalizzabilità.
Introduciamo SAM2Point, un'esplorazione preliminare che adatta il Segment Anything Model 2 (SAM 2) per la segmentazione 3D zero-shot e promptable. SAM2Point interpreta qualsiasi dato 3D come una serie di video multidirezionali e sfrutta SAM 2 per la segmentazione nello spazio 3D, senza ulteriore addestramento o proiezione 2D-3D. Il nostro framework supporta vari tipi di prompt, inclusi punti 3D, box e maschere, e può generalizzare attraverso scenari diversificati, come oggetti 3D, scene indoor, ambienti outdoor e LiDAR sparso grezzo. Dimostrazioni su molteplici dataset 3D, ad esempio Objaverse, S3DIS, ScanNet, Semantic3D e KITTI, evidenziano le robuste capacità di generalizzazione di SAM2Point. A nostra conoscenza, presentiamo l'implementazione più fedele di SAM in 3D, che potrebbe servire come punto di partenza per future ricerche sulla segmentazione 3D promptable. Demo online: https://huggingface.co/spaces/ZiyuG/SAM2Point . Codice: https://github.com/ZiyuGuo99/SAM2Point .
I modelli linguistici hanno dimostrato prestazioni notevoli nella risoluzione di compiti di ragionamento; tuttavia, anche i modelli più potenti commettono ancora occasionalmente errori di ragionamento. Recentemente, si è assistito a una vivace attività di ricerca finalizzata a migliorare l'accuratezza del ragionamento, in particolare utilizzando modelli linguistici preaddestrati per "auto-correggere" i propri errori tramite prompt multipli. In questo articolo, seguiamo questa linea di ricerca ma ci concentriamo sulla comprensione dell'utilità di incorporare direttamente nella fase di preaddestramento dati di "correzione degli errori". Questi dati consistono in passaggi di soluzione errati immediatamente seguiti dalle relative correzioni. Utilizzando un dataset matematico sintetico, mostriamo risultati promettenti: questo tipo di dati di preaddestramento può aiutare i modelli linguistici a raggiungere una maggiore accuratezza di ragionamento in modo diretto (ovvero, attraverso una semplice auto-regressione, senza prompt multipli) rispetto all'addestramento sulla stessa quantità di dati privi di errori. Approfondiamo inoltre molti dettagli, come (1) in che modo questo approccio differisce dalla beam search, (2) come tali dati possano essere preparati, (3) se sia necessario mascherare i token errati, (4) la quantità di errori richiesta, (5) se questi dati possano essere rimandati alla fase di fine-tuning, e molti altri.
Il modello di diffusione ha dimostrato capacità eccezionali nella generazione controllata di immagini, alimentando ulteriormente l'interesse per il trasferimento di stile nell'immagine. I lavori esistenti si concentrano principalmente su metodi senza addestramento (ad esempio, inversione d'immagine) a causa della scarsità di dati specifici. In questo studio, presentiamo una pipeline di costruzione dati per tripletti di immagini contenuto-stile-stilizzate che genera e pulisce automaticamente tripletti di dati stilizzati. Sulla base di questa pipeline, costruiamo il dataset IMAGStyle, il primo dataset su larga scala per il trasferimento di stile contenente 210k tripletti di immagini, disponibile per la comunità per l'esplorazione e la ricerca. Dotato di IMAGStyle, proponiamo CSGO, un modello di trasferimento di stile basato sull'addestramento end-to-end, che dissocia esplicitamente le caratteristiche di contenuto e stile impiegando l'iniezione di feature indipendenti. L'unificato CSGO implementa il trasferimento di stile guidato da immagine, la sintesi stilizzata guidata da testo e la sintesi stilizzata guidata da modifica testuale. Esperimenti estensivi dimostrano l'efficacia del nostro approccio nel migliorare le capacità di controllo dello stile nella generazione di immagini. Ulteriori visualizzazioni e l'accesso al codice sorgente sono disponibili sulla pagina del progetto: https://csgo-gen.github.io/.
Presentiamo Spann3R, un nuovo approccio per la ricostruzione 3D densa a partire da collezioni di immagini ordinate o non ordinate. Basato sul paradigma DUSt3R, Spann3R utilizza un'architettura di tipo transformer per regredire direttamente le mappe di punti dalle immagini, senza alcuna conoscenza a priori della scena o dei parametri della telecamera. A differenza di DUSt3R, che predice mappe di punti per ogni coppia di immagini, ciascuna espressa nel proprio sistema di coordinate locale, Spann3R è in grado di prevedere mappe di punti per singola immagine espresse in un sistema di coordinate globale, eliminando così la necessità di un allineamento globale basato su ottimizzazione. L'idea chiave di Spann3R è gestire una memoria spaziale esterna che impara a tenere traccia di tutte le precedenti informazioni 3D rilevanti. Spann3R interroga quindi questa memoria spaziale per prevedere la struttura 3D del frame successivo in un sistema di coordinate globale. Sfruttando i pesi pre-addestrati di DUSt3R e un ulteriore affinamento su un sottoinsieme di dataset, Spann3R dimostra prestazioni competitive e una buona capacità di generalizzazione su vari dataset non visti e può elaborare collezioni di immagini ordinate in tempo reale. Pagina del progetto: https://hengyiwang.github.io/projects/spanner
L'offuscamento dell'autorialità, ovvero la riscrittura di un testo per oscurare intenzionalmente l'identità dell'autore, è un compito importante ma impegnativo. I metodi attuali che utilizzano grandi modelli linguistici (LLM) mancano di interpretabilità e controllabilità, ignorando spesso le caratteristiche stilistiche specifiche dell'autore, il che si traduce in prestazioni complessivamente meno robuste. Per affrontare questo problema, sviluppiamo StyleRemix, un metodo di offuscamento adattivo e interpretabile che perturba elementi stilistici specifici e granulari del testo di input originale. StyleRemix utilizza moduli LoRA pre-addestrati per riscrivere un input specificamente lungo vari assi stilistici (ad esempio, formalità e lunghezza) mantenendo al contempo un basso costo computazionale. StyleRemix supera i baseline allo stato dell'arte e LLM molto più grandi in una varietà di domini, come valutato sia da valutazioni automatiche che umane. Inoltre, rilasciamo AuthorMix, un ampio set di 30.000 testi di alta qualità e di forma lunga provenienti da un gruppo diversificato di 14 autori e 4 domini, e DiSC, un corpus parallelo di 1.500 testi che abbraccia sette assi stilistici in 16 direzioni uniche.
I nuovi metodi di machine learning per la generazione di dati tabellari sono spesso sviluppati su dataset di piccole dimensioni che non corrispondono alla scala richiesta per applicazioni scientifiche. Investigiamo una proposta recente di utilizzare XGBoost come approssimatore di funzione in modelli di diffusione e di flow-matching su dati tabellari, che si è rivelata estremamente dispendiosa in termini di memoria, anche su dataset minuscoli. In questo lavoro, conduciamo un'analisi critica dell'implementazione esistente da una prospettiva ingegneristica e dimostriamo che queste limitazioni non sono fondamentali per il metodo; con un'implementazione migliore, è possibile scalare a dataset 370 volte più grandi di quelli utilizzati in precedenza. La nostra implementazione efficiente permette inoltre di scalare i modelli a dimensioni molto maggiori, il che dimostriamo portare direttamente a prestazioni migliorate su task di benchmark. Proponiamo anche miglioramenti algoritmici che possono ulteriormente avvantaggiare l'uso delle risorse e le prestazioni del modello, inclusi alberi multi-output che sono particolarmente adatti per la modellazione generativa. Infine, presentiamo risultati su dataset scientifici su larga scala derivati dalla fisica delle particelle sperimentale, come parte della Fast Calorimeter Simulation Challenge. Il codice è disponibile all'indirizzo https://github.com/layer6ai-labs/calo-forest.
Numerosi processi biologici e fisici possono essere modellati come sistemi di entità interagenti che evolvono continuamente nel tempo, ad esempio le dinamiche di cellule che comunicano o particelle fisiche. Apprendere le dinamiche di tali sistemi è essenziale per prevedere l'evoluzione temporale di popolazioni in nuovi campioni e ambienti non osservati. I modelli basati sul flusso (flow-based) consentono di apprendere queste dinamiche a livello di popolazione: essi modellano l'evoluzione dell'intera distribuzione dei campioni. Tuttavia, gli attuali modelli basati sul flusso sono limitati a una singola popolazione iniziale e a un insieme di condizioni predefinite che descrivono dinamiche diverse. Sosteniamo che molteplici processi nelle scienze naturali debbano essere rappresentati come campi vettoriali sulla varietà di Wasserstein delle densità di probabilità. Cioè, la variazione della popolazione in ogni momento dipende dalla popolazione stessa a causa delle interazioni tra i campioni. Ciò è cruciale in particolare per la medicina personalizzata, dove lo sviluppo delle malattie e la risposta rispettiva al trattamento dipendono dal microambiente cellulare specifico di ogni paziente. Proponiamo il Meta Flow Matching (MFM), un approccio pratico per integrare lungo questi campi vettoriali sulla varietà di Wasserstein ammortizzando il modello di flusso sulle popolazioni iniziali. Nello specifico, incorporiamo la popolazione di campioni utilizzando una Graph Neural Network (GNN) e utilizziamo questi incorporamenti per addestrare un modello Flow Matching. Ciò conferisce a MFM la capacità di generalizzare sulle distribuzioni iniziali, a differenza dei metodi proposti in precedenza. Dimostriamo la capacità di MFM di migliorare la previsione delle risposte individuali ai trattamenti su un ampio dataset di screening farmacologico su singola cellula multi-paziente.