Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo rapporto tecnico, presentiamo ChemVLM, il primo modello linguistico multimodale open-source dedicato al campo della chimica, progettato per affrontare l'incompatibilità tra la comprensione delle immagini chimiche e l'analisi del testo. Basato sull'architettura VIT-MLP-LLM, utilizziamo ChemLLM-20B come modello di base, dotando il nostro modello di solide capacità nella comprensione e nell'utilizzo delle conoscenze testuali chimiche. Inoltre, impieghiamo InternVIT-6B come potente codificatore di immagini. Abbiamo selezionato dati di alta qualità dal dominio chimico, inclusi molecole, formule di reazione e dati di esami di chimica, e li abbiamo organizzati in un dataset bilingue multimodale di domande e risposte. Testiamo le prestazioni del nostro modello su più benchmark open-source e tre set di valutazione personalizzati. I risultati sperimentali dimostrano che il nostro modello raggiunge prestazioni eccellenti, ottenendo risultati all'avanguardia in cinque su sei dei compiti coinvolti. Il nostro modello è disponibile all'indirizzo https://huggingface.co/AI4Chem/ChemVLM-26B.
I modelli text-to-image sono strumenti potenti per la creazione di immagini. Tuttavia, il processo di generazione è simile a un lancio di dadi e rende difficile ottenere una singola immagine che catturi tutto ciò che un utente desidera. In questo articolo, proponiamo un framework per creare l'immagine desiderata componendola da varie parti di immagini generate, formando essenzialmente un Fotomontaggio Generativo. Dato un insieme di immagini generate da ControlNet utilizzando la stessa condizione di input e semi diversi, permettiamo agli utenti di selezionare le parti desiderate dai risultati generati utilizzando un'interfaccia a tratto di pennello. Introduciamo una tecnica innovativa che prende i tratti di pennello dell'utente, segmenta le immagini generate utilizzando un'ottimizzazione basata su grafo nello spazio delle feature di diffusione, e poi compone le regioni segmentate tramite un nuovo metodo di fusione nello spazio delle feature. Il nostro metodo preserva fedelmente le regioni selezionate dall'utente componendole in modo armonioso. Dimostriamo che il nostro framework flessibile può essere utilizzato per molte applicazioni, tra cui la generazione di nuove combinazioni di aspetto, la correzione di forme e artefatti errati, e il miglioramento dell'allineamento al prompt. Mostriamo risultati convincenti per ciascuna applicazione e dimostriamo che il nostro metodo supera i metodi esistenti di fusione di immagini e varie baseline.
Questo articolo introduce la serie Aquila2, che comprende una vasta gamma di modelli bilingui con dimensioni di parametri di 7, 34 e 70 miliardi. Questi modelli sono addestrati basandosi su un framework innovativo denominato HeuriMentor (HM), che offre approfondimenti in tempo reale sulla convergenza del modello e migliora il processo di addestramento e la gestione dei dati. Il Sistema HM, composto dal Motore di Addestramento Adattivo (Adaptive Training Engine, ATE), dal Monitor dello Stato di Addestramento (Training State Monitor, TSM) e dall'Unità di Gestione dei Dati (Data Management Unit, DMU), consente un monitoraggio preciso dei progressi di addestramento del modello e permette un'ottimizzazione efficiente della distribuzione dei dati, migliorando così l'efficacia dell'addestramento. Valutazioni estensive dimostrano che la serie di modelli Aquila2 performa in modo comparabile su benchmark sia in inglese che in cinese. In particolare, Aquila2-34B mostra solo una leggera diminuzione delle prestazioni quando quantizzato a Int4. Inoltre, abbiamo reso pubblicamente disponibile il nostro codice di addestramento (https://github.com/FlagOpen/FlagScale) e i pesi del modello (https://github.com/FlagAI-Open/Aquila2) per supportare la ricerca in corso e lo sviluppo di applicazioni.
Descriviamo un dataset su larga scala—{\em DeepSpeak}—composto da video reali e deepfake di persone che parlano e gesticolano davanti alle proprie webcam. I video reali in questa prima versione del dataset consistono in 9 ore di filmati provenienti da 220 individui diversi. I video falsi, che costituiscono più di 25 ore di filmati, includono una gamma di diverse tecnologie all'avanguardia per il face-swap e il lip-sync deepfake, con voci naturali e generate dall'IA. Prevediamo di rilasciare versioni future di questo dataset con tecnologie deepfake diverse e aggiornate. Questo dataset è reso disponibile gratuitamente per scopi di ricerca e usi non commerciali; le richieste per usi commerciali saranno valutate.
I recenti progressi nei metodi Chain-of-Thoughts (CoT) e Program-of-Thoughts (PoT) hanno notevolmente migliorato le capacità di ragionamento matematico dei modelli linguistici, facilitandone l'integrazione nei dataset di tuning delle istruzioni con LLM. Tuttavia, i metodi esistenti per la creazione di dataset su larga scala richiedono una quantità significativa di dati iniziali e costi computazionali elevati per la sintesi dei dati, rappresentando una sfida importante per la scalabilità. Introduciamo InfinityMATH, un dataset scalabile per il tuning delle istruzioni nel ragionamento matematico programmatico. La pipeline di costruzione enfatizza il disaccoppiamento dei numeri dai problemi matematici per sintetizzare programmi indipendenti dai numeri, consentendo una scalabilità efficiente e flessibile riducendo al minimo la dipendenza da valori numerici specifici. Esperimenti di fine-tuning con modelli linguistici e di codice open-source, come Llama2 e CodeLlama, dimostrano i vantaggi pratici di InfinityMATH. Questi modelli fine-tuned hanno mostrato miglioramenti relativi significativi sia su benchmark in-dominio che out-of-dominio, con un range medio dal 184,7% al 514,3%. Inoltre, questi modelli hanno mostrato un'elevata robustezza sui benchmark GSM8K+ e MATH+, versioni potenziate dei set di test con semplici variazioni numeriche. InfinityMATH garantisce che i modelli siano più versatili ed efficaci su un'ampia gamma di problemi matematici. I dati sono disponibili all'indirizzo https://huggingface.co/datasets/flagopen/InfinityMATH.
La modellazione e la manipolazione di scene 3D acquisite dal mondo reale sono fondamentali in varie applicazioni, attirando un crescente interesse di ricerca. Sebbene i precedenti lavori sull'editing abbiano ottenuto risultati interessanti attraverso la manipolazione di mesh 3D, spesso richiedono mesh ricostruite con precisione per eseguire l'editing, il che limita la loro applicazione nella generazione di contenuti 3D. Per colmare questa lacuna, introduciamo un nuovo approccio di editing di scene 3D basato su una singola immagine, fondato sul 3D Gaussian Splatting, che consente una manipolazione intuitiva attraverso la modifica diretta del contenuto su un piano immagine 2D. Il nostro metodo apprende a ottimizzare i Gaussian 3D per allinearsi a una versione modificata dell'immagine renderizzata da un punto di vista specificato dall'utente della scena originale. Per catturare la deformazione a lungo raggio degli oggetti, introduciamo una perdita posizionale nel processo di ottimizzazione del 3D Gaussian Splatting e abilitiamo la propagazione del gradiente attraverso la riparametrizzazione. Per gestire i Gaussian 3D occlusi durante il rendering dal punto di vista specificato, costruiamo una struttura basata su ancore e impieghiamo una strategia di ottimizzazione da grossolana a fine, in grado di gestire la deformazione a lungo raggio mantenendo la stabilità strutturale. Inoltre, progettiamo una nuova strategia di mascheramento per identificare in modo adattivo le regioni di deformazione non rigida per una modellazione su scala fine. Esperimenti estensivi dimostrano l'efficacia del nostro metodo nel gestire dettagli geometrici, deformazioni a lungo raggio e non rigide, mostrando una flessibilità e una qualità di editing superiori rispetto agli approcci precedenti.
Recentemente, sono stati studiati compiti di generazione universale di forme d'onda in vari scenari fuori distribuzione. Sebbene i metodi basati su GAN abbiano dimostrato la loro efficacia nella generazione rapida di forme d'onda, sono vulnerabili a scenari di disallineamento tra addestramento e inferenza, come nel caso della sintesi vocale a due stadi. Nel frattempo, i modelli basati su diffusione hanno mostrato una potente capacità generativa in altri domini; tuttavia, rimangono fuori dai riflettori a causa della lentezza nell'inferenza nei compiti di generazione di forme d'onda. Soprattutto, non esiste un'architettura generativa in grado di separare esplicitamente le caratteristiche periodiche naturali dei segnali di forma d'onda ad alta risoluzione. In questo articolo, proponiamo PeriodWave, un nuovo modello universale di generazione di forme d'onda. In primo luogo, introduciamo un estimatore di flusso periodico che può catturare le caratteristiche periodiche del segnale di forma d'onda durante la stima dei campi vettoriali. Inoltre, utilizziamo un estimatore multi-periodo che evita sovrapposizioni per catturare diverse caratteristiche periodiche dei segnali di forma d'onda. Sebbene l'aumento del numero di periodi possa migliorare significativamente le prestazioni, ciò richiede maggiori costi computazionali. Per ridurre questo problema, proponiamo anche un estimatore universale condizionato a un singolo periodo che può eseguire inferenze parallele in avanti per batch periodici. Inoltre, utilizziamo la trasformata wavelet discreta per separare senza perdite le informazioni di frequenza dei segnali di forma d'onda per la modellazione ad alta frequenza e introduciamo FreeU per ridurre il rumore ad alta frequenza nella generazione di forme d'onda. I risultati sperimentali hanno dimostrato che il nostro modello supera i modelli precedenti sia nella ricostruzione di Mel-spettrogrammi che nei compiti di sintesi vocale. Tutto il codice sorgente sarà disponibile all'indirizzo https://github.com/sh-lee-prml/PeriodWave.
Comprendere la semantica 3D di una scena è un problema fondamentale per vari scenari, come gli agenti incarnati. Mentre i NeRF e il 3DGS eccellono nella sintesi di nuove viste, i metodi precedenti per comprenderne la semantica sono stati limitati a una comprensione 3D incompleta: i loro risultati di segmentazione sono maschere 2D e la loro supervisione è ancorata ai pixel 2D. Questo articolo riprende il problema con l'obiettivo di perseguire una migliore comprensione 3D di una scena modellata da NeRF e 3DGS come segue. 1) Supervisioniamo direttamente i punti 3D per addestrare il campo di incorporamento linguistico. Ciò raggiunge un'accuratezza all'avanguardia senza fare affidamento su incorporamenti linguistici multi-scala. 2) Trasferiamo il campo linguistico pre-addestrato al 3DGS, ottenendo la prima velocità di rendering in tempo reale senza sacrificare il tempo di addestramento o l'accuratezza. 3) Introduciamo un protocollo di interrogazione e valutazione 3D per valutare insieme la geometria e la semantica ricostruite. Codice, checkpoint e annotazioni saranno disponibili online. Pagina del progetto: https://hyunji12.github.io/Open3DRF