Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo i progressi più recenti di Qwen-Audio, un modello audio-linguistico su larga scala chiamato Qwen2-Audio, in grado di accettare vari input di segnali audio e di eseguire analisi audio o risposte testuali dirette in relazione a istruzioni vocali. A differenza di complessi tag gerarchici, abbiamo semplificato il processo di pre-addestramento utilizzando prompt in linguaggio naturale per dati e task diversi, e abbiamo ulteriormente ampliato il volume dei dati. Abbiamo potenziato la capacità di Qwen2-Audio di seguire le istruzioni e implementato due modalità distinte di interazione audio per il chat vocale e l'analisi audio. Nella modalità chat vocale, gli utenti possono interagire liberamente con Qwen2-Audio tramite voce senza bisogno di input testuali. Nella modalità analisi audio, gli utenti possono fornire audio e istruzioni testuali per l'analisi durante l'interazione. Si noti che non utilizziamo alcun prompt di sistema per passare tra le modalità chat vocale e analisi audio. Qwen2-Audio è in grado di comprendere in modo intelligente il contenuto all'interno dell'audio e di seguire comandi vocali per rispondere in modo appropriato. Ad esempio, in un segmento audio che contiene simultaneamente suoni, conversazioni tra più parlanti e un comando vocale, Qwen2-Audio può comprendere direttamente il comando e fornire un'interpretazione e una risposta all'audio. Inoltre, DPO ha ottimizzato le prestazioni del modello in termini di accuratezza dei fatti e aderenza al comportamento desiderato. Secondo i risultati di valutazione di AIR-Bench, Qwen2-Audio ha superato i precedenti SOTA, come Gemini-1.5-pro, nei test focalizzati sulle capacità di seguire istruzioni centrate sull'audio. Qwen2-Audio è open-source con l'obiettivo di favorire l'avanzamento della comunità linguistica multi-modale.
Nella valutazione delle capacità di contesto lungo dei modelli linguistici di grandi dimensioni (LLM), l'identificazione di contenuti rilevanti per la query dell'utente da documenti originali di lunga estensione è un prerequisito cruciale affinché un LLM possa rispondere a domande basate su testi lunghi. Presentiamo NeedleBench, un framework composto da una serie di task progressivamente più impegnativi per valutare le capacità bilingue di contesto lungo, che coprono intervalli di lunghezza multipli (4k, 8k, 32k, 128k, 200k, 1000k e oltre) e diversi intervalli di profondità, consentendo l'inserimento strategico di punti dati critici in diverse zone di profondità del testo per testare rigorosamente le capacità di recupero e ragionamento dei modelli in contesti diversificati. Utilizziamo il framework NeedleBench per valutare quanto bene i principali modelli open source siano in grado di identificare le informazioni chiave rilevanti per la domanda e applicare tali informazioni al ragionamento in testi bilingue di lunga estensione. Inoltre, proponiamo l'Ancestral Trace Challenge (ATC) per simulare la complessità delle sfide di ragionamento logico che è probabile siano presenti nei task di contesto lungo del mondo reale, fornendo un metodo semplice per valutare gli LLM nella gestione di situazioni complesse di contesto lungo. I nostri risultati suggeriscono che gli attuali LLM hanno un margine di miglioramento significativo nelle applicazioni pratiche di contesto lungo, poiché faticano a gestire la complessità delle sfide di ragionamento logico che è probabile siano presenti nei task di contesto lungo del mondo reale. Tutti i codici e le risorse sono disponibili su OpenCompass: https://github.com/open-compass/opencompass.
In questo articolo presentiamo DiT-MoE, una versione sparsa del Transformer di diffusione, scalabile e competitiva rispetto alle reti dense, pur mostrando un'inferenza altamente ottimizzata. Il DiT-MoE include due semplici design: il routing condiviso degli esperti e una funzione di perdita bilanciata a livello di esperto, catturando così conoscenze comuni e riducendo la ridondanza tra i diversi esperti instradati. Quando applicato alla generazione condizionata di immagini, un'analisi approfondita della specializzazione degli esperti rivela alcune osservazioni interessanti: (i) La selezione degli esperti mostra una preferenza per la posizione spaziale e il passo temporale di denoising, mentre è insensibile alle diverse informazioni condizionate per classe; (ii) Man mano che i livelli MoE diventano più profondi, la selezione degli esperti passa gradualmente da una posizione spaziale specifica a una dispersione e bilanciamento. (iii) La specializzazione degli esperti tende a essere più concentrata nei primi passi temporali per poi uniformarsi gradualmente dopo la metà. Attribuiamo ciò al processo di diffusione che modella prima le informazioni spaziali a bassa frequenza e poi le informazioni complesse ad alta frequenza. Sulla base di queste indicazioni, una serie di DiT-MoE raggiunge sperimentalmente prestazioni pari a quelle delle reti dense, pur richiedendo un carico computazionale inferiore durante l'inferenza. Ancora più incoraggiante, dimostriamo il potenziale di DiT-MoE con dati di immagini sintetizzate, scalando il modello di diffusione a 16,5 miliardi di parametri, ottenendo un nuovo punteggio SoTA FID-50K di 1,80 in impostazioni di risoluzione 512x512. La pagina del progetto: https://github.com/feizc/DiT-MoE.
I tradizionali compiti di segmentazione di riferimento si sono concentrati prevalentemente su scene visive silenziose, trascurando il ruolo integrale della percezione e dell'interazione multimodale nelle esperienze umane. In questo lavoro, introduciamo un nuovo compito chiamato Segmentazione Audio-Visuale di Riferimento (Ref-AVS), che mira a segmentare oggetti nel dominio visivo basandosi su espressioni contenenti segnali multimodali. Tali espressioni sono articolate in forme di linguaggio naturale ma sono arricchite con segnali multimodali, inclusi descrizioni audio e visive. Per facilitare questa ricerca, costruiamo il primo benchmark Ref-AVS, che fornisce annotazioni a livello di pixel per gli oggetti descritti nelle corrispondenti espressioni con segnali multimodali. Per affrontare il compito Ref-AVS, proponiamo un nuovo metodo che utilizza adeguatamente i segnali multimodali per offrire una guida precisa alla segmentazione. Infine, conduciamo esperimenti quantitativi e qualitativi su tre sottoinsiemi di test per confrontare il nostro approccio con i metodi esistenti provenienti da compiti correlati. I risultati dimostrano l'efficacia del nostro metodo, evidenziando la sua capacità di segmentare con precisione gli oggetti utilizzando espressioni con segnali multimodali. Il dataset è disponibile all'indirizzo https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.
Gli agenti esistenti basati su modelli linguistici di grandi dimensioni (LLM) dimostrano robuste capacità di problem-solving integrando la conoscenza intrinseca degli LLM, il forte apprendimento in contesto e le capacità zero-shot, oltre all'uso di strumenti combinati con flussi di lavoro di invocazione degli LLM progettati in modo intricato dagli esseri umani. Tuttavia, questi agenti presentano ancora carenze nel ragionamento a lungo termine e sottoutilizzano il potenziale degli strumenti esistenti, portando a evidenti deficienze negli scenari di ragionamento complessi del mondo reale. Per affrontare queste limitazioni, introduciamo Sibyl, un framework di agenti basato su LLM semplice ma potente, progettato per affrontare compiti di ragionamento complesso sfruttando in modo efficiente un insieme minimo di strumenti. Traendo ispirazione dalla Teoria dello Spazio di Lavoro Globale, Sibyl incorpora uno spazio di lavoro globale per migliorare la gestione e la condivisione della conoscenza e della cronologia delle conversazioni all'interno del sistema. Inoltre, guidato dalla Teoria della Società della Mente, Sibyl implementa una giuria basata su dibattiti multi-agente per affinare autonomamente le risposte finali, garantendo un approccio completo ed equilibrato. Questo approccio mira a ridurre la complessità del sistema espandendo al contempo l'ambito dei problemi risolvibili, da questioni tipicamente risolte dagli esseri umani in pochi minuti a quelle che richiedono ore o addirittura giorni, facilitando così un passaggio dal pensiero di Sistema-1 a quello di Sistema-2. Sibyl è stato progettato con un focus sulla scalabilità e sulla facilità di debug, incorporando fin dall'inizio il concetto di rientranza della programmazione funzionale, con l'obiettivo di un'integrazione senza soluzione di continuità e a basso sforzo in altre applicazioni LLM per migliorarne le capacità. I nostri risultati sperimentali sul set di test del benchmark GAIA rivelano che l'agente Sibyl istanziato con GPT-4 raggiunge prestazioni all'avanguardia con un punteggio medio del 34,55%, rispetto ad altri agenti basati su GPT-4. Speriamo che Sibyl possa ispirare soluzioni di agenti basati su LLM più affidabili e riutilizzabili per affrontare compiti di ragionamento complessi nel mondo reale.
Presentiamo VLMEvalKit: un toolkit open-source basato su PyTorch per la valutazione di modelli multi-modalità di grandi dimensioni. Il toolkit mira a fornire un framework user-friendly e completo per ricercatori e sviluppatori, permettendo loro di valutare modelli multi-modalità esistenti e pubblicare risultati di valutazione riproducibili. In VLMEvalKit, abbiamo implementato oltre 70 diversi modelli multi-modalità di grandi dimensioni, inclusi sia API proprietarie che modelli open-source, oltre a più di 20 benchmark multi-modali. Implementando una singola interfaccia, nuovi modelli possono essere facilmente aggiunti al toolkit, mentre il toolkit gestisce automaticamente i carichi di lavoro rimanenti, tra cui la preparazione dei dati, l'inferenza distribuita, la post-elaborazione delle previsioni e il calcolo delle metriche. Sebbene il toolkit sia attualmente utilizzato principalmente per valutare grandi modelli visione-linguaggio, il suo design è compatibile con aggiornamenti futuri che includono modalità aggiuntive, come audio e video. Sulla base dei risultati di valutazione ottenuti con il toolkit, ospitiamo OpenVLM Leaderboard, una classifica completa per monitorare i progressi della ricerca sull'apprendimento multi-modale. Il toolkit è disponibile all'indirizzo https://github.com/open-compass/VLMEvalKit ed è attivamente mantenuto.
Il campionamento per distillazione del punteggio (Score Distillation Sampling, SDS) è emerso come un framework efficace nei compiti di editing 3D guidati da testo grazie alla sua intrinseca coerenza 3D. Tuttavia, i metodi di editing 3D basati su SDS esistenti soffrono di tempi di addestramento prolungati e producono risultati di bassa qualità, principalmente perché questi metodi si discostano dalla dinamica di campionamento dei modelli di diffusione. In questo articolo, proponiamo DreamCatalyst, un nuovo framework che interpreta l'editing basato su SDS come un processo inverso di diffusione. La nostra funzione obiettivo tiene conto della dinamica di campionamento, rendendo così il processo di ottimizzazione di DreamCatalyst un'approssimazione del processo inverso di diffusione nei compiti di editing. DreamCatalyst mira a ridurre i tempi di addestramento e a migliorare la qualità dell'editing. DreamCatalyst presenta due modalità: (1) una modalità più veloce, che modifica la scena NeRF in circa 25 minuti, e (2) una modalità ad alta qualità, che produce risultati superiori in meno di 70 minuti. In particolare, la nostra modalità ad alta qualità supera i metodi di editing NeRF attualmente all'avanguardia sia in termini di velocità che di qualità. Per ulteriori risultati dettagliati, consulta la pagina del nostro progetto: https://dream-catalyst.github.io.
Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.
Anche per le lingue dei segni più studiate come la Lingua dei Segni Americana (ASL), i dati rappresentano il collo di bottiglia per la ricerca nel campo dell'apprendimento automatico. La situazione è ancora peggiore per le molte altre lingue dei segni utilizzate dalle comunità di persone sorde o con problemi di udito in tutto il mondo. In questo articolo, presentiamo YouTube-SL-25, un corpus multilingue su larga scala e a dominio aperto di video in lingua dei segni con didascalie apparentemente ben allineate estratti da YouTube. Con oltre 3000 ore di video in più di 25 lingue dei segni, YouTube-SL-25 è a) più di 3 volte la dimensione di YouTube-ASL, b) il più grande dataset parallelo di lingua dei segni fino ad oggi, e c) il primo o il più grande dataset parallelo per molte delle lingue che lo compongono. Forniamo baseline per i compiti di traduzione da segno a testo utilizzando un modello multilingue multitask unificato basato su T5 e riportiamo i punteggi su benchmark relativi a 4 lingue dei segni. I risultati dimostrano che il trasferimento multilingue apporta benefici sia alle lingue dei segni con risorse più abbondanti che a quelle con risorse più limitate all'interno di YouTube-SL-25.
I grandi modelli linguistici (LLM) sono fondamentali per l'elaborazione del linguaggio naturale e l'intelligenza artificiale moderna. Tuttavia, affrontano sfide nella gestione dei loro significativi requisiti di memoria. Sebbene l'addestramento con consapevolezza della quantizzazione (QAT) offra una soluzione riducendo il consumo di memoria attraverso rappresentazioni a basso numero di bit con una minima perdita di accuratezza, richiede risorse di addestramento sostanziali per ottimizzare i pesi del modello e i parametri di quantizzazione. Per affrontare questo problema, proponiamo Efficient Quantization-Aware Training (EfficientQAT), una nuova tecnica di quantizzazione per comprimere gli LLM. EfficientQAT prevede due fasi consecutive: l'addestramento a blocchi di tutti i parametri (Block-AP) e l'addestramento end-to-end dei parametri di quantizzazione (E2E-QP). Block-AP esegue sequenzialmente l'addestramento con consapevolezza della quantizzazione per tutti i parametri in ciascun blocco del trasformatore con ricostruzione a blocchi, mantenendo l'efficienza evitando di addestrare l'intero LLM. Inizializzato con il modello quantizzato, E2E-QP addestra quindi solo i parametri di quantizzazione (dimensioni dei passi) end-to-end, migliorando l'efficienza con un backbone quantizzato fisso e un numero ridotto di parametri addestrabili. Esperimenti estesi dimostrano che EfficientQAT supera i precedenti metodi di quantizzazione su una gamma di modelli, inclusi LLM di base, LLM ottimizzati per istruzioni e LLM multimodali, con scale da 7B a 70B parametri a vari bit di quantizzazione. Ad esempio, EfficientQAT ottiene un modello Llama-2-70B a 2 bit su un singolo GPU A100-80GB in 41 ore, con una degradazione dell'accuratezza inferiore al 3% rispetto alla precisione completa (69,48 vs. 72,41). È degno di nota che questo modello quantizzato INT2 da 70B ottiene un guadagno di accuratezza di 1,67 rispetto al modello Llama-2-13B (69,48 vs. 67,81) richiedendo meno memoria (19,2GB vs. 24,2GB). Il codice è disponibile all'indirizzo https://github.com/OpenGVLab/EfficientQAT.
Una buona inizializzazione dei pesi rappresenta una misura efficace per ridurre il costo di addestramento di un modello di rete neurale profonda (DNN). La scelta di come inizializzare i parametri è complessa e può richiedere una regolazione manuale, che risulta dispendiosa in termini di tempo e soggetta a errori umani. Per superare tali limitazioni, questo lavoro compie un passo innovativo verso la creazione di un generatore di pesi per sintetizzare i pesi neurali per l'inizializzazione. Utilizziamo come esempio il compito di traduzione immagine-immagine con reti generative avversarie (GANs) grazie alla facilità di raccogliere pesi di modelli che coprono un ampio spettro. Nello specifico, raccogliamo prima un dataset con vari concetti di editing di immagini e i corrispondenti pesi addestrati, che vengono successivamente utilizzati per l'addestramento del generatore di pesi. Per affrontare le diverse caratteristiche tra i livelli e il numero considerevole di pesi da prevedere, dividiamo i pesi in blocchi di dimensioni uguali e assegniamo a ciascun blocco un indice. Successivamente, un modello di diffusione viene addestrato con tale dataset utilizzando sia le condizioni testuali del concetto che gli indici dei blocchi. Inizializzando il modello di traduzione immagine con i pesi denoizzati previsti dal nostro modello di diffusione, l'addestramento richiede solo 43,3 secondi. Rispetto all'addestramento da zero (ad esempio, Pix2pix), otteniamo un'accelerazione del tempo di addestramento di 15x per un nuovo concetto, raggiungendo una qualità di generazione delle immagini persino migliore.
I modelli linguistico-visivi (VLMs) hanno compiuto progressi impressionanti in diverse applicazioni, diventando una direzione di ricerca prevalente. In questo articolo, costruiamo FIRE, un dataset di affinamento basato sul feedback, composto da 1,1 milioni di conversazioni multi-turn derivate da 27 dataset sorgente, che consente ai VLMs di affinare spontaneamente le loro risposte in base al feedback degli utenti su una vasta gamma di compiti. Per ampliare la raccolta dei dati, FIRE è raccolto in due componenti: FIRE-100K e FIRE-1M, dove FIRE-100K è generato da GPT-4V, e FIRE-1M è generato liberamente tramite modelli addestrati su FIRE-100K. Successivamente, costruiamo FIRE-Bench, un benchmark per valutare in modo completo la capacità di affinamento basato sul feedback dei VLMs, che contiene 11.000 conversazioni di affinamento come dati di test, due impostazioni di valutazione e un modello per fornire feedback ai VLMs. Sviluppiamo il modello FIRE-LLaVA addestrando LLaVA su FIRE-100K e FIRE-1M, che dimostra una notevole capacità di affinamento basato sul feedback su FIRE-Bench e supera i VLMs non addestrati del 50%, rendendo più efficienti le interazioni utente-agente e sottolineando l'importanza del dataset FIRE.
I moderni Large Language Models (LLM) sono composti da matrici con miliardi di elementi, rendendo il loro immagazzinamento e elaborazione piuttosto impegnativi in termini di risorse computazionali e utilizzo della memoria. Essendo significativamente grandi, tali matrici possono spesso essere espresse in formato a basso rango, con il potenziale di ridurre i requisiti di risorse. A differenza dei lavori precedenti che si concentrano sullo sviluppo di nuovi algoritmi di decomposizione matriciale, in questo lavoro studiamo innanzitutto l'emergere di strutture a basso rango attraverso le matrici all'interno dei diversi strati degli LLM e stabiliamo una relazione consequenziale tra la dinamica del gradiente e l'emergente espressività a basso rango delle matrici. Le nostre scoperte rivelano che diversi strati mostrano livelli variabili di struttura a basso rango convergente, rendendo necessaria una riduzione non uniforme del rango tra di essi per minimizzare il calo di prestazioni dovuto alla compressione. In vista di ciò, presentiamo Weight Low-Rank Projection (WeLore) che unifica la compressione dei pesi e il fine-tuning efficiente in termini di memoria come UNO, in modo agnostico ai dati e in un'unica passata. WeLore sfrutta la distribuzione a coda pesante dei valori singolari per identificare un rapporto di riduzione del rango adeguato per le matrici all'interno degli LLM. Andando oltre il semplice utilizzo come tecnica di compressione, WeLore classifica le matrici dei pesi in Componenti a Basso Rango (LRC) e Componenti Non a Basso Rango (N-LRC) in base alla loro capacità di esprimersi come a basso rango. La nostra prospettiva sul gradiente e ampi esperimenti illustrano che le LRC tendono ad avere migliori capacità di fine-tuning e possono imitare da vicino (a volte superare) la traiettoria della perdita di addestramento e le prestazioni del fine-tuning completo con una riduzione significativa dell'impronta di memoria e calcolo. Ad esempio, il fine-tuning di un modello LLaMa-2 7B compresso al 50% utilizzando solo una frazione dei parametri nelle LRC (WeLore) può superare il suo fine-tuning completo con un throughput ~3x migliore e un requisito GPU di ~0.6x. I nostri codici sono disponibili all'indirizzo https://github.com/VITA-Group/welore.
Recentemente, l'interazione uomo-computer con varie modalità ha mostrato applicazioni promettenti, come GPT-4o e Gemini. Considerando il ruolo fondamentale della rappresentazione congiunta multimodale nelle pipeline di comprensione e generazione, rappresentazioni congiunte omni di alta qualità rappresenterebbero un passo avanti verso l'elaborazione congiunta di informazioni multimodali più diversificate. In questo lavoro, presentiamo OmniBind, modelli di rappresentazione congiunta multimodale su larga scala che vanno da 7 a 30 miliardi di parametri, i quali supportano input 3D, audio, immagini e linguaggio. A causa della scarsità di coppie di dati tra tutte le modalità, invece di addestrare grandi modelli da zero, proponiamo di rimappare e legare insieme gli spazi di vari modelli specializzati pre-addestrati. Questo approccio consente di "scalare" aumentando indirettamente i parametri del modello e la quantità di dati visti. Per integrare efficacemente vari spazi, assegniamo dinamicamente pesi a diversi spazi apprendendo router con due obiettivi: allineamento complessivo cross-modale e disaccoppiamento della rappresentazione linguistica. È importante notare che, poiché il legame e il routing degli spazi richiedono solo reti leggere, OmniBind è estremamente efficiente nell'addestramento. L'apprendimento del modello più grande da 30B richiede solo dati unimodali non accoppiati e circa 3 giorni su un singolo nodo con 8 GPU 4090. Esperimenti estensivi dimostrano la versatilità e la superiorità di OmniBind come modello di rappresentazione omni, evidenziandone il grande potenziale per applicazioni diversificate, come la comprensione multimodale any-query e componibile.
Presentiamo un metodo per controllare un umanoide simulato affinché afferri un oggetto e lo muova per seguire una traiettoria specifica. A causa delle difficoltà nel controllare un umanoide con mani articolate, i metodi precedenti spesso utilizzano una mano isolata e considerano solo sollevamenti verticali o traiettorie brevi. Questo ambito limitato ne riduce l'applicabilità per la manipolazione di oggetti necessaria in animazione e simulazione. Per colmare questa lacuna, apprendiamo un controller in grado di raccogliere un gran numero di oggetti (>1200) e trasportarli seguendo traiettorie generate casualmente. La nostra intuizione chiave è sfruttare una rappresentazione del movimento umanoide che fornisce abilità motorie simili a quelle umane e accelera significativamente l'addestramento. Utilizzando solo rappresentazioni semplici di ricompensa, stato e oggetto, il nostro metodo mostra una scalabilità favorevole su oggetti e traiettorie diverse. Per l'addestramento, non abbiamo bisogno di un dataset di movimenti corporei completi accoppiati a traiettorie di oggetti. Al momento del test, richiediamo solo la mesh dell'oggetto e le traiettorie desiderate per l'afferramento e il trasporto. Per dimostrare le capacità del nostro metodo, mostriamo tassi di successo all'avanguardia nel seguire traiettorie di oggetti e nel generalizzare a oggetti non visti in precedenza. Codice e modelli verranno rilasciati.
Vibravox è un dataset conforme al Regolamento Generale sulla Protezione dei Dati (GDPR) che contiene registrazioni audio effettuate utilizzando cinque diversi sensori audio a conduzione corporea: due microfoni in-ear, due pickup per vibrazioni a conduzione ossea e un laringofono. Il dataset include anche dati audio provenienti da un microfono aereo utilizzato come riferimento. Il corpus Vibravox comprende 38 ore di campioni vocali e suoni fisiologici registrati da 188 partecipanti in diverse condizioni acustiche imposte da uno spatializzatore ambisonico 3D di alto ordine. Nel corpus sono incluse anche annotazioni sulle condizioni di registrazione e trascrizioni linguistiche. Abbiamo condotto una serie di esperimenti su vari compiti legati al parlato, tra cui il riconoscimento vocale, il miglioramento del segnale vocale e la verifica del parlante. Questi esperimenti sono stati eseguiti utilizzando modelli all'avanguardia per valutare e confrontare le loro prestazioni sui segnali catturati dai diversi sensori audio offerti dal dataset Vibravox, con l'obiettivo di ottenere una migliore comprensione delle loro caratteristiche individuali.
L'emergenza di modelli generativi multimodali su larga scala ha drasticamente avanzato l'intelligenza artificiale, introducendo livelli di prestazione e funzionalità senza precedenti. Tuttavia, ottimizzare questi modelli rimane una sfida a causa dei percorsi storicamente isolati degli sviluppi centrati sul modello e sui dati, portando a risultati subottimali e a un utilizzo inefficiente delle risorse. In risposta, presentiamo una nuova suite sandbox progettata per lo sviluppo integrato di dati e modelli. Questo sandbox fornisce una piattaforma sperimentale completa, consentendo un'iterazione rapida e un affinamento guidato da intuizioni sia dei dati che dei modelli. Il nostro flusso di lavoro "Probe-Analyze-Refine", validato attraverso applicazioni su modelli all'avanguardia simili a LLaVA e basati su DiT, produce significativi miglioramenti delle prestazioni, come il raggiungimento della vetta della classifica VBench. Scopriamo inoltre intuizioni fruttuose ottenute da benchmark esaustivi, che gettano luce sull'interazione critica tra qualità dei dati, diversità e comportamento del modello. Con la speranza di favorire una comprensione più profonda e progressi futuri nei dati multimodali e nella modellazione generativa, i nostri codici, dataset e modelli sono mantenuti e accessibili all'indirizzo https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
La segmentazione interattiva delle Gaussiane 3D apre grandi opportunità per la manipolazione in tempo reale di scene 3D, grazie alla capacità di rendering in tempo reale offerta dalla tecnica di 3D Gaussian Splatting. Tuttavia, i metodi attuali richiedono un post-processing dispendioso in termini di tempo per gestire l'output rumoroso della segmentazione. Inoltre, faticano a fornire una segmentazione dettagliata, essenziale per una manipolazione fine delle scene 3D. In questo studio, proponiamo Click-Gaussian, che apprende campi di caratteristiche distinguibili a due livelli di granularità, facilitando la segmentazione senza la necessità di un post-processing lungo. Approfondiamo le sfide derivanti da campi di caratteristiche appresi in modo incoerente, risultanti da segmentazioni 2D ottenute indipendentemente da una scena 3D. L'accuratezza della segmentazione 3D si deteriora quando i risultati della segmentazione 2D tra le diverse viste, che sono i principali indizi per la segmentazione 3D, sono in conflitto. Per superare questi problemi, proponiamo il Global Feature-guided Learning (GFL). Il GFL costruisce cluster di candidati per le caratteristiche globali a partire da segmenti 2D rumorosi tra le diverse viste, attenuando il rumore durante l'addestramento delle caratteristiche delle Gaussiane 3D. Il nostro metodo opera in 10 ms per clic, da 15 a 130 volte più veloce rispetto ai metodi precedenti, migliorando significativamente anche l'accuratezza della segmentazione. La pagina del nostro progetto è disponibile all'indirizzo https://seokhunchoi.github.io/Click-Gaussian.
I Large Language Model (LLM) sono impiegati in vari domini ad alto rischio, dove l'affidabilità dei loro output è cruciale. Un metodo comunemente utilizzato per valutare l'affidabilità delle risposte degli LLM è la stima dell'incertezza, che misura la probabilità che le loro risposte siano corrette. Mentre molti studi si concentrano sul miglioramento dell'accuratezza delle stime di incertezza per gli LLM, la nostra ricerca indaga la fragilità della stima dell'incertezza ed esplora potenziali attacchi. Dimostriamo che un attaccante può incorporare una backdoor negli LLM, che, quando attivata da un trigger specifico nell'input, manipola l'incertezza del modello senza influenzare l'output finale. Nello specifico, il metodo di attacco backdoor proposto può alterare la distribuzione di probabilità dell'output di un LLM, facendo sì che la distribuzione di probabilità converga verso una distribuzione predefinita dall'attaccante, garantendo al contempo che la predizione top-1 rimanga invariata. I nostri risultati sperimentali dimostrano che questo attacco compromette efficacemente l'affidabilità dell'autovalutazione del modello in domande a scelta multipla. Ad esempio, abbiamo ottenuto un tasso di successo dell'attacco (ASR) del 100% con tre diverse strategie di trigger in quattro modelli. Inoltre, indaghiamo se questa manipolazione si generalizza attraverso diversi prompt e domini. Questo lavoro evidenzia una minaccia significativa per l'affidabilità degli LLM e sottolinea la necessità di future difese contro tali attacchi. Il codice è disponibile all'indirizzo https://github.com/qcznlp/uncertainty_attack.