Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Contrastive Language-Image Pretraining (CLIP) è ampiamente utilizzato per addestrare modelli ad allineare immagini e testi in uno spazio di embedding comune, mappandoli su vettori di dimensione fissa. Questi modelli sono fondamentali per il recupero di informazioni multimodali e per attività correlate. Tuttavia, i modelli CLIP generalmente ottengono prestazioni inferiori nelle attività esclusivamente testuali rispetto ai modelli specializzati per il testo. Ciò crea inefficienze nei sistemi di recupero delle informazioni che mantengono embedding e modelli separati per attività esclusivamente testuali e multimodali. Proponiamo un nuovo metodo di addestramento contrastivo multi-task per affrontare questo problema, che utilizziamo per addestrare il modello jina-clip-v1, raggiungendo prestazioni all'avanguardia sia nel recupero di testo-immagine che nel recupero di testo-testo.
Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno ottenuto risultati straordinari in vari domini. Tuttavia, la mancanza di tempestività e l’elevato costo degli aggiornamenti delle conoscenze, uniti ai problemi di allucinazione degli LLM, ne hanno limitato l’applicazione in compiti ad alta intensità di conoscenza, dove la generazione aumentata tramite recupero (RAG) può essere d’aiuto. Tuttavia, i modelli esistenti basati sul recupero utilizzano tipicamente la similarità come ponte tra query e documenti e seguono una procedura di "recupera poi leggi". In questo lavoro, sosteniamo che la similarità non è sempre la panacea e che affidarsi esclusivamente ad essa potrebbe talvolta degradare le prestazioni della generazione aumentata tramite recupero. A tal fine, proponiamo MetRag, un framework di generazione aumentata tramite recupero potenziato da pensieri multistrato. Per cominciare, oltre al pensiero orientato alla similarità esistente, adottiamo un modello di utilità su piccola scala che trae supervisione da un LLM per un pensiero orientato all’utilità e sviluppiamo un modello più intelligente combinando in modo completo i pensieri orientati alla similarità e all’utilità. Inoltre, considerando che l’insieme dei documenti recuperati tende a essere ampio e che utilizzarli in isolamento rende difficile cogliere le somiglianze e le caratteristiche comuni tra di essi, proponiamo di utilizzare un LLM come riassuntore adattivo al compito per dotare la generazione aumentata tramite recupero di un pensiero orientato alla compattezza. Infine, con i pensieri multistrato delle fasi precedenti, un LLM viene chiamato per la generazione aumentata di conoscenza. Esperimenti estesi su compiti ad alta intensità di conoscenza hanno dimostrato la superiorità di MetRag.
Questo studio approfondisce il campo della comprensione del comportamento umano in contesti multi-modali (ovvero, modalità video e di movimento), sfruttando le potenti capacità dei Large Language Models (LLM). Diversamente dai recenti LLM progettati per la comprensione esclusiva di video o movimento, sosteniamo che la comprensione del comportamento umano richieda una modellizzazione congiunta sia dei video che delle sequenze di movimento (ad esempio, sequenze SMPL) per catturare efficacemente le dinamiche e la semantica delle parti del corpo. Alla luce di ciò, presentiamo MotionLLM, un framework semplice ma efficace per la comprensione, la descrizione e il ragionamento sul movimento umano. Nello specifico, MotionLLM adotta una strategia di addestramento unificata video-movimento che sfrutta i vantaggi complementari dei dati esistenti video-testo di livello grossolano e dei dati movimento-testo di livello fine per ottenere approfondimenti spazio-temporali ricchi. Inoltre, abbiamo raccolto un ampio dataset, MoVid, che comprende video, movimenti, descrizioni e istruzioni diversificati. Proponiamo inoltre il MoVid-Bench, con annotazioni manuali accurate, per una migliore valutazione della comprensione del comportamento umano su video e movimento. Esperimenti estesi dimostrano la superiorità di MotionLLM nella descrizione, nella comprensione spazio-temporale e nella capacità di ragionamento.
In questo lavoro, presentiamo Xwin-LM, una suite completa di metodologie di allineamento per modelli linguistici di grandi dimensioni (LLM). Questa suite comprende diverse tecniche chiave, tra cui il fine-tuning supervisionato (SFT), la modellazione della ricompensa (RM), il fine-tuning con campionamento di rifiuto (RS) e l'ottimizzazione diretta delle preferenze (DPO). I componenti principali sono i seguenti: (1) Xwin-LM-SFT, modelli inizialmente sottoposti a fine-tuning con dati di istruzione di alta qualità; (2) Xwin-Pair, un dataset su larga scala di preferenze multi-turn annotato meticolosamente utilizzando GPT-4; (3) Xwin-RM, modelli di ricompensa addestrati su Xwin-Pair, sviluppati con scale di 7B, 13B e 70B parametri; (4) Xwin-Set, un dataset di preferenze multiwise in cui ogni prompt è collegato a 64 risposte uniche generate da Xwin-LM-SFT e valutate da Xwin-RM; (5) Xwin-LM-RS, modelli sottoposti a fine-tuning con le risposte con il punteggio più alto di Xwin-Set; (6) Xwin-LM-DPO, modelli ulteriormente ottimizzati su Xwin-Set utilizzando l'algoritmo DPO. Le nostre valutazioni su AlpacaEval e MT-bench dimostrano miglioramenti consistenti e significativi lungo l'intera pipeline, evidenziando la forza e la scalabilità di Xwin-LM. Il repository https://github.com/Xwin-LM/Xwin-LM sarà aggiornato continuamente per favorire la ricerca della comunità.
Presentiamo MOFA-Video, un metodo avanzato di animazione controllata di immagini che genera video a partire da un'immagine data utilizzando vari segnali controllabili aggiuntivi (come punti di riferimento di landmark umani, traiettorie manuali e persino un altro video fornito) o loro combinazioni. Questo differisce dai metodi precedenti che potevano operare solo su un dominio di movimento specifico o mostravano capacità di controllo limitate con un prior di diffusione. Per raggiungere il nostro obiettivo, progettiamo diversi adattatori di campo di movimento consapevoli del dominio (\ie, MOFA-Adapters) per controllare i movimenti generati nella pipeline di generazione video. Per i MOFA-Adapters, consideriamo la coerenza temporale del movimento del video e generiamo prima il flusso di movimento denso a partire dalle condizioni di controllo sparse fornite, dopodiché le caratteristiche multi-scala dell'immagine data vengono avvolte come una caratteristica guidata per una generazione video stabile con diffusione. Addestriamo in modo semplice due adattatori di movimento per le traiettorie manuali e i landmark umani separatamente, poiché entrambi contengono informazioni sparse sul controllo. Dopo l'addestramento, i MOFA-Adapters in diversi domini possono anche lavorare insieme per una generazione video più controllabile.
La generazione 3D ha registrato progressi significativi negli ultimi anni. Le tecniche esistenti, come i metodi di distillazione del punteggio, producono risultati notevoli ma richiedono un'ottimizzazione estesa per ogni scena, influenzando l'efficienza temporale. In alternativa, gli approcci basati sulla ricostruzione privilegiano l'efficienza ma compromettono la qualità a causa della loro gestione limitata dell'incertezza. Introduciamo GECO, un metodo innovativo per la modellazione generativa 3D di alta qualità che opera in un secondo. Il nostro approccio affronta i problemi prevalenti di incertezza e inefficienza nei metodi attuali attraverso una strategia in due fasi. Nella fase iniziale, addestriamo un modello generativo multi-vista a singolo passo con distillazione del punteggio. Successivamente, viene applicata una distillazione di seconda fase per affrontare la sfida dell'inconsistenza delle viste derivante dalla previsione multi-vista. Questo processo in due fasi garantisce un approccio bilanciato alla generazione 3D, ottimizzando sia la qualità che l'efficienza. I nostri esperimenti completi dimostrano che GECO raggiunge una generazione immagine-3D di alta qualità con un livello di efficienza senza precedenti.
I metodi di generazione musicale controllabile sono fondamentali per la creazione musicale basata sull'IA centrata sull'uomo, ma sono attualmente limitati da compromessi tra velocità, qualità e progettazione del controllo. In particolare, la Diffusion Inference-Time T-optimization (DITTO) offre risultati all'avanguardia, ma è oltre 10 volte più lenta del tempo reale, limitando l'uso pratico. Proponiamo la Distilled Diffusion Inference-Time T-Optimization (o DITTO-2), un nuovo metodo per accelerare l'ottimizzazione basata sul controllo durante l'inferenza e sbloccare una generazione più veloce del tempo reale per una vasta gamma di applicazioni come l'inpainting musicale, l'outpainting, il controllo dell'intensità, della melodia e della struttura musicale. Il nostro metodo funziona (1) distillando un modello di diffusione pre-addestrato per un campionamento veloce attraverso un processo efficiente e modificato di distillazione della consistenza o della traiettoria di consistenza, (2) eseguendo l'ottimizzazione durante l'inferenza utilizzando il nostro modello distillato con un campionamento in un solo passaggio come compito di ottimizzazione surrogato efficiente e (3) eseguendo una generazione finale con campionamento multi-passaggio (decodifica) utilizzando i nostri latenti di rumore stimati per una generazione controllabile, veloce e di alta qualità. Attraverso una valutazione approfondita, scopriamo che il nostro metodo non solo accelera la generazione di oltre 10-20 volte, ma migliora simultaneamente l'aderenza al controllo e la qualità della generazione. Inoltre, applichiamo il nostro approccio a una nuova applicazione per massimizzare l'aderenza al testo (punteggio CLAP) e dimostriamo di poter convertire un modello di diffusione incondizionato senza input di testo in un modello che offre un controllo testuale all'avanguardia. Esempi audio sono disponibili su https://ditto-music.github.io/ditto2/.
Come valutare le capacità di codifica dei Large Language Model (LLM) rimane una questione aperta. Rileviamo che i benchmark esistenti sono scarsamente allineati con i repository di codice del mondo reale e sono insufficienti per valutare le capacità di codifica degli LLM. Per colmare questa lacuna, proponiamo un nuovo benchmark denominato DevEval, che presenta tre avanzamenti. (1) DevEval è allineato con i repository reali in molteplici dimensioni, ad esempio, distribuzioni del codice e distribuzioni delle dipendenze. (2) DevEval è annotato da 13 sviluppatori e contiene annotazioni complete (ad esempio, requisiti, repository originali, codice di riferimento e dipendenze di riferimento). (3) DevEval comprende 1.874 campioni di test provenienti da 117 repository, coprendo 10 domini popolari (ad esempio, Internet, Database). Basandoci su DevEval, proponiamo la generazione di codice a livello di repository e valutiamo 8 LLM popolari su DevEval (ad esempio, gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). I nostri esperimenti rivelano le capacità di codifica di questi LLM nei repository di codice del mondo reale. Ad esempio, nei nostri esperimenti, il Pass@1 più alto di gpt-4-turbo è solo del 53,04%. Analizziamo anche i casi di fallimento degli LLM e riassumiamo i loro punti deboli. Speriamo che DevEval possa facilitare lo sviluppo degli LLM nei repository di codice reali. DevEval, i prompt e le previsioni degli LLM sono stati rilasciati.
Mentre i modelli di diffusione condizionati da testo (DMs) raggiungono traguardi nella generazione di immagini, video e oggetti 3D, l'attenzione della comunità di ricerca si è spostata sul compito più impegnativo della sintesi da testo a 4D, che introduce una dimensione temporale per generare oggetti 3D dinamici. In questo contesto, identifichiamo il Campionamento di Distillazione del Punteggio (SDS), una tecnica ampiamente utilizzata per la sintesi da testo a 3D, come un significativo ostacolo alle prestazioni della sintesi da testo a 4D a causa dei suoi problemi di facce multiple e texture irrealistiche, uniti a elevati costi computazionali. In questo articolo, proponiamo Allineamenti a Livello di Pixel per il Gaussian Splatting da Testo a 4D (PLA4D), un metodo innovativo che utilizza frame da testo a video come obiettivi di allineamento pixel espliciti per generare oggetti 3D statici e iniettare movimento in essi. Nello specifico, introduciamo l'Allineamento Focale per calibrare le pose della fotocamera per il rendering e l'Apprendimento Contrastivo GS-Mesh per distillare prior geometriche dai contrasti delle immagini renderizzate a livello di pixel. Inoltre, sviluppiamo l'Allineamento del Movimento utilizzando una rete di deformazione per guidare i cambiamenti nei Gaussiani e implementiamo il Raffinamento di Riferimento per superfici di oggetti 4D più fluide. Queste tecniche consentono al Gaussian Splatting 4D di allineare geometria, texture e movimento con i video generati a livello di pixel. Rispetto ai metodi precedenti, PLA4D produce output sintetizzati con migliori dettagli di texture in meno tempo e mitiga efficacemente il problema delle facce multiple. PLA4D è completamente implementato utilizzando modelli open-source, offrendo una direzione accessibile, user-friendly e promettente per la creazione di contenuti digitali 4D. La nostra pagina del progetto: https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.
Recentemente, le tecniche di generazione video hanno fatto rapidi progressi. Data la popolarità dei contenuti video sulle piattaforme dei social media, questi modelli accentuano le preoccupazioni riguardo alla diffusione di informazioni false. Pertanto, c'è una crescente domanda di rilevatori in grado di distinguere tra video generati da IA falsi e di mitigare i potenziali danni causati da informazioni false. Tuttavia, la mancanza di dataset su larga scala provenienti dai generatori video più avanzati rappresenta un ostacolo allo sviluppo di tali rilevatori. Per colmare questa lacuna, introduciamo il primo dataset per la rilevazione di video generati da IA, GenVideo. Esso presenta le seguenti caratteristiche: (1) un ampio volume di video, inclusi oltre un milione di video generati da IA e video reali raccolti; (2) una ricca diversità di contenuti e metodologie generati, che coprono un ampio spettro di categorie video e tecniche di generazione. Abbiamo condotto studi approfonditi sul dataset e proposto due metodi di valutazione progettati per scenari simili al mondo reale per valutare le prestazioni dei rilevatori: il compito di classificazione video cross-generatore valuta la generalizzabilità dei rilevatori addestrati su diversi generatori; il compito di classificazione video degradati valuta la robustezza dei rilevatori nel gestire video che hanno subito un degrado di qualità durante la diffusione. Inoltre, abbiamo introdotto un modulo plug-and-play, denominato Detail Mamba (DeMamba), progettato per migliorare i rilevatori identificando i video generati da IA attraverso l'analisi delle incoerenze nelle dimensioni temporali e spaziali. I nostri ampi esperimenti dimostrano la superiorità di DeMamba in termini di generalizzabilità e robustezza su GenVideo rispetto ai rilevatori esistenti. Crediamo che il dataset GenVideo e il modulo DeMamba faranno avanzare significativamente il campo della rilevazione di video generati da IA. Il nostro codice e il dataset saranno disponibili su https://github.com/chenhaoxing/DeMamba.
L'ascesa dei grandi modelli linguistici (LLM) ha reso possibili applicazioni basate su LLM (note anche come agenti AI o co-piloti), un nuovo paradigma software che combina la potenza degli LLM con il software convenzionale. Diverse applicazioni LLM provenienti da diversi contesti possono progettare flussi di lavoro complessi utilizzando più richieste LLM per completare un'attività. Tuttavia, devono utilizzare l'API semplificata a livello di richiesta fornita dai servizi pubblici LLM attuali, perdendo informazioni essenziali a livello di applicazione. I servizi pubblici LLM sono costretti a ottimizzare ciecamente le singole richieste LLM, portando a prestazioni end-to-end subottimali per le applicazioni LLM. Questo articolo introduce Parrot, un sistema di servizi LLM che si concentra sull'esperienza end-to-end delle applicazioni basate su LLM. Parrot propone la Variabile Semantica, un'astrazione unificata per esporre la conoscenza a livello di applicazione ai servizi pubblici LLM. Una Variabile Semantica annota una variabile di input/output nel prompt di una richiesta e crea la pipeline di dati quando collega più richieste LLM, fornendo un modo naturale per programmare applicazioni LLM. Esporre le Variabili Semantiche al servizio pubblico LLM consente di eseguire analisi convenzionali del flusso di dati per scoprire la correlazione tra più richieste LLM. Questa correlazione apre un nuovo spazio di ottimizzazione per le prestazioni end-to-end delle applicazioni basate su LLM. Valutazioni estensive dimostrano che Parrot può ottenere miglioramenti fino a un ordine di grandezza per casi d'uso popolari e pratici delle applicazioni LLM.