Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Video-LLaMA, un framework multimodale che conferisce ai Large Language Models (LLMs) la capacità di comprendere sia il contenuto visivo che quello uditivo nei video. Video-LLaMA avvia l'addestramento cross-modale partendo da encoder visivi e audio pre-addestrati e congelati, insieme a LLMs anch'essi congelati. A differenza dei precedenti vision-LLMs che si concentrano sulla comprensione di immagini statiche, come MiniGPT-4~zhu2023minigpt e LLaVA~liu2023visualit, Video-LLaMA affronta due sfide nella comprensione dei video: (1) catturare i cambiamenti temporali nelle scene visive, (2) integrare i segnali audio-visivi. Per la prima sfida, proponiamo Video Q-former per estendere l'encoder di immagini pre-addestrato a un encoder di video e introduciamo un compito di generazione video-to-text per apprendere la corrispondenza video-linguaggio. Per la seconda sfida, sfruttiamo ImageBind~girdhar2023imagebind come encoder audio pre-addestrato, che si dimostra eccezionalmente efficace nell'allineare diverse modalità in uno spazio di embedding comune. Introduciamo quindi un Audio Q-former per apprendere token di query uditive. Per allineare l'output sia dell'encoder visivo che di quello audio con lo spazio di embedding del LLM, addestriamo Video-LLaMA su un dataset su larga scala di descrizioni visive e su un dataset di alta qualità per il tuning delle istruzioni visive. Abbiamo riscontrato che Video-LLaMA dimostra la capacità di percepire e comprendere il contenuto video, generando risposte significative che si basano sulle informazioni visive e uditive presenti nei video. Ciò evidenzia il potenziale di Video-LLaMA come un promettente prototipo per assistenti AI audio-visivi. Il nostro codice, il modello pre-addestrato e la demo sono disponibili all'indirizzo https://github.com/DAMO-NLP-SG/Video-LLaMA.
Polyglot è un progetto pionieristico volto a migliorare le prestazioni in lingue non inglesi dei modelli linguistici multilingue. Nonostante la disponibilità di vari modelli multilingue come mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) e BLOOM (Scao et al., 2022), ricercatori e sviluppatori spesso ricorrono alla creazione di modelli monolingue nelle rispettive lingue a causa dell'insoddisfazione per le attuali capacità dei modelli multilingue nelle lingue non inglesi. Affrontando questa lacuna, cerchiamo di sviluppare modelli linguistici multilingue avanzati che offrano prestazioni migliorate nelle lingue non inglesi. In questo articolo, presentiamo i modelli Polyglot Korean, che rappresentano un focus specifico piuttosto che essere di natura multilingue. In collaborazione con TUNiB, il nostro team ha raccolto 1,2 TB di dati coreani accuratamente curati per il nostro percorso di ricerca. Abbiamo preso una decisione deliberata di dare priorità allo sviluppo di modelli coreani prima di avventurarci in modelli multilingue. Questa scelta è stata motivata da diversi fattori: in primo luogo, i modelli coreani hanno facilitato il confronto delle prestazioni con i modelli multilingue esistenti; e infine, hanno soddisfatto le esigenze specifiche delle aziende e dei ricercatori coreani. Questo articolo presenta il nostro lavoro nello sviluppo dei modelli Polyglot Korean, che propongono alcuni passi verso il superamento del divario di prestazioni nelle lingue non inglesi nei modelli linguistici multilingue.
I Large Language Model (LLM) traggono significativi benefici dal prompting a Catena di Pensiero (CoT) nell'esecuzione di vari compiti di ragionamento. Sebbene il CoT consenta ai modelli di produrre processi di ragionamento più completi, la sua enfasi sui passaggi intermedi può introdurre involontariamente allucinazioni ed errori accumulati, limitando così la capacità dei modelli di risolvere compiti di ragionamento complessi. Ispirati dal modo in cui gli esseri umani si impegnano in processi di ragionamento logico deduttivo attenti e meticolosi per risolvere i compiti, cerchiamo di consentire ai modelli linguistici di eseguire un ragionamento deduttivo esplicito e rigoroso, garantendo anche l'affidabilità del loro processo di ragionamento attraverso l'autoverifica. Tuttavia, verificare direttamente la validità di un intero processo di ragionamento deduttivo è impegnativo, anche con modelli avanzati come ChatGPT. Alla luce di ciò, proponiamo di scomporre un processo di verifica del ragionamento in una serie di sottoprocessi passo-passo, ciascuno dei quali riceve solo il contesto e le premesse necessarie. Per facilitare questa procedura, proponiamo Natural Program, un formato di ragionamento deduttivo basato sul linguaggio naturale. Il nostro approccio consente ai modelli di generare passaggi di ragionamento precisi in cui i passaggi successivi sono più rigorosamente fondati sui passaggi precedenti. Consente inoltre ai modelli linguistici di eseguire l'autoverifica del ragionamento in modo passo-passo. Integrando questo processo di verifica in ogni fase del ragionamento deduttivo, miglioriamo significativamente il rigore e l'affidabilità dei passaggi di ragionamento generati. Lungo questo processo, miglioriamo anche la correttezza delle risposte su compiti di ragionamento complessi. Il codice sarà rilasciato su https://github.com/lz1oceani/verify_cot.
Il ridimensionamento della sintesi vocale su un ampio e variegato dataset si è dimostrato altamente efficace nel raggiungere la generalizzazione del timbro e dello stile vocale, specialmente nel contesto della sintesi vocale zero-shot. Tuttavia, i lavori precedenti codificano solitamente il parlato in latenti utilizzando codec audio e impiegano modelli linguistici autoregressivi o modelli di diffusione per generarlo, ignorando così la natura intrinseca del parlato e potenzialmente portando a risultati inferiori o incontrollabili. Sosteniamo che il parlato possa essere scomposto in diversi attributi (ad esempio, contenuto, timbro, prosodia e fase) e che ciascuno di essi debba essere modellato utilizzando un modulo con adeguati bias induttivi. Da questa prospettiva, abbiamo progettato con cura un nuovo e ampio sistema di sintesi vocale zero-shot chiamato Mega-TTS, addestrato con dati su larga scala e variegati, che modella i diversi attributi in modi distinti: 1) Invece di utilizzare latenti codificati da codec audio come caratteristica intermedia, abbiamo scelto lo spettrogramma poiché separa efficacemente la fase dagli altri attributi. La fase può essere opportunamente ricostruita dal vocoder basato su GAN e non necessita di essere modellata dal modello linguistico. 2) Modelliamo il timbro utilizzando vettori globali, poiché il timbro è un attributo globale che cambia lentamente nel tempo. 3) Utilizziamo inoltre un modello acustico basato su VQGAN per generare lo spettrogramma e un modello linguistico a codice latente per adattare la distribuzione della prosodia, dato che la prosodia cambia rapidamente nel tempo all'interno di una frase, e i modelli linguistici possono catturare sia dipendenze locali che a lungo raggio. Abbiamo ridimensionato Mega-TTS su dataset multi-dominio con 20.000 ore di parlato e valutato le sue prestazioni su parlatori non visti. I risultati sperimentali dimostrano che Mega-TTS supera i sistemi di sintesi vocale all'avanguardia nei compiti di sintesi vocale zero-shot, editing vocale e sintesi vocale cross-linguale, con una naturalezza, robustezza e somiglianza del parlante superiori, grazie ai corretti bias induttivi di ciascun modulo. Campioni audio sono disponibili su https://mega-tts.github.io/demo-page.
Presentiamo MotionDiffuser, una rappresentazione basata su diffusione per la distribuzione congiunta delle traiettorie future di più agenti. Tale rappresentazione offre diversi vantaggi chiave: innanzitutto, il nostro modello apprende una distribuzione altamente multimodale che cattura esiti futuri diversificati. In secondo luogo, il design semplice del predittore richiede solo un singolo obiettivo di addestramento con perdita L2 e non dipende da ancoraggi di traiettoria. Terzo, il nostro modello è in grado di apprendere la distribuzione congiunta per il movimento di più agenti in modo invariante alle permutazioni. Inoltre, utilizziamo una rappresentazione compressa delle traiettorie tramite PCA, che migliora le prestazioni del modello e consente il calcolo efficiente della probabilità logaritmica esatta del campione. Successivamente, proponiamo un framework generale di campionamento vincolato che consente il campionamento controllato delle traiettorie basato su funzioni di costo differenziabili. Questa strategia abilita una serie di applicazioni come l'imposizione di regole e prior fisici o la creazione di scenari di simulazione personalizzati. MotionDiffuser può essere combinato con architetture di backbone esistenti per ottenere risultati all'avanguardia nella previsione del movimento. Otteniamo risultati di stato dell'arte per la previsione del movimento multi-agente sul Waymo Open Motion Dataset.
Recentemente, i metodi generativi 3D guidati da testo hanno compiuto progressi significativi nella produzione di texture e geometrie di alta qualità, sfruttando la proliferazione di modelli di visione-linguaggio e di diffusione di immagini su larga scala. Tuttavia, i metodi esistenti continuano a incontrare difficoltà nella creazione di avatar 3D di teste ad alta fedeltà in due aspetti principali: (1) Si basano principalmente su un modello di diffusione testo-immagine pre-addestrato, mancando della consapevolezza 3D e dei prior specifici per le teste. Ciò li rende inclini a incoerenze e distorsioni geometriche negli avatar generati. (2) Presentano limitazioni nell'editing fine-granulare, principalmente a causa delle limitazioni ereditate dai modelli di diffusione di immagini 2D pre-addestrati, che diventano più evidenti quando si tratta di avatar 3D di teste. In questo lavoro, affrontiamo queste sfide introducendo una pipeline versatile da grossolana a fine, denominata HeadSculpt, per la creazione (cioè generazione e modifica) di avatar 3D di teste a partire da prompt testuali. Nello specifico, dotiamo prima il modello di diffusione di consapevolezza 3D sfruttando controlli basati su landmark e un embedding testuale appreso che rappresenta l'aspetto della vista posteriore delle teste, consentendo generazioni di avatar 3D consistenti. Proponiamo inoltre una nuova strategia di distillazione del punteggio di editing consapevole dell'identità per ottimizzare una mesh texturizzata con una tecnica di rendering differenziabile ad alta risoluzione. Ciò permette di preservare l'identità mentre si seguono le istruzioni di modifica. Dimostriamo la superiorità di HeadSculpt in termini di fedeltà e capacità di editing attraverso esperimenti completi e confronti con i metodi esistenti.
Proponiamo PolyVoice, un framework basato su modelli linguistici per un sistema di traduzione da voce a voce (S2ST). Il nostro framework è composto da due modelli linguistici: un modello linguistico di traduzione e un modello linguistico di sintesi vocale. Utilizziamo unità vocali discretizzate, generate in modo completamente non supervisionato, consentendo così al nostro framework di essere applicato a lingue non scritte. Per la parte di sintesi vocale, adottiamo l'approccio esistente di VALL-E X e costruiamo un modello linguistico audio basato su unità. Ciò conferisce al nostro framework la capacità di preservare le caratteristiche vocali e lo stile di parlato del discorso originale. Testiamo il nostro sistema sulle coppie cinese ⇒ inglese e inglese ⇒ spagnolo. I risultati sperimentali dimostrano che il nostro sistema è in grado di generare discorsi con elevata qualità di traduzione e qualità audio. Campioni vocali sono disponibili all'indirizzo https://speechtranslation.github.io/polyvoice.
Le reti neurali ternarie e binarie consentono calcoli senza moltiplicazioni e promettono guadagni di efficienza di diversi ordini di grandezza rispetto alle reti a precisione completa se implementate su hardware specializzato. Tuttavia, poiché sia lo spazio dei parametri che quello degli output sono altamente discretizzati, tali reti si sono rivelate molto difficili da ottimizzare. Le difficoltà sono ulteriormente accentuate per la classe di modelli di generazione di testo basati su transformer, a causa della sensibilità dell'operazione di attenzione alla quantizzazione e degli effetti di accumulo del rumore nel decoding autoregressivo nello spazio degli output ad alta cardinalità. Affrontiamo il problema con un mix di quantizzazione basata su statistiche per i pesi e quantizzazione elastica delle attivazioni, e dimostriamo i primi modelli transformer ternari e binari sui task di riassunto e traduzione automatica. Il nostro modello ternario BART base ottiene un punteggio R1 di 41 sul benchmark CNN/DailyMail, che è solo 3,9 punti inferiore al modello completo pur essendo 16 volte più efficiente. Il nostro modello binario, sebbene meno accurato, raggiunge un punteggio altamente significativo di 35,6. Per la traduzione automatica, abbiamo ottenuto punteggi BLEU di 21,7 e 17,6 sul benchmark WMT16 En-Ro, rispetto a un punteggio di 26,8 del modello mBART a precisione completa. Confrontiamo inoltre il nostro approccio nell'impostazione delle attivazioni a 8 bit, dove i nostri modelli con pesi ternari e persino binari possono eguagliare o superare i migliori modelli con pesi a 8 bit esistenti in letteratura. Il nostro codice e i nostri modelli sono disponibili all'indirizzo: https://github.com/facebookresearch/Ternary_Binary_Transformer
La ricostruzione di superfici neurali si è dimostrata potente per il recupero di superfici 3D dense attraverso il rendering neurale basato su immagini. Tuttavia, i metodi attuali faticano a recuperare le strutture dettagliate delle scene del mondo reale. Per affrontare questo problema, presentiamo Neuralangelo, che combina il potere rappresentativo delle griglie 3D multi-risoluzione con il rendering neurale di superfici. Due ingredienti chiave abilitano il nostro approccio: (1) gradienti numerici per il calcolo di derivate di ordine superiore come operazione di smoothing e (2) ottimizzazione da grossolana a fine sulle griglie hash che controllano diversi livelli di dettaglio. Anche senza input ausiliari come la profondità, Neuralangelo può recuperare efficacemente strutture di superficie 3D dense da immagini multi-vista con una fedeltà che supera significativamente i metodi precedenti, consentendo la ricostruzione dettagliata di scene su larga scala da acquisizioni video RGB.
I modelli probabilistici di diffusione denoising hanno rivoluzionato la generazione di immagini grazie alla loro impressionante fedeltà e diversità. Dimostriamo che eccellono anche nella stima del flusso ottico e della profondità monoculare, sorprendentemente, senza l'uso di architetture e funzioni di perdita specifiche per questi compiti, che sono invece predominanti. Rispetto alle stime puntuali dei metodi convenzionali basati sulla regressione, i modelli di diffusione consentono anche l'inferenza Monte Carlo, ad esempio, catturando incertezza e ambiguità nel flusso e nella profondità. Con un pre-addestramento auto-supervisionato, l'uso combinato di dati sintetici e reali per l'addestramento supervisionato, e innovazioni tecniche (come il riempimento e l'addestramento di diffusione denoising con srotolamento dei passi) per gestire dati di addestramento rumorosi e incompleti, e una semplice forma di raffinamento da grossolano a fine, è possibile addestrare modelli di diffusione all'avanguardia per la stima della profondità e del flusso ottico. Esperimenti estesi si concentrano sulle prestazioni quantitative rispetto ai benchmark, sulle ablazioni, e sulla capacità del modello di catturare incertezza e multimodalità, e di imputare valori mancanti. Il nostro modello, DDVM (Denoising Diffusion Vision Model), ottiene un errore relativo di profondità all'avanguardia di 0.074 sul benchmark indoor NYU e un tasso di outlier Fl-all del 3.26% sul benchmark KITTI per il flusso ottico, circa il 25% migliore rispetto al miglior metodo pubblicato. Per una panoramica, consultare https://diffusion-vision.github.io.
I modelli linguistici di grandi dimensioni addestrati sul codice hanno dimostrato un grande potenziale nell'aumentare la produttività degli sviluppatori software. Diversi benchmark basati sull'esecuzione sono stati proposti per valutare la correttezza funzionale del codice generato dai modelli su semplici problemi di programmazione. Tuttavia, è costoso eseguire la stessa valutazione su progetti complessi del mondo reale, considerando i costi di esecuzione. Al contrario, strumenti di analisi statica come i linter, che possono rilevare errori senza eseguire il programma, non sono stati sufficientemente esplorati per valutare i modelli di generazione del codice. In questo lavoro, proponiamo un framework di valutazione statica per quantificare gli errori statici nei completamenti di codice Python, sfruttando gli Abstract Syntax Tree. Rispetto alla valutazione basata sull'esecuzione, il nostro metodo non è solo più efficiente, ma anche applicabile al codice in contesti reali. Per gli esperimenti, raccogliamo contesti di codice da repository open source per generare un milione di corpi di funzione utilizzando modelli pubblici. La nostra analisi statica rivela che "Undefined Name" e "Unused Variable" sono gli errori più comuni tra quelli commessi dai modelli linguistici. Attraverso studi approfonditi, mostriamo anche l'impatto della temperatura di campionamento, della dimensione del modello e del contesto sugli errori statici nei completamenti di codice.
Questo articolo tecnico introduce un sistema di robot conversazionale che sfrutta i recenti progressi nei modelli linguistici su larga scala (LLM) come GPT-3 e ChatGPT. Il sistema è integrato con un generatore di gesti co-verbali, che seleziona i gesti appropriati in base al significato concettuale del discorso. La nostra motivazione è esplorare modi per utilizzare i recenti progressi negli LLM in applicazioni robotiche pratiche, il che avvantaggia lo sviluppo sia dei chatbot che degli LLM. Nello specifico, consente lo sviluppo di sistemi di chatbot altamente reattivi sfruttando gli LLM e aggiunge effetti visivi all'interfaccia utente degli LLM come valore aggiunto. Il codice sorgente del sistema è disponibile su GitHub per il nostro robot interno (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) e su GitHub per il Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).
Presentiamo Semantic Interpreter, un sistema AI compatibile con il linguaggio naturale per software di produttività come Microsoft Office, che sfrutta i grandi modelli linguistici (LLM) per eseguire l'intento dell'utente attraverso le funzionalità delle applicazioni. Sebbene i LLM siano eccellenti nel comprendere l'intento dell'utente espresso in linguaggio naturale, non sono sufficienti per soddisfare l'intento specifico dell'applicazione che richiede più di semplici trasformazioni da testo a testo. Introduciamo quindi l'Office Domain Specific Language (ODSL), un linguaggio conciso e di alto livello specializzato per eseguire azioni e interagire con entità nelle applicazioni Office. Semantic Interpreter utilizza un metodo di costruzione di prompt di Analisi-Recupero con LLM per la sintesi di programmi, traducendo le espressioni in linguaggio naturale dell'utente in programmi ODSL che possono essere transpilati nelle API dell'applicazione e poi eseguiti. Concentriamo la nostra discussione principalmente su un'esplorazione di ricerca per Microsoft PowerPoint.
La cancellazione concettuale mira a rimuovere caratteristiche specifiche da una rappresentazione. Può essere utilizzata per migliorare l'equità (ad esempio, impedendo a un classificatore di utilizzare il genere o la razza) e l'interpretabilità (ad esempio, rimuovendo un concetto per osservare i cambiamenti nel comportamento del modello). In questo articolo, introduciamo LEAst-squares Concept Erasure (LEACE), un metodo in forma chiusa che impedisce in modo dimostrabile a tutti i classificatori lineari di rilevare un concetto, infliggendo il minor danno possibile alla rappresentazione. Applichiamo LEACE a modelli linguistici di grandi dimensioni con una nuova procedura chiamata "pulizia concettuale", che cancella le informazioni sul concetto target da ogni livello della rete. Dimostriamo l'utilità del nostro metodo su due compiti: misurare la dipendenza dei modelli linguistici dalle informazioni sulle parti del discorso e ridurre il bias di genere negli embedding di BERT. Il codice è disponibile all'indirizzo https://github.com/EleutherAI/concept-erasure.
Con lo sviluppo dei grandi modelli linguistici, molti sistemi linguistici notevoli come ChatGPT sono fioriti e hanno ottenuto un successo straordinario in numerosi compiti, dimostrando l'incredibile potenza dei modelli di base. Con l'obiettivo di sfruttare le capacità dei modelli di base nei compiti visivi, è stato recentemente proposto il Segment Anything Model (SAM), un modello di base visivo per la segmentazione delle immagini, che mostra una forte capacità zero-shot in molti compiti downstream 2D. Tuttavia, la possibilità di adattare SAM ai compiti di visione 3D deve ancora essere esplorata, in particolare nel rilevamento di oggetti 3D. Con questa ispirazione, in questo articolo esploriamo l'adattamento della capacità zero-shot di SAM al rilevamento di oggetti 3D. Proponiamo una pipeline di elaborazione BEV alimentata da SAM per rilevare oggetti e otteniamo risultati promettenti sul vasto dataset aperto Waymo. Come un primo tentativo, il nostro metodo compie un passo verso il rilevamento di oggetti 3D con modelli di base visivi e presenta l'opportunità di sfruttare il loro potenziale nei compiti di visione 3D. Il codice è rilasciato all'indirizzo https://github.com/DYZhang09/SAM3D.
I grandi modelli linguistici per il codice (Code-LLMs) hanno recentemente portato enormi progressi nel completamento del codice, una funzionalità fondamentale dell'assistenza alla programmazione e dell'intelligenza del codice. Tuttavia, la maggior parte dei lavori esistenti ignora la possibile presenza di bug nel contesto del codice utilizzato per la generazione, che sono inevitabili nello sviluppo del software. Pertanto, introduciamo e studiamo il problema del completamento del codice con bug, ispirati dallo scenario realistico dei suggerimenti di codice in tempo reale in cui il contesto del codice contiene potenziali bug — anti-pattern che possono trasformarsi in bug nel programma completato. Per studiare sistematicamente il compito, introduciamo due dataset: uno con bug sintetici derivati da cambiamenti di operatori che alterano la semantica (buggy-HumanEval) e uno con bug realistici derivati da invii di utenti a problemi di codifica (buggy-FixEval). Troviamo che la presenza di potenziali bug degrada significativamente le prestazioni di generazione degli Code-LLM ad alte prestazioni. Ad esempio, i tassi di successo di CodeGen-2B-mono sui casi di test di buggy-HumanEval diminuiscono di oltre il 50% in presenza di un singolo potenziale bug nel contesto. Infine, indaghiamo diversi metodi post-hoc per mitigare l'effetto negativo dei potenziali bug e troviamo che rimane un ampio divario nelle prestazioni post-mitigazione.
I modelli autoregressivi per il testo a volte generano output ripetitivi e di bassa qualità a causa dell'accumulo di errori durante i passaggi di generazione. Questo problema è spesso attribuito al bias di esposizione - la differenza tra come un modello viene addestrato e come viene utilizzato durante l'inferenza. I modelli di diffusione con denoising offrono un approccio alternativo in cui un modello può rivedere e correggere il proprio output. Tuttavia, possono essere computazionalmente costosi e i precedenti tentativi sul testo hanno portato a modelli che producono output meno fluido rispetto ai modelli autoregressivi, specialmente per testi e paragrafi più lunghi. In questo articolo, proponiamo PLANNER, un modello che combina la diffusione semantica latente con la generazione autoregressiva, per generare testo fluido esercitando un controllo globale sui paragrafi. Il modello raggiunge questo obiettivo combinando un modulo di "decodifica" autoregressivo con un modulo di "pianificazione" che utilizza la diffusione latente per generare incorporamenti semantici di paragrafi in modo da grossolano a fine. Il metodo proposto viene valutato su vari task di generazione condizionata, e i risultati sulla generazione semantica, completamento del testo e riassunto dimostrano la sua efficacia nel generare testi lunghi di alta qualità in modo efficiente.
I modelli visione-linguaggio (VLMs) pre-addestrati in modo discriminativo con funzioni di perdita di corrispondenza immagine-testo contrastive come P(match|testo, immagine) sono stati criticati per la mancanza di comprensione composizionale. Ciò significa che potrebbero restituire punteggi simili anche se la didascalia originale viene riorganizzata in un'affermazione semantica diversa. Per affrontare questo problema, proponiamo di utilizzare il {bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score ({bf VisualGPTScore}) di P(testo|immagine), un punteggio generativo multimodale che cattura la probabilità di una didascalia testuale condizionata a un'immagine utilizzando un modello linguistico condizionato all'immagine. Contrariamente alla convinzione che i VLMs siano semplici modelli bag-of-words, il nostro VisualGPTScore pronto all'uso dimostra prestazioni di alto livello su benchmark recentemente proposti per il recupero immagine-testo come ARO e Crepe, che valutano il ragionamento composizionale. Inoltre, fattorizziamo VisualGPTScore in un prodotto della marginale P(testo) e dell'Informazione Mutua Puntuale (PMI). Questo aiuta a (a) diagnosticare dataset con un forte bias linguistico e (b) correggere i risultati su altri benchmark come Winoground utilizzando un framework teorico dell'informazione. VisualGPTScore fornisce intuizioni preziose e rappresenta una solida baseline per la futura valutazione della composizionalità visuo-linguistica.
I modelli di testo-video su larga scala addestrati su dati di dimensioni internet hanno dimostrato capacità eccezionali nella generazione di video ad alta fedeltà a partire da descrizioni testuali arbitrarie. Tuttavia, adattare questi modelli a compiti con dati specifici di dominio limitati, come video di animazione o robotica, rappresenta una sfida computazionale significativa, poiché il fine-tuning di un modello pre-addestrato di grandi dimensioni può essere proibitivamente costoso. Ispirati da come un piccolo componente modificabile (ad esempio, prompt, prefix-tuning) può adattare un modello linguistico di grandi dimensioni per eseguire nuovi compiti senza richiedere l'accesso ai pesi del modello, abbiamo studiato come adattare un modello pre-addestrato di testo-video di grandi dimensioni a una varietà di domini e compiti downstream senza fine-tuning. Nel rispondere a questa domanda, proponiamo Video Adapter, che sfrutta la funzione di punteggio di un modello di diffusione video pre-addestrato di grandi dimensioni come prior probabilistico per guidare la generazione di un piccolo modello video specifico per il compito. I nostri esperimenti mostrano che Video Adapter è in grado di incorporare la vasta conoscenza e preservare l'alta fedeltà di un modello video pre-addestrato di grandi dimensioni in un piccolo modello video specifico per il compito, che è in grado di generare video di alta qualità ma specializzati su una varietà di compiti come animazione, modellazione egocentrica e modellazione di dati robotici simulati e del mondo reale. Altri video sono disponibili sul sito https://video-adapter.github.io/.
Le vulnerabilità del software comportano costi significativi per le aziende. Nonostante gli sforzi estesi nella ricerca e nello sviluppo di metodi per il rilevamento delle vulnerabilità del software, le vulnerabilità non individuate continuano a mettere a rischio i proprietari e gli utenti del software. Molti degli attuali metodi di rilevamento delle vulnerabilità richiedono che i frammenti di codice possano essere compilati e costruiti prima di tentare il rilevamento. Questo, purtroppo, introduce una lunga latenza tra il momento in cui una vulnerabilità viene introdotta e il momento in cui viene rimossa, il che può aumentare sostanzialmente il costo di riparazione di una vulnerabilità. Riconosciamo che i progressi attuali nel machine learning possono essere utilizzati per rilevare modelli di codice vulnerabile in frammenti di codice sintatticamente incompleti mentre lo sviluppatore sta scrivendo il codice, in tempo reale (EditTime). In questo articolo presentiamo un sistema pratico che sfrutta il deep learning su un ampio dataset di modelli di codice vulnerabile per apprendere manifestazioni complesse di oltre 250 tipi di vulnerabilità e rilevare modelli di codice vulnerabile in tempo reale. Discutiamo approcci zero-shot, few-shot e di fine-tuning su modelli linguistici pre-addestrati all'avanguardia (Large Language Models, LLMs). Dimostriamo che, rispetto ai modelli di rilevamento delle vulnerabilità all'avanguardia, il nostro approccio migliora lo stato dell'arte del 10%. Valutiamo inoltre il nostro approccio per rilevare vulnerabilità nel codice generato automaticamente da LLMs. La valutazione su un benchmark di scenari di codice ad alto rischio mostra una riduzione delle vulnerabilità fino al 90%.