Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) sono ora impiegati nell'uso quotidiano e si prevede che produrranno grandi quantità di testo nel prossimo decennio. Il testo generato automaticamente potrebbe sostituire quello scritto da esseri umani su Internet e ha il potenziale di essere utilizzato per scopi malevoli, come attacchi di spearphishing e bot sui social media. La filigrana digitale è una strategia semplice ed efficace per mitigare tali danni, consentendo il rilevamento e la documentazione del testo generato da LLM. Tuttavia, rimane una domanda cruciale: quanto è affidabile la filigrana in contesti realistici nel mondo reale? In tali contesti, il testo con filigrana potrebbe essere mescolato con altre fonti di testo, parafrasato da scrittori umani o altri modelli linguistici, e utilizzato per applicazioni in un ampio numero di domini, sia sociali che tecnici. In questo articolo, esploriamo diversi schemi di rilevamento, quantifichiamo la loro efficacia nel rilevare le filigrane e determiniamo quanto testo generato automaticamente deve essere osservato in ogni scenario per rilevare in modo affidabile la filigrana. In particolare, evidenziamo il nostro studio umano, in cui indaghiamo l'affidabilità della filigrana di fronte alla parafrasi umana. Confrontiamo il rilevamento basato su filigrana con altre strategie di rilevamento, riscontrando in generale che la filigrana è una soluzione affidabile, soprattutto per la sua complessità campionaria: per tutti gli attacchi che consideriamo, l'evidenza della filigrana si accumula man mano che vengono forniti più esempi, e la filigrana viene infine rilevata.
I modelli linguistici di grandi dimensioni sintonizzati su istruzioni hanno rivoluzionato l'elaborazione del linguaggio naturale e hanno dimostrato un grande potenziale in applicazioni come gli agenti conversazionali. Questi modelli, come GPT-4, non solo padroneggiano il linguaggio ma sono anche in grado di risolvere compiti complessi in aree come la matematica, la programmazione, la medicina e il diritto. Nonostante le loro impressionanti capacità, manca ancora una comprensione completa del loro pieno potenziale, principalmente a causa della natura "black-box" di molti modelli e dell'assenza di studi di valutazione olistici. Per affrontare queste sfide, presentiamo INSTRUCTEVAL, una suite di valutazione più completa progettata specificamente per i modelli linguistici di grandi dimensioni sintonizzati su istruzioni. A differenza dei lavori precedenti, la nostra valutazione prevede un'analisi rigorosa dei modelli basata sulla risoluzione di problemi, la capacità di scrittura e l'allineamento ai valori umani. Adottiamo un approccio olistico per analizzare vari fattori che influenzano le prestazioni del modello, tra cui la base di pre-addestramento, i dati di sintonizzazione su istruzioni e i metodi di addestramento. I nostri risultati rivelano che la qualità dei dati di istruzione è il fattore più cruciale per scalare le prestazioni del modello. Mentre i modelli open-source dimostrano impressionanti capacità di scrittura, c'è un ampio margine di miglioramento nella risoluzione dei problemi e nell'allineamento. Siamo incoraggiati dal rapido sviluppo dei modelli da parte della comunità open-source, ma sottolineiamo anche la necessità di una valutazione rigorosa per supportare le affermazioni fatte su questi modelli. Attraverso INSTRUCTEVAL, miriamo a favorire una comprensione più profonda dei modelli sintonizzati su istruzioni e a promuovere progressi nelle loro capacità. INSTRUCTEVAL è disponibile pubblicamente all'indirizzo https://github.com/declare-lab/instruct-eval.
Il tuning delle istruzioni per i grandi modelli linguistici (LLM) rimane un compito impegnativo, a causa della complessità nella selezione degli iperparametri e delle difficoltà legate alla valutazione dei modelli ottimizzati. Per determinare gli iperparametri ottimali, è essenziale disporre di un benchmark di valutazione automatico, robusto e affidabile. Tuttavia, stabilire un tale benchmark non è un compito banale, a causa delle sfide legate all'accuratezza della valutazione e alla protezione della privacy. In risposta a queste sfide, introduciamo un modello linguistico di giudizio, denominato PandaLM, addestrato per distinguere il modello superiore tra diversi LLM. L'attenzione di PandaLM si estende oltre la semplice correttezza oggettiva delle risposte, che è il focus principale dei tradizionali dataset di valutazione. Esso affronta fattori soggettivi cruciali come la relativa concisione, chiarezza, aderenza alle istruzioni, completezza e formalità. Per garantire l'affidabilità di PandaLM, raccogliamo un dataset di test diversificato e annotato manualmente, in cui tutti i contesti sono generati da esseri umani e le etichette sono allineate con le preferenze umane. I nostri risultati indicano che PandaLM-7B raggiunge il 93,75% della capacità di valutazione di GPT-3.5 e l'88,28% di GPT-4 in termini di F1-score sul nostro dataset di test. PandaLM consente una valutazione più equa degli LLM con costi ridotti, come dimostrato dai significativi miglioramenti ottenuti dai modelli ottimizzati tramite PandaLM rispetto alle loro controparti addestrate con gli iperparametri predefiniti di Alpaca. Inoltre, PandaLM non dipende da valutazioni basate su API, evitando così potenziali perdite di dati. Tutte le risorse di PandaLM sono rilasciate su https://github.com/WeOpenML/PandaLM.
Forniamo nuove stime di un limite superiore asintotico per l'entropia dell'inglese utilizzando il modello linguistico su larga scala LLaMA-7B come predittore per il token successivo dato una finestra di token precedenti. Questa stima è significativamente più piccola rispetto alle stime attualmente disponibili in cover1978convergent e lutati2023focus. Un sottoprodotto naturale è un algoritmo per la compressione senza perdita di dati di testi in inglese che combina la previsione del modello linguistico su larga scala con uno schema di compressione senza perdita. I risultati preliminari di esperimenti limitati suggeriscono che il nostro schema supera gli schemi di compressione testuale all'avanguardia come BSC, ZPAQ e paq8h.
In questo lavoro esploriamo i recenti progressi nel fine-tuning di modelli linguistici su un'ampia gamma di dataset aperti per il seguimento di istruzioni. Nonostante le recenti affermazioni secondo cui i modelli aperti possono competere con i modelli proprietari all'avanguardia, queste affermazioni sono spesso accompagnate da valutazioni limitate, rendendo difficile confrontare i modelli in modo completo e determinare l'utilità delle varie risorse. Forniamo un ampio set di modelli fine-tuned su istruzioni, con dimensioni che vanno da 6,7B a 65B parametri, addestrati su 12 dataset di istruzioni che spaziano da quelli curati manualmente (ad esempio, OpenAssistant) a quelli sintetici e distillati (ad esempio, Alpaca), e li valutiamo sistematicamente in termini di conoscenza fattuale, ragionamento, multilinguità, capacità di programmazione e seguimento di istruzioni aperte attraverso una raccolta di metriche automatiche, basate su modelli e basate su valutazioni umane. Introduciamo inoltre T\"ulu, la nostra suite di modelli fine-tuned su istruzioni con le migliori prestazioni, ottimizzata su una combinazione di risorse aperte di alta qualità. I nostri esperimenti dimostrano che diversi dataset di fine-tuning su istruzioni possono scoprire o potenziare competenze specifiche, mentre nessun singolo dataset (o combinazione) fornisce le migliori prestazioni in tutte le valutazioni. Interessante notare che le valutazioni basate sulle preferenze del modello e degli umani non riflettono le differenze nelle capacità dei modelli evidenziate dalle valutazioni basate su benchmark, suggerendo la necessità del tipo di valutazione sistematica condotta in questo lavoro. Le nostre valutazioni mostrano che il miglior modello in una determinata valutazione raggiunge in media l'83% delle prestazioni di ChatGPT e il 68% di quelle di GPT-4, suggerendo che sono necessari ulteriori investimenti nella costruzione di modelli di base e dati di fine-tuning su istruzioni migliori per colmare il divario. Rilasciamo i nostri modelli fine-tuned su istruzioni, incluso un T\"ulu completamente fine-tuned da 65B, insieme al nostro codice, dati e framework di valutazione all'indirizzo https://github.com/allenai/open-instruct per facilitare la ricerca futura.
La stima di forme articolate 3D, come i corpi degli animali, a partire da immagini monoculari è intrinsecamente complessa a causa delle ambiguità legate al punto di vista della telecamera, alla posa, alla texture, all'illuminazione, ecc. Proponiamo ARTIC3D, un framework auto-supervisionato per ricostruire forme 3D specifiche per ogni istanza da una raccolta sparsa di immagini in contesti non controllati. Nello specifico, ARTIC3D si basa su una rappresentazione della superficie basata su uno scheletro ed è ulteriormente guidato da prior di diffusione 2D provenienti da Stable Diffusion. In primo luogo, miglioriamo le immagini di input con occlusioni/troncature tramite diffusione 2D per ottenere stime più pulite delle maschere e delle caratteristiche semantiche. In secondo luogo, eseguiamo un'ottimizzazione 3D guidata dalla diffusione per stimare forma e texture che siano ad alta fedeltà e fedeli alle immagini di input. Proponiamo inoltre una nuova tecnica per calcolare gradienti a livello di immagine più stabili tramite modelli di diffusione rispetto alle alternative esistenti. Infine, produciamo animazioni realistiche affinando la forma e la texture renderizzate sotto trasformazioni rigide delle parti. Valutazioni estese su più dataset esistenti, nonché su nuove raccolte di immagini web rumorose con occlusioni e troncature, dimostrano che gli output di ARTIC3D sono più robusti rispetto alle immagini rumorose, di qualità superiore in termini di dettagli di forma e texture, e più realistici quando animati. Pagina del progetto: https://chhankyao.github.io/artic3d/
Il dispiegamento di modelli NMT su dispositivi mobili è essenziale per garantire privacy, bassa latenza e scenari offline. Per ottenere un'elevata capacità del modello, i modelli NMT sono piuttosto grandi. Eseguire questi modelli sui dispositivi è impegnativo a causa della limitata capacità di archiviazione, memoria, elaborazione e consumo energetico. Il lavoro esistente si concentra principalmente su una singola metrica, come i FLOP, o su motori generali che non sono ottimizzati per il decoding auto-regressivo. In questo articolo, presentiamo MobileNMT, un sistema in grado di tradurre in 15MB e 30ms sui dispositivi. Proponiamo una serie di principi per la compressione del modello quando combinata con la quantizzazione. Inoltre, implementiamo un motore che è compatibile con INT8 e il decoding. Con la co-progettazione del modello e del motore, rispetto al sistema esistente, acceleriamo di 47,0x e risparmiamo il 99,5% della memoria con una perdita di solo l'11,6% del punteggio BLEU. Il codice è disponibile pubblicamente all'indirizzo https://github.com/zjersey/Lightseq-ARM.
La crescente dipendenza dai Large Language Models (LLM) in ambito accademico e industriale rende necessaria una comprensione approfondita della loro robustezza rispetto ai prompt. In risposta a questa esigenza cruciale, introduciamo PromptBench, un benchmark di robustezza progettato per misurare la resilienza dei LLM ai prompt avversari. Questo studio utilizza una vasta gamma di attacchi testuali avversari rivolti ai prompt a più livelli: carattere, parola, frase e semantico. Questi prompt vengono poi impiegati in diverse attività, come l'analisi del sentiment, l'inferenza del linguaggio naturale, la comprensione della lettura, la traduzione automatica e la risoluzione di problemi matematici. Il nostro studio genera 4.032 prompt avversari, valutati meticolosamente su 8 attività e 13 dataset, con un totale di 567.084 campioni di test. I nostri risultati dimostrano che i LLM contemporanei sono vulnerabili ai prompt avversari. Inoltre, presentiamo un'analisi completa per comprendere il mistero dietro la robustezza dei prompt e la sua trasferibilità. Offriamo quindi un'analisi approfondita della robustezza e raccomandazioni pragmatiche per la composizione dei prompt, utili sia ai ricercatori che agli utenti quotidiani. Rendiamo pubblicamente accessibili il nostro codice, i prompt e le metodologie per generare prompt avversari, favorendo e incoraggiando l'esplorazione collaborativa in questo campo cruciale: https://github.com/microsoft/promptbench.
StableDiffusion è un rivoluzionario generatore di immagini da testo che sta suscitando grande interesse nel campo della generazione e modifica di immagini. A differenza dei metodi tradizionali che apprendono un modello di diffusione nello spazio dei pixel, StableDiffusion apprende un modello di diffusione nello spazio latente tramite un VQGAN, garantendo sia efficienza che qualità. Non solo supporta compiti di generazione di immagini, ma consente anche la modifica di immagini reali, come l'inpainting e la modifica locale. Tuttavia, abbiamo osservato che il VQGAN standard utilizzato in StableDiffusion porta a una significativa perdita di informazioni, causando artefatti di distorsione anche nelle regioni dell'immagine non modificate. A tal fine, proponiamo un nuovo VQGAN asimmetrico con due semplici design. In primo luogo, oltre all'input proveniente dall'encoder, il decoder contiene un ramo condizionale che incorpora informazioni da prior specifici del compito, come la regione dell'immagine non mascherata nell'inpainting. In secondo luogo, il decoder è molto più pesante dell'encoder, consentendo un recupero più dettagliato mentre aumenta solo leggermente il costo totale dell'inferenza. Il costo di addestramento del nostro VQGAN asimmetrico è basso, e abbiamo bisogno solo di riaddestrare un nuovo decoder asimmetrico mantenendo invariati l'encoder VQGAN standard e StableDiffusion. Il nostro VQGAN asimmetrico può essere ampiamente utilizzato nei metodi di inpainting e modifica locale basati su StableDiffusion. Esperimenti estensivi dimostrano che può migliorare significativamente le prestazioni di inpainting e modifica, mantenendo al contempo la capacità originale di generazione di immagini da testo. Il codice è disponibile all'indirizzo https://github.com/buxiangzhiren/Asymmetric_VQGAN.
Per promuovere lo sviluppo del pre-addestramento visione-linguaggio (VLP) e dei modelli linguistici multimodali di grandi dimensioni (LLM) nella comunità cinese, rilasciamo per la prima volta il più grande dataset pubblico cinese di alta qualità video-linguaggio, denominato Youku-mPLUG. Questo dataset è stato raccolto da Youku, un noto sito cinese di condivisione video, con criteri rigorosi di sicurezza, diversità e qualità. Youku-mPLUG contiene 10 milioni di coppie video-testo cinesi filtrate da 400 milioni di video grezzi, coprendo un'ampia gamma di 45 categorie diverse per il pre-addestramento su larga scala. Inoltre, per facilitare una valutazione completa dei modelli video-linguaggio, abbiamo costruito con cura i più grandi benchmark cinesi annotati manualmente, che coprono tre popolari task video-linguaggio: recupero cross-modale, descrizione video e classificazione delle categorie video. Youku-mPLUG consente ai ricercatori di condurre ricerche multimodali più approfondite e di sviluppare applicazioni migliori in futuro. Inoltre, rilasciamo i popolari modelli di pre-addestramento video-linguaggio, ALPRO e mPLUG-2, e il nostro modello proposto con solo decoder modulare, mPLUG-video, pre-addestrato su Youku-mPLUG. Gli esperimenti mostrano che i modelli pre-addestrati su Youku-mPLUG ottengono un miglioramento fino al 23,1% nella classificazione delle categorie video. Inoltre, mPLUG-video raggiunge un nuovo stato dell'arte su questi benchmark, con un'accuratezza top-1 dell'80,5% nella classificazione delle categorie video e un punteggio CIDEr di 68,9 nella descrizione video. Infine, scaliamo mPLUG-video basandoci sul Bloomz congelato, con solo l'1,7% di parametri addestrabili, come LLM multimodale cinese, dimostrando una notevole capacità di comprensione delle istruzioni e dei video. L'esperimento di comprensione delle istruzioni zero-shot indica che il pre-addestramento con Youku-mPLUG può migliorare la capacità di comprendere la semantica visiva complessiva e dettagliata, riconoscere il testo nelle scene e sfruttare la conoscenza open-domain.