Articoli di ricerca IA selezionati quotidianamente con traduzioni
La quantizzazione post-addestramento è il metodo principale per affrontare i colli di bottiglia legati alla memoria nell'inferenza dei LLM, ma purtroppo soffre di un significativo degrado delle prestazioni al di sotto della precisione a 4 bit. Un approccio alternativo prevede l'addestramento diretto di modelli compressi a bassa larghezza di bit (ad esempio, modelli binari o ternari). Tuttavia, le prestazioni, le dinamiche di addestramento e le tendenze di scalabilità di tali modelli non sono ancora ben comprese. Per affrontare questo problema, abbiamo addestrato e rilasciato pubblicamente la suite Spectra LLM, composta da 54 modelli linguistici che vanno da 99M a 3.9B di parametri, addestrati su 300B di token. Spectra include FloatLMs, QuantLMs quantizzati post-addestramento (3, 4, 6 e 8 bit) e LLM ternari (TriLMs) - la nostra architettura migliorata per la modellazione linguistica ternaria, che supera significativamente i modelli ternari precedentemente proposti di una determinata dimensione (in bit), eguagliando i modelli a precisione semplificata su larga scala. Ad esempio, il TriLM 3.9B è (in termini di bit) più piccolo del FloatLM 830M a precisione semplificata, ma eguaglia il FloatLM 3.9B a precisione semplificata nei benchmark di ragionamento di senso comune e conoscenza. Tuttavia, il TriLM 3.9B è anche altrettanto tossico e stereotipato quanto il FloatLM 3.9B, un modello sei volte più grande in termini di dimensioni. Inoltre, il TriLM 3.9B è in ritardo rispetto al FloatLM in termini di perplessità sui split di validazione e sui corpora basati sul web, ma performa meglio su dataset meno rumorosi come Lambada e PennTreeBank. Per migliorare la comprensione dei modelli a bassa larghezza di bit, stiamo rilasciando oltre 500 checkpoint intermedi della suite Spectra all'indirizzo https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.
Presentiamo GoldFinch, un modello ibrido di sequenza Linear Attention/Transformer che utilizza una nuova tecnica per generare in modo efficiente una KV-Cache altamente compressa e riutilizzabile in tempo e spazio lineari rispetto alla lunghezza della sequenza. GoldFinch combina il nostro nuovo trasformatore GOLD con una versione potenziata dell'architettura Finch (RWKV-6). Addestriamo modelli di classe fino a 1,5 miliardi di parametri per le architetture Finch, Llama e GoldFinch, riscontrando un miglioramento significativo delle prestazioni di modellazione rispetto sia a Finch che a Llama. Il risparmio nella dimensione della cache aumenta linearmente con il numero di strati del modello, risultando da 756 a 2550 volte più piccolo rispetto alla cache tradizionale dei trasformatori per dimensioni comuni, consentendo l'inferenza di contesti estremamente lunghi anche su hardware limitato. Sebbene la generazione autoregressiva abbia una complessità temporale O(n) per token a causa dell'attenzione, il calcolo preliminare dell'intero stato iniziale della cache per un contesto inviato costa solo O(1) tempo per token grazie all'uso di una rete neurale ricorrente (RNN) per generare questa cache. Rilasciamo i nostri pesi addestrati e il codice di addestramento sotto licenza Apache 2.0 per l'uso della comunità.
Gli agenti LLM hanno dimostrato prestazioni notevoli in varie applicazioni, principalmente grazie alle loro avanzate capacità di ragionamento, utilizzo di conoscenze esterne e strumenti, chiamata di API ed esecuzione di azioni per interagire con l'ambiente. Gli agenti attuali utilizzano tipicamente un modulo di memoria o un meccanismo di generazione aumentata con recupero (RAG), recuperando conoscenze passate e istanze con embedding simili da basi di conoscenza per informare la pianificazione e l'esecuzione dei compiti. Tuttavia, la dipendenza da basi di conoscenza non verificate solleva preoccupazioni significative riguardo alla loro sicurezza e affidabilità. Per scoprire tali vulnerabilità, proponiamo un nuovo approccio di red teaming chiamato AgentPoison, il primo attacco backdoor rivolto a agenti LLM generici e basati su RAG, avvelenando la loro memoria a lungo termine o la base di conoscenza RAG. In particolare, formuliamo il processo di generazione del trigger come un'ottimizzazione vincolata per ottimizzare i trigger backdoor mappando le istanze attivate in uno spazio di embedding unico, in modo da garantire che ogni volta che un'istruzione dell'utente contiene il trigger backdoor ottimizzato, le dimostrazioni malevole vengano recuperate dalla memoria o dalla base di conoscenza avvelenata con alta probabilità. Nel frattempo, le istruzioni benigne senza il trigger manterranno comunque prestazioni normali. A differenza degli attacchi backdoor convenzionali, AgentPoison non richiede ulteriori addestramenti o fine-tuning del modello, e il trigger backdoor ottimizzato mostra una superiore trasferibilità, coerenza contestuale e furtività. Esperimenti estensivi dimostrano l'efficacia di AgentPoison nell'attaccare tre tipi di agenti LLM del mondo reale: agente di guida autonoma basato su RAG, agente di QA ad alta intensità di conoscenza e agente sanitario EHRAgent. Su ciascun agente, AgentPoison raggiunge un tasso di successo medio dell'attacco superiore all'80% con un impatto minimo sulle prestazioni benigne (inferiore all'1%) e un tasso di avvelenamento inferiore allo 0,1%.
I modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno mostrato progressi promettenti nella comprensione generale di immagini e linguaggio. Tuttavia, la rappresentazione delle informazioni multimodali utilizzando MLLMs rimane in gran parte inesplorata. In questo lavoro, introduciamo un nuovo framework, E5-V, progettato per adattare gli MLLMs al fine di ottenere embedding multimodali universali. I nostri risultati evidenziano il significativo potenziale degli MLLMs nel rappresentare input multimodali rispetto agli approcci precedenti. Sfruttando gli MLLMs con prompt, E5-V colma efficacemente il divario tra le modalità di diversi tipi di input, dimostrando prestazioni solide negli embedding multimodali anche senza fine-tuning. Proponiamo un approccio di addestramento a singola modalità per E5-V, in cui il modello viene addestrato esclusivamente su coppie di testo. Questo metodo dimostra miglioramenti significativi rispetto all'addestramento multimodale tradizionale su coppie immagine-testo, riducendo i costi di addestramento di circa il 95%. Inoltre, questo approccio elimina la necessità di raccogliere costosi dati di addestramento multimodale. Esperimenti estesi su quattro tipi di task dimostrano l'efficacia di E5-V. Come modello multimodale universale, E5-V non solo raggiunge ma spesso supera le prestazioni state-of-the-art in ciascun task, nonostante sia stato addestrato su una singola modalità.
I progressi dei grandi modelli di base richiedono benchmark a ampia copertura, basso costo e zero contaminazione. Nonostante l'esplorazione continua delle valutazioni dei modelli linguistici, gli studi completi sulla valutazione dei Large Multi-modal Models (LMM) rimangono limitati. In questo lavoro, introduciamo LMMS-EVAL, un framework di benchmark multimodale unificato e standardizzato con oltre 50 task e più di 10 modelli, per promuovere valutazioni trasparenti e riproducibili. Sebbene LMMS-EVAL offra una copertura completa, riscontriamo che non riesce ancora a raggiungere bassi costi e zero contaminazione. Per affrontare questo trilemma di valutazione, introduciamo ulteriormente LMMS-EVAL LITE, un toolkit di valutazione ridotto che enfatizza sia la copertura che l'efficienza. Inoltre, presentiamo Multimodal LIVEBENCH, che utilizza notizie e forum online in continuo aggiornamento per valutare le capacità di generalizzazione dei modelli nel mondo reale, caratterizzato da un approccio di valutazione a basso costo e zero contaminazione. In sintesi, il nostro lavoro sottolinea l'importanza di considerare il trilemma di valutazione e fornisce soluzioni pratiche per navigare i compromessi nella valutazione dei grandi modelli multimodali, aprendo la strada a un benchmarking più efficace e affidabile degli LMM. Rendiamo open source il nostro codice e manteniamo la classifica di LIVEBENCH su https://github.com/EvolvingLMMs-Lab/lmms-eval e https://huggingface.co/spaces/lmms-lab/LiveBench.
Man mano che i Large Language Models (LLM) raggiungono progressi significativi nella comprensione e generazione del linguaggio, l'efficienza del loro addestramento è diventata una preoccupazione critica. Tradizionalmente, i LLM vengono addestrati a prevedere il token successivo in una sequenza. Nonostante il successo dell'addestramento a livello di token, questo approccio comporta costi computazionali considerevoli a causa della necessità di elaborare un numero esteso di token. Per mitigare questo problema, questo articolo introduce l'addestramento a livello di patch per i LLM, che riduce la lunghezza della sequenza comprimendo più token in una singola patch. Durante l'addestramento a livello di patch, forniamo al modello linguistico sequenze più brevi di patch e lo addestriamo a prevedere la patch successiva, elaborando così la maggior parte dei dati di addestramento con un costo computazionale significativamente ridotto. Successivamente, il modello continua l'addestramento a livello di token sui restanti dati di addestramento per allinearsi alla modalità di inferenza. Esperimenti condotti su una gamma diversificata di modelli (da 370M a 2.7B parametri) dimostrano che l'addestramento a livello di patch può ridurre i costi computazionali complessivi a 0.5 volte, senza compromettere le prestazioni del modello rispetto all'addestramento a livello di token. Codice sorgente: https://github.com/shaochenze/PatchTrain.
I moderni modelli di sintesi testo-video dimostrano una generazione coerente e fotorealistica di video complessi a partire da una descrizione testuale. Tuttavia, la maggior parte dei modelli esistenti manca di un controllo fine sui movimenti della telecamera, che è cruciale per applicazioni downstream legate alla creazione di contenuti, effetti visivi e visione 3D. Recentemente, nuovi metodi hanno dimostrato la capacità di generare video con pose della telecamera controllabili, sfruttando modelli di diffusione basati su U-Net pre-addestrati che separano esplicitamente la generazione spaziale e temporale. Tuttavia, nessun approccio esistente consente il controllo della telecamera per i nuovi modelli di diffusione video basati su transformer, che elaborano congiuntamente le informazioni spaziali e temporali. Qui, proponiamo di addomesticare i transformer video per il controllo della telecamera 3D utilizzando un meccanismo di condizionamento simile a ControlNet che incorpora embedding spazio-temporali della telecamera basati su coordinate di Plücker. L'approccio dimostra prestazioni all'avanguardia per la generazione video controllabile dopo il fine-tuning sul dataset RealEstate10K. Per quanto ne sappiamo, il nostro lavoro è il primo a consentire il controllo della telecamera per modelli di diffusione video basati su transformer.
I più recenti progressi hanno raggiunto un virtual try-on (VTON) realistico attraverso il completamento localizzato degli indumenti utilizzando modelli di diffusione latente, migliorando significativamente l'esperienza di acquisto online dei consumatori. Tuttavia, le attuali tecnologie VTON trascurano la necessità per i commercianti di mostrare gli indumenti in modo completo, includendo un controllo flessibile sugli abiti, volti opzionali, pose e scene. Per affrontare questo problema, definiamo un compito di virtual dressing (VD) focalizzato sulla generazione di immagini umane liberamente modificabili con indumenti fissi e condizioni opzionali. Nel frattempo, progettiamo un indice metrico di affinità completo (CAMI) per valutare la coerenza tra le immagini generate e gli indumenti di riferimento. Successivamente, proponiamo IMAGDressing-v1, che incorpora un garment UNet in grado di catturare caratteristiche semantiche da CLIP e caratteristiche di texture da VAE. Presentiamo un modulo di attenzione ibrida, che include un self-attention congelato e un cross-attention addestrabile, per integrare le caratteristiche degli indumenti dal garment UNet in un denoising UNet congelato, garantendo che gli utenti possano controllare diverse scene attraverso il testo. IMAGDressing-v1 può essere combinato con altri plugin di estensione, come ControlNet e IP-Adapter, per migliorare la diversità e la controllabilità delle immagini generate. Inoltre, per affrontare la mancanza di dati, rilasciamo il dataset interactive garment pairing (IGPair), contenente oltre 300.000 coppie di immagini di abiti e persone vestite, e stabiliamo una pipeline standard per l'assemblaggio dei dati. Esperimenti estensivi dimostrano che il nostro IMAGDressing-v1 raggiunge prestazioni all'avanguardia nella sintesi di immagini umane sotto varie condizioni controllate. Il codice e il modello saranno disponibili su https://github.com/muzishen/IMAGDressing.
La maggior parte dei modelli attuali basati su LLM per la comprensione video è in grado di elaborare video in pochi minuti. Tuttavia, questi modelli incontrano difficoltà con video di lunga durata a causa di sfide come "rumore e ridondanza", nonché vincoli di "memoria e calcolo". In questo articolo, presentiamo Goldfish, una metodologia progettata specificamente per comprendere video di lunghezza arbitraria. Introduciamo inoltre il benchmark TVQA-long, concepito appositamente per valutare le capacità dei modelli nella comprensione di video lunghi con domande relative sia al contenuto visivo che testuale. Goldfish affronta queste sfide con un meccanismo di recupero efficiente che raccoglie inizialmente i top-k clip video rilevanti per l'istruzione prima di procedere a fornire la risposta desiderata. Questo design del meccanismo di recupero consente a Goldfish di elaborare in modo efficiente sequenze video di lunghezza arbitraria, facilitando la sua applicazione in contesti come film o serie televisive. Per agevolare il processo di recupero, abbiamo sviluppato MiniGPT4-Video, che genera descrizioni dettagliate per i clip video. Per affrontare la carenza di benchmark per la valutazione di video lunghi, abbiamo adattato il benchmark TVQA per video brevi all'analisi di contenuti estesi, aggregando domande provenienti da interi episodi, spostando così la valutazione dalla comprensione parziale a quella completa dell'episodio. Abbiamo raggiunto un tasso di accuratezza del 41,78% sul benchmark TVQA-long, superando i metodi precedenti del 14,94%. Il nostro MiniGPT4-Video mostra anche prestazioni eccezionali nella comprensione di video brevi, superando i metodi state-of-the-art esistenti rispettivamente del 3,23%, 2,03%, 16,5% e 23,59% sui benchmark MSVD, MSRVTT, TGIF e TVQA per video brevi. Questi risultati indicano che i nostri modelli hanno miglioramenti significativi sia nella comprensione di video lunghi che brevi. I nostri modelli e il codice sono stati resi pubblicamente disponibili all'indirizzo https://vision-cair.github.io/Goldfish_website/.
Il ragionamento complesso è un'abilità impressionante dimostrata dai grandi modelli linguistici (LLM). La maggior parte degli LLM è abile nel ragionamento deduttivo, come il prompting a catena di pensiero o l'uso iterativo di strumenti per risolvere compiti impegnativi passo dopo passo. In questo articolo, ci concentriamo sulla valutazione e sull'insegnamento degli LLM per condurre ragionamenti induttivi, ovvero gli LLM dovrebbero inferire regole sottostanti osservando esempi o trasformazioni sequenziali. Tuttavia, raccogliere dati induttivi su larga scala e diversificati generati dall'uomo è una sfida. Ci concentriamo sulla sintesi di dati nel dominio del codice e proponiamo un'attività Case2Code sfruttando l'espressività e la correttezza dei programmi. Nello specifico, raccogliamo un insieme diversificato di programmi eseguibili, sintetizziamo trasformazioni input-output per ciascun programma e costringiamo gli LLM a inferire le implementazioni di codice sottostanti basandosi sui casi sintetici I/O. Prima valutiamo LLM rappresentativi sul compito sintetico Case2Code e dimostriamo che l'induzione da caso a codice è impegnativa per gli LLM. Successivamente, sintetizziamo un ampio numero di campioni di addestramento Case2Code per addestrare gli LLM a eseguire ragionamenti induttivi. I risultati sperimentali mostrano che tale addestramento induttivo non solo migliora le prestazioni in distribuzione di Case2Code, ma potenzia anche varie abilità di codifica degli LLM addestrati, dimostrando il grande potenziale dell'apprendimento del ragionamento induttivo tramite dati sintetici.
Mentre la maggior parte dei modelli di generazione musicale utilizza condizionamenti testuali o parametrici (ad esempio, tempo, armonia, genere musicale), noi proponiamo di condizionare un sistema di generazione musicale basato su un modello linguistico con input audio. La nostra esplorazione coinvolge due strategie distinte. La prima strategia, denominata inversione testuale, sfrutta un modello pre-addestrato di testo-a-musica per mappare l'input audio a corrispondenti "pseudoparole" nello spazio di embedding testuale. Per il secondo modello, addestriamo un modello linguistico musicale da zero congiuntamente a un condizionatore testuale e a un estrattore di feature audio quantizzate. Al momento dell'inferenza, possiamo combinare condizionamenti testuali e audio e bilanciarli grazie a un nuovo metodo di doppia guida senza classificatore. Abbiamo condotto studi automatici e umani che validano il nostro approccio. Rilasceremo il codice e forniremo campioni musicali su https://musicgenstyle.github.io per dimostrare la qualità del nostro modello.
La sintesi di nuove viste da collezioni di immagini in-the-wild non vincolate rimane un compito significativo ma impegnativo a causa delle variazioni fotometriche e degli ocludenti transienti che complicano la ricostruzione accurata della scena. I metodi precedenti hanno affrontato questi problemi integrando embedding di caratteristiche di aspetto per immagine nei Campi di Radianza Neurale (NeRF). Sebbene il 3D Gaussian Splatting (3DGS) offra un addestramento più veloce e un rendering in tempo reale, adattarlo per collezioni di immagini non vincolate non è banale a causa dell'architettura sostanzialmente diversa. In questo articolo, introduciamo Splatfacto-W, un approccio che integra caratteristiche di colore neurali per Gaussiana e embedding di aspetto per immagine nel processo di rasterizzazione, insieme a un modello di sfondo basato su armoniche sferiche per rappresentare le variazioni fotometriche e descrivere meglio gli sfondi. I nostri contributi principali includono la modellazione latente dell'aspetto, la gestione efficiente degli oggetti transienti e la modellazione precisa dello sfondo. Splatfacto-W offre una sintesi di nuove viste di alta qualità in tempo reale con una migliore coerenza della scena in scenari in-the-wild. Il nostro metodo migliora il rapporto segnale-rumore di picco (PSNR) in media di 5,3 dB rispetto al 3DGS, aumenta la velocità di addestramento di 150 volte rispetto ai metodi basati su NeRF e raggiunge una velocità di rendering simile al 3DGS. Ulteriori risultati video e il codice integrato in Nerfstudio sono disponibili all'indirizzo https://kevinxu02.github.io/splatfactow/.
La presa robotica in ambienti affollati rimane una sfida significativa a causa delle occlusioni e delle complesse disposizioni degli oggetti. Abbiamo sviluppato ThinkGrasp, un sistema di presa visione-linguaggio plug-and-play che sfrutta il ragionamento contestuale avanzato di GPT-4o per strategie di presa in ambienti molto affollati. ThinkGrasp è in grado di identificare e generare efficacemente pose di presa per oggetti target, anche quando sono fortemente ostruiti o quasi invisibili, utilizzando un linguaggio orientato agli obiettivi per guidare la rimozione degli oggetti ostruenti. Questo approccio scopre progressivamente l'oggetto target e alla fine lo afferra con pochi passaggi e un alto tasso di successo. Sia negli esperimenti simulati che in quelli reali, ThinkGrasp ha raggiunto un alto tasso di successo e ha superato significativamente i metodi all'avanguardia in ambienti molto affollati o con oggetti diversi e mai visti prima, dimostrando forti capacità di generalizzazione.
L'interfaccia grafica utente (GUI) è il mezzo attraverso cui gli utenti interagiscono con le applicazioni mobili. Per garantirne il corretto funzionamento, gli ingegneri di testing devono assicurarsi che essa operi come previsto, basandosi su requisiti di test tipicamente scritti in linguaggio naturale. Sebbene i metodi di testing manuale e basati su script, ampiamente adottati, siano efficaci, richiedono uno sforzo considerevole a causa del vasto numero di pagine GUI e delle rapide iterazioni nelle moderne applicazioni mobili. Questo articolo presenta AUITestAgent, il primo strumento automatico di testing GUI per applicazioni mobili guidato dal linguaggio naturale, in grado di automatizzare completamente l'intero processo di interazione con la GUI e di verifica delle funzionalità. Poiché i requisiti di test contengono tipicamente comandi di interazione e oracoli di verifica, AUITestAgent può estrarre le interazioni GUI dai requisiti di test attraverso agenti organizzati dinamicamente. Successivamente, AUITestAgent utilizza una strategia di estrazione dati multidimensionale per recuperare le informazioni rilevanti ai requisiti di test dalla traccia di interazione e procedere alla verifica. Esperimenti su benchmark personalizzati dimostrano che AUITestAgent supera gli strumenti esistenti nella qualità delle interazioni GUI generate e raggiunge un'accuratezza delle verifiche del 94%. Inoltre, il dispiegamento sul campo in Meituan ha mostrato l'effettiva utilità di AUITestAgent, con il rilevamento di 4 nuovi bug funzionali durante 10 test di regressione in due mesi.
Sfruttando i notevoli progressi nei Large Language Models (LLM), sta emergendo un'iniziativa per utilizzare gli LLM nella navigazione robotica basata su istruzioni. Tale tendenza sottolinea il potenziale degli LLM di generalizzare il ragionamento navigazionale e la comprensione linguistica diversificata. Tuttavia, si osserva una significativa discrepanza nelle prestazioni degli agenti quando si integrano gli LLM nei compiti di navigazione visiva e linguistica (VLN) rispetto ai precedenti modelli specializzati downstream. Inoltre, la capacità intrinseca del linguaggio di interpretare e facilitare la comunicazione nelle interazioni tra agenti è spesso sottoutilizzata in queste integrazioni. In questo lavoro, ci sforziamo di colmare il divario tra i modelli specializzati in VLN e i paradigmi di navigazione basati su LLM, mantenendo al contempo la capacità interpretativa degli LLM nella generazione di ragionamenti navigazionali linguistici. Allineando il contenuto visivo in un LLM congelato, comprendiamo l'osservazione visiva per gli LLM e sfruttiamo un modo per incorporare gli LLM e le reti di policy di navigazione per previsioni efficaci delle azioni e ragionamenti navigazionali. Dimostriamo l'efficienza dei dati dei metodi proposti ed eliminiamo il divario tra gli agenti basati su LM e i migliori specialisti VLN all'avanguardia.
Sebbene i modelli linguistici di grandi dimensioni (LLM) abbiano dimostrato prestazioni impressionanti in vari domini e compiti, i loro problemi di sicurezza sono diventati sempre più gravi. Il machine unlearning (MU) è emerso come una soluzione promettente per affrontare questi problemi rimuovendo l'influenza di dati indesiderati sul modello target senza comprometterne l'utilità in altri aspetti. Il MU assume tipicamente l'accesso completo ai dati di addestramento originali per preservare l'utilità, il che è difficile da ottenere nel contesto degli LLM. I metodi esistenti di unlearning per LLM spesso presuppongono l'accesso ai dati più influenzati dalla rimozione di dati indesiderati. Tuttavia, questa ipotesi sottovaluta l'intreccio tra le varie capacità degli LLM e ignora le limitazioni di accesso ai dati dovute a vari problemi. Inoltre, questi metodi di unlearning per LLM non considerano sufficientemente che le richieste di unlearning negli scenari reali emergono continuamente. Per superare queste sfide e raggiungere un unlearning pratico per gli LLM, proponiamo il framework O3. Il framework O3 include un rilevatore Out-Of-Distribution (OOD) per misurare la similarità tra input e dati da dimenticare, e un adattatore Orthogonal Low-Rank (LoRA) per dimenticare continuamente i dati richiesti. Il rilevatore OOD è addestrato con una nuova funzione di perdita entropica contrastiva e utilizza un meccanismo di punteggio aggregato a livello locale-globale. Il LoRA ortogonale raggiunge la separazione dei parametri tra le richieste continue di unlearning. Durante l'inferenza, il nostro framework O3 può decidere in modo intelligente se e in che misura caricare il LoRA di unlearning in base alle previsioni del rilevatore OOD. È importante notare che l'efficacia di O3 non si basa su alcun dato conservato. Abbiamo condotto esperimenti estesi su O3 e sui metodi di unlearning per LLM più avanzati su tre compiti e sette dataset. I risultati indicano che O3 raggiunge costantemente il miglior compromesso tra efficacia di unlearning e preservazione dell'utilità, specialmente di fronte a richieste continue di unlearning.
I modelli linguistici basati su chat sono progettati per essere utili, ma non dovrebbero accettare ogni richiesta dell'utente. Mentre la maggior parte del lavoro esistente si concentra principalmente sul rifiuto di query "non sicure", sosteniamo che l'ambito della non conformità dovrebbe essere ampliato. Introduciamo una tassonomia completa della non conformità contestuale, descrivendo quando e come i modelli non dovrebbero accettare le richieste degli utenti. La nostra tassonomia copre un'ampia gamma di categorie, tra cui richieste incomplete, non supportate, indeterminate e umanizzanti (oltre a quelle non sicure). Per testare le capacità di non conformità dei modelli linguistici, utilizziamo questa tassonomia per sviluppare una nuova suite di valutazione composta da 1000 prompt di non conformità. Scopriamo che la maggior parte dei modelli esistenti mostra tassi di conformità significativamente elevati in alcune categorie precedentemente poco studiate, con modelli come GPT-4 che accettano erroneamente fino al 30% delle richieste. Per colmare queste lacune, esploriamo diverse strategie di addestramento utilizzando un set di dati di addestramento sinteticamente generato, composto da richieste e risposte non conformi attese. I nostri esperimenti dimostrano che, sebbene il fine-tuning diretto di modelli ottimizzati per le istruzioni possa portare sia a un eccessivo rifiuto che a un declino delle capacità generali, l'uso di metodi efficienti in termini di parametri come gli adattatori a basso rango aiuta a trovare un buon equilibrio tra una non conformità appropriata e altre capacità.
I metodi di Rilevamento degli Errori Grammaticali (GED) si basano fortemente su corpora di errori annotati manualmente. Tuttavia, queste annotazioni non sono disponibili in molte lingue a bassa risorsa. In questo articolo, esploriamo il GED in questo contesto. Sfruttando le capacità di trasferimento cross-linguale zero-shot dei modelli linguistici pre-addestrati multilingue, addestriamo un modello utilizzando dati provenienti da un insieme diversificato di lingue per generare errori sintetici in altre lingue. Questi corpora di errori sintetici vengono poi utilizzati per addestrare un modello GED. Nello specifico, proponiamo una pipeline di fine-tuning in due fasi in cui il modello GET viene prima sottoposto a fine-tuning su dati sintetici multilingue provenienti dalle lingue target, seguito da un fine-tuning su corpora GED annotati manualmente provenienti dalle lingue sorgente. Questo approccio supera i metodi GED attuali all'avanguardia che non richiedono annotazioni. Analizziamo inoltre gli errori prodotti dal nostro metodo e da altri forti baseline, riscontrando che il nostro approccio genera errori più diversificati e più simili a quelli umani.
I modelli di generazione video (VGMs) hanno dimostrato la capacità di sintetizzare output di alta qualità. È importante comprenderne il potenziale di produrre contenuti non sicuri, come video violenti o terrificanti. In questo lavoro, forniamo una comprensione completa della generazione di video non sicuri. Innanzitutto, per confermare la possibilità che questi modelli possano effettivamente generare video non sicuri, abbiamo selezionato prompt di generazione di contenuti non sicuri raccolti da 4chan e Lexica, e tre VGMs open-source all'avanguardia per generare video non sicuri. Dopo aver filtrato i duplicati e i contenuti generati in modo scadente, abbiamo creato un set iniziale di 2112 video non sicuri da un pool originale di 5607 video. Attraverso l'analisi di clustering e la codifica tematica di questi video generati, abbiamo identificato 5 categorie di video non sicuri: Distorti/Strani, Terrificanti, Pornografici, Violenti/Sanguinosi e Politici. Con l'approvazione dell'IRB, abbiamo poi reclutato partecipanti online per aiutarci a etichettare i video generati. Sulla base delle annotazioni inviate da 403 partecipanti, abbiamo identificato 937 video non sicuri dal set iniziale. Con le informazioni etichettate e i prompt corrispondenti, abbiamo creato il primo dataset di video non sicuri generati da VGMs. Abbiamo poi studiato possibili meccanismi di difesa per prevenire la generazione di video non sicuri. I metodi di difesa esistenti nella generazione di immagini si concentrano sul filtraggio del prompt di input o dei risultati di output. Proponiamo un nuovo approccio chiamato Latent Variable Defense (LVD), che opera all'interno del processo di campionamento interno del modello. LVD può raggiungere un'accuratezza di difesa dello 0,90 riducendo al contempo tempo e risorse computazionali di 10 volte durante il campionamento di un gran numero di prompt non sicuri.