Articoli di ricerca IA selezionati quotidianamente con traduzioni
I metodi di fine-tuning efficiente nei parametri (PEFT) mirano ad adattare modelli di grandi dimensioni attraverso aggiornamenti a un numero ridotto di pesi. Tuttavia, gran parte del lavoro precedente sull'interpretabilità ha dimostrato che le rappresentazioni codificano informazioni semantiche ricche, suggerendo che la modifica delle rappresentazioni potrebbe essere un'alternativa più potente. Qui, perseguiamo questa ipotesi sviluppando una famiglia di metodi di Fine-tuning delle Rappresentazioni (ReFT). I metodi ReFT operano su un modello base congelato e apprendono interventi specifici per il compito sulle rappresentazioni nascoste. Definiamo un'istanza forte della famiglia ReFT, il ReFT a Sottospazio Lineare di Basso Rango (LoReFT). LoReFT è un sostituto diretto per i PEFT esistenti e apprende interventi che sono 10x-50x più efficienti in termini di parametri rispetto ai migliori PEFT dello stato dell'arte. Mostriamo LoReFT su otto compiti di ragionamento di senso comune, quattro compiti di ragionamento aritmetico, Alpaca-Eval v1.0 e GLUE. In tutte queste valutazioni, LoReFT offre il miglior equilibrio tra efficienza e prestazioni e quasi sempre supera i migliori PEFT dello stato dell'arte. Rilasciamo pubblicamente una libreria generica per l'addestramento ReFT all'indirizzo https://github.com/stanfordnlp/pyreft.
I modelli di diffusione hanno dimostrato un grande successo nel campo della generazione di immagini da testo. Tuttavia, mitigare il disallineamento tra i prompt testuali e le immagini rimane una sfida. La ragione fondamentale dietro questo disallineamento non è stata ampiamente investigata. Osserviamo che il disallineamento è causato da un'attivazione inadeguata dell'attenzione sui token. Attribuiamo ulteriormente questo fenomeno a un utilizzo insufficiente delle condizioni da parte del modello di diffusione, causato dal suo paradigma di addestramento. Per affrontare il problema, proponiamo CoMat, una strategia di fine-tuning end-to-end per modelli di diffusione con un meccanismo di corrispondenza concettuale da immagine a testo. Utilizziamo un modello di descrizione delle immagini per misurare l'allineamento immagine-testo e guidare il modello di diffusione a riesaminare i token ignorati. Viene inoltre proposto un modulo di concentrazione degli attributi per affrontare il problema del legame degli attributi. Senza utilizzare alcun dato di immagini o preferenze umane, utilizziamo solo 20K prompt testuali per eseguire il fine-tuning di SDXL e ottenere CoMat-SDXL. Esperimenti estensivi dimostrano che CoMat-SDXL supera significativamente il modello di riferimento SDXL in due benchmark di allineamento testo-immagine e raggiunge prestazioni all'avanguardia.
I grandi modelli linguistici (LLM) hanno alimentato numerosi compiti di agenti intelligenti, come la navigazione web — ma la maggior parte degli agenti esistenti si comporta in modo insoddisfacente nelle pagine web reali a causa di tre fattori: (1) la versatilità delle azioni sulle pagine web, (2) il testo HTML che supera la capacità di elaborazione del modello, e (3) la complessità del processo decisionale dovuta alla natura open-domain del web. Di fronte a questa sfida, abbiamo sviluppato AutoWebGLM, un agente automatizzato di navigazione web basato su ChatGLM3-6B che supera GPT-4. Ispirati dai modelli di navigazione umana, abbiamo progettato un algoritmo di semplificazione HTML per rappresentare le pagine web, preservando le informazioni vitali in modo conciso. Utilizziamo un metodo ibrido uomo-AI per costruire dati di navigazione web per l'addestramento curriculare. Successivamente, potenziamo il modello attraverso l'apprendimento per rinforzo e il campionamento per rifiuto per facilitare ulteriormente la comprensione delle pagine web, le operazioni del browser e la scomposizione efficiente dei compiti in autonomia. Per i test, abbiamo stabilito un benchmark bilingue — AutoWebBench — per compiti di navigazione web nel mondo reale. Valutiamo AutoWebGLM su diversi benchmark di navigazione web, evidenziandone i miglioramenti ma anche le sfide sottostanti per affrontare ambienti reali. Codice, modello e dati correlati saranno rilasciati su https://github.com/THUDM/AutoWebGLM.
Questo articolo introduce MiniGPT4-Video, un modello di linguaggio su larga scala (LLM) multimodale progettato specificamente per la comprensione dei video. Il modello è in grado di elaborare sia dati visivi temporali che testuali, rendendolo particolarmente abile nel comprendere le complessità dei video. Basandosi sul successo di MiniGPT-v2, che eccelleva nel tradurre le caratteristiche visive nello spazio LLM per singole immagini e otteneva risultati impressionanti su vari benchmark immagine-testo, questo articolo estende le capacità del modello per elaborare una sequenza di fotogrammi, consentendogli di comprendere i video. MiniGPT4-video non considera solo il contenuto visivo, ma incorpora anche conversazioni testuali, permettendo al modello di rispondere efficacemente a query che coinvolgono sia componenti visive che testuali. Il modello proposto supera i metodi esistenti all'avanguardia, registrando miglioramenti del 4,22%, 1,13%, 20,82% e 13,1% rispettivamente sui benchmark MSVD, MSRVTT, TGIF e TVQA. I nostri modelli e il codice sono stati resi pubblicamente disponibili qui https://vision-cair.github.io/MiniGPT4-video/
Nel panorama in rapida evoluzione dell'intelligenza artificiale, i modelli linguistici multi-modali di grandi dimensioni stanno emergendo come un'area di notevole interesse. Questi modelli, che combinano varie forme di input di dati, stanno diventando sempre più popolari. Tuttavia, comprendere i loro meccanismi interni rimane un compito complesso. Numerosi progressi sono stati fatti nel campo degli strumenti e dei meccanismi di spiegabilità, ma c'è ancora molto da esplorare. In questo lavoro, presentiamo una nuova applicazione interattiva finalizzata a comprendere i meccanismi interni dei modelli linguistico-visivi di grandi dimensioni. La nostra interfaccia è progettata per migliorare l'interpretabilità delle patch di immagini, che sono fondamentali per generare una risposta, e per valutare l'efficacia del modello linguistico nell'ancorare il proprio output all'immagine. Con la nostra applicazione, un utente può investigare sistematicamente il modello e scoprire i limiti del sistema, aprendo la strada a miglioramenti nelle capacità del sistema. Infine, presentiamo uno studio di caso su come la nostra applicazione può aiutare a comprendere i meccanismi di fallimento in un popolare modello multi-modale di grandi dimensioni: LLaVA.
In questo articolo, esploriamo l'idea di addestrare grandi modelli linguistici (LLM) su testo altamente compresso. Mentre i tokenizer sub-parola standard comprimono il testo di un fattore ridotto, i compressori neurali di testo possono raggiungere tassi di compressione molto più elevati. Se fosse possibile addestrare direttamente gli LLM su testo compresso neuralmente, ciò conferirebbe vantaggi in termini di efficienza nell'addestramento e nel servizio, oltre a una gestione più semplice di testi lunghi. Il principale ostacolo a questo obiettivo è che una forte compressione tende a produrre output opachi che non si prestano bene all'apprendimento. In particolare, abbiamo riscontrato che il testo compresso in modo ingenuo tramite Codifica Aritmetica non è facilmente apprendibile dagli LLM. Per superare questo problema, proponiamo Equal-Info Windows, una nuova tecnica di compressione in cui il testo viene segmentato in blocchi che si comprimono ciascuno alla stessa lunghezza in bit. Utilizzando questo metodo, dimostriamo un apprendimento efficace su testo compresso neuralmente che migliora con la scala, e supera ampiamente i baseline a livello di byte nei benchmark di perplessità e velocità di inferenza. Sebbene il nostro metodo fornisca una perplessità peggiore rispetto ai tokenizer sub-parola per modelli addestrati con lo stesso numero di parametri, ha il vantaggio di lunghezze di sequenza più brevi. Le sequenze più corte richiedono meno passaggi di generazione autoregressiva e riducono la latenza. Infine, forniamo un'analisi approfondita delle proprietà che contribuiscono all'apprendibilità e offriamo suggerimenti concreti su come migliorare ulteriormente le prestazioni dei tokenizer ad alta compressione.
I Large Language Model (LLM) per il codice si stanno evolvendo rapidamente, con l'editing del codice che emerge come una capacità critica. Introduciamo CodeEditorBench, un framework di valutazione progettato per valutare rigorosamente le prestazioni degli LLM nei task di editing del codice, inclusi debug, traduzione, rifinitura e cambio di requisiti. A differenza dei benchmark esistenti che si concentrano esclusivamente sulla generazione di codice, CodeEditorBench enfatizza scenari reali e aspetti pratici dello sviluppo software. Abbiamo curato diverse sfide e scenari di codifica da cinque fonti, coprendo vari linguaggi di programmazione, livelli di complessità e task di editing. La valutazione di 19 LLM rivela che i modelli closed-source (in particolare Gemini-Ultra e GPT-4) superano i modelli open-source in CodeEditorBench, evidenziando differenze nelle prestazioni dei modelli in base ai tipi di problema e alla sensibilità ai prompt. CodeEditorBench mira a catalizzare i progressi negli LLM fornendo una piattaforma robusta per valutare le capacità di editing del codice. Rilasceremo tutti i prompt e i dataset per consentire alla comunità di espandere il dataset e valutare gli LLM emergenti. Introducendo CodeEditorBench, contribuiamo all'avanzamento degli LLM nell'editing del codice e forniamo una risorsa preziosa per ricercatori e professionisti.
Presentiamo PointInfinity, una famiglia efficiente di modelli di diffusione per nuvole di punti. La nostra idea centrale è utilizzare un'architettura basata su transformer con una rappresentazione latente a dimensione fissa e invariante alla risoluzione. Ciò consente un addestramento efficiente con nuvole di punti a bassa risoluzione, pur permettendo la generazione di nuvole di punti ad alta risoluzione durante l'inferenza. Ancora più importante, dimostriamo che scalare la risoluzione al momento del test oltre quella di addestramento migliora la fedeltà delle nuvole di punti e delle superfici generate. Analizziamo questo fenomeno e lo colleghiamo alla guida senza classificatore comunemente utilizzata nei modelli di diffusione, dimostrando che entrambi consentono di bilanciare fedeltà e variabilità durante l'inferenza. Gli esperimenti su CO3D mostrano che PointInfinity può generare in modo efficiente nuvole di punti ad alta risoluzione (fino a 131k punti, 31 volte più di Point-E) con una qualità all'avanguardia.
Presentiamo RALL-E, un metodo robusto di modellazione del linguaggio per la sintesi testo-voce (TTS). Sebbene i lavori precedenti basati su modelli linguistici di grandi dimensioni (LLM) mostrino prestazioni impressionanti nel TTS zero-shot, tali metodi spesso soffrono di scarsa robustezza, come una prosodia instabile (tonalità e ritmo/durata anomali) e un alto tasso di errore sulle parole (WER), a causa dello stile di previsione autoregressiva dei modelli linguistici. L'idea centrale di RALL-E è il prompting a catena di pensiero (CoT), che scompone il compito in passaggi più semplici per migliorare la robustezza del TTS basato su LLM. Per realizzare questa idea, RALL-E prevede prima le caratteristiche prosodiche (tonalità e durata) del testo di input e le utilizza come condizioni intermedie per prevedere i token vocali in uno stile CoT. In secondo luogo, RALL-E utilizza il prompt di durata previsto per guidare il calcolo dei pesi di self-attention nel Transformer, imponendo al modello di concentrarsi sui fonemi e sulle caratteristiche prosodiche corrispondenti durante la previsione dei token vocali. I risultati di valutazioni oggettive e soggettive complete dimostrano che, rispetto a un potente metodo di riferimento come VALL-E, RALL-E migliora significativamente il WER del TTS zero-shot, passando rispettivamente dal 6,3% (senza riordinamento) e dal 2,1% (con riordinamento) al 2,8% e all'1,0%. Inoltre, dimostriamo che RALL-E sintetizza correttamente frasi difficili per VALL-E e riduce il tasso di errore dal 68% al 4%.
Sono stati proposti vari attacchi di jailbreak per testare i modelli di linguaggio di grandi dimensioni (LLM) e rivelare le vulnerabilità dei loro meccanismi di sicurezza. Inoltre, alcuni metodi non si limitano alla modalità testuale e estendono l'attacco di jailbreak ai Modelli Multimodali di Linguaggio di Grandi Dimensioni (MLLM) perturbando l'input visivo. Tuttavia, l'assenza di un benchmark di valutazione universale complica la riproduzione delle prestazioni e il confronto equo. Inoltre, manca una valutazione completa dei modelli proprietari all'avanguardia (SOTA), in particolare degli MLLM, come GPT-4V. Per affrontare questi problemi, questo lavoro costruisce innanzitutto un dataset completo per la valutazione del jailbreak con 1445 domande dannose che coprono 11 diverse politiche di sicurezza. Sulla base di questo dataset, vengono condotti ampi esperimenti di red-teaming su 11 diversi LLM e MLLM, inclusi sia modelli proprietari SOTA che modelli open-source. Successivamente, viene effettuata un'analisi approfondita dei risultati valutati, riscontrando che: (1) GPT-4 e GPT-4V dimostrano una maggiore robustezza contro gli attacchi di jailbreak rispetto agli LLM e MLLM open-source. (2) Llama2 e Qwen-VL-Chat sono più robusti rispetto ad altri modelli open-source. (3) La trasferibilità dei metodi di jailbreak visivo è relativamente limitata rispetto ai metodi di jailbreak testuali. Il dataset e il codice sono disponibili qui: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.