Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato forti capacità di ragionamento generale, tuttavia la loro efficacia nel ragionamento finanziario rimane poco esplorata. In questo studio, valutiamo in modo esaustivo 16 potenti LLM di ragionamento generale su tre compiti finanziari complessi che coinvolgono testi finanziari, dati tabulari ed equazioni, valutando il ragionamento numerico, l'interpretazione tabellare, la comprensione dei termini finanziari, l'elaborazione di contesti lunghi e la risoluzione di problemi basati su equazioni. I nostri risultati mostrano che sebbene migliori set di dati e il preaddestramento migliorino il ragionamento finanziario, miglioramenti generali come il fine-tuning di CoT non portano sempre a guadagni consistenti. Inoltre, tutte le strategie di ragionamento affrontano sfide nel migliorare le prestazioni su compiti con contesti lunghi e tabelle multiple. Per affrontare queste limitazioni, sviluppiamo un modello potenziato per il ragionamento finanziario basato su Llama-3.1-8B-Instruct, mediante fine-tuning di CoT e apprendimento per rinforzo con percorsi di ragionamento specifici del dominio. Anche con un semplice fine-tuning con un set di dati finanziari, il nostro modello ottiene un miglioramento delle prestazioni del 10% costante su tutti i compiti, superando tutti i modelli da 8B e persino Llama3-70B-Instruct e Llama3.1-70B-Instruct in media. I nostri risultati sottolineano la necessità di adattamenti specifici del dominio nei compiti finanziari, sottolineando future direzioni come il ragionamento su tabelle multiple, l'elaborazione di contesti lunghi e la comprensione dei termini finanziari. Tutti i nostri set di dati, modelli e codici sono disponibili pubblicamente. Inoltre, introduciamo una classifica per il benchmarking di futuri set di dati e modelli.
I moderni modelli di linguaggio di grandi dimensioni (LLM) spesso si trovano di fronte a vincoli di comunicazione sull'hardware attuale, piuttosto che a vincoli puramente computazionali. Il Multi-head Latent Attention (MLA) affronta questa sfida utilizzando matrici a rango ridotto nei livelli chiave-valore (KV), consentendo così di memorizzare stati KV latenti compressi. Questo approccio riduce significativamente la dimensione della cache KV rispetto alla tradizionale attenzione multi-head, portando a un'infereza più veloce. Inoltre, MLA utilizza una matrice di up-projection per aumentare l'espressività, scambiando calcoli aggiuntivi per ridurre il carico di comunicazione. Anche se MLA ha dimostrato efficienza ed efficacia in Deepseek V2/V3/R1, molti dei principali fornitori di modelli continuano a fare affidamento sull'Attention a Query di Gruppo (GQA) e non hanno annunciato piani per adottare MLA. In questo articolo, dimostriamo che GQA può sempre essere rappresentato da MLA mantenendo lo stesso overhead di cache KV, ma il contrario non è vero. Per promuovere un uso più ampio di MLA, presentiamo **TransMLA**, un metodo di post-training che converte modelli pre-addestrati ampiamente utilizzati basati su GQA (ad esempio, LLaMA, Qwen, Mixtral) in modelli basati su MLA. Dopo la conversione, il modello può essere sottoposto a ulteriore addestramento per aumentare l'espressività senza aumentare la dimensione della cache KV. Inoltre, prevediamo di sviluppare tecniche di accelerazione specifiche per MLA per preservare bassa latenza nei modelli trasformati, consentendo così una distillazione più efficiente di Deepseek R1.
I benchmark multilingue precedenti si concentrano principalmente su compiti di comprensione semplici, ma per i grandi modelli linguistici (LLM), sottolineiamo la competenza nel seguire istruzioni, nel ragionamento, nella comprensione del contesto a lungo termine, nella generazione di codice, e così via. Tuttavia, la misurazione di queste capacità avanzate tra le lingue è poco esplorata. Per affrontare la disparità, presentiamo BenchMAX, un benchmark di valutazione multilingue a più vie che consente confronti equi di queste importanti abilità tra le lingue. Per mantenere l'alta qualità, tre distinti annotatori madrelingua annotano indipendentemente ciascun campione all'interno di tutti i compiti dopo che i dati sono stati tradotti automaticamente dall'inglese in altre 16 lingue. Inoltre, presentiamo una sfida di traduzione innovativa derivante dalla costruzione del dataset. Gli ampi esperimenti su BenchMAX rivelano un'efficacia variabile delle capacità fondamentali tra le lingue, evidenziando divari di prestazioni che non possono essere colmati semplicemente aumentando le dimensioni del modello. BenchMAX funge da piattaforma di valutazione multilingue completa, offrendo un promettente banco di prova per promuovere lo sviluppo di modelli linguistici multilingue. Il dataset e il codice sono accessibili pubblicamente.
Forniamo una legge di scala di distillazione che stima le prestazioni del modello distillato in base a un budget di calcolo e alla sua allocazione tra lo studente e l'insegnante. I nostri risultati riducono i rischi associati all'uso della distillazione su larga scala; l'allocazione di calcolo per entrambi i modelli, insegnante e studente, può ora essere effettuata per massimizzare le prestazioni dello studente. Forniamo ricette ottimali di distillazione per il calcolo quando 1) esiste un insegnante, o 2) un insegnante ha bisogno di formazione. Se molti studenti devono essere distillati, o se esiste già un insegnante, la distillazione supera il preaddestramento supervisionato fino a un livello di calcolo che cresce in modo prevedibile con le dimensioni dello studente. Se si deve distillare un solo studente e l'insegnante ha anche bisogno di formazione, si dovrebbe invece fare apprendimento supervisionato. Inoltre, forniamo approfondimenti attraverso il nostro studio su larga scala della distillazione, che aumentano la nostra comprensione della distillazione e informano la progettazione sperimentale.
La generazione di immagini condizionata dal testo ha guadagnato notevole attenzione negli ultimi anni e sta elaborando prompt di testo sempre più lunghi e dettagliati. Nella vita quotidiana, testi densi e intricati compaiono in contesti come pubblicità, infografiche e segnaletica, dove l'integrazione sia del testo che delle immagini è essenziale per trasmettere informazioni complesse. Tuttavia, nonostante questi progressi, la generazione di immagini contenenti testo di lunghezza estesa rimane una sfida persistente, in gran parte a causa delle limitazioni dei dataset esistenti, che spesso si concentrano su testi più brevi e semplici. Per affrontare questa lacuna, presentiamo TextAtlas5M, un nuovo dataset appositamente progettato per valutare la resa del testo di lunghezza estesa nella generazione di immagini condizionate dal testo. Il nostro dataset è composto da 5 milioni di immagini generate e raccolte con testi lunghi di diversi tipi di dati, consentendo una valutazione completa dei modelli generativi su larga scala nella generazione di immagini con testo di lunghezza estesa. Curiamo inoltre un set di test TextAtlasEval migliorato dall'uomo, composto da 3000 campioni attraverso 3 domini di dati, stabilendo uno dei benchmark più ampi per la generazione condizionata dal testo. Le valutazioni suggeriscono che i benchmark di TextAtlasEval presentano sfide significative anche per i modelli proprietari più avanzati (ad es. GPT4o con DallE-3), mentre le controparti open-source mostrano un divario prestazionale ancora più ampio. Queste evidenze posizionano TextAtlas5M come un dataset prezioso per addestrare e valutare modelli di generazione di immagini condizionati dal testo di prossima generazione.
I recenti progressi nei modelli di illuminazione delle immagini, guidati da set di dati su larga scala e modelli di diffusione pre-addestrati, hanno reso possibile l'imposizione di illuminazioni coerenti. Tuttavia, l'illuminazione dei video è ancora indietro, principalmente a causa dei costi eccessivi di addestramento e della scarsità di set di dati di illuminazione video diversi e di alta qualità. Una semplice applicazione dei modelli di illuminazione delle immagini su base frame-by-frame porta a diversi problemi: inconsistenza della sorgente luminosa e inconsistenza dell'aspetto illuminato, che si traducono in sfarfallii nei video generati. In questo lavoro, proponiamo Light-A-Video, un approccio senza addestramento per ottenere un'illuminazione video temporalmente uniforme. Adattato dai modelli di illuminazione delle immagini, Light-A-Video introduce due tecniche chiave per migliorare la coerenza dell'illuminazione. In primo luogo, progettiamo un modulo di Attenzione alla Luce Coerente (CLA), che potenzia le interazioni tra frame all'interno degli strati di auto-attenzione per stabilizzare la generazione della sorgente di illuminazione dello sfondo. In secondo luogo, sfruttando il principio fisico dell'indipendenza del trasporto della luce, applichiamo una miscelazione lineare tra l'aspetto del video sorgente e l'aspetto illuminato, utilizzando una strategia di Fusione Progressiva della Luce (PLF) per garantire transizioni temporali uniformi nell'illuminazione. Gli esperimenti mostrano che Light-A-Video migliora la coerenza temporale dei video illuminati mantenendo la qualità dell'immagine, garantendo transizioni di illuminazione coerenti tra i frame. Pagina del progetto: https://bujiazi.github.io/light-a-video.github.io/.
In questo lavoro, presentiamo CineMaster, un nuovo framework per la generazione di testo-video consapevole del 3D e controllabile. Il nostro obiettivo è quello di fornire agli utenti un livello di controllo paragonabile a quello dei registi cinematografici professionisti: posizionamento preciso degli oggetti all'interno della scena, manipolazione flessibile sia degli oggetti che della telecamera nello spazio 3D e controllo intuitivo del layout sui frame renderizzati. Per raggiungere questo obiettivo, CineMaster opera in due fasi. Nella prima fase, progettiamo un flusso di lavoro interattivo che consente agli utenti di costruire in modo intuitivo segnali condizionali consapevoli del 3D posizionando le bounding boxes degli oggetti e definendo i movimenti della telecamera nello spazio 3D. Nella seconda fase, questi segnali di controllo - che comprendono mappe di profondità renderizzate, traiettorie della telecamera e etichette di classe degli oggetti - fungono da guida per un modello di diffusione testo-video, garantendo la generazione dei contenuti video desiderati dall'utente. Inoltre, per superare la scarsità di dataset reali con annotazioni di movimento degli oggetti in 3D e posizioni della telecamera, istituiamo attentamente un flusso di lavoro di annotazione dati automatizzato che estrae bounding boxes in 3D e traiettorie della telecamera da dati video su larga scala. Estesi esperimenti qualitativi e quantitativi dimostrano che CineMaster supera significativamente i metodi esistenti e implementa una generazione di testo-video consapevole del 3D di spicco. Pagina del progetto: https://cinemaster-dev.github.io/.
La previsione del token successivo è stata l'obiettivo di addestramento standard utilizzato nella preformazione di grandi modelli linguistici. Le rappresentazioni sono apprese come risultato dell'ottimizzazione della perplessità a livello di token. Proponiamo Continuous Concept Mixing (CoCoMix), un nuovo framework di preformazione che combina la previsione discreta del token successivo con concetti continui. In particolare, CoCoMix prevede concetti continui appresi da un autoencoder sparso preaddestrato e li mescola nello stato nascosto del modello alternandoli alle rappresentazioni nascoste dei token. Attraverso esperimenti su diversi benchmark, inclusi modelli linguistici e compiti di ragionamento successivi, dimostriamo che CoCoMix è più efficiente in termini di campioni e supera costantemente la previsione standard del token successivo, la distillazione della conoscenza e l'inserimento di token di pausa. Abbiamo scoperto che combinare sia l'apprendimento dei concetti che l'alternanza in un framework end-to-end è fondamentale per ottenere miglioramenti delle prestazioni. Inoltre, CoCoMix migliora l'interpretabilità e la guidabilità consentendo l'ispezione diretta e la modifica del concetto previsto, offrendo un modo trasparente per guidare il processo di ragionamento interno del modello.
Gli agenti GUI attuali hanno raggiunto prestazioni eccezionali nel grounding degli elementi GUI. Tuttavia, la pianificazione rimane estremamente impegnativa, specialmente a causa della sensibilità allo stato iniziale dell'ambiente. In particolare, piccole differenze nello stato iniziale, come ad esempio il software di destinazione che non è aperto o l'interfaccia che non si trova nello stato predefinito, portano spesso a errori di pianificazione. Questo problema è diffuso in scenari reali degli utenti, ma i benchmark esistenti non riescono a valutarlo. In questo articolo, presentiamo WorldGUI, un nuovo benchmark GUI che progetta compiti GUI con vari stati iniziali per simulare interazioni reali tra computer e utente. Il benchmark copre una vasta gamma di compiti in 10 applicazioni software popolari, tra cui PowerPoint, VSCode e Adobe Acrobat. Inoltre, per affrontare le sfide dei compiti dinamici di automazione GUI, proponiamo GUI-Thinker, un framework olistico che sfrutta un meccanismo di critica, che gestisce efficacemente l'imprevedibilità e la complessità delle interazioni GUI. I risultati sperimentali dimostrano che GUI-Thinker supera significativamente Claude-3.5 (Computer Use) del 14,9% nel tasso di successo nei compiti WorldGUI. Questo miglioramento sottolinea l'efficacia del nostro framework basato sul pensiero critico nel migliorare l'automazione GUI.
Gli approcci di modellazione lineare delle sequenze, come l'attenzione lineare, forniscono vantaggi come addestramento in tempo lineare e inferenza in memoria costante su lunghezze di sequenza. Tuttavia, i metodi esistenti di parallelismo delle sequenze (SP) non sono ottimizzati per la caratteristica di prodotto-prima giusta dell'attenzione lineare o utilizzano una strategia di comunicazione a anello, che comporta un minor parallelismo di calcolo, limitando la scalabilità per sequenze più lunghe nei sistemi distribuiti. In questo articolo, presentiamo LASP-2, un nuovo metodo SP per migliorare sia il parallelismo di comunicazione che di calcolo durante l'addestramento dei modelli transformer con attenzione lineare su sequenze di input molto lunghe. Rispetto al lavoro precedente LASP, LASP-2 ripensa il requisito minimo di comunicazione per SP sui livelli di attenzione lineare, riorganizza l'intero flusso di lavoro di comunicazione-calcolo di LASP. In questo modo, è necessaria solo una singola comunicazione collettiva AllGather su stati di memoria intermedi, le cui dimensioni sono indipendenti dalla lunghezza della sequenza, portando a miglioramenti significativi sia del parallelismo di comunicazione che di calcolo, nonché della loro sovrapposizione. Inoltre, estendiamo LASP-2 a LASP-2H applicando una ridisegnazione della comunicazione simile ai moduli di attenzione standard, offrendo una soluzione SP efficiente per modelli ibridi che combinano livelli di attenzione lineare e standard. La nostra valutazione su un modello Linear-Llama3, una variante di Llama3 con attenzione lineare al posto dell'attenzione standard, dimostra l'efficacia di LASP-2 e LASP-2H. In particolare, LASP-2 ottiene miglioramenti della velocità di addestramento del 15,2% rispetto a LASP e del 36,6% rispetto a Ring Attention, con una lunghezza di sequenza di 2048K su 64 GPU. Il codice è rilasciato come parte di: https://github.com/OpenSparseLLMs/Linear-MoE.
La capacità di raggiungere obiettivi a lungo termine è una sfida chiave nello sviluppo attuale dei grandi modelli linguistici (LLM). Per affrontare questo problema, i LLM pre-addestrati possono essere ottimizzati ulteriormente con apprendimento per rinforzo (RL) per esplorare soluzioni che ottimizzano un obiettivo specifico. Tuttavia, l'esplorazione con i LLM è complessa, poiché è necessario trovare un equilibrio tra la scoperta di nuove soluzioni e il mantenimento della coerenza con il modello pre-addestrato, al fine di non compromettere le capacità di base. Questo equilibrio è tipicamente controllato con una penalità di Kullback-Leibler (KL). In questo articolo, esaminiamo la dinamica dell'esplorazione di un piccolo modello linguistico su un semplice compito aritmetico. Mostreremo come diversi gradi di pre-addestramento influenzino l'esplorazione e dimostreremo l'importanza dei "token critici" che hanno un impatto significativo sull'esito finale. Di conseguenza, introduciamo una semplice modifica alla penalità KL che favorisce l'esplorazione sui token critici, aumentando l'efficienza della fase di ottimizzazione ulteriore con RL.
Recenti metodi di animazione di immagini di personaggi basati su modelli di diffusione, come Animate Anyone, hanno fatto progressi significativi nella generazione di animazioni di personaggi coerenti e generalizzabili. Tuttavia, questi approcci non riescono a produrre associazioni ragionevoli tra i personaggi e i loro ambienti. Per affrontare questa limitazione, presentiamo Animate Anyone 2, con l'obiettivo di animare personaggi con affordance ambientale. Oltre ad estrarre segnali di movimento dal video sorgente, catturiamo inoltre rappresentazioni ambientali come input condizionali. L'ambiente è formulato come la regione escludendo i personaggi e il nostro modello genera personaggi per popolare queste regioni mantenendo coerenza con il contesto ambientale. Proponiamo una strategia di mascheramento agnostica alla forma che caratterizza più efficacemente la relazione tra personaggio e ambiente. Inoltre, per migliorare la fedeltà delle interazioni degli oggetti, sfruttiamo una guida degli oggetti per estrarre le caratteristiche degli oggetti in interazione e utilizziamo il blending spaziale per l'iniezione di caratteristiche. Introduciamo anche una strategia di modulazione della posa che consente al modello di gestire modelli di movimento più diversificati. I risultati sperimentali dimostrano le prestazioni superiori del metodo proposto.
Sebbene di recente l'IA per la matematica abbia compiuto progressi nella matematica pura, aree della matematica applicata, in particolare le equazioni differenziali parziali (PDE), rimangono poco esplorate nonostante le loro significative applicazioni reali. Presentiamo PDE-Controller, un framework che consente ai grandi modelli linguistici (LLM) di controllare sistemi regolati da equazioni differenziali parziali (PDE). Il nostro approccio consente ai LLM di trasformare istruzioni informali in linguaggio naturale in specifiche formali, per poi eseguire passaggi di ragionamento e pianificazione per migliorare l'utilità del controllo delle PDE. Costruiamo una soluzione olistica che comprende set di dati (casi scritti da umani e 2 milioni di campioni sintetici), modelli di ragionamento matematico e metriche di valutazione innovative, il tutto richiede uno sforzo significativo. Il nostro PDE-Controller supera significativamente i modelli open-source e GPT più recenti nel ragionamento, nell'autoformalizzazione e nella sintesi dei programmi, ottenendo un miglioramento fino al 62% nell'aumento dell'utilità per il controllo delle PDE. Colmando il divario tra la generazione di linguaggio e i sistemi PDE, dimostriamo il potenziale dei LLM nel affrontare sfide scientifiche ed ingegneristiche complesse. Rilasceremo tutti i dati, i checkpoint dei modelli e il codice su https://pde-controller.github.io/.
L'ottimizzazione diretta delle preferenze (DPO) e le sue varianti sono diventate sempre più popolari per allineare i modelli linguistici con le preferenze umane. Questi metodi mirano a insegnare ai modelli a distinguere meglio tra risposte scelte (o preferite) e respinte (o non preferite). Tuttavia, ricerche precedenti hanno identificato che la probabilità delle risposte scelte spesso diminuisce durante l'addestramento, e questo fenomeno è noto come spostamento della probabilità. Per affrontare questa sfida, in questo lavoro introduciamo \method per spostare in modo controllato la distribuzione della probabilità delle risposte scelte. Successivamente, dimostriamo che \method presenta un trade-off fondamentale tra il miglioramento della probabilità delle risposte scelte e il sacrificio del margine di ricompensa, supportato sia da un'analisi teorica che da una validazione sperimentale. Inoltre, dimostriamo la superiorità di \method rispetto a DPO su compiti successivi come MT-Bench e un esperimento di tasso di vincita progettato. Riteniamo che questo studio dimostri che il problema dello spostamento della probabilità di DPO può essere efficacemente mitigato con una soluzione semplice e teoricamente fondata. Il nostro codice è disponibile su https://github.com/Meaquadddd/DPO-Shift.
I modelli linguistici di grandi dimensioni (LLM) recenti supportano contesti lunghi che vanno da 128K a 1M token. Un metodo popolare per valutare queste capacità è il test dell'ago nel pagliaio (NIAH), che consiste nel recuperare un "ago" (informazioni rilevanti) da un "pagliaio" (lungo contesto non rilevante). Estensioni di questo approccio includono l'aumento dei distrattori, la concatenazione di fatti e il ragionamento contestuale. Tuttavia, in questi benchmark, i modelli possono sfruttare corrispondenze letterali esistenti tra l'ago e il pagliaio per semplificare il compito. Per affrontare questo problema, introduciamo NoLiMa, un benchmark che estende NIAH con un set di aghi attentamente progettato, dove domande e aghi hanno una sovrapposizione lessicale minima, richiedendo ai modelli di inferire associazioni latenti per individuare l'ago all'interno del pagliaio. Valutiamo 12 LLM popolari che affermano di supportare contesti di almeno 128K token. Se si comportano bene in contesti brevi (<1K), le prestazioni degradano significativamente all'aumentare della lunghezza del contesto. A 32K, ad esempio, 10 modelli scendono al di sotto del 50% rispetto ai loro forti baselines a breve lunghezza. Anche GPT-4o, una delle eccezioni più performanti, subisce una riduzione da un baseline quasi perfetto del 99,3% al 69,7%. La nostra analisi suggerisce che questi cali derivano dalla maggiore difficoltà che il meccanismo di attenzione affronta in contesti più lunghi quando mancano corrispondenze letterali, rendendo più difficile il recupero di informazioni rilevanti.
Nel campo dell'interpretazione delle immagini da telerilevamento radar ad apertura sintetica (SAR), sebbene i modelli di linguaggio Vision (VLM) abbiano compiuto progressi notevoli nell'elaborazione del linguaggio naturale e nella comprensione delle immagini, le loro applicazioni rimangono limitate nei settori professionali a causa di una conoscenza di dominio insufficiente. Questo articolo propone in modo innovativo il primo dataset di dialoghi multimodali su larga scala per immagini SAR, chiamato SARChat-2M, che contiene approssimativamente 2 milioni di coppie immagine-testo di alta qualità, che abbracciano scenari diversi con dettagliate annotazioni sugli obiettivi. Questo dataset supporta non solo diversi compiti chiave come la comprensione visiva e i compiti di rilevamento degli oggetti, ma presenta anche aspetti innovativi unici: questo studio sviluppa un dataset visivo-linguistico e un punto di riferimento per il dominio SAR, abilitando ed valutando le capacità dei VLM nell'interpretazione delle immagini SAR, fornendo un quadro paradigmatico per la costruzione di dataset multimodali attraverso vari domini verticali di telerilevamento. Attraverso esperimenti su 16 VLM principali, l'efficacia del dataset è stata pienamente verificata, e il primo punto di riferimento di dialogo multi-task nel campo SAR è stato stabilito con successo. Il progetto sarà rilasciato su https://github.com/JimmyMa99/SARChat, con l'obiettivo di promuovere lo sviluppo approfondito e l'ampia applicazione dei modelli visivo-linguistici SAR.
La Predizione del Prossimo Token (NTP) è un approccio di fatto per la generazione video autoregressiva (AR), ma soffre di dipendenze unidirezionali non ottimali e di una lentezza nell'elaborazione. In questo lavoro, proponiamo un framework semi-autoregressivo (semi-AR), chiamato Predizione del Prossimo Blocco (NBP), per la generazione video. Decomponendo uniformemente il contenuto video in blocchi di dimensioni uguali (ad esempio, righe o fotogrammi), spostiamo l'unità di generazione dai singoli token ai blocchi, consentendo a ciascun token nel blocco corrente di prevedere simultaneamente il token corrispondente nel blocco successivo. A differenza della modellazione AR tradizionale, il nostro framework utilizza un'attenzione bidirezionale all'interno di ciascun blocco, consentendo ai token di catturare dipendenze spaziali più robuste. Prevedendo più token in parallelo, i modelli NBP riducono significativamente il numero di passaggi di generazione, portando a un'elaborazione più rapida ed efficiente. Il nostro modello raggiunge punteggi FVD di 103.3 su UCF101 e 25.5 su K600, superando il modello NTP di base di 4.4 in media. Inoltre, grazie al ridotto numero di passaggi di elaborazione, il modello NBP genera 8.89 fotogrammi (risoluzione 128x128) al secondo, ottenendo un aumento di velocità di 11 volte. Abbiamo esplorato anche scale di modelli che vanno da 700M a 3B parametri, osservando miglioramenti significativi nella qualità della generazione, con punteggi FVD che scendono da 103.3 a 55.3 su UCF101 e da 25.5 a 19.5 su K600, dimostrando la scalabilità del nostro approccio.
Il Generazione con Recupero (RAG) è una tecnica avanzata progettata per affrontare le sfide del Contenuto Generato dall'Intelligenza Artificiale (AIGC). Integrando il recupero del contesto nella generazione di contenuti, il RAG fornisce conoscenze esterne affidabili e aggiornate, riduce le allucinazioni e garantisce un contesto rilevante in una vasta gamma di compiti. Tuttavia, nonostante il successo e il potenziale del RAG, studi recenti hanno dimostrato che il paradigma del RAG introduce anche nuovi rischi, tra cui problemi di robustezza, preoccupazioni sulla privacy, attacchi avversari e questioni di responsabilità. Affrontare questi rischi è fondamentale per le future applicazioni dei sistemi RAG, poiché influenzano direttamente la loro affidabilità. Sebbene siano stati sviluppati vari metodi per migliorare l'affidabilità dei metodi RAG, manca una prospettiva unificata e un quadro di riferimento per la ricerca su questo argomento. Pertanto, in questo articolo, miriamo a colmare questa lacuna fornendo una roadmap completa per lo sviluppo di sistemi RAG affidabili. Strutturiamo la nostra discussione attorno a cinque prospettive chiave: affidabilità, privacy, sicurezza, equità, spiegabilità e responsabilità. Per ciascuna prospettiva, presentiamo un quadro generale e una tassonomia, offrendo un approccio strutturato per comprendere le sfide attuali, valutare le soluzioni esistenti e individuare promettenti direzioni future di ricerca. Per incoraggiare una più ampia adozione e innovazione, mettiamo in evidenza anche le applicazioni derivate in cui i sistemi RAG affidabili hanno un impatto significativo.
In questo lavoro, proponiamo un'architettura di Moduli LLM che consente il trasferimento di conoscenze da un grande modello pre-addestrato a un modello più piccolo utilizzando un meccanismo di Cross-Attention potenziato. Nello schema proposto, il modello Qwen2-1.5B è congelato e le sue rappresentazioni vengono passate attraverso strati di attenzione appositamente progettati al modello GPT-Neo-125M, che è addestrato su risorse computazionali limitate. I risultati sperimentali sul dataset Bespoke-Stratos-17k dimostrano che dopo 15 epoche di addestramento, il modello combinato genera risposte di qualità comparabile a quelle ottenute tramite distillazione. Discutiamo i vantaggi dell'approccio modulare, forniamo esempi di query in ingresso e analisi comparative, e delineiamo prospettive per ulteriori estensioni del metodo.
Il merging dei modelli combina i Grandi Modelli Linguistici (LLM) addestrati su differenti compiti in un'unica entità più potente. Tuttavia, i conflitti tra i parametri dei modelli portano a una degradazione delle prestazioni nell'operazione di media. Mentre il routing del modello affronta questo problema selezionando modelli individuali durante l'inferenza, esso comporta costi eccessivi di archiviazione e calcolo, e non sfrutta le conoscenze comuni dei diversi modelli. In questo lavoro, osserviamo che diversi strati mostrano livelli variabili di conflitti tra parametri. Sfruttando questa intuizione, mediare gli strati con minimi conflitti tra parametri e utilizzare un nuovo routing di esperti a livello di compito per gli strati con conflitti significativi. Per ridurre ulteriormente i costi di archiviazione, ispirandoci alla sparità aritmetica del compito, separiamo diversi esperti addestrati in un esperto denso e diversi esperti sparsi. Considerando i campioni fuori distribuzione, selezioniamo e fondiamo gli esperti appropriati in base all'incertezza del compito dei dati in ingresso. Conduciamo ampi esperimenti su entrambi LLaMA e Qwen con varie scale di parametri, e valutiamo su compiti di ragionamento del mondo reale. I risultati dimostrano che il nostro metodo ottiene costantemente significativi miglioramenti delle prestazioni richiedendo minori costi di sistema rispetto ai metodi esistenti.
Proponiamo un nuovo framework dinamico di sicurezza che ottimizza il ragionamento sulla sicurezza dei modelli linguistici (LM) al momento dell'inferenza senza modificare i pesi del modello. Basandoci sui recenti progressi nei metodi di autocritica, il nostro approccio sfrutta un meccanismo di metacritica che aggiorna iterativamente prompt di sicurezza, chiamati specifiche, per guidare il processo di critica e revisione in modo adattivo. Questa ottimizzazione al momento del test non solo migliora le prestazioni contro richieste di jailbreak avversarie, ma anche in diverse attività generali correlate alla sicurezza, come evitare danni morali o perseguire risposte oneste. Le nostre valutazioni empiriche su diversi modelli linguistici dimostrano che i prompt di sicurezza ottimizzati dinamicamente producono punteggi di sicurezza significativamente più alti rispetto ai prompt di sistema fissi e alle difese statiche di autocritica. Il codice sarà rilasciato su https://github.com/vicgalle/meta-self-critique.git.
L'apprendimento denso della rappresentazione contrastiva (DCRL) ha notevolmente migliorato l'efficienza dell'apprendimento per compiti di previsione densa delle immagini, mostrando il suo grande potenziale nel ridurre i costi elevati della raccolta di immagini mediche e dell'annotazione densa. Tuttavia, le caratteristiche delle immagini mediche rendono l'individuazione delle corrispondenze non affidabile, portando a un problema aperto di coppie di falsi positivi e negativi su larga scala (FP&N) in DCRL. In questo articolo, proponiamo l'apprendimento GEoMetric vIsual deNse sImilarity (GEMINI) che incorpora il principio dell'omeomorfismo prima di DCRL e consente una scoperta affidabile delle corrispondenze per un contrasto denso efficace. Proponiamo un apprendimento deformabile dell'omeomorfismo (DHL) che modella l'omeomorfismo delle immagini mediche e impara a stimare un mapping deformabile per prevedere la corrispondenza dei pixel sotto la preservazione topologica. Riduce efficacemente lo spazio di ricerca dell'accoppiamento e guida un apprendimento implicito e soft delle coppie negative tramite un gradiente. Proponiamo inoltre una similarità geometrica semantica (GSS) che estrae informazioni semantiche dalle caratteristiche per misurare il grado di allineamento per l'apprendimento delle corrispondenze. Ciò favorirà l'efficienza dell'apprendimento e le prestazioni della deformazione, costruendo in modo affidabile coppie positive. Implementiamo due varianti pratiche su due tipici compiti di apprendimento della rappresentazione nei nostri esperimenti. I nostri promettenti risultati su sette dataset, che superano i metodi esistenti, mostrano la nostra grande superiorità. Rilasceremo il nostro codice su un link correlato: https://github.com/YutingHe-list/GEMINI.