Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'animazione umana end-to-end, come la generazione di umani che parlano guidata dall'audio, ha registrato notevoli progressi negli ultimi anni. Tuttavia, i metodi esistenti faticano ancora a scalare come i modelli di generazione video generale di grandi dimensioni, limitando il loro potenziale nelle applicazioni reali. In questo articolo, proponiamo OmniHuman, un framework basato su Diffusion Transformer che scala i dati mescolando condizioni legate al movimento nella fase di addestramento. A tal fine, introduciamo due principi di addestramento per queste condizioni miste, insieme all'architettura del modello corrispondente e alla strategia di inferenza. Questi design consentono ad OmniHuman di sfruttare appieno la generazione di movimento basata sui dati, raggiungendo infine una generazione di video umani altamente realistica. Inoltre, OmniHuman supporta vari contenuti ritratto (dettaglio del viso, ritratto, mezzo corpo, corpo intero), supporta sia il parlato che il canto, gestisce interazioni umano-oggetto e pose corporee impegnative, e si adatta a diversi stili di immagine. Rispetto ai metodi esistenti guidati dall'audio end-to-end, OmniHuman non solo produce video più realistici, ma offre anche una maggiore flessibilità negli input. Supporta inoltre molteplici modalità di guida (guidata dall'audio, guidata dal video e segnali di guida combinati). Campioni video sono disponibili sulla pagina del progetto ttfamily (https://omnihuman-lab.github.io)
Gli Algoritmi di Allineamento Diretto (DAAs) semplificano l'allineamento dei modelli linguistici sostituendo l'apprendimento per rinforzo (RL) e la modellazione del premio (RM) nel Reinforcement Learning from Human Feedback (RLHF) con l'ottimizzazione diretta della policy. I DAAs possono essere classificati in base alle loro perdite di classificazione (a coppie vs. a punti), ai premi utilizzati in tali perdite (ad esempio, rapporti di verosimiglianza della policy e della policy di riferimento, o rapporti di probabilità), o se è necessaria una fase di Supervised Fine-Tuning (SFT) (a due fasi vs. a una fase). Mostriamo innanzitutto che i metodi a una fase sono meno performanti rispetto ai metodi a due fasi. Per affrontare questo problema, incorporiamo una fase SFT esplicita e introduciamo il parametro beta, che controlla la forza dell'ottimizzazione delle preferenze, nei metodi single-stage ORPO e ASFT. Queste modifiche migliorano le loro prestazioni in Alpaca Eval 2 di +3.46 (ORPO) e +8.27 (ASFT), equiparando i metodi a due fasi come DPO. Un'ulteriore analisi rivela che il fattore chiave è se l'approccio utilizza obiettivi a coppie o a punti, piuttosto che una specifica ricompensa implicita o funzione di perdita. Questi risultati sottolineano l'importanza di una valutazione accurata per evitare affermazioni premature di miglioramenti delle prestazioni o superiorità complessiva negli algoritmi di allineamento.
I premi densi del processo hanno dimostrato di essere un'alternativa più efficace ai premi a livello di risultato sparsi nella scalabilità dei modelli linguistici di grandi dimensioni (LLM) durante l'inferenza, in particolare in compiti che richiedono un ragionamento complesso a più passaggi. Mentre i premi densi offrono anche una scelta interessante per il reinforcement learning (RL) dei LLM poiché i loro premi dettagliati hanno il potenziale per affrontare alcuni problemi intrinseci dei premi di risultato, come l'efficienza della formazione e l'assegnazione del merito, questo potenziale rimane in gran parte inutilizzato. Ciò può essere attribuito principalmente alle sfide del training dei modelli di premi del processo (PRM) online, dove raccogliere etichette di processo di alta qualità è proibitivamente costoso, rendendoli particolarmente vulnerabili all'hacking del premio. Per affrontare queste sfide, proponiamo PRIME (Process Reinforcement through IMplicit rEwards), che consente aggiornamenti online dei PRM utilizzando solo rollout di politiche ed etichette di risultato attraverso premi impliciti del processo. PRIME si combina bene con varie funzioni di vantaggio e evita la fase di training dedicata del modello di premio che richiedono gli approcci esistenti, riducendo notevolmente l'overhead dello sviluppo. Dimostriamo l'efficacia di PRIME in matematica e codifica competitiva. Partendo da Qwen2.5-Math-7B-Base, PRIME ottiene un miglioramento medio del 15,1% su diversi benchmark di ragionamento chiave rispetto al modello SFT. In particolare, il nostro modello risultante, Eurus-2-7B-PRIME, supera Qwen2.5-Math-7B-Instruct su sette benchmark di ragionamento con il 10% dei dati di formazione.
I Large Language Models (LLM) come giudici e la sintesi dei dati basata su LLM sono emersi come due metodi fondamentali di annotazione dei dati guidati da LLM nello sviluppo del modello. Sebbene la loro combinazione migliori significativamente l'efficienza dell'addestramento e della valutazione del modello, poco è stato fatto per considerare la potenziale contaminazione portata da questo nuovo paradigma di sviluppo del modello. In questo lavoro, esponiamo la fuga di preferenze, un problema di contaminazione in LLM-come-giudice causato dalla correlazione tra i generatori di dati sintetici e gli valutatori basati su LLM. Per studiare questa questione, definiamo innanzitutto tre correlazioni comuni tra il LLM generatore di dati e il LLM giudice: essere lo stesso modello, avere una relazione di ereditarietà e appartenere alla stessa famiglia di modelli. Attraverso estesi esperimenti, confermiamo empiricamente il pregiudizio dei giudici verso i loro modelli studenti correlati causato dalla fuga di preferenze su diversi baselines e benchmark di LLM. Ulteriori analisi suggeriscono che la fuga di preferenze è un problema diffuso che è più difficile da individuare rispetto ai pregiudizi identificati in precedenza negli scenari di LLM-come-giudice. Tutte queste scoperte implicano che la fuga di preferenze è un problema diffuso e impegnativo nell'ambito di LLM-come-giudice. Rilasciamo tutti i codici e i dati su: https://github.com/David-Li0406/Preference-Leakage.
Allineare le caratteristiche visive con i word embeddings è una sfida chiave nei modelli vision-language (VLMs). Le prestazioni di tali modelli dipendono dall'avere un buon connettore che mappa le caratteristiche visive generate da un codificatore di visione in uno spazio di embedding condiviso con il LLM preservando al contempo la similarità semantica. I connettori esistenti, come i perceptron multistrato (MLPs), spesso producono input fuori distribuzione o rumorosi, portando a un disallineamento tra le modalità. In questo lavoro, proponiamo un nuovo metodo di allineamento visione-testo, AlignVLM, che mappa le caratteristiche visive a una media ponderata degli embeddings di testo del LLM. Il nostro approccio sfrutta i prior linguistici codificati dal LLM per garantire che le caratteristiche visive siano mappate in regioni dello spazio che il LLM può interpretare efficacemente. AlignVLM è particolarmente efficace per compiti di comprensione dei documenti, dove le immagini di documenti scannerizzati devono essere accuratamente mappate ai loro contenuti testuali. I nostri estesi esperimenti mostrano che AlignVLM raggiunge prestazioni all'avanguardia rispetto ai metodi di allineamento precedenti. Forniamo ulteriori analisi che dimostrano un miglioramento dell'allineamento delle caratteristiche visione-testo e una maggiore robustezza al rumore.
Il paradigma di indicizzazione-recupero-generazione della generazione potenziata dal recupero (RAG) ha avuto un grande successo nel risolvere compiti ad alta intensità di conoscenza integrando la conoscenza esterna nei grandi modelli linguistici (LLM). Tuttavia, l'incorporazione di conoscenze esterne e non verificate aumenta la vulnerabilità dei LLM poiché gli attaccanti possono eseguire attacchi manipolando le conoscenze. In questo articolo, presentiamo un benchmark chiamato SafeRAG progettato per valutare la sicurezza di RAG. In primo luogo, classifichiamo i compiti di attacco in rumore argento, conflitto tra contesti, annuncio soft e Denial-of-Service bianco. Successivamente, costruiamo un dataset di valutazione della sicurezza di RAG (ossia, dataset SafeRAG) principalmente manualmente per ciascun compito. Utilizziamo poi il dataset SafeRAG per simulare vari scenari di attacco che RAG potrebbe affrontare. Gli esperimenti condotti su 14 componenti rappresentative di RAG dimostrano che RAG mostra una significativa vulnerabilità a tutti i compiti di attacco e persino il compito di attacco più evidente può facilmente eludere i recuperatori, i filtri o i LLM avanzati esistenti, con conseguente degrado della qualità del servizio di RAG. Il codice è disponibile su: https://github.com/IAAR-Shanghai/SafeRAG.
Presentiamo SliderSpace, un framework per decomporre automaticamente le capacità visive dei modelli di diffusione in direzioni controllabili e comprensibili dall'essere umano. A differenza dei metodi di controllo esistenti che richiedono all'utente di specificare attributi per ciascuna direzione di modifica individualmente, SliderSpace scopre contemporaneamente diverse direzioni interpretabili e diverse da un singolo prompt di testo. Ogni direzione è addestrata come un adattatore a basso rango, consentendo un controllo composito e la scoperta di possibilità sorprendenti nello spazio latente del modello. Attraverso ampi esperimenti su modelli di diffusione all'avanguardia, dimostriamo l'efficacia di SliderSpace in tre applicazioni: decomposizione concettuale, esplorazione dello stile artistico e potenziamento della diversità. La nostra valutazione quantitativa mostra che le direzioni scoperte da SliderSpace decompongono efficacemente la struttura visiva della conoscenza del modello, offrendo approfondimenti sulle capacità latenti codificate all'interno dei modelli di diffusione. Studi condotti con gli utenti convalidano ulteriormente che il nostro metodo produce variazioni più diverse e utili rispetto alle baselines. Il nostro codice, i dati e i pesi addestrati sono disponibili su https://sliderspace.baulab.info
Proponiamo SCONE (Scalable, Contestualizzato, Spostato, Embedding di N-grammi), un metodo per estendere i livelli di incorporamento dell'input al fine di migliorare le prestazioni del modello linguistico all'aumentare delle dimensioni del livello. Per evitare un aumento dei costi di decodifica, SCONE mantiene il vocabolario originale introducendo al contempo embedding per un insieme di n-grammi frequenti. Questi embedding forniscono una rappresentazione contestualizzata per ciascun token di input e vengono appresi con un modello separato durante l'addestramento. Durante l'inferenza, vengono precomputati e memorizzati nella memoria esterna all'acceleratore con un impatto minimo sulla velocità di inferenza. SCONE consente due nuove strategie di scalabilità: aumentare il numero di embedding di n-grammi memorizzati nella cache e scalare il modello utilizzato per apprenderli, il tutto mantenendo i FLOPS fissi durante l'inferenza. Dimostriamo che scalare entrambi gli aspetti consente a SCONE di superare un modello di base con 1,9 miliardi di parametri su corpora diversi, utilizzando solo la metà dei FLOPS durante l'inferenza.
I Large Language Models (LLM) hanno dimostrato un notevole potenziale nel ragionamento, anche se soffrono ancora di gravi allucinazioni factuali dovute alla tempestività, accuratezza e copertura della conoscenza parametrica. Nel frattempo, integrare il ragionamento con la generazione potenziata da recupero (RAG) rimane una sfida a causa della decomposizione inefficiente del compito e del recupero ridondante, che può introdurre rumore e degradare la qualità della risposta. In questo articolo, proponiamo DeepRAG, un framework che modella il ragionamento potenziato da recupero come un Processo Decisionale di Markov (MDP), consentendo un recupero strategico e adattivo. Decomponendo iterativamente le query, DeepRAG determina dinamicamente se recuperare conoscenze esterne o fare affidamento sul ragionamento parametrico ad ogni passo. Gli esperimenti mostrano che DeepRAG migliora l'efficienza del recupero, aumentando nel contempo la precisione delle risposte del 21,99%, dimostrandone l'efficacia nell'ottimizzazione del ragionamento potenziato da recupero.
Il testing del QI ha funzionato come metodologia fondamentale per valutare le capacità cognitive umane, deliberatamente separando la valutazione dal background linguistico, dalla competenza linguistica o dalla conoscenza specifica del dominio per isolare le competenze di base nell'astrazione e nel ragionamento. Tuttavia, la ricerca sull'intelligenza artificiale attualmente manca di benchmark sistemici per quantificare queste dimensioni cognitive critiche nei sistemi multimodali. Per affrontare questa lacuna critica, proponiamo MM-IQ, un quadro di valutazione completo che comprende 2.710 elementi di test accuratamente selezionati che spaziano su 8 paradigmi di ragionamento distinti. Attraverso la valutazione sistematica dei principali modelli multimodali open-source e proprietari, il nostro benchmark rivela limitazioni sorprendenti: anche le architetture all'avanguardia raggiungono solo prestazioni leggermente superiori alla casualità (27,49% rispetto al 25% di accuratezza di base). Questo significativo divario nelle prestazioni mette in luce l'inadeguatezza dei sistemi multimodali attuali nell'approssimare le capacità di ragionamento umano fondamentali, sottolineando la necessità di progressi rivoluzionari per colmare questa divisione cognitiva.
Un tratto distintivo dell'intelligenza umana è la capacità di creare artefatti complessi attraverso processi strutturati a più passaggi. Generare tutorial procedurali con l'IA è un obiettivo di lunga data ma impegnativo, che si trova di fronte a tre ostacoli chiave: (1) scarsità di set di dati procedurali multi-task, (2) mantenimento della continuità logica e della coerenza visiva tra i passaggi e (3) generalizzazione attraverso più domini. Per affrontare queste sfide, proponiamo un set di dati multi-dominio che copre 21 compiti con oltre 24.000 sequenze procedurali. Sfruttando questa base, presentiamo MakeAnything, un framework basato sul trasformatore di diffusione (DIT), che sfrutta il fine-tuning per attivare le capacità in contesto di DIT per generare sequenze procedurali coerenti. Introduciamo l'adattamento asimmetrico a basso rango (LoRA) per la generazione di immagini, che bilancia le capacità di generalizzazione e le prestazioni specifiche del compito congelando i parametri dell'encoder mentre regola in modo adattivo gli strati del decoder. Inoltre, il nostro modello ReCraft consente la generazione da immagine a processo attraverso vincoli di coerenza spazio-temporale, consentendo alle immagini statiche di essere decomposte in sequenze di creazione plausibili. Estesi esperimenti dimostrano che MakeAnything supera i metodi esistenti, stabilendo nuovi benchmark di prestazioni per i compiti di generazione procedurale.
Indaghiamo le capacità di ragionamento logico dei grandi modelli linguistici (LLM) e la loro scalabilità nel ragionamento non monotonico complesso. A tal fine, introduciamo ZebraLogic, un quadro di valutazione completo per valutare le prestazioni di ragionamento LLM su enigmi logici derivati da problemi di soddisfacimento di vincoli (CSP). ZebraLogic consente la generazione di enigmi con complessità controllabile e quantificabile, facilitando uno studio sistematico dei limiti di scalabilità di modelli come Llama, modelli o1 e DeepSeek-R1. Coprendo una vasta gamma di complessità dello spazio di ricerca e diversi vincoli logici, ZebraLogic fornisce un ambiente strutturato per valutare il ragionamento in condizioni di crescente difficoltà. I nostri risultati rivelano un significativo calo di precisione all'aumentare della complessità del problema -- un fenomeno che definiamo la maledizione della complessità. Questa limitazione persiste anche con modelli più grandi e un aumento del calcolo del tempo di inferenza, suggerendo vincoli intrinseci nelle attuali capacità di ragionamento LLM. Inoltre, esploriamo strategie per potenziare il ragionamento logico, tra cui campionamento Best-of-N, meccanismi di backtracking e promemoria di auto-verifica. Le nostre scoperte offrono importanti intuizioni sulla scalabilità del ragionamento LLM, evidenziano limitazioni fondamentali e delineano possibili direzioni per il miglioramento.
Tra il rapido progresso dei grandi modelli linguistici (LLM) e la loro evoluzione in grandi modelli multimodali (LMM), sono stati compiuti significativi passi avanti nelle lingue ad alto livello di risorse come l'inglese e il cinese. Mentre i LLM in lingua araba hanno visto un notevole progresso, i LMM in arabo rimangono in gran parte inesplorati, spesso concentrati su alcuni aspetti specifici della lingua e della comprensione visiva. Per colmare questa lacuna, presentiamo AIN - l'Arabic Inclusive Multimodal Model - progettato per eccellere in diversi settori. AIN è un LMM bilingue inglese-arabo progettato per eccellere in inglese e arabo, sfruttando campioni di dati multimodali arabo-inglese di alta qualità, accuratamente costruiti, per un totale di 3,6 milioni. AIN dimostra prestazioni all'avanguardia in arabo, possedendo anche solide capacità visive in lingua inglese. Sul recente benchmark CAMEL-Bench, che comprende 38 sotto-domini tra cui comprensione multi-immagine, percezione visiva complessa, comprensione di documenti scritti a mano, comprensione video, imaging medico, malattie delle piante e comprensione dell'uso del suolo basata sul telerilevamento, il nostro AIN mostra prestazioni eccellenti con il modello 7B che supera il GPT-4o di un guadagno assoluto del 3,4% in media su otto domini e 38 sotto-domini. Le capacità superiori di AIN lo pongono come un significativo passo avanti verso l'abilitazione degli speaker arabi con strumenti avanzati di intelligenza artificiale generativa multimodale in diverse applicazioni.
Mentre i grandi modelli di linguaggio (LLM) eccellono nel gestire sequenze di contesto lunghe, richiedono cache sostanziali di chiave-valore (KV) per memorizzare informazioni contestuali, il che può gravare pesantemente sull'efficienza computazionale e sull'utilizzo della memoria. Gli sforzi precedenti per comprimere queste cache KV si sono concentrati principalmente sulla riduzione delle richieste di memoria ma erano limitati nell'aumentare la latenza. Per affrontare questo problema, presentiamo FastKV, un metodo di compressione della cache KV progettato per migliorare la latenza per sequenze di contesto lunghe. Per migliorare le velocità di elaborazione pur mantenendo l'accuratezza, FastKV adotta un approccio innovativo di Propagazione Selettiva dei Token (TSP) che conserva le informazioni di contesto completo nei livelli iniziali dei LLM e propaga selettivamente solo una parte di queste informazioni nei livelli più profondi anche nella fase di pre-riempimento. Inoltre, FastKV incorpora la compressione della cache KV consapevole dell'attenzione delle query raggruppate (GQA) per sfruttare i vantaggi di GQA sia in termini di memoria che di efficienza computazionale. I nostri risultati sperimentali mostrano che FastKV ottiene miglioramenti di 2,00 volte e 1,40 volte nel tempo al primo token (TTFT) e nella capacità di elaborazione, rispettivamente, rispetto a HeadKV, il metodo di compressione della cache KV all'avanguardia. Inoltre, FastKV mantiene con successo l'accuratezza su benchmark di contesto lungo a livelli paragonabili alle baselines. Il nostro codice è disponibile su https://github.com/dongwonjo/FastKV.
Il rilascio di o1 e o3 di OpenAI segna un significativo cambiamento di paradigma nei Grandi Modelli Linguistici verso capacità avanzate di ragionamento. In particolare, o3 ha superato gli esseri umani nella risoluzione di problemi nuovi e nell'acquisizione di abilità sull'Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI). Tuttavia, questo benchmark è limitato a pattern simbolici, mentre gli esseri umani spesso percepiscono e ragionano su scenari multimodali che coinvolgono sia dati visivi che linguistici. Pertanto, c'è un urgente bisogno di investigare le capacità avanzate di ragionamento in compiti multimodali. A tal fine, monitoriamo l'evoluzione dei modelli della serie GPT-[n] e o-[n] su enigmi multimodali impegnativi, che richiedono una percezione visiva dettagliata con ragionamento astratto o algoritmico. La performance superiore di o1 comporta un costo computazionale quasi 750 volte superiore rispetto a GPT-4o, sollevando preoccupazioni sulla sua efficienza. I nostri risultati rivelano un chiaro trend positivo nelle capacità di ragionamento attraverso le iterazioni dei modelli, con notevoli miglioramenti delle prestazioni tra i modelli della serie GPT e successivamente o1. Tuttavia, osserviamo che il modello o1 fatica ancora con semplici enigmi multimodali che richiedono ragionamento astratto. Inoltre, le sue prestazioni in enigmi algoritmici rimangono scarse. Abbiamo in programma di monitorare continuamente i nuovi modelli della serie e aggiornare di conseguenza i nostri risultati in questo articolo. Tutte le risorse utilizzate in questa valutazione sono disponibili pubblicamente su https://github.com/declare-lab/LLM-PuzzleTest.
Anche i modelli di linguaggio di grandi dimensioni (LLM) altamente capaci possono produrre risposte sbagliate o non sicure, e le tecniche di allineamento, come RLHF, mirate a mitigare questo problema, sono costose e soggette all'overfitting poiché ritraining del LLM. Questo articolo introduce un nuovo approccio di allineamento al momento dell'inferenza che garantisce che i LLM generino risposte sicure quasi certamente, cioè con una probabilità che si avvicina a uno. Otteniamo ciò formulando la generazione sicura delle risposte al momento dell'inferenza come un processo decisionale di Markov vincolato all'interno dello spazio latente del LLM. In modo cruciale, aggiungiamo uno stato di sicurezza che tiene traccia dell'evoluzione dei vincoli di sicurezza e ci consente di dimostrare garanzie formali di sicurezza risolvendo il MDP nello spazio latente. Sulla base di questo fondamento, proponiamo InferenceGuard, un'implementazione pratica che allinea in modo sicuro i LLM senza modificare i pesi del modello. In modo empirico, dimostriamo che InferenceGuard bilancia efficacemente sicurezza e prestazioni del compito, superando i metodi di allineamento al momento dell'inferenza esistenti nella generazione di risposte sicure e allineate.
I benchmark esistenti per modelli di frontiera spesso testano conoscenze specializzate di livello "PhD" che sono difficili da comprendere per i non esperti. In contrasto, presentiamo un benchmark basato sulla Sfida Enigmistica della Domenica NPR che richiede solo conoscenze generali. Il nostro benchmark è impegnativo sia per gli esseri umani che per i modelli, tuttavia le soluzioni corrette sono facili da verificare e gli errori dei modelli sono facili da individuare. Il nostro lavoro rivela lacune nelle capacità che non sono evidenti nei benchmark esistenti: OpenAI o1 supera significativamente altri modelli di ragionamento che sono allo stesso livello nei benchmark che testano conoscenze specializzate. Inoltre, la nostra analisi delle uscite di ragionamento scopre nuovi tipi di fallimenti. Ad esempio, DeepSeek R1 spesso si arrende con "Mi arrendo" prima di fornire una risposta che sa essere sbagliata. R1 può anche essere notevolmente "incerto" nella sua uscita e in casi rari, non "finisce di pensare", il che suggerisce la necessità di una tecnica di inferenza al momento dell'esecuzione per "concludere" prima di raggiungere il limite della finestra di contesto. Quantifichiamo anche l'efficacia del ragionamento prolungato con R1 e Gemini Thinking per identificare il punto oltre il quale è improbabile che ulteriore ragionamento migliori l'accuratezza nel nostro benchmark.
Presentiamo un approccio all'apprendimento per rinforzo basato su modelli che raggiunge una nuova performance di stato dell'arte sulla sfida della benchmark Craftax-classic, un gioco di sopravvivenza 2D open-world che richiede agli agenti di mostrare una vasta gamma di abilità generali - come una forte generalizzazione, esplorazione approfondita e ragionamento a lungo termine. Con una serie di scelte di progettazione oculate mirate a migliorare l'efficienza del campionamento, il nostro algoritmo di apprendimento per rinforzo basato su modelli raggiunge un punteggio di 67,4% dopo soli 1M di passaggi nell'ambiente, superando significativamente DreamerV3, che raggiunge il 53,2%, e, per la prima volta, supera la performance umana del 65,0%. Il nostro metodo inizia costruendo un punto di riferimento senza modelli all'avanguardia, utilizzando un'architettura di politica innovativa che combina CNN e RNN. Aggiungiamo poi tre miglioramenti alla configurazione standard dell'apprendimento per rinforzo basato su modelli: (a) "Dyna con riscaldamento", che addestra la politica su dati reali e immaginari, (b) "tokenizzatore del vicino più prossimo" su patch di immagini, che migliora lo schema per creare gli input del modello del mondo trasformatore (TWM), e (c) "forzatura dell'insegnante a blocchi", che consente al TWM di ragionare congiuntamente sui token futuri del prossimo passaggio temporale.
L'Adattamento a Basso Rango (Low-Rank Adaptation - LoRA) e le sue varianti hanno mostrato risultati impressionanti nel ridurre il numero di parametri addestrabili e i requisiti di memoria delle grandi reti trasformanti, mantenendo nel contempo le prestazioni di fine-tuning. Tuttavia, la natura a basso rango dell'aggiornamento dei pesi limita intrinsecamente la potenza di rappresentazione dei modelli sintonizzati, compromettendo potenzialmente le prestazioni su compiti complessi. Ciò solleva una questione critica: quando si osserva un divario di prestazioni tra LoRA e il fine-tuning standard, è dovuto al ridotto numero di parametri addestrabili o alla deficienza di rango? Questo articolo si propone di rispondere a questa domanda presentando RandLoRA, un metodo efficiente nei parametri che esegue aggiornamenti a rango completo utilizzando combinazioni lineari apprese di matrici casuali a basso rango e non addestrabili. Il nostro metodo limita il numero di parametri addestrabili limitando l'ottimizzazione alle matrici di ridimensionamento diagonale applicate alle matrici casuali fisse. Ciò ci consente di superare efficacemente le limitazioni a basso rango mantenendo efficienza nei parametri e nella memoria durante l'addestramento. Attraverso un'ampia sperimentazione su benchmark di visione, linguaggio e visione-linguaggio, valutiamo sistematicamente le limitazioni di LoRA e dei metodi esistenti basati su basi casuali. I nostri risultati rivelano che gli aggiornamenti a rango completo sono vantaggiosi sia per i compiti di visione che di linguaggio singolarmente, e ancor di più per i compiti di visione-linguaggio, dove RandLoRA riduce significativamente - e talvolta elimina - il divario di prestazioni tra il fine-tuning standard e LoRA, dimostrandone l'efficacia.
I modelli di consistenza sono una nuova famiglia di modelli generativi capaci di produrre campioni di alta qualità in un singolo passaggio o in passaggi multipli. Di recente, i modelli di consistenza hanno dimostrato un'eccezionale performance, ottenendo risultati paragonabili ai modelli di diffusione nello spazio dei pixel. Tuttavia, il successo dello scalare l'addestramento della consistenza a set di dati su larga scala, in particolare per compiti di generazione di testo-immagine e video, è determinato dalla performance nello spazio latente. In questo lavoro, analizziamo le differenze statistiche tra gli spazi dei pixel e latenti, scoprendo che i dati latenti spesso contengono valori anomali altamente impulsivi, che degradano significativamente la performance di iCT nello spazio latente. Per affrontare questo problema, sostituiamo le perdite Pseudo-Huber con perdite Cauchy, mitigando efficacemente l'impatto degli outlier. Inoltre, introduciamo una perdita di diffusione ai primi passaggi e utilizziamo l'accoppiamento del trasporto ottimale (OT) per migliorare ulteriormente la performance. Infine, introduciamo lo scheduler di scaling-c adattivo per gestire il processo di addestramento robusto e adottiamo il LayerNorm non scalabile nell'architettura per catturare meglio le statistiche delle caratteristiche e ridurre l'impatto degli outlier. Con queste strategie, addestriamo con successo modelli di consistenza latente capaci di campionare ad alta qualità con uno o due passaggi, riducendo significativamente il divario di performance tra la consistenza latente e i modelli di diffusione. L'implementazione è disponibile qui: https://github.com/quandao10/sLCT/
Lavori precedenti sull'editing della conoscenza tramite modifica dei parametri hanno dimostrato che la modifica sequenziale su larga scala porta a una significativa degradazione del modello. In questo articolo, studiamo le ragioni di ciò e scaliamo l'editing sequenziale della conoscenza a 10.000 modifiche sequenziali, mantenendo le prestazioni a valle del modello originale. Mostriamo innanzitutto che i metodi di editing della conoscenza "localizza-e-modifica" portano all'overfitting sui fatti modificati. Dimostriamo inoltre che l'editing continuo della conoscenza utilizzando tali metodi porta a una crescita sproporzionata della norma della matrice modificata. Forniamo quindi una visione cruciale del funzionamento interno dei metodi "localizza-e-modifica". Mostriamo che la crescita della norma è un trucco nascosto utilizzato da questi metodi che conferisce maggiore importanza alle attivazioni in output prodotte dai livelli modificati. Con questo "hacking dell'importanza", i livelli modificati forniscono un contributo molto più grande all'output del modello. Per mitigare questi problemi, presentiamo ENCORE - Editing Robusto della Conoscenza con Arresto Anticipato e Norma Vincolata. ENCORE controlla l'overfitting e la crescita sproporzionata della norma per consentire l'editing sequenziale a lungo termine, dove siamo in grado di eseguire fino a 10.000 modifiche sequenziali senza perdita delle prestazioni a valle. ENCORE è anche più veloce del 61% rispetto a MEMIT e del 64% rispetto ad AlphaEdit su Llama3-8B.
La generazione di testi lunghi è fondamentale per la stesura di articoli accademici e per la generazione di codice a livello di repository. Nonostante ciò, i modelli attuali, inclusi GPT-4o, presentano ancora prestazioni insoddisfacenti. I metodi esistenti che utilizzano l'apprendimento delle preferenze con supervisione dell'output spesso non riescono a fornire un feedback dettagliato per contesti estesi. Questa carenza può portare a contenuti che non soddisfano appieno i requisiti della query, causando problemi come deviazioni di lunghezza e una qualità ridotta. In questo articolo, proponiamo di potenziare la generazione di testi lunghi integrando la supervisione del processo. Utilizziamo la Ricerca ad Albero Monte Carlo per raccogliere coppie di preferenze passo dopo passo, utilizzando un pool di memoria globale per mantenere la coerenza. Per affrontare il problema della selezione subottimale dei candidati, integriamo critiche esterne per perfezionare e migliorare la qualità delle coppie di preferenze. Infine, applichiamo la DPO a livello di passo utilizzando le coppie di preferenze raccolte passo dopo passo. I risultati sperimentali mostrano che il nostro metodo migliora lunghezza e qualità nei benchmark di generazione di testi lunghi, con prestazioni quasi senza perdite su benchmark generali attraverso vari modelli di base.
I test unitari (UT) svolgono un ruolo fondamentale nell'valutare la correttezza del codice e nel fornire un feedback a un grande modello di linguaggio (LLM) mentre corregge iterativamente il codice difettoso, motivando la generazione automatica di test. Tuttavia, scopriamo un compromesso tra la generazione di input di test unitari che rivelano errori quando viene fornito un codice difettoso e la previsione corretta dell'output del test unitario senza accesso alla soluzione corretta. Per affrontare questo compromesso, proponiamo UTGen, che insegna agli LLM a generare input di test unitari che rivelano errori insieme ai relativi output attesi corretti basati sulle descrizioni del compito e sul codice candidato. Integriamo UTGen in UTDebug, un robusto pipeline di debug che utilizza i test generati per aiutare gli LLM a debuggare in modo efficace. Poiché i test generati dal modello possono fornire segnali rumorosi (ad esempio, dagli output predetti in modo errato), UTDebug (i) scala UTGen tramite calcolo al momento del test per migliorare la previsione dell'output di UT, e (ii) convalida e fa marcia indietro sulle modifiche basate su più test UT generati per evitare l'overfitting. Dimostriamo che UTGen supera i baselines di generazione di UT del 7,59% basandoci su una metrica che misura la presenza sia degli input di UT che rivelano errori sia degli output di UT corretti. Quando usato con UTDebug, scopriamo che il feedback dai test unitari di UTGen migliora la precisione pass@1 di Qwen-2.5 7B su HumanEvalFix e sulla nostra suddivisione più difficile di debugging di MBPP+ di oltre il 3% e il 12,35% (rispettivamente) rispetto ad altri baselines di generazione di UT basati su LLM.
I modelli linguistici (LM) dovrebbero fornire stime di fiducia affidabili per aiutare gli utenti a individuare errori nelle loro uscite e deferire agli esperti umani quando necessario. Chiedere a un modello linguistico di valutare la propria fiducia ("Valuta la tua fiducia da 0 a 1.") è un modo naturale per valutare la sua incertezza. Tuttavia, i modelli faticano a fornire valutazioni assolute di fiducia (ossia giudicare la fiducia nel rispondere a una domanda indipendentemente da altre domande) e i punteggi a grana grossa che producono non sono utili per valutare la correttezza delle loro risposte. Proponiamo una stima relativa della fiducia, in cui mettiamo a confronto domande tra loro e chiediamo al modello di formulare giudizi relativi di fiducia ("In quale domanda sei più sicuro di rispondere correttamente?"). Trattando ogni domanda come un "giocatore" in una serie di confronti con altre domande e le preferenze del modello come esiti del confronto, possiamo utilizzare metodi di aggregazione dei ranghi come il rating Elo e il metodo di Bradley-Terry per tradurre le preferenze di fiducia del modello in punteggi di fiducia. Valutiamo la stima relativa della fiducia rispetto alla stima assoluta della fiducia e ai metodi di fiducia di auto-coerenza su cinque modelli linguistici all'avanguardia - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet e Llama 3.1 405B - su 14 compiti di risposta a domande impegnative di STEM, scienze sociali e ragionamento di buon senso. I nostri risultati dimostrano che la stima relativa della fiducia fornisce in modo coerente punteggi di fiducia più affidabili rispetto alla stima assoluta della fiducia, con guadagni medi del 3,5% nell'AUC della classificazione selettiva rispetto ai metodi diretti di stima assoluta della fiducia e del 1,7% rispetto agli approcci di auto-coerenza su tutti i modelli e i set di dati.
Il retroperitoneo ospita una varietà di tumori, tra cui tipi rari benigni e maligni, che presentano sfide diagnostiche e di trattamento a causa della loro scarsa frequenza e della vicinanza a strutture vitali. Stimare il volume del tumore è difficile a causa delle loro forme irregolari e la segmentazione manuale è dispendiosa in termini di tempo. La segmentazione automatica utilizzando U-Net e le sue varianti, che incorporano elementi del Vision Transformer (ViT), ha mostrato risultati promettenti ma fatica con elevate richieste computazionali. Per affrontare questo problema, architetture come il Modello dello Spazio di Stato Mamba (SSM) e la Memoria a Lungo e Corto Termine Estesa (xLSTM) offrono soluzioni efficienti gestendo dipendenze a lungo raggio con minor consumo di risorse. Questo studio valuta miglioramenti a U-Net, inclusi CNN, ViT, Mamba e xLSTM, su un nuovo dataset CT interno e un dataset pubblico di segmentazione degli organi. Il modello proposto ViLU-Net integra blocchi Vi per una segmentazione migliorata. I risultati evidenziano l'efficienza di xLSTM nel framework U-Net. Il codice è accessibile pubblicamente su GitHub.
I modelli di base della patologia (FMs) offrono grandi promesse per l'assistenza sanitaria. Prima che possano essere utilizzati nella pratica clinica, è essenziale garantire che siano robusti alle variazioni tra i centri medici. Misuriamo se i FMs di patologia si concentrano su caratteristiche biologiche come il tessuto e il tipo di cancro, o sulle ben note firme di confusione dei centri medici introdotte dalla procedura di colorazione e da altre differenze. Introduciamo l'Indice di Robustezza. Questa nuova metrica di robustezza riflette in che misura le caratteristiche biologiche dominano le caratteristiche di confusione. Sono valutati dieci attuali FMs di patologia disponibili pubblicamente. Scopriamo che tutti i modelli di base di patologia attuali valutati rappresentano il centro medico in misura significativa. Sono osservate differenze significative nell'indice di robustezza. Finora solo un modello ha un indice di robustezza maggiore di uno, il che significa che le caratteristiche biologiche dominano le caratteristiche di confusione, ma solo leggermente. Viene descritto un approccio quantitativo per misurare l'influenza delle differenze tra i centri medici sulle prestazioni di previsione basate su FM. Analizziamo l'impatto della non robustezza sulle prestazioni di classificazione dei modelli successivi e scopriamo che gli errori di classificazione del tipo di cancro non sono casuali, ma attribuibili specificamente ai confonditori dello stesso centro: immagini di altre classi dello stesso centro medico. Visualizziamo gli spazi di incorporamento di FM e scopriamo che questi sono organizzati più fortemente dai centri medici che dai fattori biologici. Di conseguenza, il centro medico di origine viene previsto con maggiore precisione rispetto alla fonte del tessuto e al tipo di cancro. L'indice di robustezza introdotto qui è fornito con l'obiettivo di far progredire verso l'adozione clinica di FMs di patologia robusti e affidabili.