Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Transformer tende a sovra-allocare l'attenzione a contesti irrilevanti. In questo lavoro, introduciamo il Diff Transformer, che amplifica l'attenzione al contesto rilevante mentre annulla il rumore. In particolare, il meccanismo di attenzione differenziale calcola i punteggi di attenzione come differenza tra due mappe di attenzione softmax separate. La sottrazione annulla il rumore, promuovendo l'emergere di schemi di attenzione sparsi. I risultati sperimentali sul language modeling mostrano che il Diff Transformer supera il Transformer in vari contesti di aumento delle dimensioni del modello e dei token di addestramento. In modo più intrigante, offre notevoli vantaggi nelle applicazioni pratiche, come il modeling di contesti lunghi, il recupero di informazioni chiave, la mitigazione delle allucinazioni, l'apprendimento in contesto e la riduzione degli outlier di attivazione. Essendo meno distratto dal contesto irrilevante, il Diff Transformer può mitigare le allucinazioni nella risposta alle domande e nella sintesi del testo. Per l'apprendimento in contesto, il Diff Transformer non solo migliora la precisione ma è anche più robusto alla permutazione dell'ordine, considerata come un problema cronico di robustezza. I risultati posizionano il Diff Transformer come un'architettura altamente efficace e promettente per far progredire i grandi modelli linguistici.
Questo articolo presenta un avanzato framework di risoluzione di problemi matematici, LLaMA-Berry, per potenziare la capacità di ragionamento matematico dei Large Language Models (LLM). Il framework combina la Ricerca dell'Albero di Monte Carlo (Monte Carlo Tree Search, MCTS) con un processo iterativo di Auto-Raffinamento per ottimizzare il percorso di ragionamento e utilizza un modello di ricompensa a coppie per valutare globalmente percorsi diversi. Sfruttando le capacità di autocritica e riscrittura dei LLM, l'Auto-Raffinamento applicato a MCTS (SR-MCTS) supera le inefficienze e i limiti degli algoritmi di ricerca convenzionali passo dopo passo e avidi, promuovendo un'esplorazione più efficiente degli spazi delle soluzioni. Il Modello di Ricompensa a Preferenza a Coppie (Pairwise Preference Reward Model, PPRM), ispirato al Reinforcement Learning from Human Feedback (RLHF), viene poi utilizzato per modellare le preferenze a coppie tra le soluzioni, utilizzando un metodo di Conteggio di Borda Potenziato (Enhanced Borda Count, EBC) per sintetizzare tali preferenze in un punteggio di classifica globale per trovare risposte migliori. Questo approccio affronta le sfide della variabilità nella valutazione e delle distribuzioni non indipendenti nei compiti di ragionamento matematico. Il framework è stato testato su benchmark generali e avanzati, mostrando prestazioni superiori in termini di efficienza di ricerca e capacità di risoluzione dei problemi rispetto ai metodi esistenti come ToT e rStar, in particolare su benchmark di livello olimpiadico complessi, tra cui GPQA, AIME24 e AMC23.
I grandi modelli linguistici (LLM) spesso producono errori, tra cui inesattezze factuali, pregiudizi e fallimenti di ragionamento, definiti collettivamente come "allucinazioni". Studi recenti hanno dimostrato che gli stati interni dei LLM codificano informazioni sulla veridicità delle loro uscite, e che queste informazioni possono essere utilizzate per rilevare errori. In questo lavoro, mostriamo che le rappresentazioni interne dei LLM codificano molte più informazioni sulla veridicità di quanto precedentemente riconosciuto. Scopriamo innanzitutto che le informazioni sulla veridicità sono concentrate in token specifici, e sfruttando questa proprietà si migliora significativamente le prestazioni nella rilevazione degli errori. Tuttavia, dimostriamo che tali rilevatori di errori non generalizzano tra i dataset, implicando che - contrariamente a quanto affermato in precedenza - la codifica della veridicità non è universale ma piuttosto sfaccettata. Successivamente, mostriamo che le rappresentazioni interne possono anche essere utilizzate per prevedere i tipi di errori che il modello è probabile che commetta, facilitando lo sviluppo di strategie di mitigazione personalizzate. Infine, riveliamo una discrepanza tra la codifica interna dei LLM e il comportamento esterno: potrebbero codificare la risposta corretta, ma generare costantemente una risposta errata. Insieme, queste intuizioni approfondiscono la nostra comprensione degli errori dei LLM dalla prospettiva interna del modello, che può guidare la ricerca futura sull'ottimizzazione dell'analisi degli errori e della mitigazione.
I modelli di diffusione testo-immagine (T2I) hanno rivoluzionato la creazione di contenuti visivi, ma estendere tali capacità alla generazione testo-video (T2V) rimane una sfida, in particolare nel preservare la coerenza temporale. I metodi esistenti che mirano a migliorare la coerenza spesso comportano compromessi come la riduzione della qualità dell'immagine e tempi di calcolo non praticabili. Per affrontare tali problematiche, presentiamo VideoGuide, un nuovo framework che migliora la coerenza temporale dei modelli T2V preaddestrati senza la necessità di ulteriore addestramento o raffinamento. Invece, VideoGuide sfrutta un qualsiasi modello di diffusione video preaddestrato (VDM) o se stesso come guida durante le fasi iniziali dell'inferenza, migliorando la qualità temporale interpolando i campioni denoizzati del modello guida nel processo di denoising del modello di campionamento. Il metodo proposto porta a un significativo miglioramento nella coerenza temporale e nella fedeltà dell'immagine, offrendo una soluzione economica e pratica che sfrutta i punti di forza di vari modelli di diffusione video. Inoltre, dimostriamo la distillazione precedente, rivelando che i modelli di base possono ottenere una maggiore coerenza del testo utilizzando il miglior data prior del modello guida attraverso il metodo proposto. Pagina del Progetto: http://videoguide2025.github.io/
Nonostante il notevole successo ottenuto dalle reti neurali, in particolare quelle rappresentate da MLP e Transformer, riveliamo che esse presentano potenziali difetti nella modellazione e nell'analisi della periodicità, cioè tendono a memorizzare i dati periodici piuttosto che comprendere genuinamente i principi sottostanti della periodicità. Tuttavia, la periodicità è un tratto cruciale in varie forme di ragionamento e generalizzazione, sottendendo la prevedibilità attraverso modelli ricorrenti nelle osservazioni di sistemi naturali ed artificiali. In questo articolo, proponiamo FAN, una nuova architettura di rete basata sull'Analisi di Fourier, che potenzia la capacità di modellare ed analizzare fenomeni periodici in modo efficiente. Introducendo le Serie di Fourier, la periodicità è integrata in modo naturale nella struttura e nei processi computazionali della rete neurale, ottenendo così un'espressione e una previsione più accurate dei modelli periodici. Come promettente sostituto del multi-layer perceptron (MLP), FAN può sostituire agevolmente MLP in vari modelli con meno parametri e FLOPs. Attraverso estesi esperimenti, dimostriamo l'efficacia di FAN nella modellazione e nell'analisi delle funzioni periodiche, nonché la superiorità e la generalizzabilità di FAN in una serie di compiti del mondo reale, inclusa la rappresentazione di formule simboliche, la previsione delle serie temporali e la modellazione del linguaggio.
I recenti progressi nei Large Language Models (LLM) hanno suscitato interesse nelle loro capacità di ragionamento formale, in particolare in matematica. Il benchmark GSM8K è ampiamente utilizzato per valutare il ragionamento matematico dei modelli su domande di livello scolastico. Sebbene le prestazioni dei LLM su GSM8K siano notevolmente migliorate negli ultimi anni, rimane incerto se le loro capacità di ragionamento matematico siano effettivamente avanzate, sollevando dubbi sulla affidabilità delle metriche riportate. Per affrontare tali preoccupazioni, conduciamo uno studio su larga scala su diversi modelli aperti e chiusi all'avanguardia. Per superare i limiti delle valutazioni esistenti, introduciamo GSM-Symbolic, un benchmark migliorato creato da modelli simbolici che consentono la generazione di un insieme variegato di domande. GSM-Symbolic consente valutazioni più controllabili, fornendo importanti approfondimenti e metriche più affidabili per misurare le capacità di ragionamento dei modelli. Le nostre scoperte rivelano che i LLM mostrano una variazione significativa nel rispondere a diverse istanze della stessa domanda. In particolare, le prestazioni di tutti i modelli diminuiscono quando vengono modificati solo i valori numerici nella domanda nel benchmark GSM-Symbolic. Inoltre, indaghiamo sulla fragilità del ragionamento matematico in questi modelli e mostriamo che le loro prestazioni peggiorano significativamente all'aumentare del numero di clausole in una domanda. Ipotizziamo che questo declino sia dovuto al fatto che i LLM attuali non possono eseguire un autentico ragionamento logico; essi replicano passaggi di ragionamento dai dati di addestramento. Aggiungere una singola clausola che sembra pertinente alla domanda provoca significativi cali di prestazione (fino al 65%) in tutti i modelli all'avanguardia, anche se la clausola non contribuisce alla catena di ragionamento necessaria per la risposta finale. Nel complesso, il nostro lavoro offre una comprensione più sfumata delle capacità e dei limiti dei LLM nel ragionamento matematico.
I progressi dei modelli linguistici basati su linguaggio (LLM) hanno suscitato un crescente interesse nello sviluppo di agenti linguistici basati su LLM per automatizzare la scoperta scientifica end-to-end, scatenando sia entusiasmo che scetticismo sulle vere capacità di tali agenti. In questo lavoro, sosteniamo che affinché un agente possa automatizzare completamente la scoperta scientifica, deve essere in grado di completare tutti i compiti essenziali nel flusso di lavoro. Pertanto, richiamiamo a una valutazione rigorosa degli agenti su compiti individuali in un flusso di lavoro scientifico prima di fare affermazioni audaci sull'automazione end-to-end. A tal fine, presentiamo ScienceAgentBench, un nuovo benchmark per valutare gli agenti linguistici per la scoperta scientifica basata sui dati. Per garantire l'autenticità scientifica e la rilevanza nel mondo reale del nostro benchmark, estraiamo 102 compiti da 44 pubblicazioni peer-reviewed in quattro discipline e coinvolgiamo nove esperti del settore per convalidarli. Unifichiamo l'output target per ogni compito in un file di programma Python autosufficiente e utilizziamo una serie di metriche di valutazione per esaminare i programmi generati, i risultati dell'esecuzione e i costi. Ogni compito passa attraverso diverse fasi di convalida manuale da parte degli annotatori e degli esperti del settore per garantire la qualità dell'annotazione e la plausibilità scientifica. Proponiamo inoltre due strategie efficaci per mitigare le preoccupazioni di contaminazione dei dati. Utilizzando il nostro benchmark, valutiamo cinque LLM open-weight e proprietari, ciascuno con tre framework: prompt diretto, OpenHands e auto-debug. Considerando tre tentativi per ogni compito, l'agente che ha prestazioni migliori può risolvere solo il 32,4% dei compiti in modo indipendente e il 34,3% con conoscenze fornite dagli esperti. Questi risultati evidenziano le capacità limitate degli attuali agenti linguistici nella generazione di codice per la scoperta basata sui dati, figuriamoci l'automazione end-to-end per la ricerca scientifica.
I modelli linguistici multimodali di grandi dimensioni (MLLM) stanno trasformando le capacità degli agenti dell'interfaccia utente grafica (GUI), facilitando il passaggio da simulazioni controllate a complesse applicazioni reali su varie piattaforme. Tuttavia, l'efficacia di questi agenti dipende dalla robustezza della loro capacità di fondazione. Gli attuali agenti GUI utilizzano prevalentemente rappresentazioni basate su testo come HTML o alberi di accessibilità, che, nonostante la loro utilità, spesso introducono rumore, incompletezza e un aumento del carico computazionale. In questo articolo, sosteniamo l'incorporazione di un'umanità per gli agenti GUI che percepiscono l'ambiente interamente in modo visivo e operano direttamente a livello di pixel sull'interfaccia utente grafica. La chiave sono i modelli di fondazione visiva che possono mappare con precisione diverse espressioni di riferimento degli elementi GUI alle loro coordinate sull'interfaccia utente grafica su diverse piattaforme. Dimostriamo che una semplice ricetta, che include dati sintetici basati sul web e lievi adattamenti dell'architettura LLaVA, è sorprendentemente efficace per addestrare tali modelli di fondazione visiva. Raccogliamo il più grande dataset per la fondazione visiva GUI finora, contenente 10M elementi GUI e le relative espressioni di riferimento su oltre 1.3M screenshot, e lo utilizziamo per addestrare UGround, un forte modello universale di fondazione visiva per agenti GUI. I risultati empirici su sei benchmark che coprono tre categorie (fondazione, agente offline e agente online) mostrano che 1) UGround supera notevolmente i modelli di fondazione visiva esistenti per agenti GUI, fino al 20% in valore assoluto, e 2) gli agenti con UGround superano gli agenti all'avanguardia, nonostante il fatto che gli agenti esistenti utilizzino input aggiuntivi basati su testo mentre il nostro utilizza solo percezione visiva. Questi risultati forniscono un forte supporto alla fattibilità e alle promesse degli agenti GUI che navigano nel mondo digitale come fanno gli esseri umani.
Introduciamo UniMuMo, un modello multimodale unificato in grado di utilizzare dati di testo, musica e movimento arbitrari come condizioni di input per generare output attraverso tutte e tre le modalità. Per affrontare la mancanza di dati sincronizzati nel tempo, allineiamo dati non accoppiati di musica e movimento basandoci sui pattern ritmici per sfruttare i già esistenti dataset di sola musica e di solo movimento su larga scala. Convertendo musica, movimento e testo in una rappresentazione basata su token, il nostro modello collega queste modalità attraverso un'architettura trasformatrice unificata codificatore-decodificatore. Per supportare molteplici compiti di generazione all'interno di un singolo framework, introduciamo diversi miglioramenti architetturali. Proponiamo di codificare il movimento con un libro dei codici della musica, mappando il movimento nello stesso spazio delle caratteristiche della musica. Introduciamo uno schema di generazione parallela musica-movimento che unifica tutti i compiti di generazione di musica e movimento in un'unica architettura decodificatore trasformatore con un singolo compito di addestramento di generazione congiunta di musica e movimento. Inoltre, il modello è progettato mediante il raffinamento di modelli preaddestrati monomodalità esistenti, riducendo significativamente le richieste computazionali. Estesi esperimenti dimostrano che UniMuMo ottiene risultati competitivi su tutti i benchmark di generazione unidirezionale attraverso le modalità di musica, movimento e testo. I risultati quantitativi sono disponibili nella pagina del progetto: https://hanyangclarence.github.io/unimumo_demo/.
L'accurata stima della geometria da scene dinamiche, in cui gli oggetti si muovono e si deformano nel tempo, rimane una sfida fondamentale nella visione artificiale. Gli approcci attuali spesso si basano su pipeline a più stadi o ottimizzazioni globali che scompongono il problema in sotto-task, come profondità e flusso, portando a sistemi complessi inclini agli errori. In questo articolo, presentiamo Motion DUSt3R (MonST3R), un nuovo approccio basato sulla geometria che stima direttamente la geometria per ciascun passaggio temporale da scene dinamiche. La nostra intuizione chiave è che semplicemente stimando una mappa di punti per ciascun passaggio temporale, possiamo adattare efficacemente la rappresentazione di DUST3R, precedentemente utilizzata solo per scene statiche, a scene dinamiche. Tuttavia, questo approccio presenta una sfida significativa: la scarsità di dati di addestramento adeguati, ovvero video dinamici posati con etichette di profondità. Nonostante ciò, dimostriamo che ponendo il problema come un compito di fine-tuning, identificando diversi set di dati adatti e addestrando strategicamente il modello su questi dati limitati, possiamo sorprendentemente abilitare il modello a gestire la dinamicità, anche senza una rappresentazione esplicita del movimento. Sulla base di ciò, introduciamo nuove ottimizzazioni per diversi compiti video-specifici e dimostriamo una forte performance nella stima della profondità del video e della posizione della telecamera, superando i lavori precedenti in termini di robustezza ed efficienza. Inoltre, MonST3R mostra risultati promettenti per la ricostruzione principalmente feed-forward in 4D.
Nonostante i progressi nei metodi di trasformazione testo-musica (TTM) basati sulla diffusione, la generazione efficiente e di alta qualità rimane una sfida. Presentiamo Presto!, un approccio all'accelerazione dell'inferenza per i trasformatori di diffusione basati sul punteggio riducendo sia i passaggi di campionamento che il costo per passaggio. Per ridurre i passaggi, sviluppiamo un nuovo metodo di distillazione del matching di distribuzione basato sul punteggio (DMD) per la famiglia di modelli di diffusione EDM, il primo metodo di distillazione basato su GAN per TTM. Per ridurre il costo per passaggio, sviluppiamo un miglioramento semplice ma potente a un recente metodo di distillazione a livello che migliora l'apprendimento preservando meglio la varianza dello stato nascosto. Infine, combiniamo i nostri metodi di distillazione a passaggi e a livello per un approccio a doppia faccia. Valutiamo i nostri metodi di distillazione a passaggi e a livello indipendentemente e mostriamo che ciascuno produce prestazioni di prima classe. Il nostro metodo di distillazione combinato può generare output di alta qualità con una maggiore diversità, accelerando il nostro modello base di 10-18 volte (latenza di 230/435 ms per 32 secondi mono/stereo a 44,1 kHz, 15 volte più veloce rispetto a SOTA comparabili) - il TTM di alta qualità più veloce di cui siamo a conoscenza. Esempi audio sono disponibili su https://presto-music.github.io/web/.
Questo rapporto tecnico introduce un Benchmark per il Riconoscimento di Entità Cliniche Nominato per valutare i modelli linguistici nel settore sanitario, affrontando l'importante compito di elaborazione del linguaggio naturale (NLP) di estrarre informazioni strutturate da narrazioni cliniche per supportare applicazioni come la codifica automatizzata, l'identificazione di coorti per studi clinici e il supporto alle decisioni cliniche. Il leaderboard fornisce una piattaforma standardizzata per valutare diversi modelli linguistici, inclusi le architetture encoder e decoder, sulla loro capacità di identificare e classificare entità cliniche in diversi domini medici. Viene utilizzata una raccolta selezionata di set di dati clinici disponibili pubblicamente, che comprendono entità come malattie, sintomi, farmaci, procedure e misurazioni di laboratorio. È importante notare che queste entità sono standardizzate secondo il Modello di Dati Comuni dell'Observational Medical Outcomes Partnership (OMOP), garantendo coerenza e interoperabilità tra diversi sistemi sanitari e set di dati, e una valutazione completa delle prestazioni del modello. Le prestazioni dei modelli sono valutate principalmente utilizzando l'F1-score, integrato da vari modi di valutazione per fornire approfondimenti completi sulle prestazioni del modello. Il rapporto include anche un'analisi breve dei modelli valutati fino a oggi, evidenziando tendenze e limitazioni osservate. Attraverso l'istituzione di questo quadro di riferimento per il benchmarking, il leaderboard mira a promuovere la trasparenza, facilitare analisi comparative e stimolare l'innovazione nei compiti di riconoscimento di entità cliniche, affrontando la necessità di metodi di valutazione robusti nell'NLP sanitario.
Sebbene i modelli di ricompensa abbiano avuto successo nel migliorare i modelli di linguaggio multimodali di grandi dimensioni, i modelli di ricompensa stessi rimangono rudimentali e contengono informazioni minime. In particolare, i modelli di ricompensa esistenti si limitano a imitare le annotazioni umane assegnando un unico feedback binario a qualsiasi testo, indipendentemente dalla lunghezza del testo. Nel campo dei modelli di linguaggio multimodali, dove i modelli devono elaborare sia immagini che testi, un modello di ricompensa ingenuo potrebbe apprendere dei bias impliciti verso i testi e distaccarsi dalle immagini. In questo articolo, proponiamo un Modello di Ricompensa Detective a Livello di Token (TLDR) per fornire annotazioni dettagliate a livello di token per ciascun testo. Introduciamo innanzitutto un metodo basato su perturbazioni per generare negativi sintetici difficili e le relative etichette a livello di token per addestrare i modelli TLDR. Successivamente mostriamo la grande utilità dei modelli TLDR sia nell'assistere i modelli pronti all'uso a correggere autonomamente le loro generazioni, sia nel servire come strumento di valutazione delle allucinazioni. Infine, dimostriamo che i modelli TLDR possono accelerare significativamente l'annotazione umana di 3 volte per acquisire una gamma più ampia di dati di linguaggio visivo di alta qualità.
I recenti modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità versatili in scenari a lungo contesto. Sebbene siano stati sviluppati alcuni recenti benchmark per valutare le capacità a lungo contesto dei LLM, mancano benchmark che valutino le capacità di ragionamento matematico dei LLM su contesti lunghi, fondamentali per l'applicazione dei LLM in scenari reali. In questo articolo, presentiamo MathHay, un benchmark automatizzato progettato per valutare le capacità di ragionamento matematico a lungo contesto dei LLM. A differenza di benchmark precedenti come Needle in a Haystack, che si concentrano principalmente sull'estrazione di informazioni all'interno di testi lunghi, MathHay richiede modelli con capacità sia di ricerca di informazioni che di ragionamento matematico complesso. Conduci-amo ampi esperimenti su MathHay per valutare le capacità di ragionamento matematico a lungo contesto di otto LLM di alto livello. Anche il modello migliore, Gemini-1.5-Pro-002, fa ancora fatica con il ragionamento matematico su contesti lunghi, raggiungendo solo il 51,26% di accuratezza a 128K token. Ciò sottolinea il significativo margine di miglioramento sul benchmark MathHay.
Con l'espansione dell'applicazione dei Grandi Modelli Linguistici (GML), aumenta la richiesta di valutazioni affidabili. I benchmark esistenti per la valutazione dei GML si basano principalmente su set di dati statici, rendendo difficile valutare le prestazioni del modello in interazioni dinamiche con gli utenti. Inoltre, questi benchmark dipendono spesso da conoscenze specifiche, complicando la misurazione delle capacità di ragionamento logico di un modello. Altri metodi di valutazione dinamica basati su modelli robusti o sforzi manuali possono introdurre bias e comportare costi elevati e richieste di tempo, ostacolando l'applicazione su larga scala. Per affrontare questi problemi, proponiamo TurtleBench. TurtleBench raccoglie congetture reali degli utenti dalla nostra piattaforma online Turtle Soup Puzzle che abbiamo sviluppato. Questo approccio consente la generazione relativamente dinamica di set di dati di valutazione, riducendo il rischio di imbrogli del modello mentre allinea le valutazioni più strettamente con le reali esigenze degli utenti per le capacità di ragionamento, migliorando così l'affidabilità delle valutazioni. TurtleBench include 1.532 congetture degli utenti insieme alla correttezza delle congetture dopo l'annotazione. Utilizzando questo set di dati, abbiamo valutato approfonditamente nove dei GML più avanzati disponibili oggi. In particolare, i modelli della serie OpenAI o1 non hanno ottenuto risultati di punta in queste valutazioni. Proponiamo diverse ipotesi per ulteriori ricerche, come "il ragionamento latente di o1 utilizza tecniche banali di Catena di Pensiero (CdP)" e "aumentare la lunghezza di CdP fornisce benefici di ragionamento ma comporta anche costi di rumore".
Presentiamo OmniBooth, un framework di generazione di immagini che consente il controllo spaziale con personalizzazione multi-modale a livello di istanza. Per tutte le istanze, l'istruzione multimodale può essere descritta tramite prompt di testo o riferimenti di immagini. Date un insieme di maschere definite dall'utente e relative istruzioni di testo o immagini, il nostro obiettivo è generare un'immagine in cui più oggetti siano posizionati alle coordinate specificate e i loro attributi siano allineati con precisione alle relative istruzioni. Questo approccio espande significativamente l'ambito della generazione di testo in immagine, portandolo a una dimensione più versatile e pratica in termini di controllabilità. In questo articolo, il nostro contributo principale risiede nei segnali di controllo latenti proposti, una caratteristica spaziale ad alta dimensionalità che fornisce una rappresentazione unificata per integrare in modo fluido le condizioni spaziali, testuali e di immagine. La condizione di testo estende ControlNet per fornire una generazione a livello di istanza con vocabolario aperto. La condizione di immagine consente ulteriormente un controllo dettagliato con identità personalizzata. Nella pratica, il nostro metodo offre agli utenti maggiore flessibilità nella generazione controllabile, poiché gli utenti possono scegliere condizioni multi-modali da testo o immagini secondo necessità. Inoltre, esperimenti approfonditi dimostrano le nostre prestazioni migliorate nella fedeltà di sintesi delle immagini e nell'allineamento tra diverse attività e set di dati. Pagina del progetto: https://len-li.github.io/omnibooth-web/
La fusione di modelli mira a combinare più modelli esperti in un unico modello più capace, offrendo vantaggi come la riduzione dei costi di archiviazione e di servizio, un'ottimizzazione della generalizzazione e il supporto allo sviluppo decentralizzato dei modelli. Nonostante le sue potenzialità, studi precedenti si sono concentrati principalmente sulla fusione di alcuni modelli di piccole dimensioni. Ciò lascia molte domande senza risposta sull'effetto della scalabilità delle dimensioni del modello e su come interagisca con altri fattori chiave - come la qualità del modello di base e il numero di modelli esperti - per influenzare le prestazioni del modello fuso. Questo lavoro valuta sistematicamente l'utilità della fusione di modelli su larga scala, esaminando l'impatto di questi diversi fattori. Sperimentiamo la fusione di modelli completamente ottimizzati utilizzando 4 metodi di fusione popolari - Media, Aritmetica delle Attività, Dare e TIES - su dimensioni del modello che vanno da 1 miliardo a 64 miliardi di parametri e fondendo fino a 8 diversi modelli esperti. Valutiamo i modelli fusi sia su compiti mantenuti, cioè i compiti di addestramento degli esperti, sia sulla generalizzazione zero-shot a compiti non visti. I nostri esperimenti forniscono diverse nuove intuizioni sulla fusione di modelli su larga scala e sull'interazione tra diversi fattori. In primo luogo, scopriamo che la fusione è più efficace quando gli esperti sono creati da modelli di base solidi, cioè modelli con buone prestazioni zero-shot. In secondo luogo, modelli più grandi facilitano una fusione più semplice. Terzo, la fusione migliora costantemente le capacità di generalizzazione. In particolare, quando si fondono 8 grandi modelli esperti, i modelli fusi spesso generalizzano meglio rispetto ai modelli addestrati con multitasking. In quarto luogo, possiamo fondere meglio più modelli esperti quando si lavora con modelli più grandi. Quinto, diversi metodi di fusione si comportano in modo molto simile su scale più grandi. Nel complesso, le nostre scoperte gettano luce su alcune interessanti proprietà della fusione di modelli, evidenziando anche alcune limitazioni. Speriamo che questo studio possa servire come punto di riferimento sulla fusione su larga scala per le ricerche future.
La curatela dei dati è il problema di come raccogliere e organizzare campioni in un dataset che supporti un apprendimento efficiente. Nonostante l'importanza del compito, poco lavoro è stato dedicato a un confronto sistematico su larga scala di vari metodi di curatela. In questo lavoro, compiamo passi verso una valutazione formale delle strategie di curatela dei dati e presentiamo SELECT, il primo benchmark su larga scala delle strategie di curatela per la classificazione delle immagini. Per generare metodi di base per il benchmark SELECT, creiamo un nuovo dataset, ImageNet++, che costituisce il più grande superinsieme di ImageNet-1K ad oggi. Il nostro dataset estende ImageNet con 5 nuovi spostamenti dei dati di addestramento, ognuno approssimativamente delle dimensioni di ImageNet-1K stesso, e ognuno assemblato utilizzando una strategia di curatela distinta. Valutiamo i nostri metodi di curatela dei dati di base in due modi: (i) utilizzando ciascun spostamento dei dati di addestramento per addestrare modelli di classificazione delle immagini identici da zero (ii) utilizzando i dati stessi per adattare una rappresentazione auto-supervisionata preaddestrata. Le nostre scoperte mostrano tendenze interessanti, in particolare riguardanti i metodi recenti per la curatela dei dati come la generazione di dati sintetici e la ricerca basata su embedding CLIP. Mostriamo che sebbene queste strategie siano altamente competitive per determinati compiti, la strategia di curatela utilizzata per assemblare il dataset originale ImageNet-1K rimane lo standard aureo. Prevediamo che il nostro benchmark possa illuminare il percorso per nuovi metodi per ridurre ulteriormente il divario. Rilasciamo i nostri checkpoint, codice, documentazione e un link al nostro dataset su https://github.com/jimmyxu123/SELECT.
La sintesi dei movimenti umani in ambienti 3D, in particolare quelli con attività complesse come la locomozione, il raggiungimento con la mano e l'interazione uomo-oggetto, presenta notevoli richieste per i punti intermedi definiti dall'utente e le transizioni di fase. Questi requisiti pongono sfide per i modelli attuali, portando a una significativa lacuna nell'automatizzazione dell'animazione dei personaggi a partire da semplici input umani. Questo articolo affronta questa sfida introducendo un quadro completo per la sintesi di movimenti di interazione consapevoli della scena a più fasi direttamente da un'unica istruzione testuale e dalla posizione obiettivo. Il nostro approccio utilizza un modello di diffusione auto-regressivo per sintetizzare il segmento di movimento successivo, insieme a un programmatore autonomo che prevede la transizione per ciascuna fase dell'azione. Per garantire che i movimenti sintetizzati siano integrati in modo uniforme all'interno dell'ambiente, proponiamo una rappresentazione della scena che tiene conto della percezione locale sia all'inizio che nella posizione obiettivo. Miglioriamo ulteriormente la coerenza del movimento generato integrando i frame embeddings con l'input linguistico. Inoltre, per supportare l'addestramento del modello, presentiamo un ampio dataset di motion capture che comprende 16 ore di sequenze di movimento in 120 scene indoor che coprono 40 tipi di movimenti, ognuno annotato con precise descrizioni linguistiche. I risultati sperimentali dimostrano l'efficacia del nostro metodo nella generazione di movimenti a più fasi di alta qualità strettamente allineati alle condizioni ambientali e testuali.
I metodi di apprendimento per rinforzo da feedback umano (RLHF) stanno emergendo come un modo per perfezionare i modelli di diffusione (DMs) per la generazione visuale. Tuttavia, le strategie comunemente utilizzate on-policy sono limitate dalla capacità di generalizzazione del modello di ricompensa, mentre gli approcci off-policy richiedono grandi quantità di dati accoppiati annotati da umani, particolarmente difficili da ottenere, soprattutto in compiti di generazione visuale. Per affrontare le limitazioni sia degli approcci on-policy che off-policy RLHF, proponiamo un metodo di ottimizzazione delle preferenze che allinea i DM con le preferenze senza fare affidamento su modelli di ricompensa o dati accoppiati annotati da umani. In particolare, introduciamo un metodo di Ottimizzazione delle Preferenze Semi-Policy (SePPO). SePPO sfrutta i checkpoint precedenti come modelli di riferimento utilizzandoli per generare campioni di riferimento on-policy, che sostituiscono le "immagini perdenti" nelle coppie di preferenze. Questo approccio ci consente di ottimizzare utilizzando solo "immagini vincenti" off-policy. Inoltre, progettiamo una strategia per la selezione del modello di riferimento che espande l'esplorazione nello spazio delle policy. In particolare, non trattiamo semplicemente i campioni di riferimento come esempi negativi per l'apprendimento. Invece, progettiamo un criterio basato su ancoraggio per valutare se i campioni di riferimento sono probabili di essere immagini vincenti o perdenti, consentendo al modello di apprendere selettivamente dai campioni di riferimento generati. Questo approccio mitiga il degrado delle prestazioni causato dall'incertezza nella qualità del campione di riferimento. Confermiamo l'efficacia di SePPO su entrambi i benchmark testo-immagine e testo-video. SePPO supera tutti gli approcci precedenti sui benchmark testo-immagine e dimostra anche prestazioni eccezionali sui benchmark testo-video. Il codice sarà rilasciato su https://github.com/DwanZhang-AI/SePPO.
I modelli di diffusione hanno rivoluzionato la generazione di immagini e l'estensione alla generazione di video ha mostrato promesse. Tuttavia, i modelli di diffusione video attuali (VDM) si basano su una variabile di timestep scalare applicata a livello di clip, il che limita la loro capacità di modellare complesse dipendenze temporali necessarie per varie attività come la generazione di immagini a video. Per affrontare questa limitazione, proponiamo un modello di diffusione video consapevole dei frame (FVDM), che introduce una nuova variabile di timestep vettorizzata (VTV). A differenza dei VDM convenzionali, il nostro approccio consente a ciascun frame di seguire un programma di rumore indipendente, potenziando la capacità del modello di catturare dipendenze temporali dettagliate. La flessibilità di FVDM è dimostrata in diverse attività, tra cui la generazione standard di video, la generazione di immagini a video, l'interpolazione video e la sintesi di video lunghi. Attraverso una serie diversificata di configurazioni VTV, otteniamo una qualità superiore nei video generati, superando sfide come il dimenticamento catastrofico durante il raffinamento e la limitata generalizzabilità nei metodi zero-shot. Le nostre valutazioni empiriche mostrano che FVDM supera i metodi all'avanguardia in termini di qualità della generazione video, eccellendo anche in attività estese. Affrontando le carenze fondamentali nei VDM esistenti, FVDM stabilisce un nuovo paradigma nella sintesi video, offrendo un quadro robusto con significative implicazioni per la modellazione generativa e le applicazioni multimediali.
Introduciamo un compito e un set di dati per la generazione e comprensione dell'espressione di riferimento in ambienti incorporati multiagente. In questo compito, due agenti in una scena condivisa devono tener conto della prospettiva visiva reciproca, che può essere diversa dalla propria, per produrre e comprendere riferimenti agli oggetti in una scena e alle relazioni spaziali tra di essi. Raccogliamo un set di dati di 2.970 espressioni di riferimento scritte da umani, ciascuna accoppiata con giudizi di comprensione umani, e valutiamo le prestazioni dei modelli automatizzati come speaker e ascoltatori accoppiati con partner umani, riscontrando che le prestazioni del modello nella generazione e comprensione dei riferimenti sono inferiori a quelle delle coppie di agenti umani. Infine, sperimentiamo addestrando un modello di speaker open-weight con prove di successo comunicativo quando accoppiato con un ascoltatore, ottenendo un miglioramento dal 58,9 al 69,3% nel successo comunicativo e superando persino il modello proprietario più potente.
L'inferenza LLM per casi d'uso aziendali popolari, come la sintesi, RAG e la generazione di codice, di solito osserva lunghezze dell'input dell'ordine di grandezza superiori rispetto alle lunghezze di generazione. Questa caratteristica porta a un elevato costo di prefill e a un aumento della latenza di risposta. In questo articolo, presentiamo SwiftKV, una procedura di trasformazione e distillazione del modello innovativa progettata specificamente per ridurre il tempo e il costo di elaborazione dei token di input preservando nel contempo l'alta qualità dei token generati. SwiftKV combina tre meccanismi chiave: i) SingleInputKV, che precompila la cache KV dei livelli successivi utilizzando l'output di un livello molto precedente, consentendo ai token di input di saltare gran parte del calcolo del modello, ii) AcrossKV, che unisce le cache KV dei livelli adiacenti per ridurre l'occupazione di memoria e supportare batch size più grandi per una maggiore capacità di elaborazione, e iii) una procedura di distillazione che conserva la conoscenza e può adattare i LLM esistenti per SwiftKV con un impatto minimo sull'accuratezza e un basso requisito di calcolo e dati. Per Llama-3.1-8B e 70B, SwiftKV riduce il requisito di calcolo del prefill del 50% e il requisito di memoria della cache KV del 62,5% pur causando una degradazione minima della qualità in una vasta gamma di compiti. Nell'inferenza end-to-end con un'implementazione vLLM ottimizzata, SwiftKV realizza un throughput aggregato fino a 2 volte superiore e un tempo per token di output inferiore del 60%. Può raggiungere un sorprendente throughput di inferenza normalizzato di 560 TFlops/GPU, che si traduce in 16K token/s per Llama-3.1-70B in precisione a 16 bit su 4 GPU H100.