Articoli di ricerca IA selezionati quotidianamente con traduzioni
Possono i grandi modelli linguistici (LLM) servire direttamente come potenti modelli del mondo per agenti basati su modelli? Sebbene esistano delle lacune tra la conoscenza pregressa dei LLM e la dinamica dell'ambiente specificato, il nostro studio rivela che tali lacune possono essere colmate allineando un LLM con il suo ambiente implementato e tale "allineamento del mondo" può essere raggiunto in modo efficiente tramite apprendimento di regole sui LLM. Data la ricca conoscenza pregressa dei LLM, solo poche regole aggiuntive sono sufficienti per allineare le previsioni dei LLM con la dinamica dell'ambiente specificato. A tal fine, proponiamo un approccio neurosimbolico per apprendere queste regole senza gradienti attraverso i LLM, inducendo, aggiornando e potando regole basate su confronti tra traiettorie esplorate dagli agenti e previsioni del modello del mondo. Il modello del mondo risultante è composto dal LLM e dalle regole apprese. Il nostro agente LLM incorporato "WALL-E" si basa sul controllo predittivo del modello (MPC). Ottimizzando le azioni di previsione basate sul preciso modello del mondo, MPC migliora significativamente l'efficienza dell'esplorazione e dell'apprendimento. Rispetto agli agenti LLM esistenti, il ragionamento di WALL-E richiede solo poche regole principali anziché traiettorie bufferizzate verbosamente incluse nell'input del LLM. Sfide di mondo aperto in Minecraft e ALFWorld, WALL-E raggiunge tassi di successo più elevati rispetto ai metodi esistenti, con minori costi in termini di tempo di ripianificazione e numero di token utilizzati per il ragionamento. In Minecraft, WALL-E supera i valori di base del 15-30% nel tasso di successo pur costando da 8 a 20 round di ripianificazione in meno e solo il 60-80% dei token. In ALFWorld, il suo tasso di successo sale a un nuovo record del 95% solo dopo 6 iterazioni.
Il codice è stato dimostrato essere efficace nel potenziare le capacità di ragionamento matematico dei grandi modelli linguistici grazie alla sua precisione e accuratezza. Lavori precedenti che coinvolgono il preaddestramento matematico continuato includono spesso codice che utilizza pacchetti correlati alla matematica, principalmente progettati per campi come l'ingegneria, l'apprendimento automatico, l'elaborazione dei segnali o il testing dei moduli, piuttosto che essere direttamente focalizzati sul ragionamento matematico. In questo articolo, presentiamo un nuovo metodo per generare codice matematico accompagnato da passaggi di ragionamento corrispondenti per il preaddestramento continuato. Il nostro approccio inizia con la costruzione di un dataset di preaddestramento matematico di alta qualità incorporando dati web correlati alla matematica, codice che utilizza pacchetti matematici, libri di testo di matematica e dati sintetici. Successivamente, costruiamo passaggi di ragionamento estraendo espressioni LaTeX, le condizioni necessarie per tali espressioni e i risultati delle espressioni dal dataset precedentemente raccolto. Basandoci su queste informazioni estratte, generiamo codice corrispondente per catturare accuratamente il processo di ragionamento matematico. Aggiungendo il codice generato a ciascun passaggio di ragionamento otteniamo dati costituiti da passaggi di ragionamento in linguaggio naturale accoppiati al relativo codice. Combinando questi dati con il dataset originale otteniamo un corpus di preaddestramento matematico ad alte prestazioni di 19,2 miliardi di token, che abbiamo chiamato MathCode-Pile. Addestrando diversi modelli di base popolari con questo corpus, si migliorano significativamente le loro capacità matematiche, portando alla creazione della famiglia di modelli MathCoder2. Tutto il nostro codice di elaborazione dati e addestramento è open source, garantendo piena trasparenza e facile riproducibilità dell'intero processo di raccolta dati e addestramento. Il codice è disponibile su https://github.com/mathllm/MathCoder2.
Gli agenti MLLM dimostrano potenzialità per complesse attività incarnate recuperando dati di traiettoria multimodali rilevanti per il compito. Tuttavia, i metodi attuali di recupero si concentrano principalmente sulle somiglianze superficiali di indizi testuali o visivi nelle traiettorie, trascurando la loro efficacia per il compito specifico in corso. Per affrontare questo problema, proponiamo un nuovo metodo, MLLM come Recuperatore (MART), che migliora le prestazioni degli agenti incarnati utilizzando dati di interazione per perfezionare un recuperatore MLLM basato sull'apprendimento delle preferenze, in modo che il recuperatore consideri appieno l'efficacia delle traiettorie e le priorizzi per i compiti non visti. Introduciamo anche l'astrazione della traiettoria, un meccanismo che sfrutta le capacità di riassunto dei MLLM per rappresentare le traiettorie con meno token preservando le informazioni chiave, consentendo agli agenti di comprendere meglio i traguardi nella traiettoria. I risultati sperimentali in vari ambienti dimostrano che il nostro metodo migliora significativamente i tassi di successo dei compiti in scene non viste rispetto ai metodi di base. Questo lavoro presenta un nuovo paradigma per il recupero multimodale negli agenti incarnati, perfezionando un MLLM di scopo generale come recuperatore per valutare l'efficacia della traiettoria. Tutti i set di compiti di riferimento e le modifiche al codice del simulatore per gli spazi di azione e osservazione saranno resi disponibili.
La quantizzazione è essenziale per implementare i Large Language Models (LLM) migliorando l'efficienza della memoria e la velocità di inferenza. I metodi esistenti per la quantizzazione delle attivazioni affrontano principalmente i valori anomali per canale, spesso trascurando i valori anomali per token, il che porta a dipendere dalla costosa quantizzazione dinamica per token. Per affrontare questo problema, presentiamo PrefixQuant, una tecnica innovativa che isola i token anomali offline senza la necessità di un nuovo addestramento. In particolare, PrefixQuant identifica i token anomali ad alta frequenza e li prefissa nella cache KV, impedendo la generazione di token anomali durante l'inferenza e semplificando la quantizzazione. A nostra conoscenza, PrefixQuant è il primo a consentire una quantizzazione statica efficiente per tensore per superare la costosa quantizzazione dinamica per token. Ad esempio, in W4A4KV4 (pesi a 4 bit, attivazioni a 4 bit e cache KV a 4 bit) Llama-3-8B, PrefixQuant con quantizzazione statica per tensore raggiunge una perplessità di 7.43 su WikiText2 e un'accuratezza media del 71.08% su 5 compiti di ragionamento di senso comune, superando i metodi precedenti di quantizzazione dinamica per token come QuaRot con un miglioramento della perplessità di 0.98 e un aumento dell'accuratezza di +5.98 punti. Inoltre, la velocità di inferenza dei modelli quantizzati W4A4 utilizzando PrefixQuant è 1.60x a 2.81x più veloce rispetto ai modelli FP16 e supera i modelli QuaRot di 1.2x a 1.3x. Il nostro codice è disponibile su https://github.com/ChenMnZ/PrefixQuant.
I Large Language Models (LLM), con la loro eccezionale capacità di gestire una vasta gamma di compiti, hanno guidato significativi progressi nel affrontare compiti di ragionamento e pianificazione, in cui scomporre problemi complessi in flussi di lavoro eseguibili è un passo cruciale in questo processo. I framework esistenti per la valutazione dei flussi di lavoro si concentrano esclusivamente sulle prestazioni o soffrono di limitazioni come una copertura scenari limitata, strutture di flusso di lavoro semplicistiche e standard di valutazione poco rigorosi. A questo scopo, presentiamo WorFBench, un benchmark unificato per la generazione di flussi di lavoro con scenari multifacetati e strutture di flusso di lavoro a grafo intricate. Inoltre, presentiamo WorFEval, un protocollo di valutazione sistemico che utilizza algoritmi di corrispondenza di sottosequenze e sottografi per quantificare accuratamente le capacità di generazione di flussi di lavoro dell'agente LLM. Attraverso valutazioni approfondite su diversi tipi di LLM, scopriamo distinte differenze tra le capacità di pianificazione sequenziale e le capacità di pianificazione a grafo degli agenti LLM, con persino GPT-4 che mostra una differenza di circa il 15%. Alleniamo inoltre due modelli open-source e valutiamo le loro capacità di generalizzazione su compiti non visti in precedenza. Inoltre, osserviamo che i flussi di lavoro generati possono migliorare i compiti successivi, consentendo loro di ottenere prestazioni superiori con meno tempo durante l'inferenza. Il codice e il dataset saranno disponibili su https://github.com/zjunlp/WorFBench.
Presentiamo Agent S, un framework agente aperto che consente l'interazione autonoma con i computer attraverso un'Interfaccia Utente Grafica (GUI), mirato a trasformare l'interazione uomo-computer automatizzando compiti complessi e multi-step. Agent S mira ad affrontare tre sfide chiave nell'automatizzazione dei compiti informatici: acquisire conoscenze specifiche del dominio, pianificare su orizzonti temporali lunghi e gestire interfacce dinamiche e non uniformi. A tal fine, Agent S introduce la pianificazione gerarchica arricchita dall'esperienza, che apprende dalla ricerca di conoscenze esterne e dal recupero dell'esperienza interna a vari livelli, facilitando la pianificazione efficiente dei compiti e l'esecuzione dei sotto-compiti. Inoltre, impiega un'Interfaccia Agente-Computer (ACI) per elicere meglio le capacità di ragionamento e controllo degli agenti GUI basati su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs). La valutazione sul benchmark OSWorld mostra che Agent S supera il valore di base del 9,37% sul tasso di successo (un miglioramento relativo dell'83,6%) e raggiunge un nuovo stato dell'arte. Un'analisi approfondita evidenzia l'efficacia dei singoli componenti e fornisce spunti per futuri miglioramenti. Inoltre, Agent S dimostra una vasta generalizzabilità a diversi sistemi operativi su un nuovo benchmark WindowsAgentArena appena rilasciato. Codice disponibile su https://github.com/simular-ai/Agent-S.
I modelli di diffusione sono diventati l'approccio dominante per la generazione visuale. Vengono addestrati attraverso il denoising di un processo markoviano che aggiunge gradualmente rumore all'input. Sosteniamo che la proprietà markoviana limiti la capacità dei modelli di utilizzare appieno la traiettoria di generazione, portando a inefficienze durante l'addestramento e l'inferenza. In questo articolo, proponiamo DART, un modello basato su transformer che unisce l'autoregressione (AR) e la diffusione all'interno di un framework non markoviano. DART denoisa in modo iterativo le patch dell'immagine spazialmente e spettralmente utilizzando un modello AR con la stessa architettura dei modelli di linguaggio standard. DART non si basa sulla quantizzazione dell'immagine, consentendo una modellazione dell'immagine più efficace pur mantenendo flessibilità. Inoltre, DART si addestra in modo trasparente con dati sia testuali che di immagini in un modello unificato. Il nostro approccio dimostra prestazioni competitive su compiti di generazione condizionati alla classe e da testo a immagine, offrendo un'alternativa scalabile ed efficiente ai modelli di diffusione tradizionali. Attraverso questo framework unificato, DART stabilisce un nuovo punto di riferimento per la sintesi di immagini scalabile e di alta qualità.
I modelli di diffusione discreta hanno ottenuto successo in compiti come la generazione di immagini e il modellamento del linguaggio mascherato, ma affrontano limitazioni nella modifica controllata dei contenuti. Introduciamo DICE (Discrete Inversion for Controllable Editing), il primo approccio che consente un'inversione precisa per i modelli di diffusione discreta, inclusi i modelli di diffusione multinomiale e generativi mascherati. Registrando sequenze di rumore e modelli di mascheramento durante il processo di diffusione inversa, DICE consente una ricostruzione accurata e una modifica flessibile dei dati discreti senza la necessità di maschere predefinite o manipolazioni dell'attenzione. Dimostriamo l'efficacia di DICE sia nel dominio delle immagini che del testo, valutandolo su modelli come VQ-Diffusion, Paella e RoBERTa. I nostri risultati mostrano che DICE conserva un'alta fedeltà dei dati mentre potenzia le capacità di modifica, offrendo nuove opportunità per la manipolazione dei contenuti dettagliata negli spazi discreti. Per la pagina web del progetto, consultare https://hexiaoxiao-cs.github.io/DICE/.
I modelli di diffusione hanno notevolmente migliorato la generazione visuale, ma sono ostacolati dalla lenta velocità di generazione a causa della natura computazionalmente intensiva della risoluzione delle equazioni differenziali ordinarie generative. Il flusso rettificato, una soluzione ampiamente riconosciuta, migliora la velocità di generazione rettificando il percorso delle equazioni differenziali ordinarie. I suoi componenti chiave includono: 1) l'utilizzo della forma di diffusione del flusso-corrispondenza, 2) l'impiego della previsione in grassetto v e 3) l'esecuzione della rettificazione (nota anche come riflusso). In questo articolo, sosteniamo che il successo della rettificazione risieda principalmente nell'utilizzo di un modello di diffusione preaddestrato per ottenere coppie corrispondenti di rumore e campioni, seguito dal ritraining con tali coppie rumore-campioni corrispondenti. Sulla base di ciò, i componenti 1) e 2) non sono necessari. Inoltre, sottolineiamo che la linearità non è un obiettivo di addestramento essenziale per la rettificazione; piuttosto, è un caso specifico dei modelli di flusso-corrispondenza. L'obiettivo di addestramento più critico è raggiungere un percorso di equazioni differenziali ordinarie approssimativamente di primo ordine, che è intrinsecamente curvo per modelli come DDPM e Sub-VP. Basandoci su questa intuizione, proponiamo la Diffusione Rettificata, che generalizza lo spazio di progettazione e l'ambito di applicazione della rettificazione per includere la più ampia categoria di modelli di diffusione, anziché essere limitata ai modelli di flusso-corrispondenza. Convalidiamo il nostro metodo su Stable Diffusion v1-5 e Stable Diffusion XL. Il nostro metodo non solo semplifica notevolmente la procedura di addestramento dei lavori precedenti basati sul flusso rettificato (ad esempio, InstaFlow), ma ottiene anche prestazioni superiori con costi di addestramento ancora più bassi. Il nostro codice è disponibile su https://github.com/G-U-N/Rectified-Diffusion.
I modelli attuali di diffusione video di frontiera hanno dimostrato risultati notevoli nella generazione di video di alta qualità. Tuttavia, possono generare solo brevi clip video, di solito intorno ai 10 secondi o 240 fotogrammi, a causa delle limitazioni computazionali durante l'addestramento. In questo lavoro, mostriamo che i modelli esistenti possono essere naturalmente estesi a modelli di diffusione video autoregressivi senza cambiare le architetture. La nostra idea chiave è assegnare ai fotogrammi latenti livelli di rumore progressivamente crescenti anziché un singolo livello di rumore, il che consente una condizione dettagliata tra i latenti e ampi sovrapposizioni tra le finestre di attenzione. Tale denoising video progressivo consente ai nostri modelli di generare in modo autoregressivo fotogrammi video senza degradazione della qualità o cambiamenti di scena improvvisi. Presentiamo risultati all'avanguardia sulla generazione di video lunghi di 1 minuto (1440 fotogrammi a 24 FPS). I video di questo articolo sono disponibili su https://desaixie.github.io/pa-vdm/.
In questo lavoro, proponiamo un nuovo metodo (GLOV) che consente ai Grandi Modelli Linguistici (LLM) di agire come Ottimizzatori impliciti per i Modelli Visione-Linguaggio (VLM) al fine di migliorare i compiti di visione successivi. Il nostro GLOV meta-interroga un LLM con la descrizione del compito successivo, interrogandolo per ottenere prompt VLM adatti (ad esempio, per la classificazione zero-shot con CLIP). Questi prompt sono classificati in base a una misura di purezza ottenuta attraverso una funzione di idoneità. In ciascun passo di ottimizzazione rispettivo, i prompt classificati vengono forniti come esempi contestuali (con le loro accuratezze) per dotare il LLM della conoscenza del tipo di prompt di testo preferito dal VLM successivo. Inoltre, guidiamo esplicitamente il processo di generazione del LLM in ciascun passo di ottimizzazione aggiungendo specificamente un vettore di differenza di offset degli embedding dalle soluzioni positive e negative trovate dal LLM, nei passi di ottimizzazione precedenti, allo strato intermedio della rete per il passo di generazione successivo. Questo vettore di offset guida la generazione del LLM verso il tipo di linguaggio preferito dal VLM successivo, risultando in una performance migliorata sui compiti di visione successivi. Valutiamo in modo esaustivo il nostro GLOV su 16 set di dati diversi utilizzando due famiglie di VLM, ovvero modelli dual-encoder (ad esempio, CLIP) e encoder-decoder (ad esempio, modelli LLaVa) - dimostrando che le soluzioni scoperte possono migliorare le prestazioni di riconoscimento fino al 15,0% e 57,5% (3,8% e 21,6% in media) per questi modelli.
Recentemente, i modelli di linguaggio e visione di grandi dimensioni (LLVMs) hanno ricevuto notevole attenzione e sforzi di sviluppo a causa della loro notevole capacità di generalizzazione su una vasta gamma di compiti che richiedono abilità di percezione e cognitive. Un fattore chiave dietro al loro successo è la loro architettura semplice, che consiste in un codificatore di visione, un proiettore e un grande modello di linguaggio (LLM). Nonostante i loro successi nei compiti avanzati di ragionamento, le loro prestazioni nei compiti fondamentali legati alla percezione (ad esempio, MMVP) rimangono sorprendentemente basse. Questa discrepanza solleva la questione su come i LLVMs percepiscono veramente le immagini e sfruttano i vantaggi del codificatore di visione. Per affrontare questo problema, indaghiamo sistematicamente questa questione riguardo a diversi aspetti: invarianza alle permutazioni, robustezza, ragionamento matematico, conservazione e importanza dell'allineamento, valutando le famiglie di LLVM più comuni (cioè, LLaVA) su 10 benchmark di valutazione. I nostri ampi esperimenti rivelano diverse proprietà intriganti dei LLVM attuali: (1) elaborano internamente l'immagine in modo globale, anche quando l'ordine delle sequenze di patch visive è casualmente permutato; (2) a volte sono in grado di risolvere problemi matematici senza percepire completamente informazioni numeriche dettagliate; (3) l'allineamento cross-modale è sovradattato a compiti di ragionamento complessi, causando loro di perdere alcune delle capacità percettive originali del loro codificatore di visione; (4) lo spazio di rappresentazione nei livelli inferiori (<25%) gioca un ruolo cruciale nel determinare le prestazioni e migliorare la comprensione visiva. Infine, basandoci sulle osservazioni precedenti, suggeriamo potenziali direzioni future per la costruzione di migliori LLVMs e la creazione di benchmark di valutazione più impegnativi.
La Ricerca ad Albero Monte Carlo (Monte Carlo Tree Search, MCTS) è emersa di recente come una tecnica potente per potenziare le capacità di ragionamento dei LLM. Tecniche come SFT o DPO hanno permesso ai LLM di estrarre comportamenti di alta qualità da MCTS, migliorando le loro prestazioni di ragionamento. Tuttavia, i metodi di distillazione esistenti sfruttano in modo limitato le ricche informazioni sulle traiettorie generate da MCTS, limitando il potenziale per migliorare il ragionamento dei LLM. In questo articolo, proponiamo AlphaLLM-CPL, un nuovo framework di addestramento a coppie che consente ai LLM di auto-migliorarsi attraverso la distillazione del comportamento di MCTS. AlphaLLM-CPL sfrutta in modo efficiente le traiettorie di MCTS tramite due innovazioni chiave: (1) AlphaLLM-CPL costruisce coppie di traiettorie passo dopo passo dai nodi figli che condividono lo stesso genitore nell'albero di ricerca, fornendo informazioni a livello di passo per una distillazione del comportamento di MCTS più efficace. (2) AlphaLLM-CPL introduce l'apprendimento delle preferenze del curriculum, regolando dinamicamente la sequenza di addestramento delle coppie di traiettorie in ciascuna epoca di addestramento offline per dare priorità ai passaggi critici di apprendimento e mitigare l'overfitting. I risultati sperimentali su compiti di ragionamento matematico dimostrano che AlphaLLM-CPL supera significativamente i metodi di distillazione del comportamento di MCTS precedenti, potenziando notevolmente le capacità di ragionamento dei LLM.
I Large Language Models (LLM) hanno dimostrato notevoli capacità di apprendimento in contesto (ICL). In questo studio, esploriamo un fenomeno sorprendente legato all'ICL: i LLM possono eseguire contemporaneamente, durante una singola chiamata di inferenza, molteplici compiti ICL computazionalmente distinti, una capacità che definiamo "sovrapposizione di compiti". Forniamo prove empiriche di questo fenomeno attraverso varie famiglie e scale di LLM e mostriamo che questo fenomeno emerge anche se addestriamo il modello ad apprendere in contesto un compito alla volta. Offriamo spiegazioni teoriche che questa capacità rientra pienamente nella potenza espressiva dei trasformatori. Esploriamo anche come i LLM compongono internamente i vettori dei compiti durante la sovrapposizione. Inoltre, dimostriamo che modelli più grandi possono risolvere più compiti ICL in parallelo e calibrare meglio la distribuzione dei loro output. Le nostre scoperte offrono approfondimenti sulle capacità latenti dei LLM, sostengono ulteriormente la prospettiva dei "LLM come sovrapposizione di simulatori" e sollevano domande sui meccanismi che consentono l'esecuzione simultanea dei compiti.
In questo articolo, proponiamo un nuovo metodo per migliorare la comprensione compositiva nei modelli pre-addestrati di visione e linguaggio (VLM) senza compromettere le prestazioni nelle attività multimodali a zero shot. Gli approcci tradizionali di fine-tuning spesso migliorano il ragionamento compositivo a discapito delle capacità multimodali, principalmente a causa dell'uso della perdita globale di hard negative (HN), che contrasta le rappresentazioni globali di immagini e testi. Questa perdita globale di HN spinge i testi HN che sono altamente simili a quelli originali, danneggiando le rappresentazioni multimodali del modello. Per superare questa limitazione, proponiamo Fine-grained Selective Calibrated CLIP (FSC-CLIP), che integra la perdita locale di hard negative e la regolarizzazione selettiva calibrata. Queste innovazioni forniscono una supervisione negativa dettagliata preservando l'integrità rappresentativa del modello. Le nostre ampie valutazioni su diversi benchmark per entrambe le attività compositive e multimodali mostrano che FSC-CLIP non solo raggiunge la composizionalità su livello con modelli all'avanguardia ma mantiene anche forti capacità multimodali. Il codice è disponibile su: https://github.com/ytaek-oh/fsc-clip.
Per indurre comportamenti desiderati nei grandi modelli linguistici (LLM) per compiti guidati dall'interazione, la fase di sintonizzazione delle istruzioni di solito addestra i LLM su coppie istruzione-risposta utilizzando la perdita di previsione del token successivo (NTP). Lavori precedenti mirati a migliorare le prestazioni della sintonizzazione delle istruzioni spesso sottolineano la necessità di set di dati di sintonizzazione supervisionata di alta qualità (SFT), che di solito comporta costosi filtri di dati con LLM proprietari o generazione di dati intensiva del lavoro da parte di annotatori umani. Tuttavia, questi approcci non sfruttano appieno le proprietà intrinseche dei set di dati, con conseguente elevati costi computazionali e di lavoro, limitando così la scalabilità e i guadagni di prestazioni. In questo articolo, proponiamo SFTMix, una nuova ricetta che eleva le prestazioni della sintonizzazione delle istruzioni oltre il paradigma NTP convenzionale, senza la necessità di set di dati ben curati. Osservando che i LLM mostrano una fiducia disomogenea nello spazio di rappresentazione semantica, sosteniamo che gli esempi con diversi livelli di fiducia dovrebbero svolgere ruoli distinti durante il processo di sintonizzazione delle istruzioni. Basandoci su questa intuizione, SFTMix sfrutta la dinamica di addestramento per identificare esempi con diversi livelli di fiducia, quindi applica una regolarizzazione basata su Mixup per mitigare l'overfitting sugli esempi fiduciosi propagando segnali di supervisione per migliorare l'apprendimento su quelli relativamente non fiduciosi. Questo approccio consente a SFTMix di superare significativamente NTP in una vasta gamma di compiti di seguire le istruzioni e specifici del dominio sanitario SFT, dimostrando la sua adattabilità a diverse famiglie di LLM e scalabilità a set di dati di qualsiasi dimensione. Studi di ablation completi verificano ulteriormente la solidità delle scelte progettuali di SFTMix, sottolineando la sua versatilità nel migliorare costantemente le prestazioni tra diversi LLM e set di dati nelle più ampie applicazioni di elaborazione del linguaggio naturale.
I modelli linguistici di grandi dimensioni (LLM) basati su sistemi multi-agente (MAS) mostrano un notevole potenziale nella risoluzione collaborativa dei problemi, ma affrontano ancora sfide critiche: bassa efficienza nella comunicazione, scarsa scalabilità e mancanza di metodi efficaci di ottimizzazione per l'aggiornamento dei parametri. Presentiamo Optima, un nuovo framework che affronta questi problemi migliorando significativamente sia l'efficienza della comunicazione che l'efficacia del compito nei MAS basati su LLM attraverso l'addestramento del LLM. Optima utilizza un paradigma iterativo di generazione, classificazione, selezione e addestramento con una funzione di ricompensa che bilancia le prestazioni del compito, l'efficienza dei token e la leggibilità della comunicazione. Esploriamo vari algoritmi di RL, tra cui il Supervised Fine-Tuning, la Direct Preference Optimization e i loro approcci ibridi, fornendo approfondimenti sui compromessi tra efficacia ed efficienza. Integriamo tecniche ispirate alla Ricerca dell'Albero di Monte Carlo per la generazione di dati DPO, trattando i turni di conversazione come nodi dell'albero per esplorare percorsi di interazione diversificati. Valutato su comuni compiti multi-agente, tra cui risposte asimmetriche alle domande e ragionamento complesso, Optima mostra miglioramenti consistenti e sostanziali rispetto alle basi di singoli agenti e ai MAS di base basati su Llama 3 8B, ottenendo fino a un guadagno di prestazioni fino a 2,8 volte con meno del 10\% di token nei compiti che richiedono un intenso scambio di informazioni. Inoltre, i guadagni di efficienza di Optima aprono nuove possibilità per sfruttare in modo più efficace l'elaborazione dell'informazione, portando a migliori leggi di scalabilità del tempo di inferenza. Affrontando le sfide fondamentali nei MAS basati su LLM, Optima mostra il potenziale verso MAS scalabili, efficienti ed efficaci (https://chenweize1998.github.io/optima-project-page).
Questo articolo propone il paradigma dei grandi kernel convoluzionali nella progettazione dei moderni Convolutional Neural Networks (ConvNets). Dimostriamo che l'utilizzo di alcuni grandi kernel, anziché impilare più kernel più piccoli, può essere una strategia di progettazione superiore. Il nostro lavoro introduce un insieme di linee guida per la progettazione dell'architettura per grandi ConvNets a kernel, che ottimizzano la loro efficienza e prestazioni. Proponiamo l'architettura UniRepLKNet, che offre principi di progettazione dell'architettura sistematici appositamente creati per i ConvNets a grandi kernel, sottolineando la loro capacità unica di catturare informazioni spaziali estese senza impilare strati profondi. Ciò porta a un modello che non solo supera i suoi predecessori con un'accuratezza ImageNet dell'88,0%, un mIoU ADE20K del 55,6% e un AP COCO box del 56,4%, ma dimostra anche un'imprescindibile scalabilità e prestazioni su varie modalità come la previsione delle serie temporali, l'audio, i punti cloud e il riconoscimento video. Questi risultati indicano le capacità di modellizzazione universali dei ConvNets a grandi kernel con una maggiore velocità di inferenza rispetto ai vision transformers. Le nostre scoperte rivelano che i ConvNets a grandi kernel possiedono campi recettivi efficaci più ampi e un maggiore bias di forma, allontanandosi dal bias di texture tipico delle CNN a kernel più piccoli. Tutti i codici e i modelli sono pubblicamente disponibili su https://github.com/AILab-CVC/UniRepLKNet per promuovere ulteriori ricerche e sviluppo nella comunità.
I benchmark automatici per modelli linguistici, come AlpacaEval 2.0, Arena-Hard-Auto e MT-Bench, sono diventati popolari per valutare i modelli linguistici a causa della loro economicità e scalabilità rispetto alla valutazione umana. Ottenere alte percentuali di vittoria su questi benchmark può aumentare significativamente l'impatto promozionale dei nuovi modelli linguistici rilasciati. Questo beneficio promozionale potrebbe spingere a trucchi, come manipolare la lunghezza o lo stile dell'output del modello per aumentare le percentuali di vittoria, anche se sono stati sviluppati diversi meccanismi per controllare la lunghezza e separare lo stile per ridurre la manipolabilità. Tuttavia, dimostriamo che persino un "modello nullo" che restituisce sempre una risposta costante (indipendentemente dalle istruzioni di input) può barare sui benchmark automatici e ottenere alte percentuali di vittoria: una percentuale di vittoria LC dell'86,5% su AlpacaEval 2.0; un punteggio dell'83,0 su Arena-Hard-Auto; e un punteggio di 9,55 su MT-Bench. Inoltre, gli output di frode creati sono trasferibili poiché supponiamo che le istruzioni di questi benchmark (ad esempio, 805 campioni di AlpacaEval 2.0) siano private e non accessibili. Sebbene i nostri esperimenti siano principalmente di prova concettuale, un avversario potrebbe utilizzare modelli linguistici per generare risposte di frode più impercettibili, beneficiando in modo non etico delle alte percentuali di vittoria e dell'impatto promozionale. Le nostre scoperte richiedono lo sviluppo di meccanismi anti-frode per benchmark automatici affidabili. Il codice è disponibile su https://github.com/sail-sg/Cheating-LLM-Benchmarks.
Studiamo le prestazioni dei trasformatori in funzione del numero di ripetizioni degli esempi di addestramento con set di dati generati in modo algoritmico. Su tre problemi matematici: il massimo comune divisore, la moltiplicazione modulare e gli autovalori delle matrici, dimostriamo che per un numero fisso di passaggi di addestramento, i modelli addestrati su insiemi più piccoli di esempi ripetuti superano quelli addestrati su insiemi più grandi di esempi monouso. Dimostriamo inoltre che l'addestramento a due insiemi - l'uso ripetuto di un piccolo sottoinsieme casuale di esempi, insieme a un campionamento normale sul resto dell'insieme di addestramento - permette un apprendimento più veloce e prestazioni migliori. Questo sottolinea che i benefici della ripetizione possono superare quelli della diversità dei dati. Questi set di dati e problemi forniscono un contesto controllato per far luce sull'interazione ancora poco compresa tra generalizzazione e memorizzazione nell'apprendimento profondo.
L'apprendimento per rinforzo da feedback umano (RLHF) è emerso come uno strumento fondamentale per allineare i grandi modelli linguistici (LLM) con le preferenze umane. L'ottimizzazione diretta delle preferenze (DPO), uno degli approcci più popolari, formula RLHF come un problema di ottimizzazione della politica senza stimare esplicitamente la funzione di ricompensa. Supera i problemi di stabilità ed efficienza degli approcci a due fasi, che di solito coinvolgono prima la stima della funzione di ricompensa e poi l'ottimizzazione della politica tramite ottimizzazione della politica prossimale (PPO). Poiché RLHF è essenzialmente un problema di ottimizzazione ed è ben noto che le tecniche di momentum possono accelerare l'ottimizzazione sia teoricamente che empiricamente, sorge naturalmente una domanda: RLHF può essere accelerato dal momentum? Questo articolo risponde affermativamente a questa domanda. In dettaglio, mostriamo innanzitutto che il metodo iterativo di ottimizzazione delle preferenze può essere visto come un metodo di punto prossimale. Sulla base di questa osservazione, proponiamo un framework generale di Ottimizzazione delle Preferenze Accelerata (APO), che unifica molti algoritmi di ottimizzazione delle preferenze esistenti e utilizza la tecnica di momentum di Nesterov per accelerare l'allineamento dei LLM. Teoricamente, dimostriamo che APO può raggiungere un tasso di convergenza più veloce rispetto ai metodi standard di ottimizzazione delle preferenze iterativa, inclusi DPO e Ottimizzazione delle Preferenze di Gioco Autonomo (SPPO). Empiricamente, mostriamo la superiorità di APO rispetto a DPO, DPO iterativo e altri baselines solidi per RLHF sul benchmark AlpacaEval 2.0.
La ricostruzione dinamica della scena è una sfida a lungo termine nel campo della visione 3D. Di recente, l'emergere dello Splatting Gaussiano 3D ha fornito nuove prospettive su questo problema. Anche se successivi sforzi estendono rapidamente il Gaussiano 3D statico a scene dinamiche, spesso mancano di vincoli espliciti sul movimento degli oggetti, portando a difficoltà di ottimizzazione e degrado delle prestazioni. Per affrontare le questioni sopra menzionate, proponiamo un nuovo framework deformabile di Splatting Gaussiano 3D chiamato MotionGS, che esplora priorità di movimento esplicite per guidare la deformazione dei Gaussiani 3D. In particolare, introduciamo prima un modulo di decoupling del flusso ottico che separa il flusso ottico in flusso della telecamera e flusso di movimento, corrispondenti rispettivamente al movimento della telecamera e al movimento dell'oggetto. Successivamente, il flusso di movimento può efficacemente vincolare la deformazione dei Gaussiani 3D, simulando così il movimento degli oggetti dinamici. Inoltre, viene proposto un modulo di perfezionamento della posa della telecamera per ottimizzare alternativamente i Gaussiani 3D e le posizioni della telecamera, mitigando l'impatto delle posizioni inaccurate della telecamera. Estesi esperimenti nelle scene dinamiche monoculari convalidano che MotionGS supera i metodi all'avanguardia e mostra una significativa superiorità sia nei risultati qualitativi che quantitativi. Pagina del progetto: https://ruijiezhu94.github.io/MotionGS_page
I grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di apprendimento in contesto (ICL) su dati testuali. Esploriamo se queste capacità possano essere estese a vettori continui provenienti da domini diversi, ottenuti da codificatori preaddestrati black-box. Allineando i dati di input con lo spazio di embedding di un LLM attraverso proiettori leggeri, osserviamo che i LLM possono elaborare efficacemente e apprendere da questi vettori proiettati, che definiamo Vector-ICL. In particolare, scopriamo che il preaddestramento dei proiettori con obiettivi di modellizzazione del linguaggio generale abilita il Vector-ICL, mentre il fine-tuning specifico del compito migliora ulteriormente le prestazioni. Nei nostri esperimenti su vari compiti e modalità, tra cui ricostruzione del testo, regressione di funzioni numeriche, classificazione del testo, riassunto, didascalia di molecole, classificazione delle serie temporali, classificazione dei grafi e decodifica fMRI, il Vector-ICL supera spesso sia l'ICL a pochi esempi che i modelli o il tuning specifici del dominio. Conduciamo inoltre analisi e studi di caso, indicando il potenziale dei LLM nel processare rappresentazioni vettoriali al di là dei paradigmi tradizionali basati su token.
I dati sono un elemento cruciale nell'allineamento dei grandi modelli linguistici (LLM). Studi recenti hanno esplorato l'uso di LLM per una raccolta dati efficiente. Tuttavia, i dati generati dai LLM spesso presentano problemi di qualità, con aspetti sottorappresentati o assenti e punti dati di bassa qualità. Per affrontare questi problemi, proponiamo Data Advisor, un metodo potenziato basato su LLM per generare dati che tenga conto delle caratteristiche dell'insieme di dati desiderato. Partendo da un insieme di principi predefiniti, Data Advisor monitora lo stato dei dati generati, identifica le debolezze nel dataset attuale e consiglia di conseguenza la prossima iterazione della generazione dei dati. Data Advisor può essere facilmente integrato nei metodi esistenti di generazione dei dati per migliorare la qualità e la copertura dei dati. Gli esperimenti sull'allineamento della sicurezza di tre rappresentativi LLM (ossia, Mistral, Llama2 e Falcon) dimostrano l'efficacia di Data Advisor nel migliorare la sicurezza del modello contro vari problemi di sicurezza dettagliati senza sacrificare l'utilità del modello.
Nonostante le eccezionali prestazioni, la Ricerca di Architetture Neurali (NAS) è criticata per la massiccia computazione. Di recente, la NAS a Zero-shot è emersa come un approccio promettente sfruttando i proxy a Zero-cost (ZC), che riducono notevolmente le richieste computazionali. Nonostante ciò, i proxy ZC esistenti dipendono pesantemente dalla conoscenza degli esperti e comportano significativi costi di tentativi ed errori. In particolare, nei compiti di NLP, la maggior parte dei proxy ZC esistenti non riesce a superare le prestazioni del baseline ingenuo. Per affrontare queste sfide, presentiamo un nuovo framework, LPZero, che è il primo a progettare automaticamente proxy ZC per vari compiti, ottenendo una maggiore coerenza di classificazione rispetto ai proxy progettati dall'uomo. In particolare, modelliamo il proxy ZC come un'equazione simbolica e incorporiamo uno spazio unificato di ricerca di proxy che comprende i proxy ZC esistenti, composti da un insieme predefinito di simboli matematici. Per cercare in modo euristico il miglior proxy ZC, LPZero incorpora la programmazione genetica per trovare la composizione simbolica ottimale. Proponiamo una Strategia di Potatura basata su Regole (RPS), che elimina preventivamente i proxy poco promettenti, mitigando così il rischio di degrado del proxy. Estesi esperimenti su FlexiBERT, GPT-2 e LLaMA-7B dimostrano la capacità di classificazione superiore di LPZero e le prestazioni nei compiti successivi rispetto agli approcci attuali.
Risolvere equazioni differenziali parziali (PDE) parametriche dipendenti dal tempo è una sfida, poiché i modelli devono adattarsi alle variazioni nei parametri come coefficienti, termini forzanti e condizioni al contorno. I risolutori neurali basati sui dati vengono addestrati su dati campionati dalla distribuzione dei parametri delle PDE nella speranza che il modello generalizzi a nuove istanze o si basano sull'adattamento basato sul gradiente e sull'apprendimento meta per codificare implicitamente la dinamica dalle osservazioni. Questo spesso comporta un aumento della complessità inferenziale. Ispirati alle capacità di apprendimento contestuale dei grandi modelli linguistici (LLM), presentiamo Zebra, un nuovo trasformatore auto-regressivo generativo progettato per risolvere PDE parametriche senza richiedere adattamenti del gradiente durante l'inferenza. Sfruttando le informazioni contestuali durante sia la preformazione che l'inferenza, Zebra si adatta dinamicamente a nuovi compiti condizionandosi su sequenze di input che incorporano traiettorie di contesto o stati precedenti. Questo approccio consente a Zebra di gestire in modo flessibile input di contesto di dimensioni arbitrariamente grandi e supporta la quantificazione dell'incertezza attraverso il campionamento di diverse traiettorie di soluzione. Valutiamo Zebra in una varietà di scenari PDE impegnativi, dimostrandone l'adattabilità, la robustezza e le prestazioni superiori rispetto agli approcci esistenti.