Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Qwen2.5-VL, il modello di punta più recente della serie vision-language di Qwen, che dimostra significativi progressi sia nelle capacità fondamentali che nelle funzionalità innovative. Qwen2.5-VL compie un importante balzo in avanti nella comprensione e interazione con il mondo attraverso un migliorato riconoscimento visivo, una precisa localizzazione degli oggetti, un robusto parsing di documenti e una comprensione di video di lunga durata. Una caratteristica distintiva di Qwen2.5-VL è la sua capacità di localizzare oggetti utilizzando bounding box o punti in modo accurato. Offre un'estrazione robusta di dati strutturati da fatture, moduli e tabelle, nonché un'analisi dettagliata di grafici, diagrammi e layout. Per gestire input complessi, Qwen2.5-VL introduce l'elaborazione a risoluzione dinamica e la codifica temporale assoluta, consentendogli di elaborare immagini di dimensioni variabili e video di durata estesa (fino a ore) con localizzazione di eventi a livello di secondo. Ciò permette al modello di percepire nativamente le scale spaziali e le dinamiche temporali senza fare affidamento su tecniche di normalizzazione tradizionali. Addestrando un Vision Transformer (ViT) a risoluzione dinamica nativa da zero e incorporando la Window Attention, riduciamo il sovraccarico computazionale mantenendo la risoluzione nativa. Di conseguenza, Qwen2.5-VL eccelle non solo nella comprensione di immagini statiche e documenti, ma anche come agente visivo interattivo capace di ragionamento, utilizzo di strumenti ed esecuzione di compiti in scenari reali come l'operazione di computer e dispositivi mobili. Qwen2.5-VL è disponibile in tre dimensioni, affrontando casi d'uso diversi dall'AI edge all'high-performance computing. Il modello di punta Qwen2.5-VL-72B eguaglia i modelli all'avanguardia come GPT-4o e Claude 3.5 Sonnet, eccellendo in particolare nella comprensione di documenti e diagrammi. Inoltre, Qwen2.5-VL mantiene una robusta performance linguistica, preservando le competenze linguistiche fondamentali del Qwen2.5 LLM.
I Modelli Fondamentali Generativi (GenFMs) sono emersi come strumenti trasformativi. Tuttavia, la loro ampia adozione solleva preoccupazioni critiche riguardo all'affidabilità su più dimensioni. Questo articolo presenta un quadro completo per affrontare queste sfide attraverso tre contributi chiave. In primo luogo, esaminiamo sistematicamente le leggi e le politiche globali di governance dell'IA da parte di governi e organismi di regolamentazione, nonché le pratiche e gli standard del settore. Sulla base di questa analisi, proponiamo un insieme di principi guida per i GenFMs, sviluppati attraverso un'ampia collaborazione multidisciplinare che integra prospettive tecniche, etiche, legali e sociali. In secondo luogo, introduciamo TrustGen, la prima piattaforma di benchmarking dinamica progettata per valutare l'affidabilità su più dimensioni e tipi di modelli, inclusi modelli testo-immagine, linguaggio su larga scala e visione-linguaggio. TrustGen sfrutta componenti modulari—curation dei metadati, generazione di casi di test e variazione contestuale—per consentire valutazioni adattive e iterative, superando i limiti dei metodi di valutazione statici. Utilizzando TrustGen, riveliamo progressi significativi nell'affidabilità mentre identifichiamo sfide persistenti. Infine, forniamo una discussione approfondita delle sfide e delle direzioni future per i GenFMs affidabili, che rivela la natura complessa ed evolutiva dell'affidabilità, evidenziando i compromessi sfumati tra utilità e affidabilità, e considerazioni per varie applicazioni a valle, identificando sfide persistenti e fornendo una roadmap strategica per la ricerca futura. Questo lavoro stabilisce un quadro olistico per promuovere l'affidabilità nella GenAI, aprendo la strada a un'integrazione più sicura e responsabile dei GenFMs in applicazioni critiche. Per facilitare il progresso nella comunità, rilasciamo il toolkit per la valutazione dinamica.
La generazione di canzoni da testo, il compito di creare voci e accompagnamenti a partire da input testuali, presenta sfide significative a causa della complessità del dominio e della scarsità di dati. Gli approcci esistenti spesso impiegano procedure di generazione multi-stadio, risultando in pipeline di addestramento e inferenza macchinose. In questo articolo, proponiamo SongGen, un trasformatore auto-regressivo a singolo stadio completamente open-source, progettato per la generazione controllata di canzoni. Il modello proposto facilita un controllo fine su diversi attributi musicali, inclusi i testi e le descrizioni testuali di strumentazione, genere, umore e timbro, offrendo anche un clip di riferimento opzionale di tre secondi per il clonaggio della voce. All'interno di un framework auto-regressivo unificato, SongGen supporta due modalità di output: la modalità mista, che genera direttamente un mix di voci e accompagnamento, e la modalità dual-track, che li sintetizza separatamente per una maggiore flessibilità nelle applicazioni a valle. Esploriamo diverse strategie di pattern di token per ciascuna modalità, ottenendo miglioramenti significativi e intuizioni preziose. Inoltre, progettiamo una pipeline di pre-elaborazione dei dati automatizzata con un efficace controllo di qualità. Per favorire il coinvolgimento della comunità e la ricerca futura, rilasceremo i pesi del nostro modello, il codice di addestramento, i dati annotati e la pipeline di pre-elaborazione. I campioni generati sono mostrati sulla nostra pagina del progetto all'indirizzo https://liuzh-19.github.io/SongGen/, e il codice sarà disponibile all'indirizzo https://github.com/LiuZH-19/SongGen.
Gli algoritmi esistenti di guida autonoma end-to-end (AD) seguono tipicamente il paradigma dell'Apprendimento per Imitazione (IL), che affronta sfide come la confusione causale e il divario in open-loop. In questo lavoro, stabiliamo un paradigma di addestramento basato su Apprendimento per Rinforzo (RL) in closed-loop, fondato su tecniche 3DGS. Sfruttando le tecniche 3DGS, costruiamo una replica digitale fotorealistica del mondo fisico reale, consentendo alla politica AD di esplorare estensivamente lo spazio degli stati e di imparare a gestire scenari fuori distribuzione attraverso un ampio processo di prova ed errore. Per migliorare la sicurezza, progettiamo ricompense specializzate che guidano la politica a rispondere efficacemente a eventi critici per la sicurezza e a comprendere le relazioni causali del mondo reale. Per un migliore allineamento con il comportamento di guida umana, l'IL viene incorporato nell'addestramento RL come termine di regolarizzazione. Introduciamo un benchmark di valutazione in closed-loop composto da ambienti 3DGS diversificati e mai visti prima. Rispetto ai metodi basati su IL, RAD raggiunge prestazioni più solide nella maggior parte delle metriche in closed-loop, in particolare con un tasso di collisione 3 volte inferiore. Risultati abbondanti in closed-loop sono presentati su https://hgao-cv.github.io/RAD.
I grandi modelli linguistici (LLM) eccellono in compiti di ragionamento complesso, e il distillare le loro capacità di ragionamento in modelli più piccoli ha mostrato risultati promettenti. Tuttavia, abbiamo scoperto un fenomeno interessante, che abbiamo denominato Small Model Learnability Gap: i modelli piccoli (≤3B parametri) non traggono beneficio in modo consistente da lunghi ragionamenti a catena (CoT) o dalla distillazione da modelli più grandi. Invece, ottengono prestazioni migliori quando vengono addestrati su catene di ragionamento più brevi e semplici, che si allineano meglio alla loro capacità di apprendimento intrinseca. Per affrontare questo problema, proponiamo Mix Distillation, una strategia semplice ma efficace che bilancia la complessità del ragionamento combinando esempi di CoT lunghi e corti o ragionamenti provenienti sia da modelli più grandi che da modelli più piccoli. I nostri esperimenti dimostrano che Mix Distillation migliora significativamente le prestazioni di ragionamento dei modelli piccoli rispetto all'addestramento su un solo tipo di dati. Questi risultati evidenziano i limiti della distillazione diretta da modelli forti e sottolineano l'importanza di adattare la complessità del ragionamento per un trasferimento efficace delle capacità di ragionamento.
Gli embedding di testo sono tipicamente valutati su un insieme limitato di task, vincolati da lingua, dominio e diversità dei compiti. Per affrontare queste limitazioni e fornire una valutazione più completa, introduciamo il Massive Multilingual Text Embedding Benchmark (MMTEB) - un'espansione su larga scala e guidata dalla comunità di MTEB, che copre oltre 500 task di valutazione controllati per qualità in più di 250 lingue. MMTEB include un insieme diversificato di task impegnativi e innovativi, come il seguire istruzioni, il recupero di documenti lunghi e il recupero di codice, rappresentando la più vasta collezione multilingue di task di valutazione per modelli di embedding fino ad oggi. Utilizzando questa collezione, sviluppiamo diversi benchmark altamente multilingue, che utilizziamo per valutare un insieme rappresentativo di modelli. Scopriamo che, sebbene i grandi modelli linguistici (LLM) con miliardi di parametri possano raggiungere prestazioni all'avanguardia su determinati sottoinsiemi di lingue e categorie di task, il modello pubblicamente disponibile con le migliori prestazioni è multilingual-e5-large-instruct con soli 560 milioni di parametri. Per facilitare l'accessibilità e ridurre i costi computazionali, introduciamo un nuovo metodo di downsampling basato sulla correlazione inter-task, garantendo una selezione diversificata preservando al contempo i ranking relativi dei modelli. Inoltre, ottimizziamo task come il recupero campionando negativi difficili, creando split più piccoli ma efficaci. Queste ottimizzazioni ci permettono di introdurre benchmark che riducono drasticamente le richieste computazionali. Ad esempio, il nostro nuovo benchmark zero-shot in inglese mantiene un ordine di ranking simile alla versione su larga scala, ma a una frazione del costo computazionale.
I metodi di modellazione di sequenze lineari, come l'attenzione lineare, la modellazione dello spazio degli stati e le RNN lineari, offrono significativi miglioramenti in termini di efficienza riducendo la complessità dell'addestramento e dell'inferenza. Tuttavia, questi metodi comprimono tipicamente l'intera sequenza di input in un unico stato di memoria di dimensione fissa, il che porta a prestazioni subottimali nei task downstream intensivi di richiamo. Traendo ispirazione dalle neuroscienze, in particolare dalla capacità del cervello di mantenere una memoria a lungo termine robusta mitigando l'"interferenza di memoria", introduciamo una nuova architettura chiamata Mixture-of-Memories (MoM). MoM utilizza più stati di memoria indipendenti, con una rete di routing che indirizza i token di input a specifici stati di memoria. Questo approccio migliora notevolmente la capacità complessiva della memoria minimizzando l'interferenza di memoria. Di conseguenza, MoM si comporta eccezionalmente bene nei task intensivi di richiamo, superando le tecniche esistenti di modellazione di sequenze lineari. Nonostante l'incorporazione di più stati di memoria, il calcolo di ciascuno stato di memoria rimane lineare in complessità, consentendo a MoM di mantenere il vantaggio della complessità lineare durante l'addestramento e una complessità costante durante l'inferenza. I nostri risultati sperimentali mostrano che MoM supera significativamente i modelli di sequenze lineari attuali nei task linguistici downstream, in particolare quelli intensivi di richiamo, e raggiunge persino prestazioni comparabili ai modelli Transformer. Il codice è rilasciato su https://github.com/OpenSparseLLMs/MoM e fa anche parte di https://github.com/OpenSparseLLMs/Linear-MoE.
Il web crawling è una delle principali fonti di dati per il pre-training dei modelli linguistici di grandi dimensioni (LLM), ma la maggior parte delle pagine web raccolte viene scartata durante il pre-training a causa della bassa qualità dei dati. Questo articolo presenta Crawl4LLM, un metodo efficiente di web crawling che esplora il grafo del web basandosi sulle preferenze del pre-training degli LLM. Nello specifico, sfrutta l'influenza di una pagina web nel pre-training degli LLM come punteggio di priorità dello scheduler del web crawler, sostituendo la priorità standard basata sulla connettività del grafo. I nostri esperimenti su un grafo web contenente 900 milioni di pagine provenienti dall'indice di un motore di ricerca commerciale dimostrano l'efficienza di Crawl4LLM nell'ottenere dati di pre-training di alta qualità. Con solo il 21% degli URL raccolti, gli LLM pre-addestrati sui dati di Crawl4LLM raggiungono le stesse prestazioni downstream dei precedenti crawl, riducendo significativamente lo spreco di crawling e alleviando il carico sui siti web. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/cxcscmu/Crawl4LLM.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie attraverso il pre-addestramento e l'allineamento. Tuttavia, LLM superiori in contesti brevi possono ottenere prestazioni inferiori in scenari con contesti lunghi a causa di un allineamento insufficiente per contesti estesi. Questo processo di allineamento rimane impegnativo a causa dell'impraticabilità dell'annotazione umana per contesti prolungati e della difficoltà nel bilanciare le prestazioni in contesti brevi e lunghi. Per affrontare queste sfide, introduciamo LongPO, che consente agli LLM con contesti brevi di auto-evolversi per eccellere in compiti con contesti lunghi trasferendo internamente le capacità acquisite in contesti brevi. LongPO sfrutta gli LLM per apprendere da dati di preferenza auto-generati da contesti brevi a lunghi, comprendenti risposte accoppiate generate per istruzioni identiche con input di contesti lunghi e le loro controparti compresse in contesti brevi. Questa preferenza rivela capacità e potenziali degli LLM coltivati durante l'allineamento in contesti brevi che potrebbero essere ridotti in scenari con contesti lunghi non adeguatamente allineati. Inoltre, LongPO incorpora un vincolo KL da breve a lungo per mitigare il declino delle prestazioni in contesti brevi durante l'allineamento in contesti lunghi. Quando applicato a Mistral-7B-Instruct-v0.2 da lunghezze di contesto di 128K a 512K, LongPO mantiene completamente le prestazioni in contesti brevi e supera ampiamente SFT e DPO ingenui sia in compiti con contesti lunghi che brevi. In particolare, i modelli addestrati con \ourMethod possono ottenere risultati su benchmark con contesti lunghi comparabili, o addirittura superiori, a quelli di LLM superiori (ad esempio, GPT-4-128K) che coinvolgono annotazioni estese per contesti lunghi e scale di parametri più ampie.
Le applicazioni dei modelli linguistici di grandi dimensioni (LLM) si stanno evolvendo oltre i semplici chatbot, trasformandosi in programmi agentici dinamici e di uso generale, che scalano le chiamate LLM e i token di output per aiutare gli agenti AI a ragionare, esplorare e risolvere compiti complessi. Tuttavia, i sistemi di servizio LLM esistenti ignorano le dipendenze tra programmi e chiamate, perdendo significative opportunità di ottimizzazione. La nostra analisi rivela che i programmi inviati ai motori di servizio LLM subiscono lunghi tempi di attesa cumulativi, principalmente a causa del blocco in testa alla coda sia a livello di singola richiesta LLM che di programma. Per affrontare questo problema, introduciamo Autellix, un sistema di servizio LLM che tratta i programmi come entità di prim'ordine per minimizzare le loro latenze end-to-end. Autellix intercetta le chiamate LLM inviate dai programmi, arricchendo gli scheduler con il contesto a livello di programma. Proponiamo due algoritmi di scheduling—per programmi single-threaded e distribuiti—che prelazionano e danno priorità alle chiamate LLM in base alle chiamate precedentemente completate dai loro programmi. La nostra valutazione dimostra che, attraverso diversi LLM e carichi di lavoro agentici, Autellix migliora il throughput dei programmi di 4-15x a parità di latenza rispetto ai sistemi all'avanguardia, come vLLM.
Il Fine-Tuning Supervisionato (SFT) è stato un metodo efficace e ampiamente utilizzato per migliorare il ragionamento a catena di pensiero (CoT) esteso in modelli linguistici di dimensioni relativamente piccole, ottimizzandoli con risposte CoT lunghe provenienti da modelli linguistici più grandi. Per migliorare continuamente le capacità di ragionamento, possiamo raccogliere nuovi dati SFT di alta qualità con CoT estesi o addestrare ripetutamente su dataset SFT esistenti. Tuttavia, acquisire nuovi dati SFT con CoT estesi è costoso e limitato, mentre l'addestramento ripetuto spesso porta a un plateau o a un declino delle prestazioni. Per potenziare ulteriormente le prestazioni con i dati SFT, proponiamo l'Optimizzazione delle Preferenze di Pensiero (ThinkPO), un metodo semplice ma efficace post-SFT che migliora il ragionamento CoT esteso senza richiedere nuove risposte CoT lunghe. Invece, ThinkPO utilizza risposte CoT brevi, facilmente disponibili o ottenibili, come risposte rifiutate e risposte CoT lunghe come risposte scelte per la stessa domanda. Successivamente, applica l'ottimizzazione diretta delle preferenze per incoraggiare il modello a favorire output di ragionamento più lunghi. Gli esperimenti dimostrano che ThinkPO migliora ulteriormente le prestazioni di ragionamento dei modelli SFT, ad esempio aumentando l'accuratezza del ragionamento matematico dei modelli SFT dell'8,6% e la lunghezza dell'output del 25,9%. In particolare, ThinkPO è in grado di potenziare continuamente le prestazioni del modello SFT distillato pubblicamente, ad esempio aumentando le prestazioni ufficiali di DeepSeek-R1-Distill-Qwen-7B su MATH500 dall'87,4% al 91,2%.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in domini generali, ma spesso incontrano difficoltà con compiti che richiedono conoscenze specializzate. Le tecniche convenzionali di Generazione Aumentata dal Recupero (RAG) recuperano tipicamente informazioni esterne da basi di conoscenza statiche, che possono essere obsolete o incomplete, tralasciando dettagli clinici di livello fine essenziali per risposte accurate a domande mediche. In questo lavoro, proponiamo SearchRAG, un nuovo framework che supera queste limitazioni sfruttando motori di ricerca in tempo reale. Il nostro metodo utilizza la generazione sintetica di query per convertire complesse domande mediche in query adatte ai motori di ricerca e impiega una selezione della conoscenza basata sull'incertezza per filtrare e incorporare le informazioni mediche più rilevanti e informative nell'input dell'LLM. I risultati sperimentali dimostrano che il nostro metodo migliora significativamente l'accuratezza delle risposte nei compiti di risposta a domande mediche, in particolare per domande complesse che richiedono conoscenze dettagliate e aggiornate.
I Large Language Model (LLM) hanno fatto avanzare significativamente l'elaborazione del linguaggio naturale con capacità eccezionali di generalizzazione dei compiti. La Low-Rank Adaption (LoRA) offre una soluzione di fine-tuning economicamente vantaggiosa, congelando i parametri originali del modello e addestrando solo matrici adattatrici leggere e a basso rango. Tuttavia, l'impronta di memoria di LoRA è largamente dominata dai parametri originali del modello. Per mitigare questo problema, proponiamo LoRAM, uno schema di addestramento LoRAM efficiente in termini di memoria, basato sull'intuizione che molti neuroni nei LLM sovra-parametrizzati hanno una bassa utilità durante l'addestramento ma sono essenziali per l'inferenza. LoRAM introduce un approccio unico: addestra su un modello potato (di dimensioni ridotte) per ottenere matrici a basso rango potate, che vengono poi recuperate e utilizzate con il modello originale (di grandi dimensioni) per l'inferenza. Inoltre, un pre-addestramento continuo a costo minimo, eseguito in anticipo dagli editori del modello, allinea la discrepanza di conoscenza tra i modelli potati e quelli originali. I nostri ampi esperimenti dimostrano l'efficacia di LoRAM attraverso varie strategie di pruning e compiti downstream. Per un modello con 70 miliardi di parametri, LoRAM consente l'addestramento su una GPU con solo 20G di HBM, sostituendo una GPU A100-80G per l'addestramento LoRA e 15 GPU per il fine-tuning completo. In particolare, QLoRAM implementato tramite pruning strutturato combinato con quantizzazione a 4 bit, per LLaMA-3.1-70B (LLaMA-2-70B), riduce il costo di archiviazione dei parametri che domina l'uso della memoria nell'addestramento di matrici a basso rango di 15,81 volte (16,95 volte), ottenendo al contempo guadagni di prestazioni dominanti rispetto sia al LLaMA-3.1-70B (LLaMA-2-70B) originale che al LLaMA-3.1-8B (LLaMA-2-13B) addestrato con LoRA.
I nomi sono profondamente legati all'identità umana. Possono fungere da indicatori di individualità, eredità culturale e storia personale. Tuttavia, utilizzare i nomi come indicatore principale dell'identità può portare a una semplificazione eccessiva di identità complesse. Quando si interagisce con i modelli linguistici di grandi dimensioni (LLM), i nomi degli utenti rappresentano un punto di informazione cruciale per la personalizzazione. I nomi possono entrare nelle conversazioni con i chatbot tramite input diretto dell'utente (richiesto dai chatbot), come parte di contesti di attività come la revisione di curriculum, o come funzionalità di memoria integrate che memorizzano le informazioni dell'utente per la personalizzazione. Studiamo i pregiudizi associati ai nomi misurando le presunzioni culturali nelle risposte generate dagli LLM quando vengono presentate comuni richieste di suggerimenti, che potrebbero implicare la formulazione di ipotesi sull'utente. Le nostre analisi dimostrano forti assunzioni sull'identità culturale associate ai nomi presenti nelle generazioni degli LLM in diverse culture. Il nostro lavoro ha implicazioni per la progettazione di sistemi di personalizzazione più sfumati che evitino di rafforzare stereotipi mantenendo al contempo una personalizzazione significativa.
L'allineamento alla sicurezza dei grandi modelli linguistici (LLM) rimane vulnerabile, poiché il loro comportamento iniziale può essere facilmente compromesso anche da attacchi relativamente semplici. Poiché il riempimento di un template fisso tra l'istruzione di input e l'output iniziale del modello è una pratica comune per gli LLM esistenti, ipotizziamo che questo template sia un fattore chiave dietro le loro vulnerabilità: il processo decisionale relativo alla sicurezza degli LLM si basa eccessivamente sulle informazioni aggregate dalla regione del template, che influenza in larga misura il comportamento di sicurezza di questi modelli. Definiamo questo problema come allineamento alla sicurezza ancorato al template. In questo articolo, conduciamo esperimenti estesi e verifichiamo che l'allineamento alla sicurezza ancorato al template è diffuso tra vari LLM allineati. Le nostre analisi meccanicistiche dimostrano come ciò porti alla suscettibilità dei modelli quando incontrano attacchi di jailbreak durante l'inferenza. Inoltre, mostriamo che il distacco dei meccanismi di sicurezza dalla regione del template è promettente nel mitigare le vulnerabilità agli attacchi di jailbreak. Incoraggiamo la ricerca futura a sviluppare tecniche di allineamento alla sicurezza più robuste che riducano la dipendenza dalla regione del template.
Gli approcci attuali per l'addestramento dei Modelli di Ricompensa per Processi (PRM) spesso prevedono la suddivisione delle risposte in più passaggi di ragionamento utilizzando tecniche basate su regole, come l'uso di token segnaposto predefiniti o l'impostazione della lunghezza del passaggio di ragionamento su una dimensione fissa. Questi approcci trascurano il fatto che parole specifiche non contrassegnano tipicamente i veri punti decisionali in un testo. Per affrontare questo problema, proponiamo AdaptiveStep, un metodo che divide i passaggi di ragionamento in base alla confidenza del modello nel prevedere la parola successiva. Questo metodo di divisione fornisce maggiori informazioni decisionali ad ogni passaggio, migliorando i compiti a valle, come l'apprendimento del modello di ricompensa. Inoltre, il nostro metodo non richiede annotazioni manuali. Ne dimostriamo l'efficacia attraverso esperimenti con PRM addestrati con AdaptiveStep in compiti di ragionamento matematico e generazione di codice. I risultati sperimentali indicano che il PRM risultante raggiunge prestazioni Best-of-N all'avanguardia, superando la strategia di ricerca greedy con decodifica guidata dal valore a livello di token, riducendo al contempo i costi di costruzione di oltre il 30% rispetto ai PRM open-source esistenti. Inoltre, forniamo un'analisi approfondita e uno studio di caso sulle prestazioni, trasferibilità e capacità di generalizzazione del PRM.
La generazione di molecole 3D è cruciale per la scoperta di farmaci e la progettazione di materiali. Mentre gli sforzi precedenti si concentrano sui modelli di diffusione 3D per i loro vantaggi nella modellazione di conformeri 3D continui, trascurano i vantaggi dei modelli linguistici (LM) basati su SELFIES 1D, che possono generare molecole 100% valide e sfruttare i dataset di molecole 1D su scala miliardi. Per combinare questi vantaggi nella generazione di molecole 3D, proponiamo un modello di base -- NExT-Mol: Diffusione 3D incontra la modellazione linguistica 1D per la generazione di molecole 3D. NExT-Mol utilizza un modello linguistico di molecole pre-addestrato in modo estensivo per la generazione di molecole 1D, e successivamente prevede i conformeri 3D della molecola generata con un modello di diffusione 3D. Miglioriamo le prestazioni di NExT-Mol aumentando le dimensioni del modello LM, perfezionando l'architettura neurale di diffusione e applicando il trasferimento di apprendimento da 1D a 3D. In particolare, il nostro LM di molecole 1D supera significativamente i benchmark in termini di somiglianza distributiva garantendo la validità, e il nostro modello di diffusione 3D raggiunge prestazioni leader nella previsione dei conformeri. Grazie a questi miglioramenti nella modellazione 1D e 3D, NExT-Mol ottiene un miglioramento relativo del 26% in FCD 3D per la generazione de novo 3D su GEOM-DRUGS, e un guadagno relativo medio del 13% per la generazione condizionale 3D su QM9-2014. I nostri codici e checkpoint pre-addestrati sono disponibili su https://github.com/acharkq/NExT-Mol.
I Large Language Models (LLM) e i Multimodal Large Language Models (MLLM) hanno compiuto progressi significativi nelle capacità di ragionamento. Tuttavia, continuano a presentare sfide come elevate esigenze computazionali e preoccupazioni relative alla privacy. Questo articolo si concentra sullo sviluppo di efficienti Small Language Models (SLM) e Multimodal Small Language Models (MSLM) che mantengono capacità di ragionamento competitive. Introduciamo una nuova pipeline di addestramento che potenzia le capacità di ragionamento e facilita il deployment su dispositivi edge, raggiungendo prestazioni all'avanguardia riducendo al contempo i costi di sviluppo. \InfR~ mira a far progredire i sistemi di intelligenza artificiale migliorando il ragionamento, riducendo le barriere all'adozione e affrontando le preoccupazioni sulla privacy attraverso dimensioni ridotte dei modelli. Le risorse sono disponibili all'indirizzo https://github.com/Reallm-Labs/InfiR.
Il machine learning, fondamento dell'intelligenza artificiale moderna, ha guidato innovazioni che hanno trasformato radicalmente il mondo. Tuttavia, dietro questi progressi si nasconde un processo complesso e spesso tedioso, che richiede un'intensa iterazione e sperimentazione in termini di risorse computazionali e lavoro. Gli ingegneri e gli scienziati che sviluppano modelli di machine learning dedicano gran parte del loro tempo a compiti di prova ed errore, anziché concentrarsi sulla concettualizzazione di soluzioni innovative o ipotesi di ricerca. Per affrontare questa sfida, introduciamo AI-Driven Exploration (AIDE), un agente di ingegneria del machine learning alimentato da modelli linguistici di grandi dimensioni (LLM). AIDE inquadra l'ingegneria del machine learning come un problema di ottimizzazione del codice e formula il processo di prova ed errore come una ricerca ad albero nello spazio delle soluzioni potenziali. Riusando e affinando strategicamente le soluzioni promettenti, AIDE scambia efficacemente risorse computazionali con prestazioni migliorate, raggiungendo risultati all'avanguardia su molteplici benchmark di ingegneria del machine learning, tra cui le nostre valutazioni su Kaggle, OpenAI MLE-Bench e METRs RE-Bench.
Presentiamo TESS 2, un modello linguistico di diffusione generico per il seguimento di istruzioni che supera i modelli di diffusione contemporanei ottimizzati per istruzioni, oltre a eguagliare e talvolta superare i forti modelli autoregressivi (AR). Addestriamo TESS 2 adattando prima un robusto modello AR attraverso un ulteriore pre-addestramento con la consueta cross-entropia come funzione di perdita per la diffusione, per poi eseguire un ulteriore ottimizzazione per il seguimento di istruzioni. Riteniamo che l'addestramento di adattamento, così come la scelta del modello di base, sia cruciale per addestrare modelli di diffusione efficaci nel seguimento di istruzioni. Proponiamo inoltre la guida basata su ricompensa, una nuova e modulare procedura di guida al momento dell'inferenza per allineare gli output del modello senza la necessità di addestrare il modello sottostante. Infine, dimostriamo che TESS 2 migliora ulteriormente con un aumento della potenza di calcolo al momento dell'inferenza, evidenziando l'utilità dei modelli linguistici di diffusione nel consentire un controllo fine sulla quantità di calcolo utilizzata durante l'inferenza. Codice e modelli sono disponibili all'indirizzo https://github.com/hamishivi/tess-2.
Le capacità di dialogo a lungo termine e in domini aperti sono essenziali per i chatbot che mirano a ricordare interazioni passate e dimostrare intelligenza emotiva (IE). Tuttavia, la maggior parte della ricerca esistente si basa su dati sintetici generati da LLM, lasciando aperte domande sui modelli conversazionali del mondo reale. Per colmare questa lacuna, introduciamo REALTALK, un corpus di 21 giorni di dialoghi autentici provenienti da app di messaggistica, fornendo un benchmark diretto contro interazioni umane genuine. Iniziamo con un'analisi del dataset, concentrandoci sugli attributi di IE e sulla coerenza della persona per comprendere le sfide uniche poste dai dialoghi del mondo reale. Confrontando con conversazioni generate da LLM, evidenziamo differenze chiave, tra cui espressioni emotive diversificate e variazioni nella stabilità della persona che i dialoghi sintetici spesso non riescono a catturare. Basandoci su queste intuizioni, introduciamo due task di benchmark: (1) simulazione della persona, in cui un modello continua una conversazione a nome di un utente specifico dato un contesto di dialogo precedente; e (2) sondaggio della memoria, in cui un modello risponde a domande mirate che richiedono una memoria a lungo termine delle interazioni passate. I nostri risultati rivelano che i modelli faticano a simulare un utente esclusivamente dalla cronologia dei dialoghi, mentre il fine-tuning su chat specifiche dell'utente migliora l'emulazione della persona. Inoltre, i modelli esistenti affrontano sfide significative nel ricordare e sfruttare il contesto a lungo termine all'interno di conversazioni del mondo reale.
L'utilizzo di Large Language Models (LLM) per le valutazioni di rilevanza offre opportunità promettenti per migliorare l'Information Retrieval (IR), il Natural Language Processing (NLP) e campi correlati. In effetti, i LLM promettono di consentire ai sperimentatori di IR di costruire collezioni di valutazione con una frazione del lavoro manuale umano attualmente richiesto. Ciò potrebbe essere utile per argomenti emergenti su cui c'è ancora una conoscenza limitata e potrebbe mitigare le sfide legate alla valutazione dei sistemi di ranking in scenari a bassa risorsa, dove è difficile trovare annotatori umani. Considerando i rapidi sviluppi recenti in questo dominio, molte domande relative ai LLM come valutatori devono ancora essere risolte. Tra gli aspetti che richiedono ulteriori indagini, possiamo elencare l'impatto di vari componenti in una pipeline di generazione di giudizi di rilevanza, come il prompt utilizzato o il LLM scelto. Questo articolo presenta e analizza i risultati di una valutazione su larga scala di giudizi di rilevanza automatici, la sfida LLMJudge a SIGIR 2024, dove sono stati proposti diversi approcci di valutazione della rilevanza. Nel dettaglio, rilasciamo e analizziamo 42 etichette generate da LLM per i giudizi di rilevanza del TREC 2023 Deep Learning track, prodotti da otto team internazionali che hanno partecipato alla sfida. Data la loro natura diversificata, questi giudizi di rilevanza generati automaticamente possono aiutare la comunità non solo a indagare sui bias sistematici causati dai LLM, ma anche a esplorare l'efficacia dei modelli ensemble, analizzare i compromessi tra diversi modelli e valutatori umani e avanzare metodologie per migliorare le tecniche di valutazione automatizzata. La risorsa rilasciata è disponibile al seguente link: https://llm4eval.github.io/LLMJudge-benchmark/
I Large Language Model (LLM) sono sempre più utilizzati in ambienti lavorativi per una vasta gamma di attività, dimostrando eccellenti capacità nel risolvere problemi individuali in isolamento. Tuttavia, sono anche in grado di collaborare efficacemente in interazioni a lungo termine? Per indagare questa questione, introduciamo MemoryCode, un dataset sintetico multi-sessione progettato per testare la capacità degli LLM di tracciare ed eseguire semplici istruzioni di codifica in mezzo a informazioni irrilevanti, simulando un contesto realistico. Mentre tutti i modelli testati gestiscono bene le istruzioni isolate, anche le prestazioni di modelli all'avanguardia come GPT-4o si deteriorano quando le istruzioni sono distribuite su più sessioni. La nostra analisi suggerisce che ciò sia dovuto alla loro incapacità di recuperare e integrare informazioni su catene di istruzioni lunghe. I nostri risultati evidenziano una limitazione fondamentale degli attuali LLM, che ne restringe la capacità di collaborare efficacemente in interazioni prolungate.
La raccomandazione generativa (Generative Recommendation, GR) è un paradigma emergente in cui le azioni degli utenti vengono tokenizzate in modelli di token discreti e generate in modo autoregressivo come previsioni. Tuttavia, i modelli GR esistenti tokenizzano ogni azione in modo indipendente, assegnando gli stessi token fissi ad azioni identiche in tutte le sequenze, senza considerare le relazioni contestuali. Questa mancanza di consapevolezza del contesto può portare a prestazioni subottimali, poiché la stessa azione può assumere significati diversi a seconda del contesto circostante. Per affrontare questo problema, proponiamo ActionPiece per incorporare esplicitamente il contesto durante la tokenizzazione delle sequenze di azioni. In ActionPiece, ogni azione è rappresentata come un insieme di caratteristiche degli elementi, che fungono da token iniziali. Dato il corpus delle sequenze di azioni, costruiamo il vocabolario unendo i modelli di caratteristiche come nuovi token, basandosi sulla loro frequenza di co-occorrenza sia all'interno dei singoli insiemi che tra insiemi adiacenti. Considerando la natura non ordinata degli insiemi di caratteristiche, introduciamo ulteriormente una regolarizzazione delle permutazioni degli insiemi, che produce multiple segmentazioni delle sequenze di azioni con la stessa semantica. Gli esperimenti su dataset pubblici dimostrano che ActionPiece supera costantemente i metodi esistenti di tokenizzazione delle azioni, migliorando NDCG@10 dal 6,00% al 12,82%.
Le allucinazioni negli output dei modelli linguistici di grandi dimensioni (LLM) limitano gravemente la loro affidabilità in compiti ad alta intensità di conoscenza, come il question answering. Per affrontare questa sfida, introduciamo REFIND (Retrieval-augmented Factuality hallucINation Detection), un nuovo framework che rileva segmenti allucinati negli output degli LLM sfruttando direttamente documenti recuperati. Come parte di REFIND, proponiamo il Context Sensitivity Ratio (CSR), una nuova metrica che quantifica la sensibilità degli output degli LLM rispetto alle prove recuperate. Questo approccio innovativo consente a REFIND di rilevare in modo efficiente e accurato le allucinazioni, distinguendosi dai metodi esistenti. Nella valutazione, REFIND ha dimostrato robustezza in nove lingue, inclusi contesti a bassa risorsa, e ha superato significativamente i modelli di riferimento, ottenendo punteggi IoU superiori nell'identificazione dei segmenti allucinati. Questo lavoro evidenzia l'efficacia della quantificazione della sensibilità al contesto per il rilevamento delle allucinazioni, aprendo così la strada a applicazioni LLM più affidabili e affidabili in diverse lingue.
Il questionario a scelta multipla (MCQA) è popolare per la valutazione dei modelli linguistici di grandi dimensioni (LLM) grazie alla sua semplicità e alla somiglianza con i test umani, ma sosteniamo la necessità di una sua riforma. Iniziamo evidenziando i difetti del formato MCQA, poiché fatica a: 1) testare la generazione/soggettività; 2) allinearsi ai casi d'uso degli LLM; e 3) valutare completamente la conoscenza. Proponiamo invece formati generativi basati su test umani, in cui gli LLM costruiscono e spiegano le risposte, catturando meglio le esigenze degli utenti e la conoscenza, pur rimanendo facili da valutare. Successivamente, dimostriamo che anche quando il MCQA è un formato utile, i suoi dataset soffrono di: perdita di dati; impossibilità di risposta; scorciatoie; e saturazione. Per ciascun problema, offriamo soluzioni tratte dal campo dell'educazione, come rubriche per guidare la scrittura delle domande a scelta multipla; metodi di valutazione per limitare le ipotesi casuali; e la Teoria della Risposta all'Item per costruire domande più difficili. Infine, discutiamo gli errori degli LLM nel MCQA—robustezza, pregiudizi e spiegazioni infedeli—mostrando come le nostre soluzioni precedenti misurino o affrontino meglio questi problemi. Sebbene non sia necessario abbandonare il MCQA, incoraggiamo maggiori sforzi nel perfezionare il compito basandosi sui test educativi, avanzando così le valutazioni.
I Large Vision-Language Models (LVLM) hanno recentemente attirato l'attenzione grazie alle loro prestazioni distintive e alla vasta applicabilità. Sebbene sia stato precedentemente dimostrato che la loro efficacia in scenari d'uso che coinvolgono contesti non occidentali sia limitata, gli studi esistenti hanno un ambito ristretto, coprendo solo una gamma limitata di culture, concentrandosi esclusivamente su un piccolo numero di aspetti culturali o valutando una selezione limitata di modelli su un unico compito. Verso una ricerca sugli LVLM globalmente inclusiva, introduciamo GIMMICK, un benchmark multimodale esteso progettato per valutare un ampio spettro di conoscenze culturali in 144 paesi rappresentativi di sei macro-regioni globali. GIMMICK comprende sei compiti basati su tre nuovi dataset che coprono 728 eventi o aspetti culturali unici, su cui abbiamo valutato 20 LVLM e 11 LLM, inclusi cinque modelli proprietari e 26 modelli open-weight di tutte le dimensioni. Esaminiamo sistematicamente (1) i pregiudizi culturali regionali, (2) l'influenza della dimensione del modello, (3) le modalità di input e (4) i suggerimenti esterni. Le nostre analisi rivelano forti pregiudizi verso le culture occidentali tra i modelli e i compiti, evidenziando forti correlazioni tra la dimensione del modello e le prestazioni, nonché l'efficacia dell'input multimodale e dei suggerimenti geografici esterni. Inoltre, scopriamo che i modelli hanno più conoscenza degli aspetti tangibili rispetto a quelli intangibili (ad esempio, cibo vs. rituali) e che eccellono nel riconoscere le origini culturali ampie, ma faticano a comprendere in modo più sfumato.
I benchmark esistenti per il linguaggio visivo multilingue (VL) spesso coprono solo un numero limitato di lingue. Di conseguenza, le valutazioni dei modelli di linguaggio visivo su larga scala (LVLM) si concentrano prevalentemente su lingue ad alto livello di risorse, evidenziando la necessità di dati di valutazione per lingue a basso livello di risorse. Per affrontare questa limitazione, introduciamo MVL-SIB, un benchmark di linguaggio visivo massicciamente multilingue che valuta sia l'abbinamento tematico cross-modale che quello testuale in 205 lingue — oltre 100 in più rispetto ai benchmark VL esistenti più multilingue. Successivamente, valutiamo una gamma di LVLM open-weight insieme a GPT-4o(-mini) su MVL-SIB. I nostri risultati rivelano che i LVLM faticano nell'abbinamento tematico cross-modale per le lingue a basso livello di risorse, ottenendo prestazioni non migliori del caso per lingue come il N'Koo. La nostra analisi mostra inoltre che il supporto VL nei LVLM diminuisce in modo sproporzionato rispetto al supporto testuale per le lingue a basso livello di risorse, come evidenziato dal confronto tra le prestazioni di abbinamento tematico cross-modale e solo testuale. Osserviamo inoltre che i LVLM open-weight non traggono vantaggio dalla rappresentazione di un argomento con più di un'immagine, suggerendo che questi modelli non sono ancora pienamente efficaci nel gestire compiti multi-immagine. Correlando le prestazioni su MVL-SIB con altri benchmark VL multilingue, evidenziamo che MVL-SIB funge da sonda completa per la comprensione multilingue del linguaggio visivo nei LVLM.
Nonostante i recenti progressi nella Sintesi di Nuove Viste (NVS), la generazione di viste ad alta fedeltà a partire da osservazioni singole o sparse rimane una sfida significativa. Gli approcci esistenti basati su splatting spesso producono geometrie distorte a causa di errori di splatting. Mentre i metodi basati su diffusione sfruttano ricchi prior 3D per ottenere una geometria migliorata, spesso soffrono di allucinazioni di texture. In questo articolo, introduciamo SplatDiff, un modello di diffusione video guidato da pixel-splatting progettato per sintetizzare nuove viste ad alta fedeltà da una singola immagine. Nello specifico, proponiamo una strategia di sintesi allineata per un controllo preciso dei punti di vista target e una sintesi di viste geometricamente coerenti. Per mitigare le allucinazioni di texture, progettiamo un modulo di ponte di texture che consente la generazione di texture ad alta fedeltà attraverso la fusione adattiva di feature. In questo modo, SplatDiff sfrutta i punti di forza dello splatting e della diffusione per generare nuove viste con geometria coerente e dettagli ad alta fedeltà. Esperimenti estensivi verificano le prestazioni all'avanguardia di SplatDiff nella NVS a vista singola. Inoltre, senza ulteriore addestramento, SplatDiff mostra prestazioni zero-shot notevoli in diverse attività, tra cui la NVS a vista sparsa e la conversione di video stereo.
L'adattamento di dominio eterogeneo semi-supervisionato (SHDA) affronta l'apprendimento attraverso domini con rappresentazioni e distribuzioni di caratteristiche distinte, in cui i campioni sorgente sono etichettati mentre la maggior parte dei campioni target non lo sono, con solo una piccola frazione etichettata. Inoltre, non esiste una corrispondenza uno-a-uno tra i campioni sorgente e target. Sebbene siano stati sviluppati vari metodi SHDA per affrontare questo problema, la natura della conoscenza trasferita attraverso domini eterogenei rimane poco chiara. Questo articolo approfondisce questa questione da una prospettiva empirica. Abbiamo condotto esperimenti estesi su circa 330 task SHDA, impiegando due metodi di apprendimento supervisionato e sette metodi SHDA rappresentativi. Sorprendentemente, le nostre osservazioni indicano che sia le informazioni di categoria che quelle di caratteristica dei campioni sorgente non influenzano significativamente le prestazioni del dominio target. Inoltre, il rumore estratto da distribuzioni semplici, quando utilizzato come campioni sorgente, può contenere conoscenza trasferibile. Sulla base di questa intuizione, abbiamo eseguito una serie di esperimenti per scoprire i principi sottostanti della conoscenza trasferibile in SHDA. Nello specifico, abbiamo progettato un Framework Unificato per il Trasferimento di Conoscenza (KTF) per SHDA. Basandoci sul KTF, abbiamo scoperto che la conoscenza trasferibile in SHDA deriva principalmente dalla trasferibilità e dalla discriminabilità del dominio sorgente. Di conseguenza, garantire queste proprietà nei campioni sorgente, indipendentemente dalla loro origine (ad esempio, immagine, testo, rumore), può migliorare l'efficacia del trasferimento di conoscenza nei task SHDA. I codici e i dataset sono disponibili all'indirizzo https://github.com/yyyaoyuan/SHDA.
La capacità di generare query SPARQL da domande in linguaggio naturale è fondamentale per garantire un recupero efficiente e accurato di dati strutturati da grafi di conoscenza (KG). Sebbene i modelli linguistici di grandi dimensioni (LLM) siano stati ampiamente adottati per la generazione di query SPARQL, sono spesso suscettibili a allucinazioni e errori fuori distribuzione quando producono elementi di KG come gli Uniform Resource Identifier (URI) basati sulla conoscenza parametrica interna. Ciò spesso si traduce in contenuti che appaiono plausibili ma che sono fattualmente errati, ponendo sfide significative per il loro utilizzo in applicazioni reali di recupero delle informazioni (IR). Questo ha portato a un aumento della ricerca mirata a rilevare e mitigare tali errori. In questo articolo, introduciamo PGMR (Post-Generation Memory Retrieval), un framework modulare che incorpora un modulo di memoria non parametrica per recuperare elementi di KG e migliorare la generazione di query SPARQL basata su LLM. I nostri risultati sperimentali indicano che PGMR fornisce costantemente prestazioni solide su diversi dataset, distribuzioni di dati e LLM. In particolare, PGMR mitiga significativamente le allucinazioni di URI, quasi eliminando il problema in diversi scenari.