Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il ridimensionamento del calcolo al momento del test per i modelli linguistici di grandi dimensioni ha dimostrato prestazioni impressionanti nei benchmark di ragionamento. Tuttavia, le valutazioni esistenti sul ridimensionamento al momento del test fanno la forte assunzione che un sistema di ragionamento debba sempre fornire una risposta a qualsiasi domanda posta. Ciò trascura le preoccupazioni relative alla sicurezza del modello nella sua risposta e alla pertinenza di fornire sempre una risposta. Per affrontare queste preoccupazioni, estraiamo punteggi di confidenza durante il ragionamento per sogliare le risposte del modello. Scopriamo che aumentare il budget di calcolo al momento dell'inferenza non solo aiuta i modelli a rispondere correttamente a più domande, ma aumenta anche la confidenza nelle risposte corrette. Estendiamo quindi l'attuale paradigma di risposte a rischio zero durante la valutazione considerando contesti con livelli di rischio di risposta non nulli e suggeriamo una procedura per riportare le valutazioni in questi contesti.
I modelli linguistici di grandi dimensioni (LLM) end-to-end esistenti per il parlato si basano solitamente su grandi quantità di dati annotati per l'addestramento, mentre l'addestramento efficiente in termini di dati non è stato approfonditamente discusso. Ci concentriamo su due problemi fondamentali tra parlato e testo: il divario nello spazio di rappresentazione e l'inconsistenza nella lunghezza delle sequenze. Proponiamo Soundwave, che utilizza una strategia di addestramento efficiente e una nuova architettura per affrontare queste problematiche. I risultati dimostrano che Soundwave supera l'avanzato Qwen2-Audio nella traduzione del parlato e nei task vocali di AIR-Bench, utilizzando solo un cinquantesimo dei dati di addestramento. Un'ulteriore analisi mostra che Soundwave mantiene la sua intelligenza durante la conversazione. Il progetto è disponibile all'indirizzo https://github.com/FreedomIntelligence/Soundwave.
Una serie di lavori recenti affronta il problema della compressione di sequenze di token in una sequenza più breve di vettori a valori reali da utilizzare come input al posto degli embedding di token o della cache chiave-valore. Questi approcci consentono di ridurre la quantità di calcolo nei modelli linguistici esistenti. Nonostante si basino su potenti modelli come encoder, il rapporto di compressione massimo ottenibile senza perdita di informazioni tipicamente non supera x10. Questo fatto è altamente intrigante perché, in teoria, la capacità massima di informazione di grandi vettori a valori reali è ben al di là dei tassi presentati, anche per una precisione a 16 bit e una dimensione modesta del vettore. In questo lavoro, esploriamo i limiti della compressione sostituendo l'encoder con una procedura di ottimizzazione per campione. Mostriamo che esistono vettori con rapporti di compressione fino a x1500, evidenziando un divario di due ordini di grandezza tra le soluzioni esistenti e quelle praticamente raggiungibili. Inoltre, dimostriamo empiricamente che i limiti di compressione non sono determinati dalla lunghezza dell'input, ma dalla quantità di incertezza da ridurre, ovvero dalla perdita di entropia incrociata su questa sequenza senza alcun condizionamento. I limiti ottenuti evidenziano il divario sostanziale tra la capacità teorica degli embedding di input e il loro utilizzo pratico, suggerendo un ampio margine di ottimizzazione nella progettazione dei modelli.
Il continuo sviluppo di modelli di base per la generazione di video si sta evolvendo in varie applicazioni, con la generazione di video coerenti rispetto al soggetto ancora in fase esplorativa. Ci riferiamo a questo come Subject-to-Video, che estrae elementi del soggetto da immagini di riferimento e genera video coerenti rispetto al soggetto attraverso istruzioni testuali. Crediamo che l'essenza del subject-to-video risieda nel bilanciare i prompt bimodali di testo e immagine, allineando così profondamente e simultaneamente sia il contenuto testuale che quello visivo. A tal fine, proponiamo Phantom, un framework unificato per la generazione di video sia con riferimenti a singoli che a più soggetti. Basandoci sulle architetture esistenti di text-to-video e image-to-video, ridisegniamo il modello di iniezione congiunta testo-immagine e lo guidiamo a imparare l'allineamento cross-modale attraverso dati triplette di testo-immagine-video. In particolare, enfatizziamo la coerenza del soggetto nella generazione umana, coprendo la generazione di video con preservazione dell'ID esistente mentre offriamo vantaggi migliorati. La homepage del progetto è disponibile qui https://phantom-video.github.io/Phantom/.
Presentiamo Magma, un modello di base che affronta compiti agentivi multimodali sia nel mondo digitale che in quello fisico. Magma rappresenta un'estensione significativa dei modelli visione-linguaggio (VL) in quanto non solo conserva la capacità di comprensione VL (intelligenza verbale) di questi ultimi, ma è anche dotato della capacità di pianificare e agire nel mondo visivo-spaziale (intelligenza spazio-temporale) e di completare compiti agentivi che vanno dalla navigazione delle interfacce utente alla manipolazione robotica. Per dotare Magma di queste capacità agentive, il modello è stato preaddestrato su grandi quantità di dataset eterogenei che spaziano da immagini e video a dati robotici, dove gli oggetti visivi azionabili (ad esempio, pulsanti cliccabili nelle GUI) nelle immagini sono etichettati tramite Set-of-Mark (SoM) per il grounding delle azioni, e i movimenti degli oggetti (ad esempio, la traccia delle mani umane o delle braccia robotiche) nei video sono etichettati tramite Trace-of-Mark (ToM) per la pianificazione delle azioni. Esperimenti estensivi dimostrano che SoM e ToM raggiungono una grande sinergia e facilitano l'acquisizione dell'intelligenza spazio-temporale per il nostro modello Magma, fondamentale per un'ampia gamma di compiti come mostrato in Fig.1. In particolare, Magma stabilisce nuovi risultati all'avanguardia nei compiti di navigazione delle interfacce utente e di manipolazione robotica, superando modelli precedenti specificamente progettati per questi compiti. Su compiti multimodali legati a immagini e video, Magma si confronta favorevolmente anche con i popolari modelli multimodali di grandi dimensioni addestrati su dataset molto più ampi. Rendiamo pubblico il nostro modello e il codice per garantire la riproducibilità all'indirizzo https://microsoft.github.io/Magma.
I modelli di diffusione sono emersi come una promettente alternativa ai modelli autoregressivi nella modellazione di dati categorici discreti. Tuttavia, i modelli di diffusione che operano direttamente sullo spazio dei dati discreti non sfruttano appieno il potere del raffinamento iterativo, poiché i segnali si perdono durante la transizione tra stati discreti. I modelli di diffusione continui esistenti per dati discreti hanno prestazioni limitate rispetto agli approcci discreti, e il legame poco chiaro tra di essi ostacola lo sviluppo di modelli di diffusione per dati discreti. In questo lavoro, proponiamo un modello di diffusione continuo per la modellazione del linguaggio che incorpora la geometria della distribuzione categorica sottostante. Stabiliamo una connessione tra la diffusione discreta e il flusso continuo sulla varietà statistica e, basandoci su questa analogia, introduciamo una progettazione semplice per il processo di diffusione che generalizza i precedenti modelli di diffusione discreti. Proponiamo inoltre un framework di addestramento senza simulazione basato sulla simmetria radiale e una tecnica semplice per affrontare l'elevata dimensionalità della varietà. Esperimenti completi su benchmark di modellazione del linguaggio e altre modalità dimostrano che il nostro metodo supera i modelli di diffusione discreti esistenti e si avvicina alle prestazioni dei modelli autoregressivi. I codici sono disponibili all'indirizzo https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
I recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno raggiunto prestazioni notevoli, ma affrontano sfide di implementazione a causa della loro complessità computazionale quadratica, delle crescenti esigenze di cache Key-Value e della dipendenza da encoder visivi separati. Proponiamo mmMamba, un framework per sviluppare modelli di spazio di stato multimodali nativi con complessità lineare attraverso una distillazione progressiva da MLLM esistenti utilizzando risorse computazionali accademiche moderate. Il nostro approccio consente la conversione diretta di MLLM addestrati con solo decoder in architetture a complessità lineare senza la necessità di LLM basati su RNN pre-addestrati o encoder visivi. Proponiamo una strategia di seeding per estrarre Mamba da Transformer addestrati e una ricetta di distillazione in tre fasi, che può trasferire efficacemente la conoscenza da Transformer a Mamba preservando le capacità multimodali. Il nostro metodo supporta anche architetture ibride flessibili che combinano strati di Transformer e Mamba per compromessi personalizzabili tra efficienza e prestazioni. Distillato dal Transformer-based HoVLE con solo decoder, mmMamba-lineare raggiunge prestazioni competitive rispetto ai VLM esistenti con complessità lineare e quadratica, mentre mmMamba-ibrido migliora ulteriormente le prestazioni in modo significativo, avvicinandosi alle capacità di HoVLE. A 103K token, mmMamba-lineare dimostra un'accelerazione di 20,6 volte e una riduzione del 75,8% della memoria GPU rispetto a HoVLE, mentre mmMamba-ibrido raggiunge un'accelerazione di 13,5 volte e un risparmio di memoria del 60,2%. Codice e modelli sono rilasciati su https://github.com/hustvl/mmMamba.
Comprendere le preferenze umane è cruciale per migliorare i modelli di base e costruire sistemi di IA personalizzati. Tuttavia, le preferenze sono intrinsecamente diverse e complesse, rendendo difficile per i tradizionali modelli di ricompensa catturarne l'intera gamma. Sebbene i dati dettagliati sulle preferenze possano essere utili, raccoglierli è costoso e difficile da scalare. In questo articolo, introduciamo i Modelli di Ricompensa Decomposti (DRM), un approccio innovativo che estrae diverse preferenze umane da confronti binari senza richiedere annotazioni dettagliate. La nostra intuizione chiave è rappresentare le preferenze umane come vettori e analizzarle utilizzando l'Analisi delle Componenti Principali (PCA). Costruendo un dataset di differenze di embedding tra risposte preferite e rifiutate, i DRM identificano vettori di base ortogonali che catturano aspetti distinti delle preferenze. Queste ricompense decomposte possono essere combinate in modo flessibile per allinearsi a diverse esigenze degli utenti, offrendo un'alternativa interpretabile e scalabile ai tradizionali modelli di ricompensa. Dimostriamo che i DRM estraggono efficacemente dimensioni significative delle preferenze (ad esempio, utilità, sicurezza, umorismo) e si adattano a nuovi utenti senza ulteriore addestramento. I nostri risultati evidenziano i DRM come un potente framework per l'allineamento personalizzato e interpretabile dei modelli linguistici di grandi dimensioni (LLM).
A differenza delle RNN, che comprimono i token precedenti in un unico stato nascosto, i Transformer possono prestare attenzione direttamente a tutti i token precedenti. Tuttavia, i Transformer standard utilizzano solo le rappresentazioni dello strato immediatamente precedente. In questo articolo, dimostriamo che questa scelta progettuale causa un collasso delle rappresentazioni e porta a prestazioni subottimali. Per affrontare questo problema, introduciamo la Layer-Integrated Memory (LIMe), un approccio semplice ma potente che preserva l'impronta di memoria complessiva del modello, espandendo al contempo la sua capacità rappresentativa consentendo l'accesso agli stati nascosti degli strati precedenti. Attraverso esperimenti estesi su varie architetture e diversi meccanismi di ricerca, dimostriamo miglioramenti consistenti delle prestazioni su un'ampia gamma di task. Inoltre, la nostra analisi della dinamica delle rappresentazioni apprese e l'esplorazione dei circuiti in profondità rivelano come LIMe integri le informazioni attraverso gli strati, indicando direzioni promettenti per la ricerca futura.
I grandi modelli linguistici (LLM) ottimizzati su dati finanziari multimodali hanno dimostrato capacità di ragionamento impressionanti in vari compiti finanziari. Tuttavia, spesso incontrano difficoltà in scenari interattivi e orientati agli obiettivi nei mercati finanziari, come il trading, dove sono necessari approcci agentici complessi per migliorare il processo decisionale. Per affrontare questa sfida, proponiamo FLAG-Trader, un'architettura unificata che integra l'elaborazione linguistica (tramite LLM) con l'ottimizzazione delle politiche di apprendimento per rinforzo (RL) guidata da gradienti, in cui un LLM parzialmente ottimizzato funge da rete di politica, sfruttando conoscenze pre-addestrate mentre si adatta al dominio finanziario attraverso un'ottimizzazione efficiente dei parametri. Attraverso l'ottimizzazione dei gradienti delle politiche guidata dai premi del trading, il nostro framework non solo migliora le prestazioni degli LLM nel trading, ma ottimizza anche i risultati in altri compiti del dominio finanziario. Presentiamo ampie evidenze empiriche per validare questi miglioramenti.
L'intelligenza spaziale è un componente cruciale dell'AI incarnata, poiché consente ai robot di comprendere e interagire con il proprio ambiente. Sebbene i recenti progressi abbiano migliorato la capacità dei VLMs (Vision-Language Models) di percepire le posizioni degli oggetti e le relazioni spaziali, essi mancano ancora della capacità di comprendere con precisione l'orientamento degli oggetti—un requisito chiave per compiti che richiedono manipolazioni fini. Affrontare questa limitazione non richiede solo ragionamento geometrico, ma anche un modo espressivo e intuitivo di rappresentare l'orientamento. In questo contesto, proponiamo che il linguaggio naturale offra uno spazio di rappresentazione più flessibile rispetto ai sistemi di riferimento canonici, rendendolo particolarmente adatto per sistemi robotici che seguono istruzioni. In questo articolo, introduciamo il concetto di orientamento semantico, che definisce l'orientamento degli oggetti utilizzando il linguaggio naturale in modo indipendente da un sistema di riferimento (ad esempio, la direzione di "inserimento" di una USB o la direzione del "manico" di un coltello). Per supportare ciò, abbiamo costruito OrienText300K, un ampio dataset di modelli 3D annotati con orientamenti semantici che collegano la comprensione geometrica alla semantica funzionale. Integrando l'orientamento semantico in un sistema VLM, permettiamo ai robot di generare azioni di manipolazione con vincoli sia posizionali che orientazionali. Esperimenti estesi in simulazione e nel mondo reale dimostrano che il nostro approccio migliora significativamente le capacità di manipolazione robotica, ad esempio, con un'accuratezza del 48,7% su Open6DOR e del 74,9% su SIMPLER.
L'implementazione di grandi modelli linguistici (LLMs) in applicazioni reali richiede modelli di sicurezza robusti per rilevare e bloccare prompt utente dannosi. Sebbene i grandi modelli di sicurezza raggiungano prestazioni elevate, il loro costo computazionale è significativo. Per mitigare questo problema, vengono utilizzati modelli più piccoli e distillati, che tuttavia spesso hanno prestazioni inferiori sugli esempi "difficili" in cui il modello più grande fornisce previsioni accurate. Osserviamo che molti input possono essere gestiti in modo affidabile dal modello più piccolo, mentre solo una piccola frazione richiede la capacità del modello più grande. Motivati da ciò, proponiamo SafeRoute, un router binario che distingue gli esempi difficili da quelli facili. Il nostro metodo applica selettivamente il modello di sicurezza più grande ai dati che il router considera difficili, migliorando l'efficienza mantenendo l'accuratezza rispetto all'uso esclusivo del modello di sicurezza più grande. I risultati sperimentali su più dataset di benchmark dimostrano che la nostra selezione adattiva del modello migliora significativamente il compromesso tra costo computazionale e prestazioni di sicurezza, superando i baseline rilevanti.
Risolvere compiti di ragionamento complessi può coinvolgere la comprensione visiva, il recupero di conoscenze di dominio, il calcolo numerico e il ragionamento a più passaggi. I metodi esistenti potenziano i grandi modelli linguistici (LLM) con strumenti esterni, ma sono limitati a domini specializzati, tipi di strumenti ristretti o richiedono dati di addestramento aggiuntivi. In questo articolo, introduciamo OctoTools, un framework agentico open-source, privo di addestramento, user-friendly e facilmente estensibile, progettato per affrontare il ragionamento complesso in diversi domini. OctoTools introduce schede strumenti standardizzate per incapsulare la funzionalità degli strumenti, un planner per la pianificazione sia di alto che di basso livello e un executor per eseguire l'uso degli strumenti. Validiamo la generalità di OctoTools su 16 compiti diversi (inclusi MathVista, MMLU-Pro, MedQA e GAIA-Text), ottenendo miglioramenti sostanziali nella precisione media del 9,3% rispetto a GPT-4o. Inoltre, OctoTools supera AutoGen, GPT-Functions e LangChain fino al 10,6% quando fornito dello stesso set di strumenti. Attraverso un'analisi completa e ablazioni, OctoTools dimostra vantaggi nella pianificazione dei compiti, nell'uso efficace degli strumenti e nella risoluzione di problemi a più passaggi.
I Large Language Model (LLM) raggiungono prestazioni superiori attraverso il ridimensionamento durante l'addestramento, e il ridimensionamento al momento del test migliora ulteriormente le loro capacità permettendo un ragionamento efficace durante l'inferenza. Tuttavia, all'aumentare della scala del ragionamento, i metodi esistenti di ridimensionamento al momento del test soffrono di un accumulo di informazioni storiche, che non solo spreca risorse computazionali ma interferisce anche con un ragionamento efficace. Per affrontare questo problema, osserviamo che i progressi nel ragionamento complesso sono spesso ottenuti risolvendo una sequenza di sottodomande indipendenti, ciascuna autonoma e verificabile. Queste sottodomande sono essenzialmente domande atomiche, che dipendono principalmente dal loro stato attuale piuttosto che dalla storia accumulata, simili alle transizioni senza memoria in un processo di Markov. Sulla base di questa osservazione, proponiamo Atom of Thoughts (AoT), in cui ogni transizione di stato nel processo di ragionamento consiste nel scomporre la domanda corrente in un grafo aciclico diretto basato sulle dipendenze e nel contrarre le sue sottodomande, formando un nuovo stato di domanda atomica. Questo processo iterativo di scomposizione-contrazione continua fino a raggiungere domande atomiche direttamente risolvibili, realizzando naturalmente transizioni di Markov tra gli stati delle domande. Inoltre, queste domande atomiche possono essere integrate senza soluzione di continuità nei metodi esistenti di ridimensionamento al momento del test, permettendo ad AoT di fungere da miglioramento plug-in per migliorare le capacità di ragionamento. Esperimenti condotti su sei benchmark dimostrano l'efficacia di AoT sia come framework autonomo che come miglioramento plug-in. In particolare, su HotpotQA, quando applicato a gpt-4o-mini, AoT raggiunge un punteggio F1 dell'80,6%, superando o3-mini del 3,4% e DeepSeek-R1 del 10,6%. Il codice sarà disponibile all'indirizzo https://github.com/qixucen/atom.
Dopo il pre-addestramento su ampie coppie immagine-testo, il Contrastive Language-Image Pre-training (CLIP) dimostra prestazioni promettenti su una vasta gamma di benchmark. Tuttavia, un volume sostanziale di dati non accoppiati, come documenti multimodali intervallati, rimane sottoutilizzato per l'apprendimento di rappresentazioni visivo-linguistiche. Per sfruttare appieno questi documenti non accoppiati, inizialmente stabiliamo una pipeline di estrazione dati del mondo reale per estrarre immagini e testi di alta qualità. Successivamente, progettiamo un metodo di recupero gerarchico per associare in modo efficiente ogni immagine a più testi realistici semanticamente rilevanti. Per migliorare ulteriormente le informazioni visive dettagliate, proponiamo un modulo di generazione aumentata semantica dell'immagine per la produzione di testi sintetici. Inoltre, utilizziamo una strategia di campionamento bilanciato semantico per migliorare la diversità del dataset, consentendo un migliore apprendimento di concetti a coda lunga. Sulla base di queste innovazioni, costruiamo RealSyn, un dataset che combina testi realistici e sintetici, disponibile in tre scale: 15M, 30M e 100M. Esperimenti estesi dimostrano che RealSyn avanza efficacemente l'apprendimento di rappresentazioni visivo-linguistiche e mostra una forte scalabilità. I modelli pre-addestrati su RealSyn raggiungono prestazioni all'avanguardia su molteplici task downstream. Per facilitare la ricerca futura, il dataset RealSyn e i pesi del modello pre-addestrato sono rilasciati su https://github.com/deepglint/RealSyn.
L'avvento del ridimensionamento al momento del test nei grandi modelli linguistici (LLM), esemplificato dalla serie o1 di OpenAI, ha migliorato le capacità di ragionamento attraverso la scalabilità dell'allocazione delle risorse computazionali durante l'inferenza. Sebbene successori come QwQ, Deepseek-R1 (R1) e LIMO replichino questi progressi, la questione se questi modelli possiedano effettivamente capacità di ridimensionamento al momento del test rimane poco esplorata. Questo studio ha rilevato che catene di pensiero (CoT) più lunghe in questi modelli simili a o1 non migliorano costantemente l'accuratezza; infatti, le soluzioni corrette sono spesso più brevi di quelle errate per le stesse domande. Un'ulteriore indagine mostra che questo fenomeno è strettamente correlato alle capacità di auto-revisione dei modelli: CoT più lunghe contengono più auto-revisioni, che spesso portano a un degrado delle prestazioni. Successivamente, confrontiamo le strategie di ridimensionamento sequenziale e parallelo su QwQ, R1 e LIMO, riscontrando che il ridimensionamento parallelo ottiene una migliore copertura e scalabilità. Sulla base di queste osservazioni, proponiamo il Voto di Maggioranza più Breve, un metodo che combina strategie di ridimensionamento parallelo con le caratteristiche della lunghezza delle CoT, migliorando significativamente la scalabilità al momento del test dei modelli rispetto agli approcci convenzionali di voto di maggioranza.
Sebbene i Large Language Model (LLM) si adattino bene ai task downstream dopo il fine-tuning, questa adattabilità spesso compromette la robustezza dei prompt, poiché anche piccole variazioni nei prompt possono degradare significativamente le prestazioni. Per affrontare questo problema, proponiamo il Prompt-Agnostic Fine-Tuning (PAFT), un approccio semplice ma efficace che regola dinamicamente i prompt durante il fine-tuning. Questo incoraggia il modello a imparare i principi sottostanti del task piuttosto che adattarsi eccessivamente a formulazioni specifiche dei prompt. PAFT opera in due fasi: prima, viene costruito un insieme diversificato di prompt candidati sintetici e significativi. Secondo, durante il fine-tuning, i prompt vengono campionati casualmente da questo insieme per creare input di training dinamici. Esperimenti estesi su vari dataset e LLM dimostrano che i modelli addestrati con PAFT mostrano una forte robustezza e generalizzazione su un'ampia gamma di prompt, inclusi quelli mai visti. Questa robustezza migliorata aumenta sia le prestazioni del modello che la velocità di inferenza, mantenendo al contempo l'efficienza dell'addestramento. Studi di ablazione confermano ulteriormente l'efficacia di PAFT.
Recentemente, c'è stato un crescente interesse nell'utilizzo di modelli linguistici di grandi dimensioni (LLM) per generare modelli simbolici del mondo a partire da descrizioni testuali. Sebbene gli LLM siano stati ampiamente esplorati nel contesto della modellazione del mondo, studi precedenti hanno incontrato diverse sfide, tra cui la casualità nella valutazione, la dipendenza da metriche indirette e un ambito di dominio limitato. Per affrontare queste limitazioni, introduciamo un nuovo benchmark, Text2World, basato sul linguaggio di definizione del dominio di pianificazione (PDDL), che presenta centinaia di domini diversi e utilizza metriche esecutive multicriterio per una valutazione più robusta. Abbiamo valutato gli attuali LLM utilizzando Text2World e abbiamo riscontrato che i modelli di ragionamento addestrati con l'apprendimento per rinforzo su larga scala superano gli altri. Tuttavia, anche il modello con le migliori prestazioni mostra ancora capacità limitate nella modellazione del mondo. Sulla base di queste osservazioni, esaminiamo diverse strategie promettenti per migliorare le capacità di modellazione del mondo degli LLM, tra cui il ridimensionamento al momento del test, l'addestramento di agenti e altro ancora. Speriamo che Text2World possa rappresentare una risorsa cruciale, gettando le basi per future ricerche sull'utilizzo degli LLM come modelli del mondo. La pagina del progetto è disponibile all'indirizzo https://text-to-world.github.io/.
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer dimostrano prestazioni impressionanti nella generazione di contesti lunghi. L'estensione della lunghezza del contesto ha spostato in modo sproporzionato l'impronta di memoria degli LLM durante l'inferenza verso la cache chiave-valore (KV cache). In questo articolo, proponiamo HEADINFER, che scarica la KV cache nella RAM della CPU evitando la necessità di memorizzare completamente la KV cache per qualsiasi livello di transformer sulla GPU. HEADINFER utilizza una strategia di scaricamento granulare e basata sulle teste di attenzione, mantenendo solo la KV cache di specifiche teste di attenzione sulla GPU mentre calcola dinamicamente l'output dell'attenzione. Attraverso un'analisi roofline, dimostriamo che HEADINFER mantiene l'efficienza computazionale riducendo significativamente l'impronta di memoria. Valutiamo HEADINFER sul modello Llama-3-8B con una sequenza di 1 milione di token, riducendo l'impronta di memoria GPU della KV cache da 128 GB a 1 GB e l'utilizzo totale della memoria GPU da 207 GB a 17 GB, ottenendo una riduzione del 92% rispetto all'inferenza di base BF16. In particolare, HEADINFER consente l'inferenza di 4 milioni di token con un modello 8B su una singola GPU consumer con 24 GB di memoria (ad esempio, NVIDIA RTX 4090) senza metodi di approssimazione.
Proponiamo le connessioni MUltiway Dynamic Dense (MUDD), un metodo semplice ma efficace per affrontare i limiti delle connessioni residue e migliorare il flusso di informazioni tra i livelli nei Transformer. A differenza degli approcci esistenti con connessioni dense che utilizzano pesi statici e condivisi, MUDD genera pesi di connessione in modo dinamico in base agli stati nascosti in ciascuna posizione della sequenza e per ciascun flusso di input separato (query, chiave, valore o residuo) di un blocco Transformer. Le connessioni MUDD possono essere integrate senza soluzione di continuità in qualsiasi architettura Transformer per creare il MUDDFormer. Esperimenti estesi dimostrano che MUDDFormer supera significativamente i Transformer in varie architetture e scale di modelli nel campo del language modeling, raggiungendo le prestazioni di Transformer addestrati con un calcolo 1,8X-2,4X superiore. In particolare, MUDDPythia-2.8B eguaglia Pythia-6.9B in termini di ppl durante il pre-training e nei task downstream, e rivaleggia persino con Pythia-12B in contesti few-shot, aggiungendo solo lo 0,23% di parametri e lo 0,4% di calcolo. Il codice in JAX e PyTorch e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/Caiyun-AI/MUDDFormer.
Migliorare l'architettura di rete del framework YOLO è stato cruciale per lungo tempo, ma si è concentrato su miglioramenti basati su CNN nonostante la comprovata superiorità dei meccanismi di attenzione nelle capacità di modellazione. Ciò è dovuto al fatto che i modelli basati sull'attenzione non possono eguagliare la velocità dei modelli basati su CNN. Questo articolo propone un framework YOLO centrato sull'attenzione, denominato YOLOv12, che eguaglia la velocità dei precedenti modelli basati su CNN sfruttando i vantaggi prestazionali dei meccanismi di attenzione. YOLOv12 supera tutti i popolari rilevatori di oggetti in tempo reale in termini di accuratezza con una velocità competitiva. Ad esempio, YOLOv12-N raggiunge un mAP del 40,6% con una latenza di inferenza di 1,64 ms su una GPU T4, superando i modelli avanzati YOLOv10-N / YOLOv11-N di un 2,1%/1,2% in mAP con una velocità comparabile. Questo vantaggio si estende ad altre scale di modelli. YOLOv12 supera anche i rilevatori end-to-end in tempo reale che migliorano DETR, come RT-DETR / RT-DETRv2: YOLOv12-S batte RT-DETR-R18 / RT-DETRv2-R18 mentre funziona il 42% più velocemente, utilizzando solo il 36% del calcolo e il 45% dei parametri. Ulteriori confronti sono mostrati nella Figura 1.
Presentiamo HealthGPT, un potente Modello Medico di Grande Visione-Linguaggio (Med-LVLM) che integra capacità di comprensione e generazione visiva medica all'interno di un paradigma autoregressivo unificato. La nostra filosofia di bootstrap consiste nell'adattare progressivamente conoscenze eterogenee di comprensione e generazione a modelli linguistici di grandi dimensioni (LLM) pre-addestrati. Questo è ottenuto attraverso una innovativa tecnica di adattamento eterogeneo a basso rango (H-LoRA), integrata da un approccio di percezione visiva gerarchica su misura e da una strategia di apprendimento in tre fasi. Per addestrare efficacemente HealthGPT, abbiamo sviluppato un dataset completo specifico per il dominio medico, chiamato VL-Health, dedicato alla comprensione e alla generazione. I risultati sperimentali dimostrano prestazioni eccezionali e scalabilità di HealthGPT in compiti unificati di visione medica. Il nostro progetto è accessibile all'indirizzo https://github.com/DCDmllm/HealthGPT.
I metodi di ottimizzazione distribuita come DiLoCo si sono dimostrati efficaci nell'addestramento di modelli molto grandi su più worker distribuiti, come i datacenter. Questi metodi suddividono gli aggiornamenti in due parti: una fase di ottimizzazione interna, in cui i worker eseguono in modo indipendente più passi di ottimizzazione sui propri dati locali, e un passo di ottimizzazione esterna, in cui gli aggiornamenti interni vengono sincronizzati. Sebbene questi approcci richiedano ordini di grandezza in meno di comunicazione rispetto all'addestramento parallelo standard sui dati, in contesti in cui i worker sono datacenter, anche i requisiti di comunicazione limitati di questi approcci possono comunque causare rallentamenti significativi a causa del blocco necessario ad ogni passo di ottimizzazione esterna. In questo articolo, indaghiamo tecniche per mitigare questo problema sovrapponendo la comunicazione con il calcolo in modo tale da permettere al passo di ottimizzazione esterna di sovrapporsi completamente alla fase di ottimizzazione interna. Dimostriamo che una variante specifica, denominata aggiornamenti eager, offre prestazioni competitive rispetto al DiLoCo standard in contesti con bassa larghezza di banda tra i worker.
Presentiamo un nuovo approccio di ragionamento chiamato Flow-of-Options (FoO), progettato per affrontare i bias intrinseci nei Large Language Models (LLM). FoO consente ai LLM di esplorare sistematicamente un'ampia gamma di possibilità nel loro ragionamento, come dimostrato da un sistema agentico basato su FoO per risolvere autonomamente task di Machine Learning (AutoML). Il nostro framework supera i benchmark state-of-the-art, ottenendo miglioramenti del 38,2% - 69,2% su task standard di data science e del 37,4% - 47,9% su task di chimica terapeutica. Con un costo operativo complessivo inferiore a $1 per task, il nostro framework è particolarmente adatto per applicazioni sensibili ai costi. Oltre alla classificazione e alla regressione, illustriamo l'ampia applicabilità del nostro sistema agentico basato su FoO a task come il reinforcement learning e la generazione di immagini. Il nostro framework rappresenta un significativo avanzamento rispetto ai sistemi agentici state-of-the-art per AutoML, grazie ai benefici di FoO nel promuovere la diversità nelle soluzioni dei LLM attraverso rappresentazioni compresse e spiegabili che supportano anche la memoria a lungo termine quando combinate con il ragionamento basato su casi.
Il rapido sviluppo di modelli di ragionamento su larga scala, come OpenAI-o3 e DeepSeek-R1, ha portato a significativi miglioramenti nel ragionamento complesso rispetto ai modelli di linguaggio di grandi dimensioni (LLM) non orientati al ragionamento. Tuttavia, le loro capacità avanzate, combinate con l'accesso open-source di modelli come DeepSeek-R1, sollevano serie preoccupazioni in termini di sicurezza, in particolare riguardo al loro potenziale di utilizzo improprio. In questo lavoro, presentiamo una valutazione completa della sicurezza di questi modelli di ragionamento, sfruttando benchmark di sicurezza consolidati per valutarne la conformità alle normative di sicurezza. Inoltre, indaghiamo la loro suscettibilità ad attacchi avversari, come il jailbreaking e l'iniezione di prompt, per valutarne la robustezza in applicazioni reali. Attraverso la nostra analisi multifattoriale, abbiamo individuato quattro risultati chiave: (1) Esiste un divario significativo in termini di sicurezza tra i modelli R1 open-source e il modello o3-mini, sia nei benchmark di sicurezza che negli attacchi, suggerendo la necessità di maggiori sforzi di sicurezza su R1. (2) Il modello di ragionamento distillato mostra prestazioni di sicurezza inferiori rispetto ai suoi modelli base allineati alla sicurezza. (3) Più forte è la capacità di ragionamento del modello, maggiore è il potenziale danno che può causare quando risponde a domande non sicure. (4) Il processo di pensiero nei modelli R1 rappresenta una preoccupazione di sicurezza maggiore rispetto alle loro risposte finali. Il nostro studio fornisce approfondimenti sulle implicazioni di sicurezza dei modelli di ragionamento e sottolinea la necessità di ulteriori progressi nella sicurezza dei modelli R1 per colmare il divario.
I modelli foundation pre-addestrati su enormi dataset non etichettati hanno rivoluzionato il campo del linguaggio naturale e della visione artificiale, dimostrando notevoli capacità di generalizzazione, evidenziando così l'importanza del pre-addestramento. Tuttavia, gli sforzi nel campo della robotica hanno faticato a raggiungere un successo simile, limitati sia dalla necessità di costose annotazioni robotiche che dalla mancanza di rappresentazioni che modellino efficacemente il mondo fisico. In questo articolo, presentiamo ARM4R, un Modello Robotico Auto-regressivo che sfrutta rappresentazioni 4D di basso livello apprese da dati video umani per ottenere un modello robotico pre-addestrato migliore. Nello specifico, ci concentriamo sull'utilizzo di rappresentazioni di tracciamento 3D da video, ottenute sollevando rappresentazioni 2D nello spazio 3D tramite stima della profondità monoculare nel tempo. Queste rappresentazioni 4D mantengono una struttura geometrica condivisa tra i punti e le rappresentazioni dello stato del robot fino a una trasformazione lineare, consentendo un trasferimento efficiente dell'apprendimento dai dati video umani al controllo robotico di basso livello. I nostri esperimenti dimostrano che ARM4R può trasferire efficacemente i dati video umani alla robotica e migliora costantemente le prestazioni su compiti in vari ambienti e configurazioni robotiche.
LLM-as-a-Judge, che genera giudizi basati su catene di ragionamento (CoT), è diventato un metodo di valutazione automatica ampiamente adottato. Tuttavia, la sua affidabilità è compromessa dall'incapacità del ragionamento CoT di catturare dettagli completi e approfonditi, portando spesso a risultati incompleti. I metodi esistenti si basano principalmente sul voto a maggioranza o sull'espansione dei criteri, che sono insufficienti per affrontare le limitazioni del CoT. Proponiamo la Valutazione Comparativa Basata sulla Folla, che introduce risposte aggiuntive della folla da confrontare con le risposte candidate, esponendo così dettagli più profondi e completi all'interno delle risposte candidate. Questo processo guida efficacemente LLM-as-a-Judge a fornire un giudizio CoT più dettagliato. Esperimenti estesi dimostrano che il nostro approccio migliora l'affidabilità della valutazione, ottenendo un guadagno medio di accuratezza del 6,7% su cinque benchmark. Inoltre, il nostro metodo produce CoT di qualità superiore che facilitano la distillazione dei giudici e mostrano prestazioni superiori nel campionamento di rifiuto per il fine-tuning supervisionato (SFT), denominato campionamento di rifiuto della folla, consentendo così un SFT più efficiente. La nostra analisi conferma che i CoT generati dal nostro metodo sono più completi e di qualità superiore, e l'accuratezza della valutazione migliora con l'aumentare delle scale di inferenza.
I Large Language Model (LLM) hanno dimostrato un successo straordinario in vari compiti come la comprensione del linguaggio naturale, la sintesi del testo e la traduzione automatica. Tuttavia, la loro natura general-purpose spesso limita la loro efficacia in applicazioni specifiche di dominio che richiedono conoscenze specializzate, come l'assistenza sanitaria, la chimica o l'analisi legale. Per affrontare questo problema, i ricercatori hanno esplorato diversi metodi per migliorare i LLM integrando conoscenze specifiche del dominio. In questo survey, forniamo una panoramica completa di questi metodi, che categorizziamo in quattro approcci chiave: iniezione dinamica della conoscenza, incorporamento statico della conoscenza, adattatori modulari e ottimizzazione dei prompt. Ciascun approccio offre meccanismi unici per dotare i LLM di competenze di dominio, bilanciando i compromessi tra flessibilità, scalabilità ed efficienza. Discutiamo come questi metodi consentano ai LLM di affrontare compiti specializzati, confrontiamo i loro vantaggi e svantaggi, valutiamo i LLM specifici di dominio rispetto ai LLM generalisti e evidenziamo le sfide e le opportunità in questo campo emergente. Per coloro che sono interessati ad approfondire quest'area, riassumiamo anche i dataset e i benchmark comunemente utilizzati. Per mantenere i ricercatori aggiornati sugli studi più recenti, manteniamo un repository open-source all'indirizzo: https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, dedicato a documentare la ricerca nel campo dei LLM specializzati.
I modelli di embedding svolgono un ruolo cruciale nella rappresentazione e nel recupero delle informazioni in varie applicazioni di NLP. I recenti progressi nei grandi modelli linguistici (LLM) hanno ulteriormente migliorato le prestazioni dei modelli di embedding. Sebbene questi modelli siano spesso valutati su dataset generici, le applicazioni nel mondo reale richiedono una valutazione specifica per dominio. In questo lavoro, introduciamo il Finance Massive Text Embedding Benchmark (FinMTEB), una controparte specializzata di MTEB progettata per il dominio finanziario. FinMTEB comprende 64 dataset di embedding specifici per il dominio finanziario, suddivisi in 7 task che coprono diversi tipi di testi in cinese e inglese, come articoli di notizie finanziarie, rapporti annuali aziendali, rapporti ESG, documenti normativi e trascrizioni di conferenze sugli utili. Abbiamo anche sviluppato un modello adattato al settore finanziario, FinPersona-E5, utilizzando un metodo sintetico basato su persona per coprire vari task di embedding finanziari durante l'addestramento. Attraverso una valutazione estensiva di 15 modelli di embedding, inclusi FinPersona-E5, abbiamo evidenziato tre risultati chiave: (1) le prestazioni su benchmark generici mostrano una correlazione limitata con i task specifici del dominio finanziario; (2) i modelli adattati al dominio superano costantemente le loro controparti generiche; e (3) sorprendentemente, un semplice approccio Bag-of-Words (BoW) supera gli embedding densi più sofisticati nei task di Similarità Semantica Testuale (STS) finanziari, evidenziando le attuali limitazioni delle tecniche di embedding denso. Il nostro lavoro stabilisce un solido framework di valutazione per le applicazioni NLP finanziarie e fornisce intuizioni cruciali per lo sviluppo di modelli di embedding specifici per dominio.
Il rapido progresso delle celle solari a perovskite (PSCs) ha portato a una crescita esponenziale delle pubblicazioni di ricerca, creando un'urgente necessità di sistemi efficienti di gestione della conoscenza e di ragionamento in questo ambito. Presentiamo un sistema completo potenziato dalla conoscenza per le PSCs che integra tre componenti chiave. In primo luogo, sviluppiamo Perovskite-KG, un grafo della conoscenza specifico per il dominio, costruito a partire da 1.517 articoli di ricerca, contenente 23.789 entità e 22.272 relazioni. In secondo luogo, creiamo due dataset complementari: Perovskite-Chat, composto da 55.101 coppie domanda-risposta di alta qualità generate attraverso un innovativo framework multi-agente, e Perovskite-Reasoning, contenente 2.217 problemi di scienza dei materiali accuratamente selezionati. In terzo luogo, introduciamo due modelli linguistici di grandi dimensioni specializzati: Perovskite-Chat-LLM per l'assistenza nella conoscenza specifica del dominio e Perovskite-Reasoning-LLM per i compiti di ragionamento scientifico. I risultati sperimentali dimostrano che il nostro sistema supera significativamente i modelli esistenti sia nel recupero della conoscenza specifica del dominio che nei compiti di ragionamento scientifico, fornendo ai ricercatori strumenti efficaci per la revisione della letteratura, la progettazione di esperimenti e la risoluzione di problemi complessi nella ricerca sulle PSCs.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in una vasta gamma di compiti di generazione di testo. Tuttavia, gli LLM continuano a incontrare difficoltà con problemi che richiedono processi decisionali multi-step e feedback ambientale, come lo shopping online, il ragionamento scientifico e la risoluzione di problemi matematici. A differenza dei dati testuali puri, la raccolta di dati su larga scala relativi ai processi decisali è complessa. Inoltre, molti potenti LLM sono accessibili solo tramite API, il che ostacola il loro fine-tuning per compiti di agenti a causa di costi e complessità. Per affrontare le limitazioni degli agenti basati su LLM, proponiamo un framework in grado di apprendere automaticamente un modello di ricompensa dall'ambiente senza annotazioni umane. Questo modello può essere utilizzato per valutare le traiettorie d'azione degli agenti LLM e fornire euristiche per la pianificazione dei compiti. Nello specifico, il nostro approccio prevede l'impiego di un agente basato su LLM per esplorare un ambiente in modo casuale, generando traiettorie d'azione diverse. Successivamente, un LLM separato viene utilizzato per assegnare un'intenzione di compito e sintetizzare una risposta negativa insieme alla risposta corretta per ogni traiettoria. Queste triplette (intenzione di compito, risposta positiva e risposta negativa) vengono poi utilizzate come dati di addestramento per ottimizzare un modello di ricompensa in grado di valutare le traiettorie d'azione. L'efficacia e la generalizzabilità del nostro framework sono dimostrate attraverso valutazioni condotte su diversi benchmark per agenti. In conclusione, il framework proposto rappresenta un significativo progresso nel migliorare le capacità decisionali degli agenti LLM. Automatizzando l'apprendimento dei modelli di ricompensa, superiamo le sfide legate alla scarsità di dati e alle limitazioni delle API, potenzialmente rivoluzionando l'applicazione degli LLM in ambienti complessi e interattivi. Questa ricerca apre la strada a agenti AI più sofisticati, in grado di affrontare una vasta gamma di problemi del mondo reale che richiedono processi decisionali multi-step.
Sebbene i modelli linguistici multilingue come XLM-R abbiano fatto progredire il multilinguismo nell'elaborazione del linguaggio naturale (NLP), continuano a ottenere prestazioni scarse nelle lingue con risorse estremamente limitate. Questa situazione è ulteriormente aggravata dal fatto che i moderni modelli linguistici di grandi dimensioni (LLM) come LLaMA e Qwen supportano un numero di lingue molto inferiore rispetto a XLM-R, rendendo i modelli di generazione del testo inesistenti per molte lingue del mondo. Per affrontare questa sfida, proponiamo un nuovo framework per adattare gli encoder multilingue alla generazione di testo in lingue con risorse estremamente limitate. Riusando i pesi tra l'encoder e il decoder, il nostro framework consente al modello di sfruttare lo spazio semantico appreso dall'encoder, permettendo un apprendimento efficiente e una generalizzazione efficace nelle lingue a bassa risorsa. Applicando questo framework a quattro lingue minoritarie cinesi, presentiamo XLM-SWCM e ne dimostriamo le prestazioni superiori in vari task downstream, anche rispetto a modelli molto più grandi.
L'analisi delle serie temporali ha assistito a uno sviluppo stimolante, passando dai tradizionali modelli autoregressivi ai modelli di deep learning, fino ai recenti Transformer e ai Large Language Models (LLM). Nel frattempo, sono stati compiuti sforzi per sfruttare i modelli di visione nell'analisi delle serie temporali, ma questi sono rimasti meno visibili alla comunità a causa della predominante ricerca sulla modellazione di sequenze in questo ambito. Tuttavia, la discrepanza tra le serie temporali continue e lo spazio discreto dei token degli LLM, insieme alle sfide nel modellare esplicitamente le correlazioni tra le variabili nelle serie temporali multivariate, hanno spostato parte dell'attenzione della ricerca verso i parimenti efficaci Large Vision Models (LVM) e Vision Language Models (VLM). Per colmare questa lacuna nella letteratura esistente, questa rassegna discute i vantaggi dei modelli di visione rispetto agli LLM nell'analisi delle serie temporali. Offre una panoramica completa e approfondita dei metodi esistenti, con una doppia prospettiva di tassonomia dettagliata che risponde alle principali domande di ricerca, tra cui come codificare le serie temporali come immagini e come modellare le serie temporali trasformate in immagini per vari compiti. Inoltre, affrontiamo le sfide nei passaggi di pre- e post-elaborazione coinvolti in questo framework e delineiamo direzioni future per far progredire ulteriormente l'analisi delle serie temporali con i modelli di visione.