Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli autoregressivi (ARMs) sono ampiamente considerati come il fondamento dei grandi modelli linguistici (LLMs). Mettiamo in discussione questa nozione introducendo LLaDA, un modello di diffusione addestrato da zero secondo il paradigma di pre-addestramento e fine-tuning supervisionato (SFT). LLaDA modella le distribuzioni attraverso un processo di mascheramento dei dati in avanti e un processo inverso, parametrizzato da un Transformer standard per prevedere i token mascherati. Ottimizzando un limite di verosimiglianza, fornisce un approccio generativo principiato per l'inferenza probabilistica. In un'ampia gamma di benchmark, LLaDA dimostra una forte scalabilità, superando le nostre baseline ARM auto-costruite. Notevolmente, LLaDA 8B è competitivo con potenti LLMs come LLaMA3 8B nell'apprendimento in contesto e, dopo il SFT, mostra impressionanti capacità di seguire istruzioni in casi di studio come il dialogo multi-turno. Inoltre, LLaDA affronta la maledizione dell'inversione, superando GPT-4o in un compito di completamento di poesie inverse. Le nostre scoperte stabiliscono i modelli di diffusione come un'alternativa valida e promettente agli ARMs, sfidando l'assunzione che le capacità chiave degli LLM discusse sopra siano intrinsecamente legate agli ARMs.
I Large Reasoning Models (LRM) rappresentano una svolta nelle capacità di risoluzione dei problemi dell'IA, ma la loro efficacia negli ambienti interattivi può essere limitata. Questo articolo introduce e analizza l'eccessiva riflessione nei LRM, un fenomeno in cui i modelli favoriscono catene di ragionamento interno prolungate rispetto all'interazione ambientale. Attraverso esperimenti su compiti di ingegneria del software utilizzando SWE Bench Verified, osserviamo tre modelli ricorrenti: Paralisi dell'Analisi, Azioni Selvagge e Disimpegno Prematuro. Proponiamo un framework per studiare questi comportamenti, che si correla con le valutazioni degli esperti umani, e analizziamo 4018 traiettorie. Osserviamo che punteggi più alti di eccessiva riflessione si correlano con una diminuzione delle prestazioni, con i modelli di ragionamento che mostrano tendenze più forti all'eccessiva riflessione rispetto ai modelli non di ragionamento. La nostra analisi rivela che semplici sforzi per mitigare l'eccessiva riflessione in ambienti agentici, come la selezione della soluzione con il punteggio di eccessiva riflessione più basso, possono migliorare le prestazioni del modello di quasi il 30% riducendo i costi computazionali del 43%. Questi risultati suggeriscono che mitigare l'eccessiva riflessione ha forti implicazioni pratiche. Suggeriamo che sfruttando le capacità native di chiamata di funzione e l'apprendimento per rinforzo selettivo, le tendenze all'eccessiva riflessione potrebbero essere mitigate. Mettiamo anche a disposizione in open-source il nostro framework di valutazione e dataset per facilitare la ricerca in questa direzione su https://github.com/AlexCuadron/Overthinking.
Presentiamo Step-Video-T2V, un modello pre-addestrato text-to-video all'avanguardia con 30 miliardi di parametri e la capacità di generare video fino a 204 fotogrammi di lunghezza. Un Variational Autoencoder a compressione profonda, Video-VAE, è stato progettato per le attività di generazione video, raggiungendo rapporti di compressione spaziale di 16x16 e temporale di 8x, mantenendo una qualità di ricostruzione video eccezionale. I prompt degli utenti vengono codificati utilizzando due encoder di testo bilingue per gestire sia l'inglese che il cinese. Un DiT con attenzione 3D completa viene addestrato utilizzando Flow Matching e impiegato per denoisare il rumore di input in frame latenti. Un approccio DPO basato su video, Video-DPO, viene applicato per ridurre gli artefatti e migliorare la qualità visiva dei video generati. Descriviamo inoltre le nostre strategie di addestramento e condividiamo osservazioni e intuizioni chiave. Le prestazioni di Step-Video-T2V vengono valutate su un nuovo benchmark di generazione video, Step-Video-T2V-Eval, dimostrando la sua qualità text-to-video all'avanguardia rispetto a motori sia open-source che commerciali. Inoltre, discutiamo i limiti dell'attuale paradigma basato su modelli di diffusione e delineiamo le direzioni future per i modelli di fondazione video. Rendiamo disponibili sia Step-Video-T2V che Step-Video-T2V-Eval su https://github.com/stepfun-ai/Step-Video-T2V. La versione online può essere accessibile anche da https://yuewen.cn/videos. Il nostro obiettivo è accelerare l'innovazione dei modelli di fondazione video e potenziare i creatori di contenuti video.
I modelli di diffusione (DMs) sono diventati la scelta principale per compiti generativi in diversi domini. Tuttavia, la loro dipendenza da molteplici passaggi in avanti sequenziali limita significativamente le prestazioni in tempo reale. I metodi di accelerazione precedenti si sono concentrati principalmente sulla riduzione del numero di passaggi di campionamento o sul riutilizzo di risultati intermedi, non riuscendo a sfruttare le variazioni tra le regioni spaziali all'interno dell'immagine a causa dei vincoli delle strutture convoluzionali U-Net. Sfruttando la flessibilità dei Diffusion Transformers (DiTs) nel gestire un numero variabile di token, introduciamo RAS, una nuova strategia di campionamento senza addestramento che assegna dinamicamente rapporti di campionamento diversi alle regioni di un'immagine in base al focus del modello DiT. La nostra osservazione chiave è che durante ogni passaggio di campionamento, il modello si concentra su regioni semanticamente significative, e queste aree di interesse mostrano una forte continuità tra passaggi consecutivi. Sfruttando questa intuizione, RAS aggiorna solo le regioni attualmente in focus, mentre le altre regioni vengono aggiornate utilizzando il rumore memorizzato nel passaggio precedente. Il focus del modello è determinato in base all'output del passaggio precedente, capitalizzando la coerenza temporale osservata. Valutiamo RAS su Stable Diffusion 3 e Lumina-Next-T2I, ottenendo accelerazioni rispettivamente fino a 2,36x e 2,51x, con un degrado minimo nella qualità della generazione. Inoltre, uno studio utente rivela che RAS offre qualità comparabili sotto valutazione umana, raggiungendo un'accelerazione di 1,6x. Il nostro approccio rappresenta un passo significativo verso diffusion transformer più efficienti, migliorando il loro potenziale per applicazioni in tempo reale.
I Large Multimodal Models (LMM) mostrano carenze significative nell'interpretazione delle immagini e, secondo alcune misure, possiedono una cognizione spaziale inferiore rispetto a bambini piccoli o animali. Nonostante ciò, ottengono punteggi elevati in molti benchmark visivi popolari, con margini di miglioramento rapidamente erosi da un'ondata continua di progressi nei modelli. Per affrontare questo problema, c'è un urgente bisogno di benchmark difficili che rimangano rilevanti più a lungo. Portiamo questa idea al limite introducendo ZeroBench, un benchmark leggero per il ragionamento visivo che è completamente impossibile per gli LMM di frontiera contemporanei. Il nostro benchmark è composto da 100 domande curate manualmente e 334 sottodomande meno difficili. Valutiamo 20 LMM su ZeroBench, tutti con un punteggio dello 0,0%, e analizziamo rigorosamente gli errori. Per incoraggiare i progressi nella comprensione visiva, rendiamo pubblico ZeroBench.
Nonostante i notevoli progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), la maggior parte dei modelli all'avanguardia non ha subito un allineamento approfondito con le preferenze umane. Questa lacuna esiste perché la ricerca attuale sull'allineamento ha ottenuto progressi principalmente in aree specifiche (ad esempio, la riduzione delle allucinazioni), mentre la questione più ampia se l'allineamento dei modelli con le preferenze umane possa migliorare sistematicamente le capacità degli MLLM rimane in gran parte inesplorata. A tal fine, introduciamo MM-RLHF, un dataset contenente 120k coppie di confronto di preferenze annotate in modo dettagliato da esseri umani. Questo dataset rappresenta un progresso sostanziale rispetto alle risorse esistenti, offrendo dimensioni superiori, diversità, granularità delle annotazioni e qualità. Sfruttando questo dataset, proponiamo diverse innovazioni chiave per migliorare sia la qualità dei modelli di ricompensa che l'efficienza degli algoritmi di allineamento. In particolare, introduciamo un Modello di Ricompensa Basato su Critiche, che genera critiche degli output del modello prima di assegnare i punteggi, offrendo una maggiore interpretabilità e un feedback più informativo rispetto ai tradizionali meccanismi di ricompensa scalare. Inoltre, proponiamo il Ridimensionamento Dinamico della Ricompensa, un metodo che regola il peso della perdita di ciascun campione in base al segnale di ricompensa, ottimizzando così l'uso delle coppie di confronto di alta qualità. Il nostro approccio è rigorosamente valutato attraverso 10 dimensioni distinte e 27 benchmark, con risultati che dimostrano miglioramenti significativi e consistenti nelle prestazioni del modello. Nello specifico, il fine-tuning di LLaVA-ov-7B con MM-RLHF e il nostro algoritmo di allineamento porta a un aumento del 19,5% nelle capacità conversazionali e a un miglioramento del 60% nella sicurezza. Abbiamo reso open-source il dataset delle preferenze, il modello di ricompensa, il codice di addestramento e valutazione, nonché i benchmark per la modellazione delle ricompense e la sicurezza. Per maggiori dettagli, visitate la nostra pagina del progetto: https://mm-rlhf.github.io.
I modelli di diffusione consentono la sintesi di contenuti visivi di alta qualità e diversificati. Tuttavia, faticano a generare concetti rari o mai visti. Per affrontare questa sfida, esploriamo l'utilizzo della Generazione Aumentata da Recupero (RAG) con modelli di generazione di immagini. Proponiamo ImageRAG, un metodo che recupera dinamicamente immagini rilevanti in base a un prompt testuale fornito e le utilizza come contesto per guidare il processo di generazione. Approcci precedenti che utilizzavano immagini recuperate per migliorare la generazione, addestravano modelli specificamente per la generazione basata
I modelli di ragionamento linguistico (LLM) come OpenAI o1, o3 e DeepSeek R1 hanno compiuto progressi significativi in matematica e programmazione, ma incontrano difficoltà in compiti avanzati come i problemi di combinatorica delle Olimpiadi Internazionali di Matematica (IMO), i rompicapi del Corpus di Astrazione e Ragionamento (ARC) e le domande dell'Esame Finale dell'Umanità (HLE). Utilizziamo un approccio di inferenza diversificato che combina più modelli e metodi al momento del test. Riteniamo che la verifica di problemi matematici e di codice, insieme al campionamento di rifiuto per altri problemi, sia semplice ed efficace. Verifichiamo automaticamente la correttezza delle soluzioni ai problemi IMO utilizzando Lean e i rompicapi ARC tramite codice, e scopriamo che il metodo "best-of-N" risponde efficacemente alle domande HLE. Il nostro approccio aumenta l'accuratezza delle risposte ai problemi di combinatorica IMO dal 33,3% al 77,8%, l'accuratezza delle domande HLE dall'8% al 37%, e risolve l'80% dei rompicapi ARC che 948 umani non sono riusciti a risolvere e il 26,5% dei rompicapi ARC che o3 con elevate risorse computazionali non risolve. Le simulazioni al momento del test, l'apprendimento per rinforzo e il meta-apprendimento con feedback di inferenza migliorano la generalizzazione adattando le rappresentazioni grafiche degli agenti e variando prompt, codice e dataset. Il nostro approccio è affidabile, robusto e scalabile, e nello spirito della ricerca riproducibile, lo renderemo pubblicamente disponibile dopo la pubblicazione.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un successo significativo in vari compiti di NLP. Tuttavia, i loro elevati costi computazionali ne limitano l'uso diffuso, specialmente nelle applicazioni in tempo reale. La potatura strutturata offre una soluzione efficace comprimendo i modelli e fornendo direttamente miglioramenti di velocità end-to-end, indipendentemente dall'ambiente hardware. Nel frattempo, diverse componenti del modello mostrano sensibilità variabili alla potatura, richiedendo una compressione non uniforme del modello. Tuttavia, un metodo di potatura non dovrebbe solo identificare una sottostruttura capace, ma anche considerare l'addestramento post-compressione. A tal fine, proponiamo \sysname, un metodo per la potatura strutturata consapevole dell'addestramento. \sysname si basa su un processo di ricerca evolutiva, generando più modelli figli in ogni generazione attraverso mutazione e selezionando i più adatti per la sopravvivenza. Per valutare l'effetto dell'addestramento posteriore, incorporiamo un processo di addestramento leggero e multi-step all'interno della popolazione dei figli, aumentando progressivamente il numero di token ed eliminando i modelli con prestazioni scadenti in ogni fase di selezione. Validiamo il nostro metodo attraverso esperimenti estesi su Llama-2-7B, Llama-3.1-8B e Qwen-2.5-14B-Instruct, raggiungendo prestazioni all'avanguardia per la potatura strutturata. Ad esempio, \sysname supera ShearedLlama richiedendo 5 volte meno dati di addestramento durante l'addestramento post-compressione.
I Large Language Models (LLMs) rappresentano tipicamente i numeri utilizzando più token, il che richiede al modello di aggregare questi token per interpretare i valori numerici. Questa frammentazione rende sia l'addestramento che l'inferenza meno efficienti e influisce negativamente sulle prestazioni del modello nei compiti legati ai numeri. Ispirati dall'osservazione che i LLMs pre-addestrati apprendono internamente caratteristiche di tipo Fourier per i token numerici, proponiamo Fourier Number Embedding (FoNE), un metodo innovativo che mappa direttamente i numeri nello spazio di embedding con le loro caratteristiche di Fourier. FoNE codifica ogni numero come un singolo token con solo due dimensioni di embedding per cifra, catturando efficacemente i valori numerici senza frammentazione. Questa rappresentazione compatta accelera sia l'addestramento che l'inferenza. Rispetto ai tradizionali embedding subword e cifra per cifra, FoNE non solo riduce il sovraccarico computazionale ma raggiunge anche una maggiore accuratezza in vari compiti numerici, tra cui addizione, sottrazione e moltiplicazione. Nell'addizione decimale a 6 cifre, FoNE richiede 64 volte meno dati per raggiungere il 99% di accuratezza rispetto agli embedding subword e cifra per cifra, utilizzando rispettivamente 3 volte e 6 volte meno token per numero. Inoltre, FoNE è l'unico metodo che ottiene il 100% di accuratezza su oltre 100.000 esempi di test per addizione, sottrazione e moltiplicazione. I codici e le visualizzazioni sono disponibili all'indirizzo https://fouriernumber.github.io/.
I modelli di diffusione innovativi sono in grado di sintetizzare immagini fotorealistiche con testo integrato di alta qualità. Sorprendentemente, dimostriamo attraverso l'analisi delle attivazioni di attenzione che meno dell'1% dei parametri dei modelli di diffusione, tutti contenuti nei livelli di attenzione, influenzano la generazione del contenuto testuale all'interno delle immagini. Basandoci su questa osservazione, miglioriamo l'efficienza e le prestazioni della generazione testuale intervenendo sui livelli di attenzione incrociata e congiunta dei modelli di diffusione. Introduciamo diverse applicazioni che beneficiano della localizzazione dei livelli responsabili della generazione del contenuto testuale. In primo luogo, mostriamo che un fine-tuning basato su LoRA esclusivamente dei livelli localizzati migliora ulteriormente le capacità generali di generazione del testo dei grandi modelli di diffusione, preservando la qualità e la diversità delle generazioni dei modelli. Successivamente, dimostriamo come possiamo utilizzare i livelli localizzati per modificare il contenuto testuale nelle immagini generate. Infine, estendiamo questa idea al caso d'uso pratico di prevenire la generazione di testo tossico in modo gratuito. A differenza dei lavori precedenti, il nostro approccio di localizzazione è ampiamente applicabile a varie architetture di modelli di diffusione, inclusi U-Net (ad esempio, LDM e SDXL) e basati su transformer (ad esempio, DeepFloyd IF e Stable Diffusion 3), utilizzando diversi encoder di testo (ad esempio, da CLIP ai grandi modelli linguistici come T5). Pagina del progetto disponibile all'indirizzo https://t2i-text-loc.github.io/.
Questo position paper sostiene che, per comprendere l'IA, non possiamo affidarci al nostro vocabolario esistente di parole umane. Invece, dovremmo sforzarci di sviluppare neologismi: nuove parole che rappresentino concetti umani precisi che desideriamo insegnare alle macchine, o concetti delle macchine che dobbiamo imparare. Partiamo dal presupposto che umani e macchine abbiano concetti diversi. Ciò significa che l'interpretabilità può essere inquadrata come un problema di comunicazione: gli umani devono essere in grado di fare riferimento e controllare i concetti delle macchine, e comunicare i concetti umani alle macchine. Creare un linguaggio condiviso tra umani e macchine attraverso lo sviluppo di neologismi, crediamo, potrebbe risolvere questo problema di comunicazione. I neologismi di successo raggiungono un livello utile di astrazione: non troppo dettagliati, in modo da essere riutilizzabili in molti contesti, e non troppo generali, in modo da trasmettere informazioni precise. Come prova di concetto, dimostriamo come un "neologismo della lunghezza" consenta di controllare la lunghezza delle risposte dei modelli linguistici (LLM), mentre un "neologismo della diversità" permetta di campionare risposte più variabili. Nel complesso, sosteniamo che non possiamo comprendere l'IA utilizzando il nostro vocabolario esistente, e che espanderlo attraverso neologismi crea opportunità sia per controllare che per comprendere meglio le macchine.
I modelli pre-addestrati di base (FMs) hanno dimostrato prestazioni eccezionali nei compiti di previsione di serie temporali univariate. Tuttavia, persistono diverse sfide pratiche, tra cui la gestione di complesse dipendenze tra le caratteristiche e la quantificazione dell'incertezza nelle previsioni. Questo studio mira a affrontare queste limitazioni critiche introducendo adattatori; trasformazioni dello spazio delle caratteristiche che facilitano l'uso efficace di FMs pre-addestrati per serie temporali univariate in compiti multivariati. Gli adattatori operano proiettando gli input multivariati in uno spazio latente appropriato e applicando il FM in modo indipendente a ciascuna dimensione. Ispirati dalla letteratura sull'apprendimento di rappresentazioni e sulle reti neurali bayesiane parzialmente stocastiche, presentiamo una gamma di adattatori e strategie di ottimizzazione/inferenza. Gli esperimenti condotti su dataset sia sintetici che reali confermano l'efficacia degli adattatori, dimostrando sostanziali miglioramenti nella precisione delle previsioni e nella quantificazione dell'incertezza rispetto ai metodi di base. Il nostro framework, AdaPTS, posiziona gli adattatori come una soluzione modulare, scalabile ed efficace per sfruttare i FMs per serie temporali in contesti multivariati, promuovendo così una più ampia adozione nelle applicazioni reali. Rilasciamo il codice all'indirizzo https://github.com/abenechehab/AdaPTS.
Le lingue a risorse limitate (LRL) affrontano sfide significative nell'elaborazione del linguaggio naturale (NLP) a causa della scarsità di dati. Sebbene i modelli linguistici di grandi dimensioni (LLM) all'avanguardia continuino a mostrare difficoltà con le LRL, i modelli multilingue più piccoli (mLMs) come mBERT e XLM-R offrono maggiori promesse grazie a una migliore adattabilità della loro capacità alle dimensioni ridotte dei dati di addestramento. Questo studio indaga sistematicamente metodi di adattamento basati su adattatori efficienti in termini di parametri per adattare i mLMs alle LRL, valutando tre architetture: Sequential Bottleneck, Invertible Bottleneck e Low-Rank Adaptation. Utilizzando testo non strutturato da GlotCC e conoscenza strutturata da ConceptNet, dimostriamo che piccoli dataset di adattamento (ad esempio, fino a 1 GB di testo libero o pochi MB di dati di grafi di conoscenza) producono miglioramenti in compiti intrinseci (modellazione del linguaggio mascherato) ed estrinseci (classificazione di argomenti, analisi del sentimento e riconoscimento di entità nominate). Troviamo che gli adattatori Sequential Bottleneck eccellono nella modellazione del linguaggio, mentre gli adattatori Invertible Bottleneck superano leggermente altri metodi nei compiti downstream grazie a un migliore allineamento degli embedding e a un numero maggiore di parametri. I metodi basati su adattatori eguagliano o superano il fine-tuning completo utilizzando molti meno parametri, e i mLMs più piccoli si dimostrano più efficaci per le LRL rispetto ai LLM massicci come LLaMA-3, GPT-4 e modelli distillati basati su DeepSeek-R1. Sebbene l'adattamento migliori le prestazioni, la dimensione dei dati di pre-addestramento rimane il fattore dominante, specialmente per le lingue con una copertura estesa di pre-addestramento.
Il raffinamento dei Grandi Modelli Linguistici (LLM) su insiemi di dati specifici è una pratica comune per migliorare le prestazioni su compiti target. Tuttavia, questo incremento delle prestazioni spesso porta all'overfitting, dove il modello diventa troppo specializzato nel compito o nelle caratteristiche dei dati di addestramento, con conseguente perdita di generalizzazione. Questo articolo introduce il Fine-Tuning Selettivo da Auto-a-Supervisionato (S3FT), un approccio di fine-tuning che ottiene prestazioni migliori rispetto al tradizionale fine-tuning supervisionato (SFT) migliorando la generalizzazione. S3FT sfrutta l'esistenza di risposte multiple valide a una query. Utilizzando le risposte corrette del modello, S3FT riduce la specializzazione del modello durante la fase di fine-tuning. S3FT identifica innanzitutto le risposte corrette del modello dall'insieme di addestramento mediante l'impiego di un giudice appropriato. Successivamente, raffina il modello utilizzando le risposte corrette del modello e la risposta corretta (o la sua parafrasi) per i campioni rimanenti. L'efficacia di S3FT è dimostrata attraverso esperimenti su compiti di ragionamento matematico, programmazione Python e comprensione della lettura. I risultati mostrano che il SFT standard può portare a una diminuzione delle prestazioni media fino al 4,4 su diversi benchmark, come MMLU e TruthfulQA. Al contrario, S3FT riduce questa diminuzione della metà, cioè 2,5, indicando migliori capacità di generalizzazione rispetto al SFT pur ottenendo risultati significativamente migliori sui compiti di fine-tuning.
In questo articolo, proponiamo un'architettura di convoluzione multi-livello efficiente per il grounding visivo 3D. I metodi convenzionali faticano a soddisfare i requisiti di inferenza in tempo reale a causa dell'architettura a due stadi o basata su punti. Ispirati dal successo dell'architettura di convoluzione completamente sparsa multi-livello nella rilevazione di oggetti 3D, miriamo a costruire un nuovo framework per il grounding visivo 3D seguendo questa linea tecnica. Tuttavia, poiché nel task di grounding visivo 3D la rappresentazione della scena 3D deve interagire profondamente con le caratteristiche testuali, l'architettura basata su convoluzione sparsa risulta inefficiente per questa interazione a causa dell'elevata quantità di caratteristiche voxel. A tal fine, proponiamo il pruning guidato dal testo (TGP) e l'aggiunta basata sul completamento (CBA) per fondere in modo efficiente la rappresentazione della scena 3D e le caratteristiche testuali attraverso un pruning regionale graduale e un completamento del target. Nello specifico, il TGP sparsifica iterativamente la rappresentazione della scena 3D, interagendo così in modo efficiente con le caratteristiche voxel attraverso l'attenzione incrociata. Per mitigare l'effetto del pruning sulle informazioni geometriche delicate, il CBA corregge in modo adattivo la regione eccessivamente sparsificata completando i voxel con un overhead computazionale trascurabile. Rispetto ai precedenti metodi a singolo stadio, il nostro metodo raggiunge la massima velocità di inferenza, superando il metodo più veloce precedente del 100\% in termini di FPS. Il nostro metodo raggiunge anche un'accuratezza all'avanguardia, anche rispetto ai metodi a due stadi, con un vantaggio di +1,13 in Acc@0,5 su ScanRefer, e di +2,6 e +3,2 rispettivamente su NR3D e SR3D. Il codice è disponibile all'indirizzo https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.
Un obiettivo chiave dell'intelligenza incarnata è consentire agli agenti di eseguire compiti a lungo termine in ambienti dinamici, mantenendo al contempo un processo decisionale robusto e adattabilità. Per raggiungere questo obiettivo, proponiamo l'agente di memoria spaziotemporale (Spatio-Temporal Memory Agent, STMA), un nuovo framework progettato per migliorare la pianificazione e l'esecuzione dei compiti attraverso l'integrazione della memoria spaziotemporale. STMA si basa su tre componenti critiche: (1) un modulo di memoria spaziotemporale che cattura in tempo reale i cambiamenti storici e ambientali, (2) un grafo della conoscenza dinamico che facilita il ragionamento spaziale adattivo, e (3) un meccanismo pianificatore-critico che affina iterativamente le strategie dei compiti. Valutiamo STMA nell'ambiente TextWorld su 32 compiti, che coinvolgono pianificazione multi-step ed esplorazione con diversi livelli di complessità. I risultati sperimentali dimostrano che STMA ottiene un miglioramento del 31,25% nel tasso di successo e un aumento del 24,7% nel punteggio medio rispetto al modello all'avanguardia. I risultati evidenziano l'efficacia della memoria spaziotemporale nel potenziare le capacità mnemoniche degli agenti incarnati.
Il Masked Image Modeling (MIM) offre un approccio promettente per l'apprendimento auto-supervisionato di rappresentazioni, tuttavia i modelli MIM esistenti rimangono ancora indietro rispetto allo stato dell'arte. In questo articolo, analizziamo sistematicamente le rappresentazioni target, le funzioni di perdita e le architetture, per introdurre CAPI, un nuovo framework puramente MIM che si basa sulla previsione di raggruppamenti latenti. Il nostro approccio sfrutta una funzione di perdita basata sul clustering, che è stabile da addestrare e mostra promettenti proprietà di scalabilità. La nostra architettura ViT-L, CAPI, raggiunge un'accuratezza dell'83,8% su ImageNet e un mIoU del 32,1% su ADE20K con semplici probe lineari, superando significativamente i precedenti metodi MIM e avvicinandosi alle prestazioni dello stato dell'arte attuale, DINOv2. Rilasciamo tutto il nostro codice e i modelli.
Nelle applicazioni dei modelli di diffusione, la generazione controllabile è di notevole importanza pratica, ma rappresenta anche una sfida significativa. I metodi attuali per la generazione controllabile si concentrano principalmente sulla modifica della funzione di punteggio dei modelli di diffusione, mentre il Mean Reverting (MR) Diffusion modifica direttamente la struttura dell'equazione differenziale stocastica (SDE), rendendo l'incorporazione delle condizioni dell'immagine più semplice e naturale. Tuttavia, gli attuali campionatori veloci senza addestramento non sono direttamente applicabili al MR Diffusion. Di conseguenza, il MR Diffusion richiede centinaia di NFEs (numero di valutazioni di funzione) per ottenere campioni di alta qualità. In questo articolo, proponiamo un nuovo algoritmo denominato MRS (MR Sampler) per ridurre gli NFEs di campionamento del MR Diffusion. Risolviamo l'SDE a tempo inverso e l'equazione differenziale ordinaria del flusso di probabilità (PF-ODE) associata al MR Diffusion, e deriviamo soluzioni semi-analitiche. Le soluzioni consistono in una funzione analitica e in un integrale parametrizzato da una rete neurale. Basandoci su questa soluzione, possiamo generare campioni di alta qualità in un numero inferiore di passaggi. Il nostro approccio non richiede addestramento e supporta tutte le principali parametrizzazioni, inclusa la previsione del rumore, la previsione dei dati e la previsione della velocità. Esperimenti estesi dimostrano che il MR Sampler mantiene un'elevata qualità di campionamento con un'accelerazione da 10 a 20 volte in dieci diverse attività di restauro delle immagini. Il nostro algoritmo accelera la procedura di campionamento del MR Diffusion, rendendolo più pratico nella generazione controllabile.
CLaMP 3 è un framework unificato sviluppato per affrontare le sfide della generalizzazione cross-modale e cross-linguistica nel recupero delle informazioni musicali. Utilizzando l'apprendimento contrastivo, allinea tutte le principali modalità musicali—inclusi spartiti, segnali di esecuzione e registrazioni audio—con testi multilingue in uno spazio di rappresentazione condiviso, consentendo il recupero attraverso modalità non allineate utilizzando il testo come ponte. Presenta un codificatore di testo multilingue adattabile a lingue non viste, dimostrando una forte generalizzazione cross-linguistica. Sfruttando la generazione aumentata dal recupero, abbiamo curato M4-RAG, un dataset su scala web composto da 2,31 milioni di coppie musica-testo. Questo dataset è arricchito con metadati dettagliati che rappresentano un'ampia gamma di tradizioni musicali globali. Per promuovere la ricerca futura, rilasciamo WikiMT-X, un benchmark che comprende 1.000 triplette di spartiti, audio e descrizioni testuali ricche e variegate. Gli esperimenti dimostrano che CLaMP 3 raggiunge prestazioni all'avanguardia in molteplici task di MIR, superando significativamente precedenti baseline robuste e mostrando un'eccellente generalizzazione in contesti musicali multimodali e multilingue.
I veicoli a guida autonoma attuali si basano principalmente sui propri sensori per comprendere le scene circostanti e pianificare le traiettorie future, il che può risultare inaffidabile quando i sensori sono malfunzionanti o ostruiti. Per affrontare questo problema, sono stati proposti metodi di percezione cooperativa tramite comunicazione veicolo-veicolo (V2V), che tuttavia si sono concentrati principalmente su rilevamento e tracciamento. Il contributo di questi approcci alla pianificazione cooperativa complessiva è ancora poco esplorato. Ispirati dai recenti progressi nell'uso di Large Language Models (LLM) per costruire sistemi di guida autonoma, proponiamo una nuova impostazione problematica che integra un LLM nella guida autonoma cooperativa, con il dataset e benchmark proposti Vehicle-to-Vehicle Question-Answering (V2V-QA). Proponiamo inoltre il nostro metodo di base Vehicle-to-Vehicle Large Language Model (V2V-LLM), che utilizza un LLM per fondere le informazioni di percezione provenienti da più veicoli autonomi connessi (CAV) e rispondere a domande relative alla guida: ancoraggio, identificazione di oggetti rilevanti e pianificazione. I risultati sperimentali dimostrano che il nostro V2V-LLM proposto può essere un'architettura di modello unificata promettente per eseguire varie attività nella guida autonoma cooperativa, superando altri metodi di base che utilizzano approcci di fusione diversi. Il nostro lavoro crea anche una nuova direzione di ricerca che può migliorare la sicurezza dei futuri sistemi di guida autonoma. Il sito web del nostro progetto: https://eddyhkchiu.github.io/v2vllm.github.io/.
L'addestramento al rifiuto nei Large Language Models (LLM) previene output dannosi, tuttavia questa difesa rimane vulnerabile sia a jailbreak automatizzati che creati da esseri umani. Presentiamo un nuovo approccio LLM-come-red-teamer in cui un essere umano esegue un jailbreak su un LLM addestrato al rifiuto per renderlo disposto a eseguire jailbreak su se stesso o su altri LLM. Definiamo gli LLM sottoposti a jailbreak come attaccanti J_2, che possono valutare sistematicamente i modelli target utilizzando varie strategie di red teaming e migliorare le proprie prestazioni attraverso l'apprendimento in-context dai fallimenti precedenti. I nostri esperimenti dimostrano che Sonnet 3.5 e Gemini 1.5 pro superano altri LLM come J_2, raggiungendo rispettivamente tassi di successo dell'attacco (ASR) del 93,0% e del 91,0% contro GPT-4o (e risultati simili su altri LLM capaci) su Harmbench. Il nostro lavoro non solo introduce un approccio scalabile al red teaming strategico, traendo ispirazione dai red teamer umani, ma evidenzia anche il jailbreaking-to-jailbreak come una modalità di fallimento trascurata della salvaguardia. Nello specifico, un LLM può bypassare le proprie salvaguardie impiegando una versione jailbroken di se stesso che è disposta ad assistere in ulteriori jailbreak. Per prevenire qualsiasi uso improprio diretto di J_2, pur avanzando la ricerca nella sicurezza dell'IA, condividiamo pubblicamente la nostra metodologia mantenendo privati i dettagli specifici del prompting.
Le proteine sono macchine molecolari dinamiche le cui funzioni biologiche, che spaziano dalla catalisi enzimatica alla trasduzione del segnale e all'adattamento strutturale, sono intrinsecamente legate ai loro movimenti. Progettare proteine con proprietà dinamiche mirate rimane tuttavia una sfida a causa delle complesse e degenerate relazioni tra sequenza, struttura e movimento molecolare. Qui presentiamo VibeGen, un framework di intelligenza artificiale generativa che consente la progettazione di proteine de novo end-to-end condizionata alle vibrazioni dei modi normali. VibeGen utilizza un'architettura duale agentica, composta da un progettista di proteine che genera candidati di sequenza basati su specifici modi vibrazionali e un predittore di proteine che ne valuta l'accuratezza dinamica. Questo approccio sinergizza diversità, accuratezza e novità durante il processo di progettazione. Attraverso simulazioni molecolari full-atom come validazione diretta, dimostriamo che le proteine progettate riproducono accuratamente le ampiezze dei modi normali prescritte lungo lo scheletro, adottando al contempo varie strutture stabili e funzionalmente rilevanti. È importante notare che le sequenze generate sono de novo, non mostrando alcuna significativa somiglianza con proteine naturali, espandendo così lo spazio proteico accessibile oltre i vincoli evolutivi. Il nostro lavoro integra la dinamica proteica nella progettazione generativa di proteine e stabilisce un collegamento diretto e bidirezionale tra sequenza e comportamento vibrazionale, aprendo nuove vie per l'ingegnerizzazione di biomolecole con proprietà dinamiche e funzionali su misura. Questo framework ha ampie implicazioni per la progettazione razionale di enzimi flessibili, scaffold dinamici e biomateriali, tracciando la strada verso un'ingegneria proteica guidata dall'IA e informata dalla dinamica.