Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli visione-linguaggio-azione (VLA) hanno recentemente dimostrato un forte potenziale nel consentire ai robot di seguire istruzioni linguistiche ed eseguire azioni precise. Tuttavia, la maggior parte dei VLA è costruita su modelli visione-linguaggio preaddestrati esclusivamente su dati 2D, che mancano di una consapevolezza spaziale accurata e ostacolano la loro capacità di operare nel mondo fisico 3D. Le soluzioni esistenti cercano di incorporare input espliciti da sensori 3D come mappe di profondità o nuvole di punti, ma questi approcci affrontano sfide dovute al rumore dei sensori, all'eterogeneità dell'hardware e alla copertura incompleta della profondità nei dataset esistenti. Metodi alternativi che stimano indizi 3D da immagini 2D soffrono anche delle limitazioni delle prestazioni degli stimatori di profondità. Proponiamo Spatial Forcing (SF), una strategia di allineamento semplice ma efficace che costringe implicitamente i modelli VLA a sviluppare capacità di comprensione spaziale senza fare affidamento su input 3D espliciti o stimatori di profondità. SF allinea gli embedding visivi intermedi dei VLA con rappresentazioni geometriche prodotte da modelli fondazionali 3D preaddestrati. Applicando l'allineamento a livelli intermedi, SF guida i VLA a codificare rappresentazioni spaziali più ricche che migliorano la precisione delle azioni. Esperimenti estesi in ambienti simulati e reali dimostrano che SF raggiunge risultati all'avanguardia, superando sia i VLA basati su 2D che su 3D. Inoltre, SF accelera l'addestramento fino a 3,8 volte e migliora l'efficienza dei dati in una varietà di compiti robotici. La pagina del progetto è disponibile all'indirizzo https://spatial-forcing.github.io/
I modelli generativi nello spazio dei pixel sono spesso più difficili da addestrare e generalmente ottengono prestazioni inferiori rispetto alle loro controparti nello spazio latente, lasciando un persistente divario in termini di prestazioni ed efficienza. In questo articolo, introduciamo un nuovo framework di addestramento in due fasi che colma questo divario per i modelli di diffusione e di consistenza nello spazio dei pixel. Nella prima fase, pre-addestriamo degli encoder per catturare semantiche significative da immagini pulite, allineandole con punti lungo la stessa traiettoria di campionamento deterministico, che evolve i punti dalla distribuzione a priori a quella dei dati. Nella seconda fase, integriamo l'encoder con un decoder inizializzato casualmente e ottimizziamo end-to-end il modello completo sia per i modelli di diffusione che di consistenza. Il nostro framework di addestramento dimostra forti prestazioni empiriche sul dataset ImageNet. In particolare, il nostro modello di diffusione raggiunge un FID di 2.04 su ImageNet-256 e 2.35 su ImageNet-512 con 75 valutazioni di funzione (NFE), superando di gran lunga i precedenti metodi nello spazio dei pixel sia in qualità di generazione che in efficienza, rivaleggiando con i migliori modelli basati su VAE a costi di addestramento comparabili. Inoltre, su ImageNet-256, il nostro modello di consistenza raggiunge un impressionante FID di 8.82 in un singolo passo di campionamento, superando significativamente la sua controparte nello spazio latente. Per quanto ne sappiamo, questo rappresenta il primo addestramento riuscito di un modello di consistenza direttamente su immagini ad alta risoluzione senza fare affidamento su VAE o modelli di diffusione pre-addestrati.
I modelli linguistici di grandi dimensioni (LLM) hanno fatto progressi significativi nella traduzione automatica (MT), ma la loro efficacia nella traduzione di web novel rimane poco chiara. I benchmark esistenti si basano su metriche superficiali che non riescono a cogliere le caratteristiche distintive di questo genere. Per colmare queste lacune, introduciamo DITING, il primo framework di valutazione completo per la traduzione di web novel, che valuta la fedeltà narrativa e culturale attraverso sei dimensioni: traduzione di modi di dire, ambiguità lessicale, localizzazione terminologica, coerenza temporale, risoluzione dei pronomi zero e sicurezza culturale, supportato da oltre 18.000 coppie di frasi cinese-inglese annotate da esperti. Proponiamo inoltre AgentEval, un framework di valutazione multi-agente basato sul ragionamento che simula la deliberazione di esperti per valutare la qualità della traduzione oltre la semplice sovrapposizione lessicale, raggiungendo la più alta correlazione con i giudizi umani tra sette metriche automatiche testate. Per consentire il confronto delle metriche, sviluppiamo MetricAlign, un dataset di meta-valutazione composto da 300 coppie di frasi annotate con etichette di errore e punteggi scalari di qualità. Una valutazione completa di quattordici modelli open, closed e commerciali rivela che gli LLM addestrati in Cina superano i loro omologhi stranieri più grandi e che DeepSeek-V3 fornisce le traduzioni più fedeli e stilisticamente coerenti. Il nostro lavoro stabilisce un nuovo paradigma per esplorare la traduzione di web novel basata su LLM e fornisce risorse pubbliche per promuovere la ricerca futura.
I recenti approcci di embedding multimodale che sfruttano modelli linguistici multimodali di grandi dimensioni (MLLM) ottimizzati con apprendimento contrastivo (CL) hanno mostrato risultati promettenti, ma le ragioni alla base della loro superiorità rimangono poco esplorate. Questo lavoro sostiene che un vantaggio cruciale degli approcci basati su MLLM deriva dall'allineamento cross-modale implicito ottenuto durante il preaddestramento generativo, in cui il decodificatore linguistico impara a sfruttare segnali multimodali all'interno di uno spazio di rappresentazione condiviso per generare output unimodali. Attraverso l'analisi dell'anisotropia e della struttura di similarità del kernel, confermiamo empiricamente che un allineamento latente emerge nelle rappresentazioni degli MLLM, consentendo al CL di fungere da fase di raffinamento leggera. Sfruttando questa intuizione, proponiamo un framework di embedding omnimodale centrato sul linguaggio, denominato LCO-Emb. Esperimenti estesi su diversi backbone e benchmark ne dimostrano l'efficacia, raggiungendo prestazioni all'avanguardia in tutte le modalità. Inoltre, identifichiamo una Legge di Scalabilità Generazione-Rappresentazione (GRSL), che mostra come le capacità rappresentative acquisite attraverso il raffinamento contrastivo scalino positivamente con le capacità generative dell'MLLM. Ciò suggerisce che il miglioramento delle abilità generative si evolve come un paradigma efficace per migliorare la qualità della rappresentazione. Forniamo una spiegazione teorica della GRSL, che collega formalmente la qualità generativa dell'MLLM al limite superiore delle sue prestazioni rappresentative, e la validiamo su un compito impegnativo di recupero visivo-documentale con risorse limitate, dimostrando che un preaddestramento generativo continuo prima del CL può ulteriormente potenziare le capacità di embedding del modello. Codici, modelli e risorse sono disponibili all'indirizzo https://github.com/LCO-Embedding/LCO-Embedding.
L'apprendimento robotico si trova a un punto di svolta, trainato dai rapidi progressi nel campo dell'apprendimento automatico e dalla crescente disponibilità di dati robotici su larga scala. Questo passaggio dai metodi classici basati su modelli ai paradigmi guidati dai dati e basati sull'apprendimento sta sbloccando capacità senza precedenti nei sistemi autonomi. Questo tutorial esplora il panorama dell'apprendimento robotico moderno, tracciando un percorso dai principi fondamentali dell'apprendimento per rinforzo e della clonazione comportamentale fino a modelli generalisti condizionati dal linguaggio, in grado di operare su una vasta gamma di compiti e persino su diverse incarnazioni robotiche. Questo lavoro è pensato come una guida per ricercatori e professionisti, e il nostro obiettivo è fornire al lettore la comprensione concettuale e gli strumenti pratici necessari per contribuire agli sviluppi nell'apprendimento robotico, con esempi pronti all'uso implementati in lerobot.
Il progresso dei grandi modelli linguistici (LLM) ha catalizzato un cambiamento di paradigma dall'assistenza nella generazione di codice a veri e propri agenti di codifica autonomi, abilitando una nuova metodologia di sviluppo denominata "Vibe Coding", in cui gli sviluppatori validano le implementazioni generate dall'IA attraverso l'osservazione dei risultati piuttosto che la comprensione riga per riga del codice. Nonostante il suo potenziale trasformativo, l'efficacia di questo paradigma emergente rimane poco esplorata, con evidenze empiriche che rivelano perdite inattese di produttività e sfide fondamentali nella collaborazione uomo-IA. Per colmare questa lacuna, questa rassegna fornisce la prima revisione completa e sistematica del Vibe Coding con grandi modelli linguistici, stabilendo sia le basi teoriche che i framework pratici per questo approccio di sviluppo trasformativo. Attingendo dall'analisi sistematica di oltre 1000 articoli di ricerca, esaminiamo l'intero ecosistema del Vibe Coding, analizzando componenti infrastrutturali critici tra cui LLM per la codifica, agenti di codifica basati su LLM, ambienti di sviluppo per gli agenti di codifica e meccanismi di feedback. Introduciamo innanzitutto il Vibe Coding come disciplina formale, formalizzandolo attraverso un Processo Decisionale di Markov Vincolato che cattura la relazione triadica dinamica tra sviluppatori umani, progetti software e agenti di codifica. Basandoci su questa fondazione teorica, sintetizziamo le pratiche esistenti in cinque modelli di sviluppo distinti: Automazione Senza Vincoli, Collaborazione Conversazionale Iterativa, Guidato dalla Pianificazione, Guidato dai Test e Modelli Arricchiti dal Contesto, fornendo così la prima tassonomia completa in questo dominio. In modo critico, la nostra analisi rivela che il successo del Vibe Coding dipende non solo dalle capacità degli agenti, ma dall'ingegnerizzazione sistematica del contesto, da ambienti di sviluppo ben strutturati e da modelli di sviluppo collaborativo uomo-agente.
La rilevazione di oggetti è stata a lungo dominata da modelli tradizionali basati sulla regressione di coordinate, come YOLO, DETR e Grounding DINO. Sebbene recenti sforzi abbiano tentato di sfruttare i MLLM (Modelli Linguistici Multimodali) per affrontare questo compito, si scontrano con sfide come un basso tasso di richiamo, previsioni duplicate, disallineamento delle coordinate, ecc. In questo lavoro, colmiamo questo divario e proponiamo Rex-Omni, un MLLM su scala 3B che raggiunge prestazioni all'avanguardia nella percezione degli oggetti. Su benchmark come COCO e LVIS, Rex-Omni ottiene prestazioni paragonabili o superiori ai modelli basati sulla regressione (ad esempio, DINO, Grounding DINO) in un contesto zero-shot. Questo è reso possibile da tre design chiave: 1) Formulazione del Task: utilizziamo token speciali per rappresentare coordinate quantizzate da 0 a 999, riducendo la difficoltà di apprendimento del modello e migliorando l'efficienza dei token per la previsione delle coordinate; 2) Motori di Dati: costruiamo più motori di dati per generare dati di grounding, riferimenti e puntamento di alta qualità, fornendo una supervisione semanticamente ricca per l'addestramento; 3) Pipeline di Addestramento: adottiamo un processo di addestramento in due fasi, combinando il fine-tuning supervisionato su 22 milioni di dati con un post-addestramento basato su GRPO (Geometric Reward Post-Optimization). Questo post-addestramento RL sfrutta ricompense basate sulla geometria per colmare efficacemente il divario tra la previsione di coordinate discrete e continue, migliorare l'accuratezza delle bounding box e mitigare comportamenti indesiderati come previsioni duplicate che derivano dalla natura guidata dall'insegnante della fase iniziale di SFT. Oltre alla rilevazione convenzionale, la comprensione linguistica intrinseca di Rex-Omni abilita capacità versatili come il riferimento a oggetti, il puntamento, il prompting visivo, il grounding di GUI, il riferimento spaziale, l'OCR e il key-pointing, tutti valutati sistematicamente su benchmark dedicati. Crediamo che Rex-Omni apra la strada a sistemi di percezione visiva più versatili e consapevoli del linguaggio.
La Generazione Aumentata dal Recupero (RAG) è emersa come un paradigma fondamentale per espandere i Modelli Linguistici di Grande Scala oltre i limiti del loro addestramento statico. Tuttavia, esiste un disallineamento critico tra le attuali capacità di RAG e gli ambienti informativi del mondo reale. I moderni repository di conoscenza sono intrinsecamente multimodali, contenendo ricche combinazioni di contenuti testuali, elementi visivi, tabelle strutturate ed espressioni matematiche. Tuttavia, gli attuali framework RAG sono limitati ai contenuti testuali, creando lacune fondamentali durante l'elaborazione di documenti multimodali. Presentiamo RAG-Anything, un framework unificato che abilita il recupero completo della conoscenza attraverso tutte le modalità. Il nostro approccio riconcettualizza i contenuti multimodali come entità di conoscenza interconnesse piuttosto che come tipi di dati isolati. Il framework introduce la costruzione di un doppio grafo per catturare sia le relazioni cross-modali che la semantica testuale all'interno di una rappresentazione unificata. Sviluppiamo un recupero ibrido cross-modale che combina la navigazione strutturale della conoscenza con il matching semantico. Ciò consente un ragionamento efficace su contenuti eterogenei in cui le prove rilevanti si estendono su più modalità. RAG-Anything dimostra prestazioni superiori su benchmark multimodali impegnativi, ottenendo miglioramenti significativi rispetto ai metodi all'avanguardia. I guadagni in termini di prestazioni diventano particolarmente evidenti su documenti lunghi in cui gli approcci tradizionali falliscono. Il nostro framework stabilisce un nuovo paradigma per l'accesso alla conoscenza multimodale, eliminando la frammentazione architetturale che limita i sistemi attuali. Il nostro framework è open-source all'indirizzo: https://github.com/HKUDS/RAG-Anything.
I modelli di diffusione hanno recentemente fatto progressi nel restauro video, ma la loro applicazione al super-risoluzione video (VSR) nel mondo reale rimane impegnativa a causa dell'elevata latenza, del calcolo proibitivo e della scarsa generalizzazione a risoluzioni ultra-elevate. L'obiettivo di questo lavoro è rendere pratico il VSR basato su diffusione, raggiungendo efficienza, scalabilità e prestazioni in tempo reale. A tal fine, proponiamo FlashVSR, il primo framework di streaming one-step basato su diffusione per il VSR in tempo reale. FlashVSR funziona a circa 17 FPS per video 768x1408 su una singola GPU A100, combinando tre innovazioni complementari: (i) una pipeline di distillazione in tre fasi adatta all'addestramento che consente il super-risoluzione in streaming, (ii) un'attenzione sparsa vincolata alla località che riduce il calcolo ridondante colmando il divario di risoluzione tra addestramento e test, e (iii) un piccolo decoder condizionale che accelera la ricostruzione senza sacrificare la qualità. Per supportare l'addestramento su larga scala, abbiamo anche costruito VSR-120K, un nuovo dataset con 120k video e 180k immagini. Esperimenti estensivi dimostrano che FlashVSR scala in modo affidabile a risoluzioni ultra-elevate e raggiunge prestazioni all'avanguardia con un'accelerazione fino a 12x rispetto ai precedenti modelli di VSR one-step basati su diffusione. Rilasceremo il codice, i modelli pre-addestrati e il dataset per favorire future ricerche nel VSR efficiente basato su diffusione.
I modelli di diffusione hanno ottenuto un successo notevole come modelli generativi. Tuttavia, anche un modello ben addestrato può accumulare errori durante il processo di generazione. Questi errori diventano particolarmente problematici quando viene applicata una guida arbitraria per indirizzare i campioni verso proprietà desiderate, il che spesso compromette la fedeltà del campione. In questo articolo, proponiamo una soluzione generale per affrontare il fenomeno del fuori-manifold osservato nei modelli di diffusione. Il nostro approccio sfrutta un predittore temporale per stimare le deviazioni dal manifold desiderato dei dati a ogni passo temporale, identificando che un intervallo temporale più ampio è associato a una qualità di generazione ridotta. Progettiamo quindi un nuovo meccanismo di guida, `Temporal Alignment Guidance' (TAG), che attira i campioni di nuovo verso il manifold desiderato a ogni passo temporale durante la generazione. Attraverso esperimenti estesi, dimostriamo che TAG produce costantemente campioni strettamente allineati con il manifold desiderato a ogni passo temporale, portando a miglioramenti significativi nella qualità della generazione in varie attività downstream.
I modelli linguistici di grandi dimensioni (LLM) elaborano ogni token attraverso tutti gli strati di una pila di trasformatori, causando un calcolo sprecato per query semplici e una flessibilità insufficiente per quelle più complesse che richiedono un ragionamento più profondo. I metodi a profondità adattativa possono migliorare l'efficienza, ma gli approcci precedenti si basano su ricerche costose durante l'inferenza, modifiche architetturali o riaddestramento su larga scala, e nella pratica spesso riducono l'accuratezza nonostante i guadagni in efficienza. Introduciamo Dr.LLM, Dynamic routing of Layers for LLMs, un framework retrocompatibile che equipaggia modelli preaddestrati con router leggeri per ogni strato che decidono di saltare, eseguire o ripetere un blocco. I router vengono addestrati con supervisione esplicita: utilizzando il Monte Carlo Tree Search (MCTS), deriviamo configurazioni di strati di alta qualità che preservano o migliorano l'accuratezza sotto un budget di calcolo. Il nostro design, che include il pooling a finestra per un routing stabile, la focal loss con bilanciamento delle classi e router MLP a collo di bottiglia, garantisce robustezza in caso di squilibrio delle classi e sequenze lunghe. Su ARC (logica) e DART (matematica), Dr.LLM migliora l'accuratezza fino a +3,4% risparmiando in media 5 strati per esempio. I router si generalizzano a task fuori dominio (MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval) con solo un calo di accuratezza dello 0,85% mantenendo l'efficienza, e superano i metodi di routing precedenti fino a +7,7%. In generale, Dr.LLM dimostra che router supervisionati esplicitamente possono adattare LLM congelati per inferenze guidate dall'accuratezza e consapevoli del budget senza alterare i pesi di base.
I recenti progressi nell'IA incarnata evidenziano il potenziale dei modelli di linguaggio visivo (VLMs) come agenti capaci di percezione, ragionamento e interazione in ambienti complessi. Tuttavia, i sistemi più performanti si basano su modelli su larga scala che sono costosi da implementare, mentre i VLMs più piccoli mancano delle conoscenze e delle competenze necessarie per avere successo. Per colmare questa lacuna, presentiamo l'Embodied Reasoning Agent (ERA), un framework a due stadi che integra l'apprendimento di conoscenze pregresse e l'apprendimento per rinforzo online (RL). Il primo stadio, l'Embodied Prior Learning, estrae conoscenze fondamentali da tre tipi di dati: (1) Priori Aumentati da Traiettorie, che arricchiscono i dati di traiettoria esistenti con ragionamenti strutturati generati da modelli più potenti; (2) Priori Ancorati all'Ambiente, che forniscono conoscenze contestuali e supervisione di grounding; e (3) Priori di Conoscenza Esterna, che trasferiscono conoscenze generali da dataset esterni all'ambiente. Nel secondo stadio, sviluppiamo una pipeline di RL online che si basa su questi priori per migliorare ulteriormente le prestazioni dell'agente. Per superare le sfide intrinseche del RL per agenti, tra cui orizzonti temporali lunghi, ricompense sparse e instabilità durante l'addestramento, introduciamo tre design chiave: auto-riassunto per la gestione del contesto, modellazione di ricompense dense e ottimizzazione della politica a livello di turno. Esperimenti estesi su compiti di pianificazione di alto livello (EB-ALFRED) e controllo di basso livello (EB-Manipulation) dimostrano che ERA-3B supera sia i grandi modelli basati su prompt che i precedenti baseline basati su addestramento. In particolare, ottiene miglioramenti complessivi dell'8,4\% su EB-ALFRED e del 19,4\% su EB-Manipulation rispetto a GPT-4o, e mostra una forte generalizzazione su compiti non visti. Nel complesso, ERA offre un percorso pratico verso un'intelligenza incarnata scalabile, fornendo intuizioni metodologiche per i futuri sistemi di IA incarnata.
I Large Language Model (LLM) possono fungere da modelli del mondo per migliorare il processo decisionale degli agenti in ambienti digitali simulando stati futuri e prevedendo i risultati delle azioni, potenzialmente eliminando l'esplorazione costosa basata su tentativi ed errori. Tuttavia, questa capacità è fondamentalmente limitata dalla tendenza degli LLM a produrre allucinazioni e dalla loro dipendenza da conoscenze statiche acquisite durante l'addestramento, che possono portare a errori cumulativi che inibiscono simulazioni a lungo termine. Per indagare sistematicamente se gli LLM siano adatti alla modellazione del mondo, esploriamo due capacità fondamentali dei modelli del mondo—la previsione degli stati futuri e la stima delle ricompense—attraverso tre compiti: identificazione dello stato successivo, allineamento della pianificazione di procedure complete e riconoscimento delle transizioni tra milestone. La nostra analisi mostra che, sebbene gli LLM catturino efficacemente gli stati immediatamente successivi e identifichino transizioni di stato significative, le loro prestazioni si degradano rapidamente nella pianificazione di procedure complete. Ciò evidenzia i limiti degli LLM nel modellare in modo affidabile le dinamiche ambientali su orizzonti temporali lunghi. Per affrontare queste limitazioni, proponiamo il Retrieval-augmented World Model (R-WoM), che ancorano le simulazioni degli LLM incorporando conoscenze fattuali e aggiornate recuperate da tutorial esterni. Gli esperimenti dimostrano che R-WoM ottiene miglioramenti sostanziali fino al 25,3% (OSWorld) e al 18,1% (WebArena) rispetto ai baseline, con vantaggi particolari nelle simulazioni a più lungo termine.
Recentemente, sono stati compiuti progressi significativi nei Modelli Multimodali Unificati (UMM), che integrano capacità di generazione e comprensione visivo-linguistica all'interno di un unico framework. Tuttavia, esiste un divario significativo in cui la forte comprensione visiva di un modello spesso non si trasferisce alla sua generazione visiva. Un modello potrebbe comprendere correttamente un'immagine in base alle istruzioni dell'utente, ma essere incapace di generare un'immagine fedele a partire da prompt testuali. Questo fenomeno solleva direttamente una domanda intrigante: un modello può raggiungere l'auto-miglioramento utilizzando il suo modulo di comprensione per premiare il suo modulo di generazione? Per colmare questo divario e raggiungere l'auto-miglioramento, introduciamo SRUM, un framework di post-addestramento auto-premiante che può essere applicato direttamente a UMM esistenti di vari design. SRUM crea un ciclo di feedback in cui il modulo di comprensione del modello agisce come un "valutatore" interno, fornendo segnali correttivi per migliorare il suo modulo di generazione, senza richiedere dati aggiuntivi etichettati dall'uomo. Per garantire che questo feedback sia completo, abbiamo progettato un sistema di ricompensa duale globale-locale. Per affrontare la complessità strutturale intrinseca delle immagini, questo sistema offre una guida multi-scala: una ricompensa globale garantisce la correttezza della semantica visiva complessiva e del layout, mentre una ricompensa locale affina la fedeltà a livello di oggetto, dettagliata. SRUM porta a capacità potenti e mostra una forte generalizzazione, migliorando le prestazioni su T2I-CompBench da 82.18 a 88.37 e su T2I-ReasonBench da 43.82 a 46.75. Nel complesso, il nostro lavoro stabilisce un nuovo paradigma potente per consentire al modulo di comprensione di un UMM di guidare e migliorare la propria generazione attraverso l'auto-premiazione.
Sebbene i recenti progressi nella generazione visiva siano stati notevoli, la maggior parte delle architetture esistenti dipende ancora da encoder distinti per immagini e testo. Questa separazione limita la capacità dei modelli di diffusione di eseguire ragionamenti cross-modali e trasferimento di conoscenza. I precedenti tentativi di colmare questa lacuna spesso utilizzano le informazioni dell'ultimo strato di un VLM (Vision-Language Model), impiegano molteplici encoder visivi o addestrano grandi modelli unificati congiuntamente per la generazione di testo e immagini, il che richiede risorse computazionali sostanziali e dati su larga scala, limitandone l'accessibilità. Presentiamo UniFusion, un modello generativo basato sulla diffusione condizionato da un VLM di grandi dimensioni congelato che funge da encoder multimodale unificato. Al centro di UniFusion vi è il meccanismo di Layerwise Attention Pooling (LAP), che estrae sia la semantica di alto livello che i dettagli di basso livello dai token testuali e visivi di un VLM congelato per condizionare un modello generativo di diffusione. Dimostriamo che LAP supera altre architetture di fusione superficiale nell'allineamento testo-immagine per la generazione e nel trasferimento fedele delle informazioni visive dal VLM al modello di diffusione, fondamentale per l'editing. Proponiamo VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI), che condiziona un trasformatore di diffusione (DiT) solo sui token testuali generati dal VLM durante la riscrittura del prompt all'interno del modello. VERIFI combina l'allineamento della distribuzione di condizionamento con le capacità di ragionamento del VLM per aumentare le capacità e la flessibilità durante l'inferenza. Inoltre, il fine-tuning sul task di editing non solo migliora l'allineamento testo-immagine per la generazione, indicativo di un trasferimento di conoscenza cross-modale, ma mostra anche enormi capacità di generalizzazione. Il nostro modello, quando addestrato sull'editing di una singola immagine, generalizza in modalità zero-shot a più immagini di riferimento, motivando ulteriormente il design dell'encoder unificato di UniFusion.
L'allineamento post-addestramento spesso riduce la diversità dei modelli linguistici di grandi dimensioni (LLM), portando a un fenomeno noto come collasso modale. A differenza dei lavori precedenti che attribuiscono questo effetto a limitazioni algoritmiche, identifichiamo un fattore fondamentale e pervasivo a livello di dati: il bias di tipicità nei dati di preferenza, per cui gli annotatori favoriscono sistematicamente testi familiari, come risultato di ben consolidate scoperte nella psicologia cognitiva. Formalizziamo teoricamente questo bias, lo verifichiamo empiricamente su dataset di preferenza e dimostriamo che svolge un ruolo centrale nel collasso modale. Motivati da questa analisi, introduciamo il Campionamento Verbalizzato (Verbalized Sampling, VS), una semplice strategia di prompt senza addestramento per evitare il collasso modale. VS invita il modello a verbalizzare una distribuzione di probabilità su un insieme di risposte (ad esempio, "Genera 5 battute sul caffè e le loro corrispondenti probabilità"). Esperimenti completi dimostrano che VS migliora significativamente le prestazioni in ambiti come la scrittura creativa (poesie, storie, battute), la simulazione di dialoghi, le domande aperte e la generazione di dati sintetici, senza sacrificare l'accuratezza fattuale e la sicurezza. Ad esempio, nella scrittura creativa, VS aumenta la diversità di 1,6-2,1 volte rispetto al prompting diretto. Osserviamo inoltre una tendenza emergente per cui i modelli più capaci traggono maggior beneficio da VS. In sintesi, il nostro lavoro offre una nuova prospettiva centrata sui dati sul collasso modale e un rimedio pratico al momento dell'inferenza che aiuta a sbloccare la diversità generativa pre-addestrata.
Il successo dei modelli linguistici basati su Transformer è ampiamente attribuito al loro meccanismo di attenzione a prodotto scalare, che intreccia un insieme di principi di progettazione chiave: la miscelazione di informazioni tra posizioni (che consente interazioni multi-token), attivazioni dipendenti dalla sequenza (dove i pesi di attenzione si adattano a ciascun input), una forma matematica specifica (similarità a prodotto scalare più ponderazione softmax) e l'accoppiamento di query e chiavi con stati nascosti in evoluzione (radicando l'attenzione nel livello corrente). Tuttavia, la necessità di ciascuno di questi principi rimane in gran parte non verificata. In questo lavoro, decostruiamo sistematicamente l'attenzione progettando varianti controllate che rilassano selettivamente questi principi, applicate sia uniformemente su tutti i livelli sia in architetture ibride in cui solo alcuni livelli mantengono l'attenzione standard. La nostra analisi empirica rivela che i meccanismi per miscelare i token sono indispensabili, poiché la loro assenza riduce i modelli a un comportamento quasi casuale, mentre la forma matematica esatta e la dipendenza dalla sequenza possono essere sostanzialmente rilassate, specialmente quando preservate solo in un sottoinsieme di livelli. Sorprendentemente, anche varianti che falliscono in isolamento possono ottenere prestazioni robuste quando intervallate con l'attenzione standard, evidenziando un effetto cooperativo. Questi risultati approfondiscono la nostra comprensione di ciò che realmente sostiene l'efficacia dell'attenzione e aprono nuove strade per semplificare i modelli linguistici senza sacrificare le prestazioni.
I modelli linguistici di grandi dimensioni affrontano sfide nei compiti agentici a lungo termine, poiché la loro memoria limitata viene facilmente sopraffatta da contesti distraenti o irrilevanti. I metodi esistenti per la memoria di lavoro si basano tipicamente su meccanismi esterni ed euristici che sono disaccoppiati dalla politica principale dell'agente. In questo lavoro, riformuliamo la gestione della memoria di lavoro come una capacità intrinseca e apprendibile. Proponiamo un nuovo framework, Memory-as-Action, in cui un agente gestisce attivamente la propria memoria di lavoro eseguendo operazioni esplicite di modifica come parte di una politica unificata. Questa formulazione consente a un agente, addestrato tramite apprendimento per rinforzo, di bilanciare la cura della memoria rispetto agli obiettivi a lungo termine del compito, dati i vincoli di risorse. Tuttavia, tali azioni di modifica della memoria infrangono l'assunzione standard di un prefisso in continua crescita nelle interazioni dei modelli linguistici, portando a quello che chiamiamo fratture di traiettoria. Questi cambiamenti non prefissati interrompono la continuità causale richiesta dai metodi standard del gradiente della politica, rendendo tali metodi inapplicabili. Per affrontare questo problema, proponiamo un nuovo algoritmo, Dynamic Context Policy Optimization, che consente un apprendimento per rinforzo end-to-end stabile segmentando le traiettorie nei punti di azione della memoria e applicando vantaggi a livello di traiettoria ai segmenti di azione risultanti. I nostri risultati dimostrano che l'ottimizzazione congiunta del ragionamento sul compito e della gestione della memoria in modo end-to-end non solo riduce il consumo computazionale complessivo, ma migliora anche le prestazioni del compito, guidata da strategie adattive di cura del contesto personalizzate in base alle capacità intrinseche del modello.
Una delle principali sfide nell'applicare l'apprendimento per rinforzo (RL) ai modelli linguistici di diffusione su larga scala (dLLM) risiede nell'intrattabilità delle loro funzioni di verosimiglianza, che sono essenziali per l'obiettivo dell'RL, rendendo necessaria un'approssimazione corrispondente in ogni fase di addestramento. Mentre i metodi esistenti approssimano i log-verosimiglianze tramite i loro limiti inferiori di evidenza (ELBO) utilizzando un campionamento Monte Carlo (MC) personalizzato, i grafici computazionali in avanti di tutti i campioni MC devono essere mantenuti per il calcolo del gradiente dei termini non lineari nell'obiettivo dell'RL, risultando in un significativo sovraccarico di memoria. Questo vincolo limita le dimensioni dei campioni fattibili, portando a approssimazioni imprecise della verosimiglianza e, in ultima analisi, distorcendo l'obiettivo dell'RL. Per superare questa limitazione, proponiamo l'ottimizzazione della politica guidata dai confini (BGPO), un algoritmo RL efficiente in termini di memoria che massimizza un limite inferiore appositamente costruito dell'obiettivo basato su ELBO. Questo limite inferiore è progettato con cura per soddisfare due proprietà chiave: (1) Linearità: è formulato come una somma lineare in cui ogni termine dipende solo da un singolo campione MC, consentendo così l'accumulo del gradiente tra i campioni e garantendo un uso costante della memoria; (2) Equivalenza: sia il valore che il gradiente di questo limite inferiore sono uguali a quelli dell'obiettivo basato su ELBO nell'addestramento on-policy, rendendolo anche un'approssimazione efficace per l'obiettivo originale dell'RL. Queste proprietà permettono a BGPO di adottare una dimensione del campione MC ampia, risultando in approssimazioni più accurate della verosimiglianza e in una migliore stima dell'obiettivo dell'RL, che a sua volta porta a prestazioni migliorate. Gli esperimenti dimostrano che BGPO supera significativamente i precedenti algoritmi RL per i dLLM nella risoluzione di problemi matematici, nella generazione di codice e nelle attività di pianificazione.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) nelle applicazioni del mondo reale richiedono l'accesso a fonti di conoscenza esterne e devono rimanere reattivi alle informazioni dinamiche e in continua evoluzione del mondo reale per affrontare query degli utenti orientate alla ricerca di informazioni e ad alta intensità di conoscenza. Gli approcci esistenti, come i metodi di generazione aumentata con recupero (RAG), gli agenti di ricerca e gli MLLM dotati di funzionalità di ricerca, spesso soffrono di pipeline rigide, chiamate di ricerca eccessive e query di ricerca mal costruite, che si traducono in inefficienze e risultati subottimali. Per affrontare queste limitazioni, presentiamo DeepMMSearch-R1, il primo MLLM multimodale in grado di eseguire ricerche web su richiesta, multi-turn e di creare dinamicamente query per strumenti di ricerca sia di immagini che di testo. Nello specifico, DeepMMSearch-R1 può avviare ricerche web basate su ritagli rilevanti dell'immagine di input, rendendo la ricerca di immagini più efficace, e può adattare iterativamente le query di ricerca testuale in base alle informazioni recuperate, consentendo così auto-riflessione e auto-correzione. Il nostro approccio si basa su una pipeline di addestramento in due fasi: una fase iniziale di fine-tuning supervisionato a freddo seguita da un'ottimizzazione con apprendimento per rinforzo online. Per l'addestramento, introduciamo DeepMMSearchVQA, un nuovo dataset multimodale di VQA creato attraverso una pipeline automatizzata mescolata con informazioni del mondo reale provenienti da strumenti di ricerca web. Questo dataset contiene query diversificate e multi-hop che integrano informazioni testuali e visive, insegnando al modello quando cercare, cosa cercare, quale strumento di ricerca utilizzare e come ragionare sulle informazioni recuperate. Condividiamo esperimenti estesi su una gamma di benchmark ad alta intensità di conoscenza per dimostrare la superiorità del nostro approccio. Infine, analizziamo i risultati e forniamo approfondimenti preziosi per avanzare nella ricerca web multimodale.
I modelli di embedding multimodali mirano a produrre rappresentazioni unificate informative che potenziano diverse attività cross-modali. Nonostante i promettenti sviluppi nell'evoluzione dalle architetture dual-tower basate su CLIP ai grandi modelli visione-linguaggio, i lavori precedenti affrontano ancora sfide inevitabili nelle applicazioni reali e negli scenari aziendali, come il supporto limitato alle modalità, meccanismi di addestramento instabili e divari di dominio industriale. In questo lavoro, introduciamo SAIL-Embedding, un modello di embedding omni-modale che affronta questi problemi attraverso strategie di addestramento mirate e un design architetturale specifico. Nel processo di ottimizzazione, proponiamo uno schema di addestramento multi-fase per potenziare l'efficacia multifaccettata dell'apprendimento delle rappresentazioni. Nello specifico, l'addestramento progressivo content-aware mira a migliorare l'adattabilità del modello a diverse attività downstream e a padroneggiare una competenza cross-modale arricchita. L'addestramento di potenziamento recommendation-aware adatta ulteriormente le rappresentazioni multimodali per scenari di raccomandazione distillando conoscenza dagli embedding sequenza-a-item e ID-a-item, mentre esplora gli interessi storici degli utenti. Parallelamente, sviluppiamo la specializzazione stocastica e il pattern matching guidato dai dataset per rafforzare la flessibilità e la generalizzabilità dell'addestramento del modello. I risultati sperimentali mostrano che SAIL-Embedding raggiunge prestazioni SOTA rispetto ad altri metodi in diverse attività di retrieval. Negli esperimenti online attraverso vari scenari reali integrati con il nostro modello, osserviamo un aumento significativo del Lifetime (LT), un indicatore cruciale per l'esperienza di raccomandazione. Ad esempio, il modello fornisce un guadagno di LT a 7 giorni di +0,158% e un guadagno di LT a 14 giorni di +0,144% nello scenario Douyin-Selected. Per il modello di ranking del feed di Douyin, le funzionalità di matching prodotte da SAIL-Embedding generano un guadagno di AUC di +0,08%.
I recenti progressi nei modelli visione-linguaggio (VLMs) li hanno resi altamente efficaci nei compiti di ragionamento. Tuttavia, i principi alla base della costruzione di dataset di addestramento performanti per il ragionamento VL rimangono poco compresi. In questo lavoro, introduciamo diversi approcci di curatela dei dati e studiamo il loro impatto sulle capacità di ragionamento VL controllando attentamente le configurazioni di addestramento e valutazione. Analizziamo gli effetti delle fonti di contesto (coppie immagine e domanda), implementiamo interventi mirati sui dati ed esploriamo il ridimensionamento di immagini, domande e soluzioni a catena di pensiero (CoT). Le nostre scoperte rivelano che (a) le strategie di selezione delle fonti di contesto influenzano significativamente le prestazioni dei VLMs, (b) interventi come segnali ausiliari provenienti da didascalie di immagini e l'inclusione di ragionamenti basati solo su testo producono miglioramenti sostanziali, e (c) il ridimensionamento di tutte le dimensioni dei dati (ad esempio, domande uniche per immagine e CoT uniche per coppia immagine-domanda) migliora costantemente la capacità di ragionamento. Motivati da queste intuizioni, introduciamo HoneyBee, un dataset su larga scala e di alta qualità per il ragionamento CoT con 2,5 milioni di esempi composti da 350.000 coppie immagine-domanda. I VLMs addestrati con HoneyBee superano i modelli all'avanguardia in tutte le dimensioni del modello. Ad esempio, un VLM addestrato con HoneyBee con 3 miliardi di parametri supera il modello SOTA e il modello base rispettivamente del 7,8% e del 24,8% su MathVerse. Inoltre, proponiamo una strategia di ridimensionamento al momento del test che riduce i costi di decodifica del 73% senza compromettere l'accuratezza. Nel complesso, questo lavoro presenta strategie migliorate per la ricerca sulla curatela di dataset per il ragionamento VL.
La generazione di immagini multi-istanza (MIG) rimane una sfida significativa per i moderni modelli di diffusione a causa di limitazioni chiave nel raggiungere un controllo preciso sul layout degli oggetti e nel preservare l'identità di più soggetti distinti. Per affrontare queste limitazioni, introduciamo ContextGen, un innovativo framework Diffusion Transformer per la generazione multi-istanza guidato sia dal layout che da immagini di riferimento. Il nostro approccio integra due contributi tecnici fondamentali: un meccanismo di Ancoraggio Contestuale del Layout (CLA) che incorpora l'immagine composita del layout nel contesto di generazione per ancorare in modo robusto gli oggetti nelle posizioni desiderate, e l'Attenzione per la Consistenza dell'Identità (ICA), un meccanismo di attenzione innovativo che sfrutta le immagini di riferimento contestuali per garantire la consistenza dell'identità di più istanze. Riconoscendo la mancanza di dataset su larga scala e strutturati gerarchicamente per questo compito, introduciamo IMIG-100K, il primo dataset con annotazioni dettagliate di layout e identità. Esperimenti estensivi dimostrano che ContextGen stabilisce un nuovo stato dell'arte, superando i metodi esistenti in precisione di controllo, fedeltà dell'identità e qualità visiva complessiva.
Il progresso nell'IA è ostacolato dalla mancanza di un linguaggio di programmazione con tutte le caratteristiche necessarie. Librerie come PyTorch e TensorFlow forniscono la differenziazione automatica e un'implementazione efficiente per le GPU, ma sono aggiunte a Python, che non è mai stato concepito per l'IA. La loro mancanza di supporto per il ragionamento automatizzato e l'acquisizione di conoscenze ha portato a una lunga e costosa serie di tentativi approssimativi per integrarli. D'altra parte, linguaggi di IA come LISP e Prolog mancano di scalabilità e supporto per l'apprendimento. Questo articolo propone la logica tensoriale, un linguaggio che risolve questi problemi unificando l'IA neurale e simbolica a un livello fondamentale. L'unico costrutto nella logica tensoriale è l'equazione tensoriale, basata sull'osservazione che le regole logiche e la sommatoria di Einstein sono essenzialmente la stessa operazione, e tutto il resto può essere ridotto a esse. Mostro come implementare elegantemente forme chiave di IA neurale, simbolica e statistica nella logica tensoriale, inclusi trasformatori, ragionamento formale, macchine a kernel e modelli grafici. Soprattutto, la logica tensoriale rende possibili nuove direzioni, come il ragionamento solido nello spazio di embedding. Ciò combina la scalabilità e l'apprendibilità delle reti neurali con l'affidabilità e la trasparenza del ragionamento simbolico, ed è potenzialmente una base per una più ampia adozione dell'IA.
Comprendere le dinamiche di una scena fisica implica ragionare sulle diverse modalità in cui essa può potenzialmente cambiare, specialmente come risultato di interazioni locali. Presentiamo il Flow Poke Transformer (FPT), un nuovo framework per prevedere direttamente la distribuzione del moto locale, condizionato da interazioni sparse denominate "poke". A differenza dei metodi tradizionali che tipicamente consentono solo un campionamento denso di una singola realizzazione delle dinamiche della scena, FPT fornisce una rappresentazione interpretabile e direttamente accessibile del moto multi-modale della scena, della sua dipendenza dalle interazioni fisiche e delle incertezze intrinseche delle dinamiche della scena. Valutiamo inoltre il nostro modello su diverse attività downstream per consentire confronti con metodi precedenti e evidenziare la flessibilità del nostro approccio. Nella generazione densa del moto del volto, il nostro modello pre-addestrato generico supera i baseline specializzati. FPT può essere fine-tuned in attività fortemente fuori distribuzione, come i dataset sintetici, per consentire miglioramenti significativi rispetto ai metodi in-domain nella stima del moto di oggetti articolati. Inoltre, la previsione diretta di distribuzioni esplicite del moto consente al nostro metodo di ottenere prestazioni competitive in attività come la segmentazione delle parti in movimento a partire da poke, dimostrando ulteriormente la versatilità del nostro FPT. Codice e modelli sono disponibili pubblicamente all'indirizzo https://compvis.github.io/flow-poke-transformer.
La modifica delle immagini basata su istruzioni offre un modo potente e intuitivo di manipolare le immagini attraverso il linguaggio naturale. Tuttavia, affidarsi esclusivamente alle istruzioni testuali limita il controllo fine-grana sull'entità delle modifiche. Introduciamo Kontinuous Kontext, un modello di modifica guidato da istruzioni che fornisce una nuova dimensione di controllo sulla forza della modifica, consentendo agli utenti di regolare gradualmente le modifiche da nessun cambiamento a un risultato completamente realizzato in modo fluido e continuo. Kontinuous Kontext estende un modello all'avanguardia di modifica delle immagini per accettare un input aggiuntivo, una forza di modifica scalare che viene poi abbinata all'istruzione di modifica, consentendo un controllo esplicito sull'entità della modifica. Per iniettare questa informazione scalare, addestriamo una rete proiettore leggera che mappa lo scalare di input e l'istruzione di modifica a coefficienti nello spazio di modulazione del modello. Per l'addestramento del nostro modello, sintetizziamo un dataset diversificato di quadruplette immagine-istruzione-modifica-forza utilizzando modelli generativi esistenti, seguito da una fase di filtraggio per garantire qualità e coerenza. Kontinuous Kontext fornisce un approccio unificato per il controllo fine-grana sulla forza della modifica per la modifica guidata da istruzioni, da sottile a forte, attraverso operazioni diverse come stilizzazione, attributi, materiali, sfondi e cambiamenti di forma, senza richiedere un addestramento specifico per attributi.
Studiamo come i grandi modelli linguistici (LLM) "pensano" attraverso il loro spazio di rappresentazione. Proponiamo un nuovo framework geometrico che modella il ragionamento di un LLM come flussi – traiettorie di embedding che evolvono dove la logica procede. Separiamo la struttura logica dalla semantica utilizzando le stesse proposizioni di deduzione naturale con vettori semantici variati, permettendoci di testare se gli LLM interiorizzano la logica oltre la forma superficiale. Questa prospettiva collega il ragionamento con quantità geometriche come posizione, velocità e curvatura, abilitando un'analisi formale negli spazi di rappresentazione e concettuali. La nostra teoria stabilisce: (1) il ragionamento degli LLM corrisponde a flussi regolari nello spazio di rappresentazione, e (2) le affermazioni logiche agiscono come controllori locali della velocità di questi flussi. Utilizzando proxy di rappresentazione appresi, progettiamo esperimenti controllati per visualizzare e quantificare i flussi di ragionamento, fornendo una validazione empirica del nostro framework teorico. Il nostro lavoro funge sia da fondamento concettuale che da strumento pratico per studiare il fenomeno del ragionamento, offrendo una nuova lente per l'interpretabilità e l'analisi formale del comportamento degli LLM.
In un processo di progettazione ideale, il design dell'interfaccia utente (UI) è strettamente connesso alla ricerca sugli utenti per validare le decisioni, tuttavia gli studi sono spesso limitati in termini di risorse durante le fasi iniziali di esplorazione. I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLMs) offrono un'opportunità promettente per agire come valutatori precoci, aiutando i designer a restringere le opzioni prima di test formali. A differenza di lavori precedenti che si concentrano sul comportamento degli utenti in ambiti ristretti come l'e-commerce con metriche come clic o conversioni, ci focalizziamo su valutazioni soggettive degli utenti su interfacce variegate. Indaghiamo se gli MLLMs possono imitare le preferenze umane quando valutano singole UI e le confrontano. Utilizzando dati provenienti da una piattaforma di crowdsourcing, confrontiamo GPT-4, Claude e Llama su 30 interfacce ed esaminiamo l'allineamento con i giudizi umani su diversi fattori dell'UI. I nostri risultati mostrano che gli MLLMs approssimano le preferenze umane su alcune dimensioni ma divergono su altre, evidenziando sia il loro potenziale che i limiti nel supportare la ricerca UX nelle fasi iniziali.
La modellazione simbolica del mondo richiede l'inferenza e la rappresentazione delle dinamiche transizionali di un ambiente come un programma eseguibile. I lavori precedenti si sono concentrati principalmente su ambienti largamente deterministici con abbondanti dati di interazione, meccaniche semplici e guida umana. Affrontiamo un contesto più realistico e impegnativo, apprendendo in un ambiente complesso e stocastico in cui l'agente ha solo "una vita" per esplorare un ambiente ostile senza guida umana. Introduciamo OneLife, un framework che modella le dinamiche del mondo attraverso leggi programmatiche attivate condizionalmente all'interno di un framework di programmazione probabilistica. Ogni legge opera attraverso una struttura precondizione-effetto, attivandosi negli stati del mondo rilevanti. Questo crea un grafo computazionale dinamico che indirizza l'inferenza e l'ottimizzazione solo attraverso le leggi pertinenti, evitando problemi di scalabilità quando tutte le leggi contribuiscono alle previsioni su uno stato complesso e gerarchico, e consentendo l'apprendimento di dinamiche stocastiche anche con un'attivazione sporadica delle regole. Per valutare il nostro approccio sotto questi vincoli impegnativi, introduciamo un nuovo protocollo di valutazione che misura (a) il ranking degli stati, la capacità di distinguere stati futuri plausibili da quelli implausibili, e (b) la fedeltà degli stati, la capacità di generare stati futuri che assomigliano strettamente alla realtà. Sviluppiamo e valutiamo il nostro framework su Crafter-OO, la nostra reimplementazione dell'ambiente Crafter che espone uno stato simbolico strutturato e orientato agli oggetti e una funzione di transizione pura che opera solo su quello stato. OneLife è in grado di apprendere con successo le dinamiche chiave dell'ambiente da un'interazione minima e non guidata, superando una baseline solida in 16 su 23 scenari testati. Testiamo anche la capacità di pianificazione di OneLife, con simulazioni che identificano con successo strategie superiori. Il nostro lavoro getta le basi per la costruzione autonoma di modelli programmatici del mondo di ambienti sconosciuti e complessi.
I grandi modelli di ragionamento (LRM) hanno aperto nuove possibilità in termini di risoluzione di problemi, attraverso l'elaborazione di un processo di pensiero in linguaggio naturale prima di rispondere a una query. Sebbene le loro capacità siano ben note nei compiti di matematica e programmazione, il loro impatto sul compito di traduzione automatica (MT) rimane poco esplorato. In questo lavoro, esploriamo i benefici della generazione di token intermedi durante l'esecuzione della MT su più coppie di lingue con diversi livelli di risorse e in più configurazioni. Scopriamo che i "token di pensiero" non aiutano i LRM a eseguire meglio la MT. Questo risultato si generalizza ai modelli fine-tunati per ragionare prima di tradurre utilizzando una catena di pensiero (CoT) distillata ispirata alle pratiche dei traduttori umani. Nello specifico, il fine-tuning di un modello con spiegazioni CoT sintetiche che dettagliano come tradurre passo dopo passo non supera il fine-tuning standard input-output. Tuttavia, la costruzione dei token intermedi combinando gli output di strategie di prompting modulari specifiche per la traduzione porta a miglioramenti. I nostri risultati sottolineano che il contributo dei token intermedi durante il fine-tuning dipende fortemente dalla presenza di tentativi di traduzione al loro interno. Più in generale, i nostri risultati suggeriscono che utilizzare un insegnante per affinare le traduzioni target o per espandere i corpora paralleli è più impattante che distillare le loro spiegazioni CoT in modelli MT "pensanti".
Introduciamo il Decadimento Ponderato Cauto (CWD), una modifica di una sola riga, indipendente dall'ottimizzatore, che applica il decadimento dei pesi solo alle coordinate dei parametri i cui segni sono allineati con l'aggiornamento dell'ottimizzatore. A differenza del decadimento disaccoppiato standard, che ottimizza implicitamente un obiettivo regolarizzato o vincolato, il CWD preserva la funzione di perdita originale e ammette un'interpretazione bilevel: induce un comportamento a scorrimento (sliding-mode) al raggiungimento della varietà stazionaria, consentendo di cercare punti stazionari localmente Pareto-ottimali dell'obiettivo non modificato. Nella pratica, il CWD è una modifica immediata per ottimizzatori come AdamW, Lion e Muon, senza richiedere nuovi iperparametri o ulteriori regolazioni. Per il pre-addestramento di modelli linguistici e la classificazione su ImageNet, il CWD migliora costantemente la perdita finale e l'accuratezza su scale che vanno da milioni a miliardi di parametri.
Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) sono fondamentalmente limitati dalla lunghezza del contesto nei compiti a lungo termine. Introduciamo Context-Folding, un framework che consente agli agenti di gestire attivamente il proprio contesto di lavoro. Un agente può procedere a ramificarsi in una sotto-traiettoria per gestire un sottocompito e poi ripiegarla al completamento, comprimendo i passaggi intermedi mentre mantiene un riassunto conciso del risultato. Per rendere questo comportamento apprendibile, sviluppiamo un framework di apprendimento per rinforzo end-to-end, FoldGRPO, con ricompense specifiche per il processo per incentivare una scomposizione efficace dei compiti e una gestione ottimale del contesto. Su compiti complessi a lungo termine (Deep Research e SWE), il nostro agente con folding eguaglia o supera le baseline ReAct utilizzando un contesto attivo 10 volte più piccolo e supera significativamente i modelli che si basano su una gestione del contesto basata su riassunti.
Recentemente, i Large Language Models (LLM) sono stati applicati alla scoperta di equazioni scientifiche, sfruttando la loro conoscenza scientifica incorporata per la generazione di ipotesi. Tuttavia, i metodi attuali limitano tipicamente i LLM al ruolo di propositori di equazioni all'interno di algoritmi di ricerca come la programmazione genetica. In questo articolo, presentiamo SR-Scientist, un framework che eleva il LLM da un semplice propositore di equazioni a uno scienziato AI autonomo che scrive codice per analizzare i dati, implementa l'equazione come codice, la sottopone a valutazione e ottimizza l'equazione in base al feedback sperimentale. Nello specifico, integriamo l'interprete di codice in un insieme di strumenti per l'analisi dei dati e la valutazione delle equazioni. L'agente è istruito per ottimizzare l'equazione utilizzando questi strumenti su un orizzonte temporale lungo con pipeline definite dall'uomo ridotte al minimo. I risultati empirici mostrano che SR-Scientist supera i metodi di base con un margine assoluto dal 6% al 35% su dataset che coprono quattro discipline scientifiche. Inoltre, dimostriamo la robustezza del nostro metodo al rumore, la generalizzazione delle equazioni scoperte a dati fuori dominio e la loro accuratezza simbolica. Inoltre, sviluppiamo un framework di reinforcement learning end-to-end per potenziare le capacità dell'agente.
Studiamo il fine-tuning tramite apprendimento per rinforzo (RL) di agenti basati su modelli linguistici di grandi dimensioni (LLM) per l'uso di strumenti multi-turn a lungo orizzonte, dove la lunghezza del contesto diventa rapidamente un collo di bottiglia fondamentale. Le pipeline RL esistenti possono soffrire di un deterioramento nel seguire le istruzioni, costi eccessivi di rollout e, soprattutto, limiti rigidi di contesto. Per affrontare queste sfide, introduciamo una gestione del contesto basata sulla sintesi durante l'addestramento. Nello specifico, questa periodicamente comprime la cronologia dell'uso degli strumenti tramite riassunti generati da LLM che conservano le informazioni rilevanti per il compito, mantenendo un contesto compatto e permettendo all'agente di scalare oltre la finestra di contesto fissa. Basandoci su questa formulazione, deriviamo una rappresentazione del gradiente della politica che consente in modo fluido alle infrastrutture standard di RL per LLM di ottimizzare sia i comportamenti nell'uso degli strumenti che le strategie di sintesi in modo end-to-end. Istanziamo questo framework con l'ottimizzazione della politica aumentata dalla sintesi (SUPO), un algoritmo RL per LLM che abilita l'addestramento a lungo orizzonte oltre il limite di contesto fisso. Esperimenti su compiti di chiamata di funzioni interattive e di ricerca dimostrano che SUPO migliora significativamente il tasso di successo mantenendo la stessa o addirittura una lunghezza di contesto di lavoro inferiore rispetto ai baseline. Dimostriamo inoltre che per compiti di ricerca complessi, SUPO può ulteriormente migliorare le prestazioni di valutazione quando si scala il numero massimo di round di sintesi al momento del test oltre quello del tempo di addestramento. I nostri risultati stabiliscono la gestione del contesto basata sulla sintesi come un approccio principiato e scalabile per l'addestramento di agenti RL oltre un limite di lunghezza del contesto fisso.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) promettono di accelerare la scoperta scientifica interpretando procedure sperimentali complesse. Tuttavia, le loro vere capacità sono poco comprese, poiché i benchmark esistenti trascurano la natura granulare e a lungo termine del lavoro di laboratorio autentico, specialmente in contesti di laboratorio umido. Per colmare questa lacuna, introduciamo ExpVid, il primo benchmark progettato per valutare sistematicamente gli MLLM sui video di esperimenti scientifici. Curato da pubblicazioni video sottoposte a revisione paritaria, ExpVid presenta una nuova gerarchia di compiti a tre livelli che riflette il processo scientifico: (1) Percezione Granulare di strumenti, materiali e azioni; (2) Comprensione Procedurale dell'ordine e della completezza dei passaggi; e (3) Ragionamento Scientifico che collega l'intero esperimento alle sue conclusioni pubblicate. La nostra pipeline di annotazione centrata sulla visione, che combina generazione automatizzata con validazione multidisciplinare di esperti, garantisce che i compiti richiedano un ancoraggio visivo. Valutiamo 19 MLLM leader su ExpVid e scopriamo che, mentre eccellono nel riconoscimento a grana grossa, faticano a disambiguare dettagli fini, a tracciare cambiamenti di stato nel tempo e a collegare procedure sperimentali a risultati scientifici. I nostri risultati rivelano un divario di prestazioni significativo tra modelli proprietari e open-source, specialmente nel ragionamento di ordine superiore. ExpVid non solo fornisce uno strumento diagnostico, ma traccia anche una roadmap per lo sviluppo di MLLM in grado di diventare partner affidabili nella sperimentazione scientifica.
La contaminazione dei dati rappresenta una minaccia significativa per la valutazione affidabile dei Modelli Linguistici di Grande Dimensione (LLM). Questo problema si verifica quando campioni di benchmark possono apparire involontariamente nei set di addestramento, compromettendo la validità delle prestazioni riportate. Sebbene siano stati sviluppati metodi di rilevamento per le fasi di pre-addestramento e di Fine-Tuning Supervisionato, esiste un'importante lacuna di ricerca per la fase sempre più cruciale del Post-Addestramento con Apprendimento per Rinforzo (RL). Poiché il post-addestramento RL sta diventando fondamentale per migliorare il ragionamento degli LLM, l'assenza di metodi specializzati per il rilevamento della contaminazione in questo paradigma rappresenta una vulnerabilità critica. Per affrontare questo problema, conduciamo il primo studio sistematico sul rilevamento dei dati nello scenario di post-addestramento RL e proponiamo Self-Critique. Il nostro metodo è motivato da un'osservazione chiave: dopo la fase RL, la distribuzione dell'entropia dell'output degli LLM tende a collassare in modalità altamente specifiche e sparse. Self-Critique esamina il collasso della politica sottostante, ovvero la convergenza del modello su un percorso di ragionamento ristretto, che causa questa riduzione dell'entropia. Per facilitare questa ricerca, introduciamo anche RL-MIA, un benchmark costruito per simulare questo specifico scenario di contaminazione. Esperimenti estesi dimostrano che Self-Critique supera significativamente i metodi di base su più modelli e compiti di contaminazione, ottenendo un miglioramento dell'AUC fino al 30%. Mentre i metodi esistenti sono vicini a una scelta casuale per la contaminazione nella fase RL, il nostro metodo rende possibile il rilevamento.
I modelli linguistici multimodali di grandi dimensioni (MLLM) esistenti soffrono di costi di inferenza aumentati a causa dei token visivi aggiuntivi introdotti dagli input di immagini. In questo lavoro, proponiamo il Visual Consistency Learning (ViCO), un nuovo algoritmo di addestramento che consente al modello di rappresentare immagini con diverse complessità semantiche utilizzando un numero variabile di token visivi. L'idea chiave del nostro metodo è impiegare più connettori MLP, ciascuno con un diverso rapporto di compressione dell'immagine, per ridurre il campionamento dei token visivi in base alla complessità semantica dell'immagine. Durante l'addestramento, minimizziamo la divergenza KL tra le risposte condizionate su diversi connettori MLP. Al momento dell'inferenza, introduciamo un router di immagini, denominato Visual Resolution Router (ViR), che seleziona automaticamente il tasso di compressione appropriato per ogni patch di immagine. Rispetto alle strategie dinamiche ad alta risoluzione esistenti, che regolano il numero di token visivi in base alle risoluzioni delle immagini, il nostro metodo adatta dinamicamente il numero di token visivi in base alla complessità semantica. I risultati sperimentali dimostrano che il nostro metodo può ridurre il numero di token visivi fino al 50% mantenendo le capacità di percezione, ragionamento e OCR del modello. Speriamo che questo lavoro contribuisca allo sviluppo di MLLM più efficienti. Il codice e i modelli verranno rilasciati per facilitare la ricerca futura.
I recenti progressi nel ragionamento a catena di pensiero (CoT) hanno principalmente privilegiato l'accuratezza delle risposte e l'efficienza dei token, trascurando aspetti cruciali per l'affidabilità. Sosteniamo che i sistemi di ragionamento utilizzabili debbano essere affidabili, caratterizzati da tre proprietà: interpretabilità, fedeltà e affidabilità. A tal fine, proponiamo ReFIne, un nuovo framework di addestramento che integra il fine-tuning supervisionato con GRPO per incoraggiare i modelli a: (i) migliorare l'interpretabilità producendo tracce strutturate basate su tag con una pianificazione di alto livello che siano più facili da seguire per gli esseri umani; (ii) aumentare la fedeltà rivelando esplicitamente le informazioni decisive che guidano ogni soluzione, con riferimenti coerenti tra le sezioni; e (iii) promuovere l'affidabilità fornendo autovalutazioni sia della solidità della derivazione che della confidenza della risposta finale. Applichiamo ReFIne ai modelli Qwen3 su più scale (1.7B/4B/8B) e valutiamo su benchmark matematici di varia difficoltà. I nostri risultati sperimentali mostrano che i modelli ReFIne generano tracce di ragionamento più chiare e meglio strutturate (interpretabilità +44.0%), espongono più fedelmente il loro processo decisionale sottostante (fedeltà +18.8%) e offrono stime di confidenza informative (affidabilità +42.4%). Questi risultati evidenziano una direzione trascurata ma importante: i modelli di ragionamento dovrebbero essere ottimizzati non solo per l'accuratezza, ma anche per dimensioni più ampie di affidabilità. Il nostro codice è disponibile all'indirizzo: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
La previsione di serie temporali (TSF) rimane un problema impegnativo e in gran parte irrisolto nell'apprendimento automatico, nonostante i recenti sforzi significativi che hanno sfruttato i Modelli Linguistici di Grande Dimensione (LLMs), che si basano prevalentemente su architetture Transformer. Le evidenze empiriche mostrano costantemente che anche i Transformer più potenti spesso non riescono a superare modelli molto più semplici, ad esempio modelli lineari, nei compiti di TSF; tuttavia, una comprensione teorica rigorosa di questo fenomeno rimane limitata. In questo articolo, forniamo un'analisi teorica delle limitazioni dei Transformer per la TSF attraverso la lente della teoria dell'Apprendimento in Contesto (ICL). Nello specifico, sotto dati AR(p), stabiliamo che: (1) i modelli di Self-Attention Lineare (LSA) non possono ottenere un MSE atteso inferiore rispetto ai classici modelli lineari per la previsione in contesto; (2) man mano che la lunghezza del contesto si avvicina all'infinito, la LSA recupera asintoticamente il predittore lineare ottimale; e (3) sotto inferenza in stile Catena di Pensiero (CoT), le previsioni collassano alla media in modo esponenziale. Validiamo empiricamente questi risultati attraverso esperimenti accuratamente progettati. La nostra teoria non solo getta luce su diversi fenomeni precedentemente poco esplorati, ma offre anche intuizioni pratiche per progettare architetture di previsione più efficaci. Speriamo che il nostro lavoro incoraggi la più ampia comunità di ricerca a riesaminare le limitazioni teoriche fondamentali della TSF e a valutare criticamente l'applicazione diretta di architetture sempre più sofisticate senza un esame più approfondito.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) dimostrano che estendere la lunghezza delle catene di ragionamento migliora significativamente le prestazioni su compiti complessi. Sebbene rivelare queste tracce di ragionamento aiuti gli utenti a seguire, verificare e apprendere meglio dal processo di risoluzione dei problemi del modello, le rende anche altamente vulnerabili alla distillazione non autorizzata. Per mitigare questo rischio, i fornitori di modelli proprietari adottano spesso strategie di protezione aggressive, come sostituire i ragionamenti dettagliati con brevi riassunti, privando così gli utenti di preziose informazioni intermedie. Per affrontare questo compromesso, proponiamo PART, una riformulazione antidistillazione che preserva le informazioni delle tracce di ragionamento. Motivati dalla differenza tra come gli esseri umani comprendono le tracce di ragionamento e come gli LLM le sfruttano per il fine-tuning supervisionato, progettiamo una riformulazione semplice ma efficace in due passaggi: rimozione dei comportamenti di auto-dialogo e riordino delle sotto-conclusioni. Un piccolo modello ausiliario viene addestrato per eseguire questa riformulazione, con un sovraccarico computazionale minimo. Esperimenti estensivi dimostrano che PART interrompe costantemente la distillazione su modelli studente di diverse dimensioni e tipologie su vari benchmark di ragionamento. Ad esempio, quando si addestra su tracce riformulate, anche le prestazioni di un grande modello studente da 32B diminuiscono da 54,17 a 46,88 su AIME 2024, corrispondente a un degrado del 13,5%.
I fornitori di chatbot (ad esempio, OpenAI) si affidano a schemi di abbonamento a livelli per generare entrate, offrendo modelli di base per gli utenti gratuiti e modelli avanzati per gli abbonati a pagamento. Tuttavia, si ritiene che uno schema più granulare di sblocco a pagamento per funzionalità premium (ad esempio, matematica, programmazione) sia economicamente più sostenibile per i fornitori. Tale schema richiede una tecnica di blocco delle funzionalità (FLoTE) che sia (i) efficace nel rifiutare le funzionalità bloccate, (ii) preservi l'utilità delle funzionalità sbloccate, (iii) sia robusta contro tentativi di elusione o condivisione non autorizzata delle credenziali, e (iv) scalabile a più funzionalità e utenti. Tuttavia, le FLoTEs esistenti (ad esempio, modelli protetti da password) non sono robuste o scalabili. Presentiamo Locket, la prima FLoTE robusta e scalabile per abilitare schemi di sblocco a pagamento. Locket utilizza un approccio innovativo di fusione per collegare adattatori a un LLM al fine di rifiutare le funzionalità non autorizzate. La nostra valutazione completa dimostra che Locket è efficace (100% di rifiuto sulle funzionalità bloccate), preserva l'utilità (degradazione dell'utilità ≤ 7% nelle funzionalità sbloccate), robusta (tasso di successo degli attacchi ≤ 5%) e scalabile a più funzionalità e clienti.
Le recenti misure di sicurezza basate sul ragionamento per i Large Reasoning Models (LRM), come l'allineamento deliberativo, hanno dimostrato una forte difesa contro gli attacchi di jailbreak. Sfruttando la capacità di ragionamento degli LRM, queste misure aiutano i modelli a valutare la sicurezza degli input dell'utente prima di generare risposte finali. La potente capacità di ragionamento può analizzare l'intenzione della query in ingresso e rifiuterà di assistere una volta rilevata l'intenzione dannosa nascosta dai metodi di jailbreak. Tali misure hanno mostrato un significativo miglioramento nella difesa, come i tassi di rifiuto quasi perfetti nella serie open-source gpt-oss. Sfortunatamente, scopriamo che queste potenti misure di sicurezza basate sul ragionamento possono essere estremamente vulnerabili a manipolazioni sottili dei prompt di input e, una volta compromesse, possono portare a risultati ancora più dannosi. In particolare, abbiamo scoperto un aspetto sorprendentemente fragile di queste misure: semplicemente aggiungendo alcuni token template al prompt di input è possibile bypassare le apparentemente potenti misure di sicurezza e ottenere risposte esplicite e dannose. Per approfondire, introduciamo una serie di metodi di jailbreak che sovvertono le misure di sicurezza basate sul ragionamento. I nostri attacchi coprono contesti white-, gray- e black-box e vanno da manipolazioni di template senza sforzo a ottimizzazioni completamente automatizzate. Oltre alla possibilità di un'implementazione scalabile, questi metodi raggiungono anche tassi di successo dell'attacco allarmantemente alti (ad esempio, superando il 90% su 5 benchmark diversi nella serie gpt-oss, sia su modelli locali che su servizi API online). Le valutazioni su vari LRM open-source leader confermano che queste vulnerabilità sono sistemiche, sottolineando l'urgente necessità di tecniche di allineamento più robuste per gli LRM open-source per prevenire usi malevoli. Il codice è open-source all'indirizzo https://chenxshuo.github.io/bag-of-tricks.
Presentiamo SynthID-Image, un sistema basato sul deep learning per la filigranatura invisibile di immagini generate dall'IA. Questo articolo documenta i requisiti tecnici, i modelli di minaccia e le sfide pratiche legate alla distribuzione di un tale sistema su scala internet, affrontando i requisiti chiave di efficacia, fedeltà, robustezza e sicurezza. SynthID-Image è stato utilizzato per filigranare oltre dieci miliardi di immagini e fotogrammi video attraverso i servizi di Google, e il relativo servizio di verifica è disponibile per tester fidati. Per completezza, presentiamo una valutazione sperimentale di una variante esterna del modello, SynthID-O, disponibile tramite partnership. Confrontiamo SynthID-O con altri metodi di filigranatura post-hoc presenti in letteratura, dimostrando prestazioni all'avanguardia sia in termini di qualità visiva che di robustezza alle comuni perturbazioni delle immagini. Sebbene questo lavoro si concentri sui media visivi, le conclusioni relative alla distribuzione, ai vincoli e alla modellazione delle minacce si generalizzano ad altre modalità, inclusa l'audio. Questo articolo fornisce una documentazione completa per la distribuzione su larga scala di sistemi di provenienza dei media basati sul deep learning.
Il pre-addestramento contrastivo audio-linguaggio produce rappresentazioni congiunte potenti, tuttavia un persistente divario di modalità audio-testo limita i benefici dell'accoppiamento di encoder multimodali con grandi modelli linguistici (LLM). Presentiamo Diffusion-Link, un modulo di collegamento modale basato su diffusione che mappa generativamente gli embedding audio nella distribuzione degli embedding di testo. Il modulo è addestrato sull'embedding di output dell'encoder multimodale congelato e implementato come una rete leggera con tre blocchi residui MLP. Per valutare l'effetto di Diffusion-Link sull'accoppiamento encoder multimodale-LLM, testiamo su Automatic Audio Captioning (AAC); a nostra conoscenza, questa è la prima applicazione del collegamento modale basato su diffusione all'AAC. Riferiamo due risultati. (1) Analisi del divario modale: su criteri di similarità e geometrici, Diffusion-Link riduce maggiormente il divario modale rispetto ai precedenti metodi basati su diffusione e mostra una migrazione collettiva degli embedding audio verso la distribuzione di testo. (2) AAC downstream: collegando Diffusion-Link alla stessa baseline multimodale LLM si ottengono risultati all'avanguardia su AudioCaps sia in captioning zero-shot che completamente supervisionato senza conoscenza esterna, con guadagni relativi fino al 52,5% e 7,5%, rispettivamente. Questi risultati dimostrano che colmare il divario modale è cruciale per un accoppiamento efficace tra encoder multimodali e LLM, e il collegamento modale basato su diffusione offre una direzione promettente oltre i design centrati sul recupero della conoscenza. Il codice sarà rilasciato all'accettazione https://github.com/DevKiHyun/Diffusion-Link
Gli agenti di Deep Research (DR) basati su Large Language Models (LLM) possono eseguire ricerche complesse e multi-step scomponendo i compiti, recuperando informazioni online e sintetizzando report dettagliati. Tuttavia, l'uso improprio degli LLM con tali capacità potenti può portare a rischi ancora maggiori. Questo è particolarmente preoccupante in domini ad alto rischio e ad alta intensità di conoscenza come la biosicurezza, dove i DR possono generare un report professionale contenente conoscenze proibite dettagliate. Purtroppo, abbiamo riscontrato tali rischi nella pratica: semplicemente inviando una query dannosa, che un LLM autonomo rifiuta direttamente, può elicitare un report dettagliato e pericoloso dagli agenti DR. Ciò evidenzia i rischi elevati e sottolinea la necessità di un'analisi di sicurezza più approfondita. Tuttavia, i metodi di jailbreak progettati per gli LLM non riescono a esporre tali rischi unici, poiché non prendono di mira la capacità di ricerca degli agenti DR. Per colmare questa lacuna, proponiamo due nuove strategie di jailbreak: Plan Injection, che inietta sotto-obiettivi maliziosi nel piano dell'agente; e Intent Hijack, che riformula query dannose come domande di ricerca accademica. Abbiamo condotto esperimenti estesi su diversi LLM e vari benchmark di sicurezza, inclusi prompt proibiti generali e di biosicurezza. Questi esperimenti rivelano 3 risultati chiave: (1) L'allineamento degli LLM spesso fallisce negli agenti DR, dove prompt dannosi formulati in termini accademici possono dirottare l'intento dell'agente; (2) La pianificazione e l'esecuzione multi-step indeboliscono l'allineamento, rivelando vulnerabilità sistemiche che le salvaguardie a livello di prompt non possono affrontare; (3) Gli agenti DR non solo bypassano i rifiuti ma producono anche contenuti più coerenti, professionali e pericolosi rispetto agli LLM autonomi. Questi risultati dimostrano un disallineamento fondamentale negli agenti DR e richiedono tecniche di allineamento migliori specifiche per gli agenti DR. Codice e dataset sono disponibili su https://chenxshuo.github.io/deeper-harm.
I modelli generativi di denoising esistenti si basano sulla risoluzione di SDE o ODE inverse discretizzate. In questo articolo, identifichiamo un problema a lungo trascurato ma pervasivo in questa famiglia di modelli: un disallineamento tra il livello di rumore predefinito e il livello di rumore effettivamente codificato negli stati intermedi durante il campionamento. Ci riferiamo a questo disallineamento come "noise shift". Attraverso un'analisi empirica, dimostriamo che il noise shift è diffuso nei moderni modelli di diffusione e presenta un bias sistematico, portando a una generazione subottimale a causa sia della generalizzazione fuori distribuzione che di aggiornamenti di denoising inaccurati. Per affrontare questo problema, proponiamo Noise Awareness Guidance (NAG), un metodo di correzione semplice ma efficace che guida esplicitamente le traiettorie di campionamento a rimanere coerenti con la schedulazione del rumore predefinita. Introduciamo inoltre una variante di NAG senza classificatore, che addestra congiuntamente un modello condizionato al rumore e un modello non condizionato tramite dropout condizionato al rumore, eliminando così la necessità di classificatori esterni. Esperimenti estesi, tra cui la generazione su ImageNet e varie attività di fine-tuning supervisionato, mostrano che NAG mitiga costantemente il noise shift e migliora sostanzialmente la qualità della generazione dei principali modelli di diffusione.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) si sono affermati come una promettente alternativa ai modelli linguistici autoregressivi (AR), sfruttando la generazione basata su denoising per abilitare un parallelismo intrinseco. Nonostante l'emergere di sempre più modelli dLLM open-source, la loro adozione diffusa rimane limitata dalla mancanza di un framework di inferenza standardizzato ed efficiente. Presentiamo dInfer, un framework efficiente ed estensibile per l'inferenza di dLLM. dInfer scompone la pipeline di inferenza in quattro componenti modulari—modello, gestore delle iterazioni di diffusione, strategia di decodifica e gestore della KV-cache—e integra algoritmi innovativi per ciascun componente insieme a ottimizzazioni a livello di sistema. Attraverso questa combinazione di innovazioni algoritmiche e miglioramenti sistemici, dInfer ottiene significativi guadagni di efficienza senza compromettere la qualità dell'output su LLaDA-MoE. Con una dimensione del batch pari a 1, supera i 1.100 token al secondo su HumanEval e mantiene una media di oltre 800 token al secondo su sei benchmark utilizzando 8 GPU H800. Rispetto ai sistemi precedenti, dInfer offre un incremento di velocità di 10 volte rispetto a Fast-dLLM, mantenendo prestazioni del modello simili. Anche confrontato con il modello AR (con un numero comparabile di parametri di attivazione e prestazioni) QWen2.5-3B, altamente ottimizzato con il più recente motore di inferenza vLLM, dInfer garantisce comunque un incremento di velocità di 2-3 volte. L'implementazione di dInfer è open-source e disponibile all'indirizzo https://github.com/inclusionAI/dInfer.