Articoli di ricerca IA selezionati quotidianamente con traduzioni
La crescita straordinaria delle capacità dei modelli linguistici di grandi dimensioni (LLM) ha stimolato l'esplorazione di sistemi multi-agente, con i framework di dibattito che emergono come un approccio promettente per migliorare la risoluzione dei problemi. Questi approcci di dibattito multi-agente (MAD), in cui gli agenti presentano, criticano e affinano collaborativamente gli argomenti, offrono potenzialmente un ragionamento migliorato, una maggiore robustezza e prospettive diverse rispetto ai modelli monolitici. Nonostante studi precedenti abbiano sfruttato il MAD, una comprensione sistematica della sua efficacia rispetto ai metodi a singolo agente, specialmente in condizioni variabili, rimane elusiva. Questo articolo cerca di colmare questa lacuna concettualizzando il MAD come una tecnica di scalabilità computazionale al momento del test, caratterizzata da capacità di affinamento collaborativo e di esplorazione diversificata. Conduciamo un'indagine empirica completa confrontando il MAD con solide baseline di scalabilità a singolo agente su compiti di ragionamento matematico e di sicurezza. Il nostro studio esamina sistematicamente l'influenza della difficoltà del compito, della scala del modello e della diversità degli agenti sulle prestazioni del MAD. I risultati chiave rivelano che, per il ragionamento matematico, il MAD offre vantaggi limitati rispetto alla scalabilità a singolo agente, ma diventa più efficace con l'aumentare della difficoltà del problema e la diminuzione della capacità del modello, mentre la diversità degli agenti mostra benefici minimi. Al contrario, per i compiti di sicurezza, l'affinamento collaborativo del MAD può aumentare la vulnerabilità, ma l'incorporazione di configurazioni di agenti diversificati facilita una riduzione graduale del successo degli attacchi attraverso il processo di affinamento collaborativo. Crediamo che i nostri risultati forniscano una guida critica per lo sviluppo futuro di sistemi MAD più efficaci e strategicamente implementati.
Gli approcci esistenti per la segmentazione basata sul ragionamento tipicamente adattano i modelli linguistici multimodali di grandi dimensioni (MLLMs) utilizzando coppie immagine-testo e corrispondenti etichette di maschera. Tuttavia, mostrano una limitata generalizzazione a scenari fuori distribuzione senza un processo di ragionamento esplicito. Sebbene recenti sforzi abbiano sfruttato l'apprendimento per rinforzo attraverso l'ottimizzazione della politica relativa al gruppo (GRPO) per migliorare la capacità di ragionamento, spesso soffrono di "overthinking" - producendo catene di ragionamento uniformemente prolisse indipendentemente dalla complessità del compito. Ciò comporta costi computazionali elevati e un controllo limitato sulla qualità del ragionamento. Per affrontare questo problema, proponiamo PixelThink, uno schema semplice ma efficace che integra la difficoltà del compito stimata esternamente e l'incertezza del modello misurata internamente per regolare la generazione del ragionamento all'interno di un paradigma di apprendimento per rinforzo. Il modello impara a comprimere la lunghezza del ragionamento in base alla complessità della scena e alla fiducia predittiva. Per supportare una valutazione completa, introduciamo ReasonSeg-Diff, un benchmark esteso con riferimenti di ragionamento annotati e punteggi di difficoltà, insieme a una serie di metriche progettate per valutare congiuntamente l'accuratezza della segmentazione, la qualità del ragionamento e l'efficienza. I risultati sperimentali dimostrano che l'approccio proposto migliora sia l'efficienza del ragionamento che le prestazioni complessive della segmentazione. Il nostro lavoro contribuisce con nuove prospettive verso una comprensione multimodale efficiente e interpretabile. Il codice e il modello saranno resi pubblicamente disponibili.
In questo lavoro, presentiamo il primo studio che esplora il ridimensionamento al momento dell'inferenza nei compiti di ragionamento su tabelle. Sviluppiamo e valutiamo due strategie post-addestramento per abilitare il ridimensionamento durante l'inferenza: la distillazione dalle tracce di ragionamento di modelli all'avanguardia e l'apprendimento per rinforzo con ricompense verificabili (RLVR). Per la distillazione, introduciamo un dataset su larga scala di tracce di ragionamento generate da DeepSeek-R1, che utilizziamo per affinare i LLM nel modello Table-R1-SFT. Per RLVR, proponiamo funzioni di ricompensa verificabili specifiche per il compito e applichiamo l'algoritmo GRPO per ottenere il modello Table-R1-Zero. Valutiamo i nostri modelli della serie Table-R1 su una varietà di compiti di ragionamento su tabelle, tra cui QA a risposta breve, verifica di fatti e QA a risposta libera. È degno di nota che il modello Table-R1-Zero eguaglia o supera le prestazioni di GPT-4.1 e DeepSeek-R1, pur utilizzando un LLM con solo 7 miliardi di parametri. Dimostra inoltre una forte generalizzazione su dataset fuori dominio. Ampie analisi di ablazione e qualitative rivelano i vantaggi della messa a punto delle istruzioni, delle scelte architetturali del modello e della generalizzazione cross-task, nonché l'emergere di abilità essenziali di ragionamento su tabelle durante l'addestramento RL.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLM) hanno significativamente migliorato le prestazioni nei compiti visivi 2D. Tuttavia, migliorare la loro intelligenza spaziale rimane una sfida. Gli attuali MLLM 3D si basano sempre su dati aggiuntivi 3D o 2.5D per incorporare la consapevolezza spaziale, limitando la loro utilità in scenari con soli input 2D, come immagini o video. In questo articolo, presentiamo Spatial-MLLM, un nuovo framework per il ragionamento spaziale basato su osservazioni puramente 2D. A differenza dei convenzionali MLLM video che si basano su encoder visivi basati su CLIP ottimizzati per la comprensione semantica, la nostra intuizione chiave è sfruttare il forte prior strutturale proveniente dal modello di base della geometria visiva feed-forward. Nello specifico, proponiamo un'architettura a doppio encoder: un encoder visivo 2D pre-addestrato per estrarre caratteristiche semantiche e un encoder spaziale inizializzato dal backbone del modello di geometria visiva per estrarre caratteristiche strutturali 3D. Un connettore integra poi entrambe le caratteristiche in token visivi unificati per una migliore comprensione spaziale. Inoltre, proponiamo una strategia di campionamento dei frame consapevole dello spazio al momento dell'inferenza, che seleziona i frame informativi spazialmente di una sequenza video, assicurando che, anche con una lunghezza limitata dei token, il modello si concentri sui frame critici per il ragionamento spaziale. Oltre ai miglioramenti architetturali, costruiamo il dataset Spatial-MLLM-120k e addestriamo il modello su di esso utilizzando il fine-tuning supervisionato e GRPO. Esperimenti estesi su vari dataset del mondo reale dimostrano che il nostro Spatial-MLLM raggiunge prestazioni all'avanguardia in un'ampia gamma di compiti di comprensione e ragionamento spaziale basati su dati visivi. Pagina del progetto: https://diankun-wu.github.io/Spatial-MLLM/.
Studi recenti sul post-addestramento di modelli linguistici di grandi dimensioni (LLM) per il ragionamento attraverso l'apprendimento per rinforzo (RL) si concentrano tipicamente su compiti che possono essere verificati e premiati con precisione, come la risoluzione di problemi matematici. Al contrario, la nostra ricerca indaga l'impatto del rumore nelle ricompense, una considerazione più pratica per scenari reali che coinvolgono il post-addestramento di LLM utilizzando modelli di ricompensa. Abbiamo scoperto che gli LLM dimostrano una forte robustezza a un rumore sostanziale nelle ricompense. Ad esempio, invertendo manualmente il 40% degli output della funzione di ricompensa in compiti matematici, un modello Qwen-2.5-7B riesce comunque a raggiungere una rapida convergenza, migliorando le sue prestazioni nei compiti matematici dal 5% al 72%, rispetto alla precisione del 75% ottenuta da un modello addestrato con ricompense prive di rumore. Sorprendentemente, premiando solo la comparsa di frasi chiave di ragionamento (denominata ricompensa per il pattern di ragionamento, RPR), come "prima, devo" - senza verificare la correttezza delle risposte - il modello ha raggiunto prestazioni di picco (oltre il 70% di precisione per Qwen-2.5-7B) paragonabili a quelle dei modelli addestrati con una verifica rigorosa della correttezza e ricompense accurate. Riconoscendo l'importanza del processo di ragionamento rispetto ai risultati finali, abbiamo combinato RPR con modelli di ricompensa rumorosi. RPR ha aiutato a calibrare i modelli di ricompensa rumorosi, mitigando potenziali falsi negativi e migliorando le prestazioni degli LLM su compiti aperti. Questi risultati suggeriscono l'importanza di migliorare le capacità fondamentali dei modelli durante la fase di pre-addestramento, fornendo al contempo spunti per avanzare le tecniche di post-addestramento. Il nostro codice e gli script sono disponibili all'indirizzo https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
I MLLM sono stati ampiamente studiati recentemente per il task di risposta a domande su video. Tuttavia, la maggior parte delle valutazioni esistenti si concentra su video naturali, trascurando i video sintetici, come i contenuti generati dall'IA (AIGC). Nel frattempo, alcuni lavori sulla generazione di video si affidano ai MLLM per valutare la qualità dei video generati, ma le capacità dei MLLM nell'interpretare i video AIGC rimangono in gran parte inesplorate. Per affrontare questo problema, proponiamo un nuovo benchmark, VF-Eval, che introduce quattro task—validazione della coerenza, consapevolezza degli errori, rilevamento del tipo di errore e valutazione del ragionamento—per valutare in modo completo le capacità dei MLLM sui video AIGC. Valutiamo 13 MLLM all'avanguardia su VF-Eval e scopriamo che anche il modello con le migliori prestazioni, GPT-4.1, fatica a ottenere risultati costantemente buoni in tutti i task. Ciò evidenzia la natura impegnativa del nostro benchmark. Inoltre, per indagare le applicazioni pratiche di VF-Eval nel migliorare la generazione di video, conduciamo un esperimento, RePrompt, dimostrando che allineare i MLLM più strettamente al feedback umano può avvantaggiare la generazione di video.
Il rapido progresso dei grandi modelli visione-linguaggio (VLMs) ha favorito lo sviluppo di agenti GUI basati esclusivamente sulla visione, in grado di percepire e operare interfacce grafiche (GUI) per soddisfare autonomamente le istruzioni dell'utente. Tuttavia, gli approcci esistenti adottano solitamente un framework di apprendimento offline, che presenta due limitazioni principali: (1) una forte dipendenza da annotazioni manuali di alta qualità per il grounding degli elementi e la supervisione delle azioni, e (2) una limitata adattabilità a ambienti dinamici e interattivi. Per affrontare queste limitazioni, proponiamo ZeroGUI, un framework scalabile di apprendimento online per automatizzare l'addestramento degli agenti GUI a costo umano zero. Nello specifico, ZeroGUI integra (i) la generazione automatica di task basata su VLM per produrre obiettivi di addestramento diversificati dallo stato attuale dell'ambiente, (ii) la stima automatica delle ricompense basata su VLM per valutare il successo dei task senza funzioni di valutazione manuali, e (iii) un apprendimento per rinforzo online a due stadi per interagire continuamente con gli ambienti GUI e apprendere da essi. Esperimenti condotti su due avanzati agenti GUI (UI-TARS e Aguvis) dimostrano che ZeroGUI migliora significativamente le prestazioni negli ambienti OSWorld e AndroidLab. Il codice è disponibile all'indirizzo https://github.com/OpenGVLab/ZeroGUI.
I modelli linguistici di grandi dimensioni basati su diffusione (Diffusion LLMs) hanno dimostrato potenziale per la generazione di testo non autoregressiva con capacità di decodifica parallela. Tuttavia, la velocità pratica di inferenza dei Diffusion LLMs open-source spesso rimane indietro rispetto ai modelli autoregressivi a causa della mancanza di una cache Key-Value (KV) e del degrado della qualità quando si decodificano più token simultaneamente. Per colmare questa lacuna, introduciamo un nuovo meccanismo di cache KV approssimata a blocchi, progettato specificamente per modelli di diffusione bidirezionali, che consente il riutilizzo della cache con un calo di prestazioni trascurabile. Inoltre, identifichiamo la causa principale del degrado della qualità nella generazione durante la decodifica parallela come l'interruzione delle dipendenze tra token sotto l'assunzione di indipendenza condizionale. Per affrontare questo problema, proponiamo una strategia di decodifica parallela basata sulla confidenza che selettivamente decodifica i token che superano una soglia di confidenza, mitigando le violazioni delle dipendenze e mantenendo la qualità della generazione. I risultati sperimentali sui modelli LLaDA e Dream attraverso molteplici benchmark per LLM dimostrano un miglioramento fino a 27,6 volte nella velocità di elaborazione con una perdita minima di accuratezza, riducendo il divario prestazionale con i modelli autoregressivi e aprendo la strada a un impiego pratico dei Diffusion LLMs.
Studi recenti hanno dimostrato che il ragionamento a catena di pensiero (CoT) esteso può migliorare significativamente le prestazioni dei grandi modelli linguistici (LLM) su compiti complessi. Tuttavia, questo vantaggio deve ancora essere dimostrato nel campo della comprensione video, poiché la maggior parte dei benchmark esistenti non possiede la profondità di ragionamento necessaria per evidenziare i benefici delle catene CoT estese. Sebbene recenti sforzi abbiano proposto benchmark mirati al ragionamento video, i compiti sono spesso guidati dalla conoscenza e non si basano pesantemente sul contenuto visivo. Per colmare questa lacuna, introduciamo VideoReasonBench, un benchmark progettato per valutare il ragionamento video complesso e centrato sulla visione. Per garantire ricchezza visiva e alta complessità di ragionamento, ogni video in VideoReasonBench rappresenta una sequenza di operazioni granulari su uno stato latente visibile solo in parte del video. Le domande valutano tre livelli crescenti di abilità di ragionamento video: ricordare le informazioni visive osservate, dedurre il contenuto degli stati latenti e prevedere informazioni oltre il video. In tale contesto, i modelli devono ricordare con precisione più operazioni nel video ed eseguire un ragionamento passo-passo per ottenere risposte finali corrette a queste domande. Utilizzando VideoReasonBench, valutiamo in modo completo 18 modelli linguistici multimodali (MLLM) all'avanguardia, riscontrando che la maggior parte ha prestazioni scarse nel ragionamento video complesso, ad esempio GPT-4o raggiunge solo il 6,9% di accuratezza, mentre il Gemini-2.5-Pro potenziato dal pensiero supera significativamente gli altri con il 56,0% di accuratezza. Le nostre indagini sul "test-time scaling" rivelano inoltre che un budget di pensiero esteso, pur offrendo benefici nulli o minimi sui benchmark video esistenti, è essenziale per migliorare le prestazioni su VideoReasonBench.
Il Computer-Aided Design (CAD) svolge un ruolo centrale nell'ingegneria e nella produzione, rendendo possibile la creazione di modelli 3D precisi e modificabili. L'utilizzo di una varietà di dati provenienti da sensori o forniti dall'utente come input per la ricostruzione CAD può democratizzare l'accesso alle applicazioni di progettazione. Tuttavia, i metodi esistenti si concentrano tipicamente su una singola modalità di input, come nuvole di punti, immagini o testo, il che limita la loro generalizzabilità e robustezza. Sfruttando i recenti progressi nei modelli vision-language (VLM), proponiamo un modello di ricostruzione CAD multi-modale che elabora simultaneamente tutte e tre le modalità di input. Ispirati dai paradigmi di addestramento dei grandi modelli linguistici (LLM), adottiamo una pipeline in due fasi: fine-tuning supervisionato (SFT) su dati generati proceduralmente su larga scala, seguito da un fine-tuning con apprendimento per rinforzo (RL) utilizzando feedback online, ottenuto in modo programmatico. Inoltre, siamo i primi a esplorare il fine-tuning RL degli LLM per compiti CAD, dimostrando che algoritmi RL online come il Group Relative Preference Optimization (GRPO) superano le alternative offline. Nel benchmark DeepCAD, il nostro modello SFT supera gli approcci mono-modali esistenti in tutte e tre le modalità di input contemporaneamente. Ancora più importante, dopo il fine-tuning RL, cadrille stabilisce nuovi state-of-the-art su tre dataset impegnativi, inclusi uno del mondo reale.
Questo articolo presenta Diffusion via Autoregressive models (D-AR), un nuovo paradigma che riformula il processo di diffusione delle immagini come una procedura autoregressiva standard nel tipico schema di previsione del token successivo. Iniziamo progettando il tokenizer che converte le immagini in sequenze di token discreti, dove i token in posizioni diverse possono essere decodificati in diversi passaggi di denoising della diffusione nello spazio dei pixel. Grazie alle proprietà della diffusione, questi token seguono naturalmente un ordine da grossolano a fine, che si presta direttamente alla modellazione autoregressiva. Pertanto, applichiamo la previsione standard del token successivo su questi token, senza modificare alcun design sottostante (né maschere causali né strategie di addestramento/inferenza), e tale generazione sequenziale di token autoregressivi riflette direttamente la procedura di diffusione nello spazio delle immagini. Cioè, una volta che il modello autoregressivo genera un incremento di token, possiamo direttamente decodificare questi token nel corrispondente passaggio di denoising della diffusione in modalità streaming. La nostra pipeline rivela naturalmente diverse proprietà intriganti, ad esempio, supporta anteprime consistenti quando si genera solo un sottoinsieme di token e consente la sintesi controllata dal layout zero-shot. Sul benchmark standard di ImageNet, il nostro metodo raggiunge un FID di 2.09 utilizzando un backbone Llama da 775M con 256 token discreti. Speriamo che il nostro lavoro possa ispirare future ricerche su architetture autoregressive unificate per la sintesi visiva, specialmente con modelli linguistici di grandi dimensioni. Codice e modelli saranno disponibili su https://github.com/showlab/D-AR.
Presentiamo AnySplat, una rete feed-forward per la sintesi di nuove viste da collezioni di immagini non calibrate. A differenza delle tradizionali pipeline di rendering neurale che richiedono pose della camera note e ottimizzazione per ogni scena, o dei recenti metodi feed-forward che cedono sotto il peso computazionale di viste dense, il nostro modello predice tutto in un solo passaggio. Un singolo passaggio in avanti produce un insieme di primitive gaussiane 3D che codificano sia la geometria che l'aspetto della scena, insieme ai parametri intrinseci ed estrinseci della camera per ogni immagine in ingresso. Questo design unificato si adatta senza sforzo a dataset multi-vista acquisiti casualmente, senza alcuna annotazione delle pose. In valutazioni zero-shot estese, AnySplat eguaglia la qualità dei baseline con pose note sia in scenari con viste sparse che dense, superando gli approcci esistenti privi di pose. Inoltre, riduce significativamente la latenza di rendering rispetto ai campi neurali basati su ottimizzazione, avvicinando la sintesi di nuove viste in tempo reale a contesti di acquisizione non vincolati. Pagina del progetto: https://city-super.github.io/anysplat/
Gli Autoencoder Sparse (SAE) hanno dimostrato un potenziale significativo nell'interpretazione degli stati nascosti dei modelli linguistici scomponendoli in direzioni latenti interpretabili. Tuttavia, l'addestramento degli SAE su larga scala rimane impegnativo, specialmente quando vengono utilizzati dizionari di grandi dimensioni. Sebbene i decoder possano sfruttare kernel ottimizzati per la sparsità per migliorare l'efficienza, gli encoder richiedono ancora operazioni lineari computazionalmente intensive con dimensioni di output elevate. Per affrontare questo problema, proponiamo KronSAE, una nuova architettura che fattorizza la rappresentazione latente attraverso la decomposizione del prodotto di Kronecker, riducendo drasticamente l'overhead di memoria e computazionale. Inoltre, introduciamo mAND, una funzione di attivazione differenziabile che approssima l'operazione binaria AND, migliorando l'interpretabilità e le prestazioni nel nostro framework fattorizzato.
I recenti modelli di ragionamento su larga scala (LRM) dimostrano prestazioni potenti nella risoluzione di compiti complessi grazie alla capacità di ragionamento a catena di pensiero (CoT) estesa. Poiché questi LRM sono principalmente sviluppati attraverso post-addestramento su compiti di ragionamento formale, rimane incerto e dibattuto se generalizzino la capacità di ragionamento per aiutare a ridurre l'allucinazione nei compiti di ricerca di fatti. Ad esempio, DeepSeek-R1 riporta un aumento delle prestazioni su SimpleQA, un benchmark di ricerca di fatti, mentre OpenAI-o3 osserva un'allucinazione ancora più grave. Questa discrepanza solleva naturalmente la seguente domanda di ricerca: i modelli di ragionamento sono più inclini all'allucinazione? Questo articolo affronta la questione da tre prospettive. (1) In primo luogo, conduciamo una valutazione olistica dell'allucinazione nei LRM. La nostra analisi rivela che i LRM sottoposti a un'intera pipeline di post-addestramento con fine-tuning supervisionato (SFT) a freddo e rinforzo con ricompensa verificabile generalmente alleviano la loro allucinazione. Al contrario, sia la distillazione da sola che l'addestramento con rinforzo senza fine-tuning a freddo introducono allucinazioni più sfumate. (2) Per esplorare il motivo per cui diverse pipeline di post-addestramento alterano l'impatto sull'allucinazione nei LRM, conduciamo un'analisi comportamentale. Caratterizziamo due comportamenti cognitivi critici che influenzano direttamente la veridicità di un LRM: la Ripetizione di Errori, in cui i tentativi di ragionamento superficiale seguono ripetutamente la stessa logica sottostante errata, e la Discrepanza Pensiero-Risposta, in cui la risposta finale non corrisponde fedelmente al precedente processo CoT. (3) Inoltre, indaghiamo il meccanismo dietro l'allucinazione dei LRM dal punto di vista dell'incertezza del modello. Scopriamo che l'aumento dell'allucinazione nei LRM è solitamente associato al disallineamento tra l'incertezza del modello e l'accuratezza fattuale. Il nostro lavoro fornisce una comprensione iniziale dell'allucinazione nei LRM.
I modelli linguistici (LM) ottengono buoni risultati nei benchmark di codifica standardizzati, ma incontrano difficoltà nelle attività di ingegneria del software del mondo reale, come la risoluzione di issue su GitHub in SWE-Bench, specialmente quando i parametri del modello sono inferiori a 100B. Sebbene i modelli più piccoli siano preferibili nella pratica a causa del loro costo computazionale inferiore, migliorarne le prestazioni rimane una sfida. Gli approcci esistenti si basano principalmente sul fine-tuning supervisionato (SFT) con dati di alta qualità, che sono costosi da curare su larga scala. Un'alternativa è il ridimensionamento al momento del test: generare più output, valutarli utilizzando un verificatore e selezionare il migliore. Sebbene efficace, questa strategia richiede spesso un campionamento eccessivo e una valutazione costosa, limitandone l'applicazione pratica. Proponiamo Evolutionary Test-Time Scaling (EvoScale), un metodo efficiente dal punto di vista del campionamento che tratta la generazione come un processo evolutivo. Affinando iterativamente gli output attraverso selezione e mutazione, EvoScale sposta la distribuzione degli output verso regioni con punteggi più alti, riducendo il numero di campioni necessari per trovare soluzioni corrette. Per ridurre il sovraccarico derivante dal campionamento e dalla selezione ripetuti, addestriamo il modello a auto-evolversi utilizzando l'apprendimento per rinforzo (RL). Invece di affidarsi a verificatori esterni al momento dell'inferenza, il modello impara a migliorare autonomamente i punteggi delle proprie generazioni attraverso le iterazioni. Valutato su SWE-Bench-Verified, EvoScale consente al nostro modello da 32B, Satori-SWE-32B, di eguagliare o superare le prestazioni di modelli con oltre 100B parametri utilizzando pochi campioni. Codice, dati e modelli saranno completamente open-source.
Introduciamo LoRAShop, il primo framework per l'editing di immagini multi-concetto con modelli LoRA. LoRAShop si basa su un'osservazione chiave riguardante i modelli di interazione delle feature all'interno dei transformer di tipo Flux per la diffusione: le feature specifiche per ciascun concetto attivano regioni spazialmente coerenti nelle prime fasi del processo di denoising. Sfruttiamo questa osservazione per derivare una maschera latente separata per ogni concetto in un passaggio forward preliminare e fondiamo i pesi LoRA corrispondenti solo all'interno delle regioni che delimitano i concetti da personalizzare. Le modifiche risultanti integrano perfettamente più soggetti o stili nella scena originale, preservando il contesto globale, l'illuminazione e i dettagli fini. I nostri esperimenti dimostrano che LoRAShop offre una migliore conservazione dell'identità rispetto ai metodi di riferimento. Eliminando la necessità di riaddestramento e vincoli esterni, LoRAShop trasforma i modelli di diffusione personalizzati in uno strumento pratico di "photoshop-con-LoRA" e apre nuove strade per la narrazione visiva compositiva e l'iterazione creativa rapida.
I Transformer si sono affermati come le architetture più popolari per la modellazione di sequenze, principalmente grazie alla loro efficacia nei compiti di recupero in contesto e alla capacità di apprendere su larga scala. Tuttavia, la loro complessità quadratica in termini di memoria e tempo limita la loro applicabilità a sequenze più lunghe, motivando così i ricercatori a esplorare architetture alternative efficaci, come le moderne reti neurali ricorrenti (note anche come moduli di memoria ricorrente a lungo termine). Nonostante il loro recente successo in vari compiti downstream, queste architetture faticano in attività che richiedono una comprensione del contesto a lungo termine e un'estrapolazione a sequenze più lunghe. Osserviamo che queste carenze derivano da tre aspetti disgiunti nel loro design: (1) una capacità di memoria limitata, vincolata dall'architettura della memoria e dalla mappatura delle caratteristiche dell'input; (2) la natura online dell'aggiornamento, ovvero l'ottimizzazione della memoria solo rispetto all'ultimo input; e (3) una gestione meno espressiva della loro memoria a dimensione fissa. Per migliorare tutti e tre questi aspetti, presentiamo ATLAS, un modulo di memoria a lungo termine ad alta capacità che impara a memorizzare il contesto ottimizzando la memoria in base ai token correnti e passati, superando la natura online dei modelli di memoria a lungo termine. Basandoci su questa intuizione, presentiamo una nuova famiglia di architetture simili ai Transformer, chiamate DeepTransformers, che sono generalizzazioni rigorose dell'architettura Transformer originale. I nostri risultati sperimentali su compiti di modellazione del linguaggio, ragionamento di senso comune, richiamo intensivo e comprensione del contesto a lungo termine mostrano che ATLAS supera le prestazioni dei Transformer e dei recenti modelli ricorrenti lineari. ATLAS migliora ulteriormente le prestazioni nel contesto lungo dei Titans, raggiungendo un'accuratezza del +80\% su una lunghezza di contesto di 10M nel benchmark BABILong.
Modelli linguistici multimodali unificati come Show-o e Janus hanno ottenuto prestazioni eccellenti sia nei compiti di generazione che di comprensione. Tuttavia, questi modelli si basano tipicamente su dataset su larga scala e richiedono un calcolo sostanziale durante la fase di pre-addestramento. Inoltre, sono stati proposti diversi metodi di post-addestramento, ma spesso dipendono da dati esterni o sono limitati a personalizzazioni specifiche per il compito. In questo lavoro, introduciamo UniRL, un approccio di post-addestramento auto-migliorante. Il nostro approccio consente al modello di generare immagini da prompt e di utilizzarle come dati di addestramento in ogni iterazione, senza fare affidamento su alcun dato immagine esterno. Inoltre, permette ai due compiti di migliorarsi reciprocamente: le immagini generate vengono utilizzate per la comprensione, e i risultati della comprensione vengono utilizzati per supervisionare la generazione. Esploriamo il fine-tuning supervisionato (SFT) e l'ottimizzazione delle politiche relative ai gruppi (GRPO) per ottimizzare i modelli. UniRL offre tre vantaggi chiave: (1) non richiede dati immagine esterni, poiché tutti i campioni di addestramento sono generati dal modello stesso durante l'addestramento; (2) non solo migliora le prestazioni individuali dei compiti, ma riduce anche lo squilibrio tra generazione e comprensione; e (3) richiede solo alcuni passaggi di addestramento aggiuntivi durante la fase di post-addestramento. Valutiamo UniRL su Show-o e Janus, ottenendo un punteggio GenEval di 0.77 per Show-o e 0.65 per Janus. Codice e modelli saranno rilasciati su https://github.com/showlab/UniRL.
Il compito di risoluzione dei problemi, in cui un modello genera patch per correggere bug del mondo reale, è emerso come un benchmark critico per valutare le capacità dei grandi modelli linguistici (LLM). Sebbene SWE-bench e le sue varianti siano diventati standard in questo ambito, presentano limitazioni significative: non sono stati aggiornati dalla loro prima pubblicazione, coprono un insieme ristretto di repository e dipendono fortemente dallo sforzo manuale per la costruzione delle istanze e la configurazione dell'ambiente. Questi fattori ostacolano la scalabilità e introducono rischi di overfitting e contaminazione dei dati. In questo lavoro, presentiamo SWE-bench-Live, un benchmark aggiornabile in tempo reale progettato per superare queste sfide. La nostra prima versione consiste in 1.319 task derivati da problemi reali di GitHub creati dal 2024, provenienti da 93 repository. Ogni task è accompagnato da un'immagine Docker dedicata per garantire un'esecuzione riproducibile. Al centro del nostro benchmark c'è \method, una pipeline di curatela automatizzata che semplifica l'intero processo dalla creazione delle istanze alla configurazione dell'ambiente, eliminando i colli di bottiglia manuali e consentendo scalabilità e aggiornamenti continui. Valutiamo una gamma di framework di agenti e LLM all'avanguardia su SWE-bench-Live, rivelando un divario di prestazioni significativo rispetto a benchmark statici come SWE-bench, anche in condizioni di valutazione controllate. Per comprendere meglio questa discrepanza, eseguiamo analisi dettagliate sull'origine del repository, la recentezza dei problemi e la difficoltà dei task. Fornendo un benchmark fresco, diversificato ed eseguibile basato sull'attività in tempo reale dei repository, SWE-bench-Live facilita una valutazione rigorosa e resistente alla contaminazione di LLM e agenti in contesti dinamici e reali di sviluppo software.
I meccanismi di preferenza, come le preferenze umane, LLM-as-a-Judge (LaaJ) e i modelli di ricompensa, sono centrali per allineare e valutare i grandi modelli linguistici (LLM). Tuttavia, i concetti sottostanti che guidano queste preferenze rimangono poco compresi. In questo lavoro, proponiamo un metodo completamente automatizzato per generare spiegazioni basate su concetti locali e globali delle preferenze in più domini. Il nostro metodo utilizza un LLM per identificare i concetti che distinguono le risposte scelte da quelle rifiutate e per rappresentarli con vettori basati su concetti. Per modellare le relazioni tra concetti e preferenze, proponiamo un modello di regressione gerarchica multi-dominio a scatola bianca che cattura sia effetti generali che specifici per dominio. Per valutare il nostro metodo, curiamo un dataset che copre otto domini impegnativi e diversificati e spieghiamo dodici meccanismi. Il nostro metodo raggiunge una forte performance nella previsione delle preferenze, superando i baseline pur rimanendo spiegabile. Inoltre, valutiamo le spiegazioni in due contesti applicativi. Primo, guidare le uscite degli LLM con concetti derivati dalle spiegazioni di LaaJ produce risposte che i giudici preferiscono in modo consistente. Secondo, sollecitare i LaaJ con concetti che spiegano le preferenze umane migliora le loro previsioni di preferenza. Insieme, il nostro lavoro stabilisce un nuovo paradigma per la spiegabilità nell'era degli LLM.
I testi visivi incorporati nei video trasportano ricche informazioni semantiche, fondamentali sia per una comprensione olistica del video sia per un ragionamento dettagliato sulle azioni umane locali. Tuttavia, i benchmark esistenti per la comprensione video trascurano in gran parte le informazioni testuali, mentre i benchmark specifici per l'OCR sono limitati a immagini statiche, riducendo la loro capacità di catturare l'interazione tra testo e contesti visivi dinamici. Per colmare questa lacuna, proponiamo VidText, un nuovo benchmark progettato per una valutazione completa e approfondita della comprensione del testo nei video. VidText offre le seguenti caratteristiche chiave: 1) Copre un'ampia gamma di scenari del mondo reale e supporta contenuti multilingue, abbracciando contesti diversificati in cui il testo video appare naturalmente. 2) Introduce un framework di valutazione gerarchico con compiti a livello di video, clip e istanza, consentendo la valutazione sia delle capacità di sintesi globale sia di quelle di recupero locale. 3) Il benchmark introduce anche una serie di compiti accoppiati di percezione e ragionamento, che vanno dalla percezione del testo visivo al ragionamento cross-modale tra informazioni testuali e visive. Esperimenti estesi su 18 modelli multimodali di grandi dimensioni (LMM) all'avanguardia rivelano che i modelli attuali faticano nella maggior parte dei compiti, con un significativo margine di miglioramento. Un'ulteriore analisi evidenzia l'impatto sia di fattori intrinseci al modello, come la risoluzione dell'input e la capacità OCR, sia di fattori esterni, tra cui l'uso di informazioni ausiliarie e strategie di ragionamento a catena di pensiero (Chain-of-Thought). Speriamo che VidText colmi l'attuale lacuna nei benchmark di comprensione video e serva come base per future ricerche sul ragionamento multimodale con il testo video in ambienti dinamici.
Lo sviluppo di modelli di base per l'elaborazione del parlato (SFM) come Whisper e SeamlessM4T ha significativamente avanzato il campo dell'elaborazione del parlato. Tuttavia, la loro natura chiusa—con dati e codice di addestramento inaccessibili—pone importanti sfide in termini di riproducibilità e valutazione equa. Mentre altri domini hanno compiuto progressi sostanziali verso la scienza aperta sviluppando modelli completamente trasparenti addestrati su codice e dati open-source (OS), sforzi simili nel campo del parlato rimangono limitati. Per colmare questa lacuna, introduciamo FAMA, la prima famiglia di SFM per la scienza aperta per l'inglese e l'italiano, addestrata su oltre 150.000 ore di dati vocali OS. Inoltre, presentiamo un nuovo dataset contenente 16.000 ore di parlato pulito e pseudo-etichettato per entrambe le lingue. I risultati mostrano che FAMA raggiunge prestazioni competitive rispetto agli SFM esistenti, essendo fino a 8 volte più veloce. Tutti gli artefatti, inclusi codice, dataset e modelli, sono rilasciati con licenze conformi all'OS, promuovendo l'apertura nella ricerca sulle tecnologie vocali.
L'accento di frase si riferisce all'enfasi posta su parole specifiche all'interno di un enunciato parlato per evidenziare o contrastare un'idea, o per introdurre nuove informazioni. Viene spesso utilizzato per implicare un'intenzione sottostante che non è esplicitamente dichiarata. I recenti progressi nei modelli linguistici con consapevolezza del parlato (SLM) hanno consentito l'elaborazione diretta dell'audio, permettendo ai modelli di bypassare la trascrizione e accedere alla piena ricchezza del segnale vocale, oltre a eseguire compiti di ragionamento audio come la risposta a domande parlate. Nonostante il ruolo cruciale dell'accento di frase nel plasmare il significato e l'intenzione del parlante, esso rimane ampiamente trascurato nella valutazione e nello sviluppo di tali modelli. In questo lavoro, affrontiamo questa lacuna introducendo StressTest, un benchmark progettato specificamente per valutare la capacità di un modello di distinguere tra interpretazioni di frasi parlate in base al modello di accento. Valutiamo le prestazioni di diversi SLM leader e scopriamo che, nonostante le loro capacità complessive, essi performano male in tali compiti. Per superare questa limitazione, proponiamo una nuova pipeline di generazione di dati sintetici e creiamo Stress17k, un set di addestramento che simula il cambiamento di significato implicato dalla variazione dell'accento. Successivamente, dimostriamo empiricamente che l'ottimizzazione dei modelli con questo dataset sintetico si allinea bene con le registrazioni reali e consente un efficace fine-tuning degli SLM. I risultati suggeriscono che il nostro modello fine-tuned, StresSLM, supera significativamente i modelli esistenti sia nei compiti di ragionamento che di rilevamento dell'accento di frase. Codice, modelli, dati e campioni audio sono disponibili su pages.cs.huji.ac.il/adiyoss-lab/stresstest.
Il ragionamento sulla sicurezza è un paradigma recente in cui i modelli linguistici di grandi dimensioni (LLM) ragionano sulle politiche di sicurezza prima di generare risposte, mitigando così le limitazioni delle misure di sicurezza esistenti, come il rifiuto eccessivo e le vulnerabilità di jailbreak. Tuttavia, implementare questo paradigma è impegnativo a causa del processo ad alta intensità di risorse necessario per creare dataset di catena di pensiero (CoT) di alta qualità con politiche integrate, garantendo al contempo che il ragionamento rimanga accurato e privo di allucinazioni o conflitti di politiche. Per affrontare questa sfida, proponiamo AIDSAFE: Deliberazione Iterativa Agente per il Ragionamento sulla Sicurezza, una nuova ricetta per la generazione di dati che sfrutta la deliberazione multi-agente per espandere iterativamente il ragionamento sulle politiche di sicurezza. Una fase di raffinazione dei dati in AIDSAFE garantisce output di alta qualità eliminando pensieri ripetitivi, ridondanti e ingannevoli. I CoT generati da AIDSAFE forniscono una solida base per l'addestramento sulla sicurezza basato su fine-tuning supervisionato (SFT). Inoltre, per soddisfare la necessità di dati di preferenza nelle fasi di allineamento, come l'addestramento DPO, introduciamo una ricetta supplementare che utilizza l'aumento delle credenze per creare campioni distinti di CoT selezionati e rifiutati. Le nostre valutazioni dimostrano che i CoT generati da AIDSAFE raggiungono una superiore aderenza alle politiche e qualità del ragionamento. Di conseguenza, mostriamo che il fine-tuning di LLM open-source su questi CoT può migliorare significativamente la generalizzazione della sicurezza e la robustezza ai jailbreak, mantenendo un'utilità accettabile e una precisione nel rifiuto eccessivo. I dataset CoT generati da AIDSAFE possono essere trovati qui: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
La dimostrazione di teoremi rappresenta un banco di prova fondamentale per valutare le capacità di ragionamento complesso nei grandi modelli linguistici (LLM). Tuttavia, gli approcci tradizionali alla dimostrazione automatica di teoremi (ATP) si basano fortemente su sistemi di prova formali che si allineano male con i punti di forza degli LLM, derivati dalla conoscenza informale e in linguaggio naturale acquisita durante il pre-addestramento. In questo lavoro, proponiamo DeepTheorem, un framework completo per la dimostrazione informale di teoremi che sfrutta il linguaggio naturale per potenziare il ragionamento matematico degli LLM. DeepTheorem include un dataset di riferimento su larga scala composto da 121K teoremi e dimostrazioni informali di livello IMO, che coprono diversi domini matematici, rigorosamente annotati per correttezza, difficoltà e categorie tematiche, accompagnati da varianti di teoremi verificabili costruite sistematicamente. Progettiamo una nuova strategia di apprendimento per rinforzo (RL-Zero) specificamente adattata alla dimostrazione informale di teoremi, sfruttando le varianti verificate dei teoremi per incentivare un'inferenza matematica robusta. Inoltre, proponiamo metriche di valutazione complete sia per i risultati che per il processo, esaminando la correttezza delle dimostrazioni e la qualità dei passaggi di ragionamento. Analisi sperimentali estensive dimostrano che DeepTheorem migliora significativamente le prestazioni degli LLM nella dimostrazione di teoremi rispetto ai dataset esistenti e ai protocolli di fine-tuning supervisionato, raggiungendo un'accuratezza e una qualità del ragionamento all'avanguardia. I nostri risultati evidenziano il potenziale di DeepTheorem di avanzare fondamentalmente la dimostrazione automatica informale di teoremi e l'esplorazione matematica.
I modelli sequenziali come i transformer richiedono che gli input siano rappresentati come sequenze unidimensionali. Nel campo della visione artificiale, ciò comporta tipicamente l'appiattimento delle immagini utilizzando un ordine fisso row-major (scansione raster). Sebbene l'auto-attenzione completa sia permutazione-equivariante, i transformer moderni per sequenze lunghe si basano sempre più su approssimazioni architetturali che rompono questa invarianza e introducono una sensibilità all'ordine delle patch. Dimostriamo che l'ordine delle patch influisce significativamente sulle prestazioni del modello in tali contesti, con alternative semplici come l'ordine column-major o le curve di Hilbert che producono cambiamenti notevoli nell'accuratezza. Motivati da ciò, proponiamo REOrder, un framework in due fasi per scoprire ordinamenti ottimali delle patch per un determinato compito. In primo luogo, deriviamo un priore teorico-informativo valutando la comprimibilità di varie sequenze di patch. Successivamente, apprendiamo una politica sulle permutazioni ottimizzando una politica Plackett-Luce utilizzando REINFORCE. Questo approccio consente un apprendimento efficiente in uno spazio combinatorio di permutazioni. REOrder migliora l'accuratezza top-1 rispetto all'ordinamento row-major su ImageNet-1K fino al 3,01% e su Functional Map of the World del 13,35%.
Gli algoritmi di apprendimento per rinforzo sono fondamentali per allineare i grandi modelli linguistici alle preferenze umane e per potenziare le loro capacità di ragionamento. Tuttavia, gli attuali algoritmi di apprendimento per rinforzo spesso soffrono di instabilità durante l'addestramento a causa di vincoli on-policy troppo laschi e di inefficienza computazionale dovuta a modelli ausiliari. In questo lavoro, proponiamo On-Policy RL con Baseline Ottimale della Ricompensa (OPO), un nuovo e semplificato algoritmo di apprendimento per rinforzo progettato per affrontare queste sfide. OPO enfatizza l'importanza di un addestramento on-policy esatto, che empiricamente stabilizza il processo di addestramento e migliora l'esplorazione. Inoltre, OPO introduce la baseline ottimale della ricompensa che teoricamente minimizza la varianza del gradiente. Valutiamo OPO su benchmark di ragionamento matematico. I risultati dimostrano la sua prestazione superiore e la stabilità dell'addestramento senza l'uso di modelli aggiuntivi o termini di regolarizzazione. Inoltre, OPO ottiene minori spostamenti della politica e un'entropia dell'output più elevata, incoraggiando risposte più diversificate e meno ripetitive. Questi risultati evidenziano OPO come una direzione promettente per un apprendimento per rinforzo stabile ed efficace nei compiti di allineamento e ragionamento dei grandi modelli linguistici. L'implementazione è disponibile all'indirizzo https://github.com/microsoft/LMOps/tree/main/opo.
I modelli di generazione unificati mirano a gestire compiti diversificati attraverso diverse modalità -- come la generazione di testo, la generazione di immagini e il ragionamento visivo-linguistico -- all'interno di un'unica architettura e paradigma di decodifica. I modelli unificati autoregressivi soffrono di un'inferenza lenta a causa della decodifica sequenziale, mentre i modelli unificati non autoregressivi presentano una generalizzazione debole a causa di backbone pre-addestrati limitati. Introduciamo Muddit, un trasformatore di diffusione discreta unificato che consente una generazione veloce e parallela sia per la modalità testuale che per quella visiva. A differenza dei precedenti modelli di diffusione unificati addestrati da zero, Muddit integra forti prior visive da un backbone pre-addestrato per la generazione di immagini da testo con un decoder testuale leggero, permettendo una generazione multimodale flessibile e di alta qualità sotto un'architettura unificata. I risultati empirici dimostrano che Muddit raggiunge prestazioni competitive o superiori rispetto a modelli autoregressivi significativamente più grandi, sia in termini di qualità che di efficienza. Il lavoro evidenzia il potenziale della diffusione puramente discreta, quando equipaggiata con forti prior visive, come backbone scalabile ed efficace per la generazione unificata.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno accelerato significativamente l'automazione della scoperta scientifica, sollevando al contempo preoccupazioni critiche in materia di etica e sicurezza. Per affrontare sistematicamente queste sfide, introduciamo SafeScientist, un innovativo framework di scienziato AI progettato specificamente per migliorare la sicurezza e la responsabilità etica nell'esplorazione scientifica guidata dall'IA. SafeScientist rifiuta proattivamente compiti eticamente inappropriati o ad alto rischio e pone un forte accento sulla sicurezza durante l'intero processo di ricerca. Per garantire una supervisione completa della sicurezza, integriamo molteplici meccanismi difensivi, tra cui il monitoraggio dei prompt, il monitoraggio della collaborazione tra agenti, il monitoraggio dell'uso degli strumenti e un componente di revisione etica. A complemento di SafeScientist, proponiamo SciSafetyBench, un nuovo benchmark progettato specificamente per valutare la sicurezza dell'IA in contesti scientifici, comprendente 240 compiti scientifici ad alto rischio in 6 domini, insieme a 30 strumenti scientifici appositamente progettati e 120 compiti relativi ai rischi degli strumenti. Esperimenti estensivi dimostrano che SafeScientist migliora significativamente le prestazioni di sicurezza del 35\% rispetto ai tradizionali framework di scienziato AI, senza compromettere la qualità dei risultati scientifici. Inoltre, convalidiamo rigorosamente la robustezza della nostra pipeline di sicurezza contro diversi metodi di attacco avversario, confermando ulteriormente l'efficacia del nostro approccio integrato. Il codice e i dati saranno disponibili all'indirizzo https://github.com/ulab-uiuc/SafeScientist. \red{Attenzione: questo articolo contiene dati di esempio che potrebbero essere offensivi o dannosi.}
I recenti progressi nei modelli del mondo hanno rivoluzionato la simulazione di ambienti dinamici, consentendo ai sistemi di prevedere stati futuri e valutare potenziali azioni. Nella guida autonoma, queste capacità aiutano i veicoli a anticipare il comportamento degli altri utenti della strada, eseguire pianificazioni consapevoli del rischio, accelerare l'addestramento in simulazione e adattarsi a scenari nuovi, migliorando così la sicurezza e l'affidabilità. Gli approcci attuali presentano carenze nel mantenere una solida coerenza geometrica 3D o nell'accumulare artefatti durante la gestione delle occlusioni, entrambi aspetti critici per una valutazione affidabile della sicurezza nei compiti di navigazione autonoma. Per affrontare questo problema, introduciamo GeoDrive, che integra esplicitamente condizioni geometriche 3D robuste nei modelli del mondo di guida per migliorare la comprensione spaziale e la controllabilità delle azioni. Nello specifico, estraiamo prima una rappresentazione 3D dal frame di input e poi otteniamo il suo rendering 2D basato sulla traiettoria dell'auto ego specificata dall'utente. Per abilitare la modellazione dinamica, proponiamo un modulo di editing dinamico durante l'addestramento per migliorare i rendering modificando le posizioni dei veicoli. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente i modelli esistenti sia in termini di accuratezza delle azioni che di consapevolezza spaziale 3D, portando a una modellazione di scene più realistica, adattabile e affidabile per una guida autonoma più sicura. Inoltre, il nostro modello può generalizzare a nuove traiettorie e offre capacità di editing interattivo della scena, come l'editing degli oggetti e il controllo delle traiettorie degli oggetti.
Il ragionamento a catena di pensiero (Chain-of-Thought, CoT) consente ai grandi modelli linguistici (Large Language Models, LLMs) di andare oltre le risposte rapide del Sistema 1 e di impegnarsi in un ragionamento deliberativo del Sistema 2. Tuttavia, ciò avviene a scapito di una significativa inefficienza dovuta alla produzione verbosa di output intermedi. I recenti metodi di ragionamento nello spazio latente migliorano l'efficienza operando sugli stati nascosti senza decodificarli in linguaggio, ma trattano tutti i passi in modo uniforme, senza distinguere le deduzioni critiche dai passaggi ausiliari, risultando in un uso subottimale delle risorse computazionali. In questo articolo, proponiamo il Ragionamento Sistema-1.5, un framework adattivo che assegna dinamicamente il calcolo attraverso i passi di ragionamento mediante percorsi abbreviati nello spazio latente. Nello specifico, il Ragionamento Sistema-1.5 introduce due tipi di scorciatoie dinamiche. La scorciatoia di profondità del modello (Depth Shortcut, DS) ragiona adattivamente lungo la profondità verticale uscendo precocemente dai token non critici attraverso rami adattatori leggeri, mentre permette ai token critici di proseguire attraverso gli strati più profondi del Transformer. La scorciatoia di passo (Step Shortcut, SS) riutilizza gli stati nascosti tra i passi di decodifica per saltare i passaggi banali e ragionare orizzontalmente nello spazio latente. L'addestramento del Ragionamento Sistema-1.5 prevede un processo di auto-distillazione in due fasi: prima distillando il CoT in linguaggio naturale in pensiero continuo nello spazio latente, e poi distillando il ragionamento latente completo del Sistema 2 in percorsi abbreviati adattivi (Ragionamento Sistema-1.5). Gli esperimenti su compiti di ragionamento dimostrano la prestazione superiore del nostro metodo. Ad esempio, su GSM8K, il Ragionamento Sistema-1.5 raggiunge prestazioni di ragionamento paragonabili ai metodi tradizionali di fine-tuning CoT, accelerando l'inferenza di oltre 20 volte e riducendo la generazione di token del 92,31% in media.
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer memorizzano il contesto come coppie chiave-valore (KV) durante l'inferenza. Con l'aumentare della lunghezza del contesto, le dimensioni della cache KV si espandono, portando a un sovraccarico di memoria significativo e a una maggiore latenza nell'attenzione. Questo articolo introduce KVzip, un metodo di eliminazione della cache KV indipendente dalle query che consente un riutilizzo efficace delle cache KV compresse su diverse query. KVzip quantifica l'importanza di una coppia KV utilizzando il modello LLM sottostante per ricostruire i contesti originali dalle coppie KV memorizzate, eliminando successivamente le coppie con minore importanza. Valutazioni empiriche estensive dimostrano che KVzip riduce le dimensioni della cache KV di 3-4 volte e la latenza di decodifica di FlashAttention di circa 2 volte, con una perdita di prestazione trascurabile in compiti di risposta alle domande, recupero, ragionamento e comprensione del codice. Le valutazioni includono vari modelli come LLaMA3.1-8B, Qwen2.5-14B e Gemma3-12B, con lunghezze del contesto che raggiungono fino a 170K token. KVzip supera significativamente i metodi esistenti di eliminazione della cache KV basati sulle query, che subiscono un degrado delle prestazioni anche con un rapporto di budget della cache del 90% in scenari multi-query.
I modelli di diffusione hanno dimostrato una qualità di generazione notevole, ma al costo di numerose valutazioni di funzioni. Recentemente, sono stati sviluppati risolutori avanzati basati su ODE per mitigare le sostanziali richieste computazionali della risoluzione della diffusione inversa con un numero limitato di passi di campionamento. Tuttavia, questi risolutori, fortemente ispirati da metodi multistep di tipo Adams, si basano esclusivamente sull'interpolazione di Lagrange relativa a t. Dimostriamo che l'interpolazione di Lagrange relativa a t è subottimale per i modelli di diffusione e riveliamo uno spazio di ricerca compatto composto da passi temporali e coefficienti del risolutore. Basandoci sulla nostra analisi, proponiamo un nuovo algoritmo di ricerca differenziabile per identificare un risolutore più ottimale. Dotati del risolutore trovato, i modelli di flusso rettificato, ad esempio SiT-XL/2 e FlowDCN-XL/2, raggiungono punteggi FID di 2.40 e 2.35, rispettivamente, su ImageNet256 con soli 10 passi. Nel frattempo, il modello DDPM, DiT-XL/2, raggiunge un punteggio FID di 2.33 con soli 10 passi. È importante notare che il nostro risolutore trovato supera i risolutori tradizionali con un margine significativo. Inoltre, il nostro risolutore trovato dimostra generalità su varie architetture di modelli, risoluzioni e dimensioni del modello.
Le consultazioni medico-paziente richiedono una comunicazione multi-turn e contestuale, adattata a diverse tipologie di pazienti. L'addestramento o la valutazione di modelli linguistici (LLM) medici in tali contesti necessita di sistemi di interazione con pazienti realistici. Tuttavia, i simulatori esistenti spesso non riescono a riflettere l'intera gamma di profili osservati nella pratica clinica. Per affrontare questa problematica, introduciamo PatientSim, un simulatore di pazienti che genera profili realistici e diversificati per scenari clinici, basati su competenze mediche. PatientSim opera utilizzando: 1) profili clinici, inclusi sintomi e anamnesi, derivati da dati reali dei dataset MIMIC-ED e MIMIC-IV, e 2) profili definiti da quattro assi: personalità, competenza linguistica, livello di ricordo della storia medica e livello di confusione cognitiva, risultando in 37 combinazioni uniche. Abbiamo valutato otto LLM per accuratezza fattuale e coerenza del profilo. Il modello open-source con le migliori prestazioni, Llama 3.3, è stato validato da quattro clinici per confermare la robustezza del nostro framework. Come piattaforma open-source e personalizzabile, PatientSim offre una soluzione riproducibile e scalabile che può essere adattata a specifiche esigenze formative. Fornendo un ambiente conforme alla privacy, si configura come un solido banco di prova per valutare sistemi di dialogo medico in diverse presentazioni di pazienti e si dimostra promettente come strumento educativo per il settore sanitario.
I benchmark esistenti per la comprensione video spesso confondono domande basate sulla conoscenza e domande puramente basate sulle immagini, piuttosto che isolare chiaramente la capacità di ragionamento temporale di un modello, che è l'aspetto chiave che distingue la comprensione video da altre modalità. Identifichiamo due principali limitazioni che oscurano se punteggi più alti indicano veramente una migliore comprensione del contenuto dinamico nei video: (1) forti priorità linguistiche, dove i modelli possono rispondere alle domande senza guardare il video; e (2) invarianza allo shuffling, dove i modelli mantengono prestazioni simili su determinate domande anche quando i frame del video sono temporalmente mescolati. Per mitigare questi problemi, proponiamo VBenchComp, una pipeline automatizzata che categorizza le domande in diversi domini: LLM-Rispondibili, Semantiche e Temporali. Nello specifico, le domande LLM-Rispondibili possono essere risposte senza guardare il video; le domande Semantiche rimangono rispondibili anche quando i frame del video sono mescolati; e le domande Temporali richiedono la comprensione del corretto ordine temporale dei frame. Le restanti domande sono etichettate come Altro. Questo può consentire una valutazione granulare delle diverse capacità di un LLM video. La nostra analisi rivela debolezze sottili dei modelli che sono nascoste dai punteggi complessivi tradizionali, e offriamo intuizioni e raccomandazioni per progettare futuri benchmark che valutino in modo più accurato gli LLM video.
La generazione di video ha compiuto progressi significativi con l'avvento di modelli generativi profondi, in particolare approcci basati sulla diffusione. Tuttavia, la generazione di video basata su più soggetti di riferimento affronta ancora sfide considerevoli nel mantenere la coerenza multi-soggetto e garantire un'elevata qualità di generazione. In questo articolo, proponiamo MAGREF, un framework unificato per la generazione di video con qualsiasi riferimento, che introduce una guida mascherata per abilitare la sintesi coerente di video multi-soggetto condizionata da diverse immagini di riferimento e un prompt testuale. Nello specifico, proponiamo (1) un meccanismo di mascheramento dinamico consapevole della regione che consente a un singolo modello di gestire flessibilmente varie inferenze di soggetti, inclusi esseri umani, oggetti e sfondi, senza modifiche architetturali, e (2) un meccanismo di concatenazione canale a livello di pixel che opera sulla dimensione del canale per preservare meglio le caratteristiche di aspetto. Il nostro modello offre una qualità di generazione video all'avanguardia, generalizzando dall'addestramento su singoli soggetti a scenari multi-soggetto complessi con sintesi coerente e controllo preciso sui singoli soggetti, superando le baseline esistenti open-source e commerciali. Per facilitare la valutazione, introduciamo anche un benchmark completo per video multi-soggetto. Esperimenti estesi dimostrano l'efficacia del nostro approccio, aprendo la strada a una sintesi video multi-soggetto scalabile, controllabile e ad alta fedeltà. Codice e modello sono disponibili al seguente link: https://github.com/MAGREF-Video/MAGREF
I Large Language Model (LLM) generano soluzioni funzionalmente corrette ma spesso non raggiungono l'efficienza del codice, un collo di bottiglia critico per il deployment nel mondo reale. In questo articolo, introduciamo un nuovo framework di ottimizzazione iterativa al momento del test per affrontare questo problema, impiegando un sistema a ciclo chiuso in cui gli LLM affinano iterativamente il codice basandosi su feedback empirici di prestazioni provenienti da un sandbox di esecuzione. Esploriamo tre strategie di addestramento: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) e Group Relative Policy Optimization (GRPO). Gli esperimenti sul nostro dataset Venus e sul benchmark APPS mostrano che SFT e DPO saturano rapidamente i guadagni in termini di efficienza. Al contrario, GRPO, utilizzando il reinforcement learning (RL) con feedback di esecuzione, ottimizza continuamente le prestazioni del codice, migliorando significativamente sia il pass@1 (dal 47% al 62%) sia la probabilità di superare i contributi umani in termini di efficienza (dal 31% al 45%). Il nostro lavoro dimostra un miglioramento efficace dell'efficienza del codice al momento del test e rivela in modo critico il potere del RL nell'insegnare agli LLM a migliorare veramente l'efficienza del codice in modo autonomo.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un potenziale promettente nella persuasione, ma i lavori esistenti sull'addestramento di persuasori basati su LLM sono ancora preliminari. In particolare, mentre gli esseri umani sono abili nel modellare in modo proattivo e dinamico i pensieri e le opinioni dell'avversario, gli attuali LLM faticano con questo tipo di ragionamento basato sulla Teoria della Mente (ToM), risultando in una diversità limitata e una scarsa consapevolezza dell'avversario. Per affrontare questa limitazione, introduciamo il Persuader Aumentato dalla Teoria della Mente (ToMAP), un approccio innovativo per costruire agenti persuasori più flessibili incorporando due moduli di teoria della mente che migliorano la consapevolezza e l'analisi dello stato mentale dell'avversario. Nello specifico, iniziamo sollecitando il persuasore a considerare possibili obiezioni alla tesi centrale, e poi utilizziamo un encoder di testo accoppiato a un classificatore MLP addestrato per prevedere la posizione attuale dell'avversario su queste controargomentazioni. Il nostro schema di apprendimento per rinforzo, progettato con cura, consente al persuasore di imparare come analizzare le informazioni relative all'avversario e utilizzarle per generare argomentazioni più efficaci. Gli esperimenti mostrano che il persuasore ToMAP, pur contenendo solo 3 miliardi di parametri, supera baseline molto più grandi, come GPT-4o, con un guadagno relativo del 39,4% su più modelli di persuasi e corpora diversi. In particolare, ToMAP mostra catene di ragionamento complesse e una riduzione della ripetizione durante l'addestramento, il che porta a argomentazioni più diversificate ed efficaci. La caratteristica di consapevolezza dell'avversario di ToMAP lo rende anche adatto a conversazioni lunghe e gli permette di impiegare strategie più logiche e consapevoli dell'avversario. Questi risultati sottolineano l'efficacia del nostro metodo e ne evidenziano il potenziale per sviluppare agenti linguistici più persuasivi. Il codice è disponibile all'indirizzo: https://github.com/ulab-uiuc/ToMAP.
In questo articolo, unifichiamo più di 10 approcci esistenti di distillazione one-step per la diffusione, come Diff-Instruct, DMD, SIM, SiD, f-distill, ecc., all'interno di un framework teorico che abbiamo denominato \emph{Uni-Instruct}. Uni-Instruct è motivato dalla nostra teoria proposta di espansione della diffusione per la famiglia delle f-divergenze. Introduciamo quindi teorie chiave che superano il problema di intrattabilità della f-divergenza espansa originale, ottenendo una funzione di perdita equivalente ma trattabile che addestra efficacemente modelli di diffusione one-step minimizzando la famiglia delle f-divergenze espanse. La nuova unificazione introdotta da Uni-Instruct non solo offre contributi teorici che aiutano a comprendere gli approcci esistenti da una prospettiva di alto livello, ma porta anche a prestazioni all'avanguardia nella generazione one-step con diffusione. Sul benchmark di generazione CIFAR10, Uni-Instruct raggiunge valori record di Frechet Inception Distance (FID) di \emph{1.46} per la generazione incondizionata e \emph{1.38} per la generazione condizionata. Sul benchmark di generazione ImageNet-64x64, Uni-Instruct raggiunge un nuovo SoTA FID di generazione one-step di \emph{1.02}, superando il suo modello di diffusione insegnante a 79 passi con un margine di miglioramento significativo di 1.33 (1.02 vs 2.35). Applichiamo inoltre Uni-Instruct a compiti più ampi come la generazione testo-3D. Per la generazione testo-3D, Uni-Instruct fornisce risultati decenti, che superano leggermente i metodi precedenti, come SDS e VSD, sia in termini di qualità che di diversità della generazione. Sia i solidi contributi teorici che empirici di Uni-Instruct potranno potenzialmente aiutare studi futuri sulla distillazione one-step della diffusione e sul trasferimento di conoscenza nei modelli di diffusione.
I recenti progressi nei Modelli Linguistico-Visivi di Grande Scala (LVLM) hanno reso possibili applicazioni promettenti in ambito medico, come la generazione di referti e il rispondere a domande visive. Tuttavia, i benchmark esistenti si concentrano principalmente sulla risposta diagnostica finale, offrendo una visione limitata sul fatto che i modelli siano in grado di effettuare ragionamenti clinicamente significativi. Per affrontare questa lacuna, presentiamo CheXStruct e CXReasonBench, una pipeline strutturata e un benchmark basati sul dataset pubblico MIMIC-CXR-JPG. CheXStruct deriva automaticamente una sequenza di passaggi intermedi di ragionamento direttamente dalle radiografie del torace, come la segmentazione delle regioni anatomiche, l'individuazione di punti di riferimento anatomici e misurazioni diagnostiche, il calcolo di indici diagnostici e l'applicazione di soglie cliniche. CXReasonBench utilizza questa pipeline per valutare se i modelli siano in grado di eseguire passaggi di ragionamento clinicamente validi e in che misura possano apprendere da una guida strutturata, consentendo una valutazione granulare e trasparente del ragionamento diagnostico. Il benchmark comprende 18.988 coppie domanda-risposta su 12 task diagnostici e 1.200 casi, ciascuno associato a un massimo di 4 input visivi, e supporta una valutazione multi-percorso e multi-stadio, inclusa la localizzazione visiva tramite la selezione di regioni anatomiche e misurazioni diagnostiche. Anche il più forte tra i 10 LVLM valutati fatica nel ragionamento strutturato e nella generalizzazione, spesso non riuscendo a collegare conoscenze astratte con un'interpretazione visiva radicata nell'anatomia. Il codice è disponibile all'indirizzo https://github.com/ttumyche/CXReasonBench.
La separazione delle sorgenti audio è fondamentale affinché le macchine possano comprendere ambienti acustici complessi e costituisce la base per numerose applicazioni audio. Gli attuali approcci di deep learning supervisionato, sebbene potenti, sono limitati dalla necessità di dati etichettati estesi e specifici per il compito e faticano a generalizzare l'enorme variabilità e la natura open-set delle scene acustiche del mondo reale. Ispirati dal successo dei modelli generativi di base, abbiamo indagato se i modelli di diffusione audio guidati da testo pre-addestrati possano superare queste limitazioni. Abbiamo fatto una scoperta sorprendente: la separazione delle sorgenti zero-shot può essere ottenuta esclusivamente attraverso un modello di diffusione audio guidato da testo pre-addestrato, con la giusta configurazione. Il nostro metodo, denominato ZeroSep, funziona invertendo l'audio misto nello spazio latente del modello di diffusione e utilizzando poi il condizionamento testuale per guidare il processo di denoising al fine di recuperare le singole sorgenti. Senza alcun addestramento o fine-tuning specifico per il compito, ZeroSep ripropone il modello generativo di diffusione per un'attività discriminativa di separazione e supporta intrinsecamente scenari open-set grazie ai suoi ricchi prior testuali. ZeroSep è compatibile con una varietà di modelli di diffusione audio guidati da testo pre-addestrati e offre prestazioni di separazione solide su molteplici benchmark di separazione, superando persino i metodi supervisionati.
Proponiamo un framework unificato per il controllo del movimento nella generazione di video che integra in modo fluido il movimento della telecamera, la traslazione a livello di oggetto e il movimento locale dettagliato utilizzando input basati su traiettorie. A differenza dei metodi precedenti che affrontano questi tipi di movimento attraverso moduli separati o design specifici per il compito, il nostro approccio offre una soluzione coerente proiettando traiettorie definite dall'utente nello spazio latente di modelli pre-addestrati per la generazione di video da immagini tramite un iniettore di movimento leggero. Gli utenti possono specificare punti chiave e i loro percorsi di movimento per controllare deformazioni localizzate, il movimento completo di un oggetto, dinamiche della telecamera virtuale o combinazioni di questi. I segnali di traiettoria iniettati guidano il processo generativo per produrre sequenze di movimento temporalmente coerenti e semanticamente allineate. Il nostro framework dimostra prestazioni superiori in molteplici compiti di controllo del movimento video, inclusi effetti di movimento stilizzati (ad esempio, pennelli di movimento), cambiamenti dinamici del punto di vista e manipolazione precisa del movimento locale. Gli esperimenti mostrano che il nostro metodo offre una controllabilità e una qualità visiva significativamente migliori rispetto agli approcci precedenti e alle soluzioni commerciali, pur rimanendo ampiamente compatibile con vari modelli all'avanguardia per la generazione di video. Pagina del progetto: https://anytraj.github.io/.
I Diffusion Transformer (DiT) sono diventati il modello di riferimento per la generazione di contenuti visivi di alta qualità come video e immagini. Un grosso collo di bottiglia è rappresentato dal meccanismo di attenzione, la cui complessità scala quadraticamente con la risoluzione e la durata del video. Un approccio logico per ridurre questo carico è l'attenzione sparsa, in cui solo un sottoinsieme di token o patch viene incluso nel calcolo. Tuttavia, le tecniche esistenti non riescono a preservare la qualità visiva a livelli di sparsità estremamente elevati e potrebbero persino comportare un overhead computazionale non trascurabile. Per affrontare questo problema, proponiamo Re-ttention, che implementa un'attenzione sparsa molto elevata per i modelli di generazione visiva sfruttando la ridondanza temporale dei Diffusion Model per superare lo spostamento di normalizzazione probabilistica all'interno del meccanismo di attenzione. Nello specifico, Re-ttention rimodella i punteggi di attenzione basandosi sulla storia delle distribuzioni softmax precedenti, al fine di preservare la qualità visiva dell'attenzione quadratica completa a livelli di sparsità molto elevati. I risultati sperimentali su modelli T2V/T2I come CogVideoX e i PixArt DiT dimostrano che Re-ttention richiede solo il 3,1% dei token durante l'inferenza, superando metodi contemporanei come FastDiTAttn, Sparse VideoGen e MInference. Inoltre, abbiamo misurato la latenza per dimostrare che il nostro metodo può ottenere una riduzione della latenza end-to-end superiore al 45% e una riduzione della latenza di self-attention superiore al 92% su una GPU H100 con un costo overhead trascurabile. Il codice è disponibile online qui: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
Abbiamo addestrato 13.440 modelli linguistici di grandi dimensioni e abbiamo scoperto che la minimizzazione dell'entropia richiede solo un singolo dato non etichettato e 10 passi di ottimizzazione per ottenere miglioramenti delle prestazioni paragonabili o addirittura superiori a quelli ottenuti utilizzando migliaia di dati e ricompense progettate con cura nell'apprendimento per rinforzo basato su regole. Questo risultato sorprendente potrebbe portare a una revisione dei paradigmi di post-addestramento per i modelli linguistici di grandi dimensioni. Il nostro codice è disponibile all'indirizzo https://github.com/zitian-gao/one-shot-em.
I rebus, enigmi visivi che codificano il linguaggio attraverso immagini, disposizione spaziale e sostituzione simbolica, rappresentano una sfida unica per gli attuali modelli visione-linguaggio (VLMs). A differenza dei tradizionali compiti di descrizione delle immagini o di risposta alle domande, la risoluzione dei rebus richiede astrazione multimodale, ragionamento simbolico e una comprensione di giochi di parole culturali, fonetici e linguistici. In questo articolo, indaghiamo la capacità dei VLMs contemporanei di interpretare e risolvere rebus costruendo un benchmark generato e annotato manualmente di vari rebus in lingua inglese, che spaziano da semplici sostituzioni pittografiche a indizi dipendenti dalla disposizione spaziale ("testa" sopra "talloni"). Analizziamo le prestazioni di diversi VLMs, e i nostri risultati rivelano che, sebbene i VLMs mostrino alcune sorprendenti capacità nel decodificare indizi visivi semplici, hanno notevoli difficoltà con compiti che richiedono ragionamento astratto, pensiero laterale e comprensione di metafore visive.
I recenti Large Reasoning Models (LRM) con tracce di pensiero hanno dimostrato prestazioni solide nei compiti di ragionamento in inglese. Tuttavia, la loro capacità di pensare in altre lingue è meno studiata. Questa capacità è importante tanto quanto l'accuratezza delle risposte per le applicazioni nel mondo reale, poiché gli utenti potrebbero trovare utile la traccia di ragionamento per il controllo solo quando è espressa nella loro lingua. Valutiamo in modo completo due famiglie leader di LRM sul nostro benchmark XReasoning e scopriamo che anche i modelli più avanzati spesso ricadono sull'inglese o producono ragionamenti frammentati in altre lingue, rivelando un divario sostanziale nel ragionamento multilingue. Interventi basati su prompt che costringono i modelli a ragionare nella lingua dell'utente migliorano la leggibilità e il controllo, ma riducono l'accuratezza delle risposte, evidenziando un importante compromesso. Mostriamo inoltre che un addestramento mirato su soli 100 esempi mitiga questa discrepanza, sebbene rimanga una certa perdita di accuratezza. I nostri risultati evidenziano le limitate capacità di ragionamento multilingue degli attuali LRM e delineano direzioni per lavori futuri. Codice e dati sono disponibili su https://github.com/Betswish/mCoT-XReasoning.
I modelli visione-linguaggio (VLMs) hanno dimostrato forti capacità nell'allineare le modalità visive e testuali, abilitando un'ampia gamma di applicazioni nella comprensione e generazione multimodale. Sebbene eccellano in scenari di apprendimento zero-shot e trasferito, i VLMs rimangono suscettibili a errori di classificazione, spesso producendo previsioni sicure ma errate. Questa limitazione rappresenta un rischio significativo in domini critici per la sicurezza, dove previsioni errate possono portare a gravi conseguenze. In questo lavoro, introduciamo TrustVLM, un framework senza necessità di addestramento progettato per affrontare la sfida cruciale di stimare quando le previsioni di un VLM possono essere considerate affidabili. Motivati dal gap modale osservato nei VLMs e dall'intuizione che certi concetti sono rappresentati in modo più distinto nello spazio di embedding delle immagini, proponiamo una nuova funzione di punteggio di confidenza che sfrutta questo spazio per migliorare il rilevamento degli errori di classificazione. Valutiamo rigorosamente il nostro approccio su 17 dataset diversi, impiegando 4 architetture e 2 VLMs, e dimostriamo prestazioni all'avanguardia, con miglioramenti fino al 51,87% in AURC, 9,14% in AUROC e 32,42% in FPR95 rispetto ai baseline esistenti. Migliorando l'affidabilità del modello senza richiedere riaddestramento, TrustVLM apre la strada a un deployment più sicuro dei VLMs in applicazioni reali. Il codice sarà disponibile all'indirizzo https://github.com/EPFL-IMOS/TrustVLM.
Presentiamo UniTEX, un innovativo framework a due stadi per la generazione di texture 3D, progettato per creare texture di alta qualità e coerenti per asset 3D. Gli approcci esistenti si basano principalmente sull'inpainting basato su UV per affinare le texture dopo aver riproiettato le immagini multi-vista generate sulle forme 3D, introducendo sfide legate all'ambiguità topologica. Per affrontare questo problema, proponiamo di superare i limiti del mapping UV operando direttamente in uno spazio funzionale 3D unificato. Nello specifico, inizialmente proponiamo di elevare la generazione di texture nello spazio 3D attraverso le Funzioni di Texture (TFs)—una rappresentazione volumetrica continua che mappa qualsiasi punto 3D a un valore di texture basato esclusivamente sulla prossimità della superficie, indipendentemente dalla topologia della mesh. Successivamente, proponiamo di prevedere queste TFs direttamente da immagini e input geometrici utilizzando un Large Texturing Model (LTM) basato su transformer. Per migliorare ulteriormente la qualità delle texture e sfruttare potenti priorità 2D, sviluppiamo una strategia avanzata basata su LoRA per adattare in modo efficiente i Diffusion Transformers (DiTs) su larga scala per la sintesi di texture multi-vista di alta qualità come nostro primo stadio. Esperimenti estensivi dimostrano che UniTEX raggiunge una qualità visiva e un'integrità delle texture superiori rispetto agli approcci esistenti, offrendo una soluzione generalizzabile e scalabile per la generazione automatica di texture 3D. Il codice sarà disponibile su: https://github.com/YixunLiang/UniTEX.
Il Gaussian Splatting (GS) è emerso recentemente come una rappresentazione efficiente per il rendering di scene 3D a partire da immagini 2D ed è stato esteso a immagini, video e contenuti dinamici 4D. Tuttavia, applicare il trasferimento di stile alle rappresentazioni basate su GS, specialmente oltre semplici cambiamenti di colore, rimane una sfida. In questo lavoro, introduciamo CLIPGaussians, il primo framework unificato per il trasferimento di stile che supporta la stilizzazione guidata da testo e immagini attraverso molteplici modalità: immagini 2D, video, oggetti 3D e scene 4D. Il nostro metodo opera direttamente sulle primitive gaussiane e si integra nelle pipeline esistenti di GS come modulo plug-in, senza richiedere grandi modelli generativi o un riaddestramento da zero. L'approccio CLIPGaussians consente l'ottimizzazione congiunta di colore e geometria in contesti 3D e 4D, e raggiunge la coerenza temporale nei video, mantenendo al contempo una dimensione ridotta del modello. Dimostriamo una fedeltà e coerenza di stile superiori in tutti i compiti, validando CLIPGaussians come una soluzione universale ed efficiente per il trasferimento di stile multimodale.
I metodi esistenti di distillazione a catena di pensiero (CoT) possono trasferire efficacemente le capacità di ragionamento ai modelli di base, ma soffrono di due principali limitazioni: l'eccessiva verbosità delle tracce di ragionamento e l'inadeguata adattabilità alla difficoltà del problema. Le lunghe tracce di ragionamento aumentano significativamente i costi di inferenza, e le soluzioni di lunghezza uniforme impediscono ai modelli di base di apprendere strategie di ragionamento adattive. Per affrontare questi problemi, proponiamo un metodo di prompting consapevole della difficoltà (DAP) per accorciare dinamicamente le tracce di ragionamento senza perdita di prestazioni. Nel nostro approccio, un grande modello insegnante valuta prima la difficoltà di ciascun problema e poi riscrive le sue tracce di ragionamento a una lunghezza appropriata più breve, producendo tracce di ragionamento concise ma complete. Sfruttando la pipeline DAP, abbiamo curato un dataset distillato chiamato LiteCoT, composto da 100K esempi di ragionamento concisi, con soluzioni che in media contengono solo 720 token (un ordine di grandezza più breve rispetto alle tipiche CoT). Utilizzando LiteCoT, abbiamo distillato una nuova famiglia di modelli di ragionamento chiamata Liter (1.5B, 7B e 32B) basata sull'architettura Qwen2.5. Gli esperimenti mostrano che un modello studente fine-tuned su soli 100K di questi campioni CoT selezionati per difficoltà supera un modello distillato su 800K campioni originali di Long CoT, riducendo significativamente i costi di addestramento e inferenza. Il nostro metodo generalizza bene: su 11 benchmark diversi, le CoT più brevi e consapevoli della difficoltà raggiungono una precisione uguale o migliore rispetto alle catene lunghe, utilizzando molti meno token. Ad esempio, sul difficile esame AIME24, il nostro approccio raggiunge il 74.2% di Pass@1 utilizzando solo circa 5K token di inferenza, superando altri metodi che consumano molti più token. Il nostro codice e i dati sono disponibili su https://github.com/Evanwu1125/LiteCoT.
L'intelligenza spaziale è essenziale per i modelli linguistici multimodali di grandi dimensioni (MLLMs) che operano nel complesso mondo fisico. Tuttavia, i benchmark esistenti analizzano solo le relazioni su singole immagini, fallendo così nel valutare il ragionamento spaziale su più immagini richiesto dalle applicazioni nel mondo reale. Introduciamo MMSI-Bench, un benchmark di VQA dedicato all'intelligenza spaziale su più immagini. Sei ricercatori di visione 3D hanno trascorso oltre 300 ore per creare meticolosamente 1.000 domande a scelta multipla complesse e inequivocabili, tratte da oltre 120.000 immagini, ciascuna associata a distrattori progettati con cura e a un processo di ragionamento passo-passo. Abbiamo condotto esperimenti estesi e valutato approfonditamente 34 MLLM open-source e proprietari, osservando un ampio divario: il modello open-source più performante raggiunge circa il 30% di accuratezza, mentre il modello di ragionamento o3 di OpenAI arriva al 40%, contro il 97% degli esseri umani. Questi risultati evidenziano la natura impegnativa di MMSI-Bench e il notevole margine di miglioramento per la ricerca futura. Sfruttando i processi di ragionamento annotati, forniamo anche una pipeline automatizzata per l'analisi degli errori che diagnostica quattro modalità di fallimento dominanti, tra cui (1) errori di grounding, (2) errori di corrispondenza delle sovrapposizioni e ricostruzione della scena, (3) errori di ragionamento nella trasformazione della situazione e (4) errori di logica spaziale, offrendo spunti preziosi per far progredire l'intelligenza spaziale su più immagini. Pagina del progetto: https://runsenxu.com/projects/MMSI_Bench.
Presentiamo un framework basato su keyframe per generare video di danza animale sincronizzati con la musica e consapevoli della coreografia. Partendo da pochi keyframe che rappresentano pose distinte degli animali – generati tramite prompt da testo a immagine o GPT-4o – formuliamo la sintesi della danza come un problema di ottimizzazione su grafo: trovare la struttura ottimale dei keyframe che soddisfa uno schema coreografico specifico di battute, che può essere stimato automaticamente da un video di danza di riferimento. Introduciamo inoltre un approccio per la generazione di immagini di pose speculari, essenziale per catturare la simmetria nella danza. I fotogrammi intermedi vengono sintetizzati utilizzando un modello di diffusione video. Con appena sei keyframe in input, il nostro metodo è in grado di produrre video di danza della durata fino a 30 secondi, applicabile a una vasta gamma di animali e brani musicali.
I modelli Feed-forward 3D Gaussian Splatting (3DGS) sono emersi recentemente come una soluzione promettente per la sintesi di nuove viste, consentendo un'inferenza in un solo passaggio senza la necessità di un'ottimizzazione 3DGS per ogni scena. Tuttavia, la loro scalabilità è fondamentalmente limitata dalla capacità ridotta dei loro encoder, portando a prestazioni degradate o a un consumo eccessivo di memoria all'aumentare del numero di viste di input. In questo lavoro, analizziamo i framework feed-forward 3DGS attraverso la lente del principio del Collo di Bottiglia dell'Informazione e introduciamo ZPressor, un modulo leggero e indipendente dall'architettura che consente una compressione efficiente degli input multi-vista in uno stato latente compatto Z che conserva le informazioni essenziali della scena eliminando le ridondanze. Nello specifico, ZPressor permette ai modelli feed-forward 3DGS esistenti di scalare fino a oltre 100 viste di input a risoluzione 480P su una GPU da 80GB, suddividendo le viste in set di ancoraggio e supporto e utilizzando l'attenzione incrociata per comprimere le informazioni dalle viste di supporto nelle viste di ancoraggio, formando lo stato latente compresso Z. Dimostriamo che l'integrazione di ZPressor in diversi modelli feed-forward 3DGS all'avanguardia migliora costantemente le prestazioni con un numero moderato di viste di input e aumenta la robustezza in contesti di viste dense su due benchmark su larga scala, DL3DV-10K e RealEstate10K. I risultati video, il codice e i modelli addestrati sono disponibili sulla nostra pagina del progetto: https://lhmd.top/zpressor.
Lo sviluppo di software ad alte prestazioni è un compito complesso che richiede competenze specializzate. Introduciamo GSO, un benchmark per valutare le capacità dei modelli linguistici nello sviluppo di software ad alte prestazioni. Abbiamo sviluppato una pipeline automatizzata che genera ed esegue test di prestazione per analizzare le cronologie dei commit dei repository, identificando 102 compiti di ottimizzazione impegnativi in 10 codebase, che coprono diversi domini e linguaggi di programmazione. A un agente viene fornita una codebase e un test di prestazione come specifica precisa, con il compito di migliorare l'efficienza di runtime, che viene misurata rispetto all'ottimizzazione effettuata da sviluppatori esperti. La nostra valutazione quantitativa rivela che i principali SWE-Agenti incontrano notevoli difficoltà, raggiungendo un tasso di successo inferiore al 5%, con miglioramenti limitati anche con il ridimensionamento al momento dell'inferenza. La nostra analisi qualitativa identifica i principali modi di fallimento, tra cui difficoltà con linguaggi di basso livello, l'adozione di strategie di ottimizzazione pigre e le sfide nel localizzare con precisione i colli di bottiglia. Rilasciamo il codice e gli artefatti del nostro benchmark insieme alle traiettorie degli agenti per consentire future ricerche.
Sebbene le rappresentazioni multimodali pre-addestrate (ad esempio, CLIP) abbiano dimostrato capacità impressionanti, presentano significative vulnerabilità composizionali che portano a giudizi controintuitivi. Introduciamo Multimodal Adversarial Compositionality (MAC), un benchmark che sfrutta i grandi modelli linguistici (LLM) per generare campioni di testo ingannevoli al fine di sfruttare queste vulnerabilità attraverso diverse modalità e le valuta sia attraverso il tasso di successo degli attacchi a livello di campione che attraverso la diversità basata sull'entropia a livello di gruppo. Per migliorare i metodi zero-shot, proponiamo un approccio di auto-addestramento che utilizza il fine-tuning con campionamento di rifiuto e filtraggio che promuove la diversità, migliorando sia il tasso di successo degli attacchi che la diversità dei campioni. Utilizzando modelli linguistici più piccoli come Llama-3.1-8B, il nostro approccio dimostra prestazioni superiori nel rivelare vulnerabilità composizionali in varie rappresentazioni multimodali, incluse immagini, video e audio.
Negli ultimi anni si sono registrati rapidi progressi nella generazione di immagini basata sull'intelligenza artificiale. I primi modelli di diffusione si concentravano sulla qualità percettiva, mentre i più recenti modelli multimodali come GPT-4o-image integrano un ragionamento di alto livello, migliorando la comprensione semantica e la composizione strutturale. La generazione di illustrazioni scientifiche esemplifica questa evoluzione: a differenza della sintesi generale di immagini, richiede un'interpretazione accurata di contenuti tecnici e la trasformazione di idee astratte in visualizzazioni chiare e standardizzate. Questo compito è significativamente più intensivo in termini di conoscenza e laborioso, spesso richiedendo ore di lavoro manuale e strumenti specializzati. Automatizzarlo in modo controllabile e intelligente offrirebbe un valore pratico sostanziale. Tuttavia, attualmente non esiste un benchmark per valutare l'IA su questo fronte. Per colmare questa lacuna, introduciamo SridBench, il primo benchmark per la generazione di figure scientifiche. Esso comprende 1.120 istanze curate da articoli scientifici di rilievo in 13 discipline delle scienze naturali e informatiche, raccolte tramite esperti umani e MLLM. Ogni campione è valutato lungo sei dimensioni, tra cui fedeltà semantica e accuratezza strutturale. I risultati sperimentali rivelano che anche modelli di punta come GPT-4o-image sono inferiori alle prestazioni umane, con problemi comuni nella chiarezza testuale/visiva e nella correttezza scientifica. Questi risultati evidenziano la necessità di capacità più avanzate di generazione visiva guidata dal ragionamento.
I referti radiologici trasmettono osservazioni cliniche dettagliate e catturano il ragionamento diagnostico che si evolve nel tempo. Tuttavia, i metodi di valutazione esistenti sono limitati a contesti di singoli referti e si basano su metriche grossolane che non riescono a cogliere la semantica clinica fine e le dipendenze temporali. Introduciamo LUNGUAGE, un dataset di riferimento per la generazione strutturata di referti radiologici che supporta sia la valutazione di singoli referti sia l'analisi longitudinale a livello di paziente attraverso più studi. Esso contiene 1.473 referti di radiografie toraciche annotati, ciascuno revisionato da esperti, e 80 di essi contengono annotazioni longitudinali per catturare la progressione della malattia e gli intervalli tra gli studi, anch'essi revisionati da esperti. Utilizzando questo benchmark, sviluppiamo un framework a due stadi che trasforma i referti generati in rappresentazioni strutturate allineate a uno schema fine, consentendo un'interpretazione longitudinale. Proponiamo inoltre LUNGUAGESCORE, una metrica interpretabile che confronta gli output strutturati a livello di entità, relazione e attributo, modellando al contempo la coerenza temporale lungo le linee temporali dei pazienti. Questi contributi stabiliscono il primo dataset di riferimento, framework di strutturazione e metrica di valutazione per la refertazione radiologica sequenziale, con risultati empirici che dimostrano che LUNGUAGESCORE supporta efficacemente la valutazione dei referti strutturati. Il codice è disponibile all'indirizzo: https://github.com/SuperSupermoon/Lunguage
Le crescenti capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire compiti come la comprensione dei grafici. Tuttavia, questi modelli spesso soffrono di allucinazioni, in cui le sequenze di testo generate sono in conflitto con i dati visivi forniti. Per affrontare questo problema, introduciamo l'Attribuzione Visiva Post-Hoc per i Grafici, che identifica elementi granulari del grafico che convalidano una determinata risposta associata al grafico. Proponiamo ChartLens, un innovativo algoritmo di attribuzione per grafici che utilizza tecniche basate sulla segmentazione per identificare gli oggetti del grafico e impiega il prompting a set-of-marks con MLLM per un'attribuzione visiva granulare. Inoltre, presentiamo ChartVA-Eval, un benchmark con grafici sintetici e del mondo reale provenienti da diversi ambiti come finanza, politica ed economia, caratterizzato da annotazioni di attribuzione granulari. Le nostre valutazioni dimostrano che ChartLens migliora le attribuzioni granulari del 26-66%.
I grandi modelli linguistici sono stati ampiamente studiati come basi di conoscenza neurale per la loro capacità di accesso, modifica, ragionamento e spiegabilità della conoscenza. Tuttavia, pochi lavori si sono concentrati sui modelli strutturali della loro conoscenza. Motivati da questa lacuna, indaghiamo questi modelli strutturali da una prospettiva grafica. Quantifichiamo la conoscenza dei LLM sia a livello di tripletta che di entità, e analizziamo come essa si relaziona alle proprietà strutturali del grafo, come il grado dei nodi. Inoltre, scopriamo l'omofilia della conoscenza, dove entità topologicamente vicine mostrano livelli simili di conoscenza, il che ci motiva ulteriormente a sviluppare modelli di apprendimento automatico su grafi per stimare la conoscenza delle entità basandosi sui loro vicini locali. Questo modello consente inoltre un prezioso controllo della conoscenza selezionando triplette meno note ai LLM. I risultati empirici dimostrano che l'uso di triplette selezionate per il fine-tuning porta a prestazioni superiori.
L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è diventata una tecnica standard per allineare i modelli linguistici con le preferenze umane in modo supervisionato. Nonostante il suo successo empirico, la giustificazione teorica alla base della sua parametrizzazione della ricompensa logaritmica rimane incompleta. In questo lavoro, affrontiamo questa lacuna utilizzando la Distribuzione Differenziale dell'Informazione (Differential Information Distribution, DID): una distribuzione sulle sequenze di token che cattura l'informazione acquisita durante gli aggiornamenti della politica. In primo luogo, dimostriamo che quando le etichette di preferenza codificano l'informazione differenziale necessaria per trasformare una politica di riferimento in una politica target, la ricompensa logaritmica nella DPO emerge come la forma unicamente ottimale per apprendere la politica target tramite l'ottimizzazione delle preferenze. Questo risultato produce naturalmente un'espressione in forma chiusa per la distribuzione di campionamento ottimale sulle risposte rifiutate. In secondo luogo, scopriamo che la condizione affinché le preferenze codifichino l'informazione differenziale è fondamentalmente legata a un'assunzione implicita riguardo alle politiche ordinate per margine logaritmico, un bias induttivo ampiamente utilizzato nell'ottimizzazione delle preferenze ma precedentemente non riconosciuto. Infine, analizzando l'entropia della DID, caratterizziamo come l'apprendimento di informazioni differenziali a bassa entropia rafforzi la distribuzione della politica, mentre informazioni differenziali ad alta entropia inducono un effetto di livellamento, che spiega il fenomeno dello spostamento della log-verosimiglianza. Convalidiamo le nostre scoperte teoriche in esperimenti sintetici e le estendiamo a dataset reali di esecuzione di istruzioni. I nostri risultati suggeriscono che l'apprendimento di informazioni differenziali ad alta entropia è cruciale per l'esecuzione generale di istruzioni, mentre l'apprendimento di informazioni differenziali a bassa entropia beneficia la risposta a domande ad alta intensità di conoscenza. Nel complesso, il nostro lavoro presenta una prospettiva unificante sull'obiettivo della DPO, la struttura dei dati di preferenza e i comportamenti risultanti delle politiche attraverso la lente dell'informazione differenziale.
Mentre l'apprendimento per rinforzo (RL) su catene di pensiero ha significativamente migliorato i modelli linguistici in compiti come la matematica e la programmazione, il ragionamento visivo introduce una complessità aggiuntiva richiedendo ai modelli di dirigere l'attenzione visiva, interpretare input percettivi e ancorare il ragionamento astratto a evidenze spaziali. Introduciamo ViGoRL (Visually Grounded Reinforcement Learning), un modello visione-linguaggio addestrato con RL per ancorare esplicitamente ogni passo di ragionamento a coordinate visive specifiche. Ispirato dal processo decisionale visivo umano, ViGoRL impara a produrre tracce di ragionamento spazialmente ancorate, guidando l'attenzione visiva verso regioni rilevanti per il compito a ogni passo. Quando è necessaria un'esplorazione fine, il nostro innovativo framework RL multi-turn consente al modello di ingrandire dinamicamente le coordinate previste man mano che il ragionamento procede. Su un insieme diversificato di benchmark di ragionamento visivo—inclusi SAT-2 e BLINK per il ragionamento spaziale, V*bench per la ricerca visiva, e ScreenSpot e VisualWebArena per l'ancoraggio basato sul web—ViGoRL supera costantemente sia il fine-tuning supervisionato che i baseline RL convenzionali privi di meccanismi espliciti di ancoraggio. L'incorporazione del RL multi-turn con feedback visivo ingrandito migliora significativamente le prestazioni di ViGoRL nel localizzare piccoli elementi GUI e nella ricerca visiva, raggiungendo l'86,4% su V*Bench. Inoltre, scopriamo che l'ancoraggio amplifica altri comportamenti visivi come l'esplorazione di regioni, la definizione di sottobiettivi ancorati e la verifica visiva. Infine, valutazioni umane mostrano che i riferimenti visivi del modello non sono solo spazialmente accurati, ma anche utili per comprendere i passi di ragionamento del modello. I nostri risultati dimostrano che il RL visivamente ancorato è un paradigma forte per dotare i modelli di ragionamento visivo di uso generale.
L'obiettivo principale della quantizzazione post-addestramento (PTQ) è produrre un modello compresso la cui distribuzione di output sia il più vicina possibile a quella del modello originale. Per rendere questo processo trattabile, quasi tutti gli algoritmi PTQ per LLM quantizzano i livelli lineari minimizzando in modo indipendente l'errore di attivazione immediato. Tuttavia, questo obiettivo localizzato ignora l'effetto dei livelli successivi, quindi ridurlo non garantisce necessariamente un modello più vicino. In questo lavoro, introduciamo Yet Another Quantization Algorithm (YAQA), un algoritmo di arrotondamento adattivo che utilizza approssimazioni fattorizzate di Kronecker dell'Hessiano di ciascun livello lineare rispetto alla divergenza KL del modello completo. YAQA è composto da due componenti: schizzi fattorizzati di Kronecker dell'Hessiano completo a livello di strato che possono essere calcolati in modo trattabile per LLM con centinaia di miliardi di parametri, e un algoritmo di arrotondamento indipendente dal quantizzatore che utilizza questi schizzi e offre garanzie teoriche. Su un'ampia gamma di modelli e quantizzatori, YAQA riduce empiricamente la divergenza KL rispetto al modello originale di circa il 30%, raggiungendo prestazioni all'avanguardia nei task downstream.
La valutazione della creatività rimane una frontiera impegnativa per i grandi modelli linguistici (LLM). Le valutazioni attuali si basano fortemente su giudizi umani inefficienti e costosi, ostacolando i progressi nel potenziamento della creatività delle macchine. Sebbene esistano metodi automatizzati, che vanno dai test psicologici agli approcci basati su euristiche o prompt, spesso mancano di generalizzabilità o allineamento con il giudizio umano. Per affrontare questi problemi, in questo articolo proponiamo un nuovo framework di confronto a coppie per valutare la creatività testuale, sfruttando istruzioni contestuali condivise per migliorare la coerenza della valutazione. Introduciamo CreataSet, un dataset su larga scala con oltre 100.000 coppie di istruzioni-risposte creative a livello umano e oltre 1 milione di coppie sintetiche, che coprono una vasta gamma di task aperti. Addestrando su CreataSet, sviluppiamo un valutatore basato su LLM chiamato CrEval. CrEval dimostra una superiorità notevole rispetto ai metodi esistenti nell'allineamento con i giudizi umani. I risultati sperimentali sottolineano l'importanza indispensabile di integrare sia dati generati dall'uomo che sintetici nell'addestramento di valutatori altamente robusti, e mostrano l'utilità pratica di CrEval nel potenziare la creatività degli LLM. Rilasceremo presto pubblicamente tutti i dati, il codice e i modelli per supportare ulteriori ricerche.
In questo lavoro, riveliamo i limiti dei tokenizzatori visivi e dei VAE nel preservare caratteristiche finemente dettagliate e proponiamo un benchmark per valutare le prestazioni di ricostruzione per due contenuti visivi particolarmente impegnativi: testo e volti. I tokenizzatori visivi e i VAE hanno significativamente avanzato la generazione visiva e la modellazione multimodale fornendo rappresentazioni di immagini compresse o quantizzate più efficienti. Tuttavia, sebbene aiutino i modelli di produzione a ridurre i carichi computazionali, la perdita di informazioni derivante dalla compressione delle immagini limita fondamentalmente il limite superiore della qualità della generazione visiva. Per valutare questo limite superiore, ci concentriamo sulla valutazione delle caratteristiche ricostruite di testo e volti poiché tipicamente: 1) esistono su scale più piccole, 2) contengono texture dense e ricche, 3) sono inclini al collasso e 4) sono altamente sensibili alla visione umana. Inizialmente raccogliamo e curiamo un insieme diversificato di immagini chiare di testo e volti da dataset esistenti. A differenza degli approcci che utilizzano modelli VLM, impieghiamo modelli consolidati di OCR e riconoscimento facciale per la valutazione, garantendo accuratezza mantenendo un processo di valutazione eccezionalmente leggero <span style="font-weight: bold; color: rgb(214, 21, 21);">che richiede solo 2GB di memoria e 4 minuti</span> per completarsi. Utilizzando il nostro benchmark, analizziamo la qualità della ricostruzione di testo e volti su varie scale per diversi tokenizzatori di immagini e VAE. I nostri risultati mostrano che i moderni tokenizzatori visivi continuano a lottare per preservare caratteristiche finemente dettagliate, specialmente su scale più piccole. Estendiamo ulteriormente questo framework di valutazione ai video, conducendo un'analisi completa dei tokenizzatori video. Inoltre, dimostriamo che le metriche tradizionali non riescono a riflettere accuratamente le prestazioni di ricostruzione per volti e testo, mentre le nostre metriche proposte servono come un complemento efficace.
I grandi modelli linguistici (LLM) hanno dimostrato un potenziale significativo in discipline scientifiche come la biomedicina, in particolare nella generazione di ipotesi, dove possono analizzare vaste letterature, identificare modelli e suggerire direzioni di ricerca. Tuttavia, una sfida chiave risiede nella valutazione della veridicità delle ipotesi generate, poiché verificarne l'accuratezza richiede spesso tempi e risorse considerevoli. Inoltre, il problema delle allucinazioni nei LLM può portare alla generazione di ipotesi che appaiono plausibili ma che si rivelano infine errate, minando la loro affidabilità. Per facilitare lo studio sistematico di queste sfide, introduciamo TruthHypo, un benchmark per valutare le capacità dei LLM nella generazione di ipotesi biomediche veritiere, e KnowHD, un rilevatore di allucinazioni basato sulla conoscenza per valutare quanto bene le ipotesi siano radicate nelle conoscenze esistenti. I nostri risultati mostrano che i LLM faticano a generare ipotesi veritiere. Analizzando le allucinazioni nei passaggi di ragionamento, dimostriamo che i punteggi di groundedness forniti da KnowHD rappresentano una metrica efficace per filtrare le ipotesi veritiere dai molteplici output dei LLM. Le valutazioni umane convalidano ulteriormente l'utilità di KnowHD nell'identificare ipotesi veritiere e accelerare la scoperta scientifica. I nostri dati e il codice sorgente sono disponibili all'indirizzo https://github.com/Teddy-XiongGZ/TruthHypo.
La stima della qualità a livello di parola (Word-level Quality Estimation, WQE) mira a identificare automaticamente errori granulari negli output della traduzione automatica e ha trovato molteplici applicazioni, tra cui l'assistenza ai traduttori durante la post-editing. Le moderne tecniche di WQE sono spesso costose, implicando il prompting di grandi modelli linguistici o l'addestramento ad hoc su grandi quantità di dati etichettati manualmente. In questo lavoro, esploriamo alternative efficienti che sfruttano i recenti progressi nell'interpretabilità dei modelli linguistici e nella quantificazione dell'incertezza per identificare errori di traduzione dal funzionamento interno dei modelli di traduzione. Nella nostra valutazione, che copre 14 metriche su 12 direzioni di traduzione, quantifichiamo l'impatto della variazione delle etichette umane sulle prestazioni delle metriche utilizzando più set di etichette umane. I nostri risultati evidenziano il potenziale inesplorato delle metriche non supervisionate, le carenze dei metodi supervisionati di fronte all'incertezza delle etichette e la fragilità delle pratiche di valutazione basate su un singolo annotatore.
La Classifier-Free Guidance (CFG) migliora significativamente la controllabilità nei modelli generativi interpolando previsioni condizionate e non condizionate. Tuttavia, la CFG standard utilizza spesso un input non condizionato statico, che può risultare subottimale per processi di generazione iterativa in cui l'incertezza del modello varia dinamicamente. Introduciamo l'Adaptive Classifier-Free Guidance (A-CFG), un metodo innovativo che personalizza l'input non condizionato sfruttando la fiducia predittiva istantanea del modello. A ogni passo di un modello linguistico di diffusione mascherato iterativo, l'A-CFG identifica i token nella sequenza generata per i quali il modello mostra una bassa confidenza. Questi token vengono temporaneamente rimascherati per creare un input non condizionato dinamico e localizzato. Ciò concentra l'influenza correttiva della CFG precisamente sulle aree di ambiguità, portando a una guida più efficace. Integriamo l'A-CFG in un modello linguistico di diffusione mascherato all'avanguardia e ne dimostriamo l'efficacia. Esperimenti su vari benchmark di generazione linguistica mostrano che l'A-CFG apporta miglioramenti sostanziali rispetto alla CFG standard, ottenendo, ad esempio, un guadagno di 3,9 punti su GPQA. Il nostro lavoro evidenzia il vantaggio di adattare dinamicamente i meccanismi di guida all'incertezza del modello nella generazione iterativa.
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni notevoli nei compiti di risposta alle domande (QA) grazie alle loro superiori capacità di comprensione e generazione del linguaggio naturale. Tuttavia, i sistemi QA basati su LLM incontrano difficoltà con compiti QA complessi a causa di una scarsa capacità di ragionamento, conoscenze obsolete e allucinazioni. Diversi lavori recenti integrano LLM e grafi di conoscenza (KG) per affrontare queste sfide. In questa rassegna, proponiamo una nuova tassonomia strutturata che categorizza la metodologia di sintesi di LLM e KG per QA in base alle categorie di QA e al ruolo del KG quando integrato con gli LLM. Esaminiamo sistematicamente gli avanzamenti più recenti nella sintesi di LLM e KG per QA e confrontiamo e analizziamo questi approcci in termini di punti di forza, limitazioni e requisiti dei KG. Successivamente, allineiamo gli approcci con i compiti QA e discutiamo come questi affrontino le principali sfide dei diversi QA complessi. Infine, sintetizziamo i progressi, le metriche di valutazione e i dataset di riferimento, evidenziando le sfide aperte e le opportunità future.