Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) spesso generano risposte con pregiudizi intrinseci, compromettendo la loro affidabilità nelle applicazioni del mondo reale. I metodi di valutazione esistenti spesso trascurano i pregiudizi nelle risposte di lunga durata e la variabilità intrinseca degli output degli LLM. Per affrontare queste sfide, proponiamo FiSCo (Fine-grained Semantic Computation), un nuovo framework statistico per valutare l'equità a livello di gruppo negli LLM rilevando sottili differenze semantiche nelle risposte di lunga durata tra gruppi demografici. A differenza dei lavori precedenti che si concentrano sul sentimento o sui confronti a livello di token, FiSCo va oltre l'analisi superficiale operando a livello di affermazione, sfruttando i controlli di implicazione per valutare la coerenza del significato tra le risposte. Scomponiamo gli output del modello in affermazioni semanticamente distinte e applichiamo test statistici di ipotesi per confrontare le somiglianze inter e intra-gruppo, consentendo il rilevamento robusto di pregiudizi sottili. Formalizziamo una nuova definizione di equità controfattuale di gruppo e validiamo FiSCo su dataset sia sintetici che annotati da esseri umani, che coprono genere, razza ed età. Gli esperimenti dimostrano che FiSCo identifica in modo più affidabile pregiudizi sfumati riducendo l'impatto della variabilità stocastica degli LLM, superando varie metriche di valutazione.
Il dispiegamento robusto di grandi modelli multimodali (LMM) in scenari reali richiede l'accesso a fonti di conoscenza esterne, data la complessità e la natura dinamica delle informazioni del mondo reale. Gli approcci esistenti, come la generazione aumentata da recupero (RAG) e gli agenti di ricerca con prompt ingegnerizzati, si basano su pipeline rigide, spesso portando a comportamenti di ricerca inefficienti o eccessivi. Presentiamo MMSearch-R1, il primo framework end-to-end di apprendimento per rinforzo che consente agli LMM di eseguire ricerche su richiesta e multi-turn in ambienti Internet reali. Il nostro framework integra strumenti di ricerca sia per immagini che per testo, permettendo al modello di ragionare su quando e come invocarli guidato da una ricompensa basata sui risultati con una penalità per la ricerca. Per supportare l'addestramento, raccogliamo un dataset VQA di ricerca multimodale attraverso una pipeline semi-automatizzata che copre esigenze di conoscenza visiva e testuale diverse e curiamo un sottoinsieme bilanciato per la ricerca con campioni che richiedono ricerca e campioni che non la richiedono, il che si dimostra essenziale per modellare un comportamento di ricerca efficiente e su richiesta. Esperimenti estesi su task VQA ad alta intensità di conoscenza e di ricerca di informazioni mostrano che il nostro modello non solo supera le baseline basate su RAG della stessa dimensione del modello, ma eguaglia anche le prestazioni di un modello basato su RAG più grande riducendo le chiamate di ricerca di oltre il 30%. Analizziamo ulteriormente i risultati empirici chiave per offrire spunti pratici per avanzare la ricerca nella ricerca multimodale.
Il fotoritocco è diventato parte integrante della narrazione visiva contemporanea, consentendo agli utenti di catturare l'estetica ed esprimere la creatività. Mentre strumenti professionali come Adobe Lightroom offrono funzionalità potenti, richiedono una competenza significativa e uno sforzo manuale considerevole. Al contrario, le soluzioni esistenti basate sull'intelligenza artificiale forniscono automazione, ma spesso soffrono di una limitata adattabilità e di una scarsa generalizzazione, non riuscendo a soddisfare esigenze di editing diversificate e personalizzate. Per colmare questa lacuna, introduciamo JarvisArt, un agente guidato da un modello linguistico multimodale di grandi dimensioni (MLLM) che comprende l'intento dell'utente, imita il processo di ragionamento degli artisti professionisti e coordina in modo intelligente oltre 200 strumenti di fotoritocco all'interno di Lightroom. JarvisArt segue un processo di addestramento in due fasi: un iniziale fine-tuning supervisionato a catena di pensiero (Chain-of-Thought) per stabilire le competenze di base nel ragionamento e nell'uso degli strumenti, seguito dall'ottimizzazione relativa di gruppo delle politiche per il fotoritocco (GRPO-R) per migliorare ulteriormente il processo decisionale e la padronanza degli strumenti. Proponiamo inoltre il Protocollo Agente-to-Lightroom per facilitare l'integrazione senza soluzione di continuità con Lightroom. Per valutare le prestazioni, sviluppiamo MMArt-Bench, un nuovo benchmark costruito a partire da modifiche reali degli utenti. JarvisArt dimostra un'interazione user-friendly, una superiore generalizzazione e un controllo fine sia sugli aggiustamenti globali che su quelli locali, aprendo una nuova strada per il fotoritocco intelligente. In particolare, supera GPT-4o con un miglioramento del 60% nelle metriche medie a livello di pixel su MMArt-Bench per la fedeltà del contenuto, mantenendo al contempo capacità di seguire le istruzioni comparabili. Pagina del progetto: https://jarvisart.vercel.app/.
Presentiamo Matrix-Game, un modello fondazionale di mondo interattivo per la generazione controllata di mondi di gioco. Matrix-Game è addestrato utilizzando una pipeline a due stadi che esegue prima un pre-addestramento su larga scala senza etichette per la comprensione dell'ambiente, seguito da un addestramento con azioni etichettate per la generazione di video interattivi. A supporto di ciò, abbiamo curato Matrix-Game-MC, un dataset completo di Minecraft che comprende oltre 2.700 ore di clip video di gameplay senza etichette e oltre 1.000 ore di clip di alta qualità con annotazioni dettagliate delle azioni da tastiera e mouse. Il nostro modello adotta un paradigma di generazione controllata da immagine a mondo, condizionato da un'immagine di riferimento, un contesto di movimento e le azioni dell'utente. Con oltre 17 miliardi di parametri, Matrix-Game consente un controllo preciso sulle azioni del personaggio e sui movimenti della telecamera, mantenendo un'elevata qualità visiva e coerenza temporale. Per valutare le prestazioni, abbiamo sviluppato GameWorld Score, un benchmark unificato che misura la qualità visiva, la qualità temporale, la controllabilità delle azioni e la comprensione delle regole fisiche per la generazione di mondi in Minecraft. Esperimenti estensivi dimostrano che Matrix-Game supera costantemente i precedenti modelli open-source di mondi Minecraft (inclusi Oasis e MineWorld) in tutte le metriche, con miglioramenti particolarmente significativi nella controllabilità e nella coerenza fisica. Valutazioni umane in doppio cieco confermano ulteriormente la superiorità di Matrix-Game, evidenziando la sua capacità di generare video percettivamente realistici e precisamente controllabili in diversi scenari di gioco. Per facilitare la ricerca futura sulla generazione interattiva da immagine a mondo, renderemo open-source i pesi del modello Matrix-Game e il benchmark GameWorld Score all'indirizzo https://github.com/SkyworkAI/Matrix-Game.
Presentiamo AnimaX, un framework di animazione 3D feed-forward che collega i prior di movimento dei modelli di diffusione video con la struttura controllabile dell'animazione basata su scheletri. I metodi tradizionali di sintesi del movimento sono limitati a topologie scheletriche fisse o richiedono un'ottimizzazione costosa in spazi di deformazione ad alta dimensionalità. Al contrario, AnimaX trasferisce efficacemente la conoscenza del movimento basata su video al dominio 3D, supportando mesh articolati diversi con scheletri arbitrari. Il nostro metodo rappresenta il movimento 3D come mappe di pose 2D multi-vista e multi-frame, e abilita la diffusione congiunta video-pose condizionata su rendering di template e un prompt testuale di movimento. Introduciamo codifiche posizionali condivise e embedding consapevoli della modalità per garantire l'allineamento spazio-temporale tra sequenze video e pose, trasferendo efficacemente i prior video al compito di generazione del movimento. Le sequenze di pose multi-vista risultanti vengono triangolate in posizioni 3D delle articolazioni e convertite in animazione mesh tramite cinematica inversa. Addestrato su un nuovo dataset curato di 160.000 sequenze rigged, AnimaX raggiunge risultati all'avanguardia su VBench in termini di generalizzazione, fedeltà del movimento ed efficienza, offrendo una soluzione scalabile per l'animazione 3D agnostica alla categoria. Pagina del progetto: https://anima-x.github.io/{https://anima-x.github.io/}.
L'ingegneria del software (SWE) è recentemente emersa come un banco di prova cruciale per la prossima generazione di agenti LLM, richiedendo capacità intrinseche in due dimensioni critiche: risoluzione iterativa e prolungata di problemi (ad esempio, >50 round di interazione) e gestione di dipendenze contestuali estese (ad esempio, >32k token). Tuttavia, il processo di curatela dei dati in SWE rimane notoriamente dispendioso in termini di tempo, poiché si basa pesantemente sull'annotazione manuale per il filtraggio dei file di codice e sulla configurazione di ambienti runtime dedicati per eseguire e validare test unitari. Di conseguenza, la maggior parte dei dataset esistenti è limitata a poche migliaia di istanze provenienti da GitHub. A tal fine, proponiamo una pipeline di curatela dei dati incrementale e automatizzata che scala sistematicamente sia il volume che la diversità dei dataset SWE. Il nostro dataset comprende 10.169 istanze di task reali in Python provenienti da 2.531 repository GitHub distinti, ciascuna accompagnata da una specifica del task in linguaggio naturale e da un'immagine dedicata dell'ambiente runtime per la validazione automatica dei test unitari. Abbiamo accuratamente curato oltre 8.000 traiettorie di addestramento validate con successo durante il runtime dal nostro dataset SWE proposto. Quando addestriamo il modello Skywork-SWE su queste traiettorie, scopriamo un fenomeno sorprendente di scalabilità dei dati: le prestazioni del modello addestrato per le capacità di ingegneria del software negli LLM continuano a migliorare all'aumentare delle dimensioni dei dati, senza mostrare segni di saturazione. In particolare, il nostro modello Skywork-SWE raggiunge un'accuratezza del 38,0% in pass@1 sul benchmark SWE-bench Verified senza l'uso di verificatori o rollout multipli, stabilendo un nuovo stato dell'arte (SOTA) tra gli LLM basati su Qwen2.5-Coder-32B costruiti sul framework OpenHands agent. Inoltre, con l'incorporazione di tecniche di scalabilità durante il test, le prestazioni migliorano ulteriormente fino al 47,0% di accuratezza, superando i precedenti risultati SOTA per modelli con meno di 32B parametri. Rilasciamo il checkpoint del modello Skywork-SWE-32B per accelerare la ricerca futura.
Proponiamo Chain-of-Experts (CoE), una nuova architettura Mixture-of-Experts (MoE) che introduce una comunicazione sequenziale tra gli esperti all'interno di ogni livello. A differenza dei tradizionali modelli MoE, in cui gli esperti operano in parallelo in modo indipendente, CoE elabora i token in modo iterativo attraverso una catena di esperti all'interno di un livello. Per supportare la selezione dinamica degli esperti tra le iterazioni, CoE utilizza un router dedicato a ogni passo di iterazione all'interno di un livello. Questo design consente ai token di rivalutare e selezionare esperti diversi durante ogni iterazione, anziché essere assegnati in modo statico. Di conseguenza, CoE introduce un meccanismo di routing flessibile che aumenta la diversità delle combinazioni di esperti e arricchisce la capacità rappresentativa del modello. CoE dimostra un miglioramento delle prestazioni a parità di calcolo: nei task di ragionamento matematico, riduce la perdita di validazione da 1,20 a 1,12 rispetto a un MoE standard. Oltre alle prestazioni, CoE offre un nuovo asse di scalabilità: la profondità attraverso l'iterazione degli esperti, che complementa la scalabilità convenzionale in larghezza/profondità. Ad esempio, utilizzando 2x iterazioni si ottengono prestazioni equivalenti a 3x selezioni di esperti (in larghezza), riducendo l'uso di memoria del 17,6-42% rispetto ad altre strategie di scalabilità. La nostra analisi rivela che i benefici di CoE derivano dalla sua struttura residua iterativa e dalla maggiore specializzazione degli esperti abilitata dal routing iterativo, che insieme sbloccano rappresentazioni più espressive. Il codice è disponibile all'indirizzo https://github.com/ZihanWang314/coe.
I recenti approcci di apprendimento per rinforzo, come il GRPO supervisionato dagli esiti, hanno fatto progredire il ragionamento a catena di pensiero nei grandi modelli linguistici (LLM), ma la loro adattabilità ai modelli linguistici multimodali (MLLM) rimane inesplorata. Per affrontare la mancanza di una valutazione rigorosa dei metodi di post-addestramento per MLLM, introduciamo SEED-Bench-R1, un benchmark con video complessi del mondo reale che richiedono una percezione e un ragionamento bilanciati. Offre un ampio set di addestramento e valuta la generalizzazione attraverso tre sfide progressive: scenari in-distribuzione, cross-ambiente e cross-ambiente-compito. Utilizzando SEED-Bench-R1, scopriamo che il GRPO standard, pur migliorando l'accuratezza delle risposte, spesso riduce la coerenza logica tra i passaggi di ragionamento e le risposte, con un tasso di coerenza del solo 57,9%. Ciò deriva da segnali di ricompensa che si concentrano esclusivamente sulle risposte finali, incoraggiando scorciatoie, e da severe penalità KL che limitano l'esplorazione. Per affrontare questo problema, proponiamo GRPO-CARE, un framework RL consapevole della coerenza che ottimizza sia la correttezza delle risposte che la coerenza del ragionamento senza supervisione esplicita. GRPO-CARE introduce una ricompensa a due livelli: (1) una ricompensa base per la correttezza delle risposte, e (2) un bonus di coerenza adattativo, calcolato confrontando la probabilità di ragionamento-risposta del modello (attraverso un modello di riferimento a evoluzione lenta) con quella dei pari del gruppo. Questo meccanismo duale amplifica le ricompense per i percorsi di ragionamento che sono sia corretti che logicamente coerenti. Sostituendo le penalità KL con questo bonus adattativo, GRPO-CARE supera il GRPO standard su SEED-Bench-R1, ottenendo un guadagno di prestazione del 6,7% sul livello di valutazione più difficile e un miglioramento del 24,5% nella coerenza. Mostra anche una forte trasferibilità, migliorando le prestazioni del modello su diversi benchmark di comprensione video. Il nostro lavoro contribuisce con un benchmark progettato sistematicamente e un framework di post-addestramento generalizzabile, promuovendo lo sviluppo di MLLM più interpretabili e robusti.
Questo articolo presenta ScaleCap, una strategia scalabile per la generazione di didascalie di immagini durante l'inferenza, che produce descrizioni complete e dettagliate. Le principali sfide della generazione di didascalie di alta qualità risiedono nei bias intrinseci dei LVLM: il bias multimodale che porta a una granularità descrittiva squilibrata, offrendo resoconti dettagliati di alcuni elementi mentre tralascia superficialmente altri; e il bias linguistico che causa descrizioni allucinate di oggetti inesistenti. Per affrontare questi problemi, proponiamo una strategia scalabile e debiased per la generazione di didascalie, che arricchisce e calibra continuamente la didascalia con un aumento del budget di inferenza. Nello specifico, introduciamo due componenti innovative: il question answering euristico e il rating contrastivo a livello di frase. Il primo genera domande specifiche basate sull'immagine e le risponde per iniettare progressivamente informazioni rilevanti nella didascalia. Il secondo utilizza il decoding contrastivo offline a livello di frase per identificare ed eliminare efficacemente le allucinazioni causate dai bias linguistici. Con un aumento del costo di inferenza, ScaleCap solleva più domande euristiche per catturare progressivamente dettagli visivi aggiuntivi, generando didascalie più accurate, bilanciate e informative. Esperimenti estesi di allineamento multimodale dimostrano l'efficacia di ScaleCap. L'annotazione di 450K immagini con ScaleCap e il loro utilizzo per il pretraining di LVLM portano a miglioramenti consistenti delle prestazioni su 11 benchmark ampiamente utilizzati. Inoltre, ScaleCap mostra una ricchezza e fedeltà eccezionali delle didascalie generate con due ulteriori compiti: sostituire le immagini con didascalie nel task di VQA e ricostruire immagini dalle didascalie per valutare la copertura semantica. Il codice è disponibile all'indirizzo https://github.com/Cooperx521/ScaleCap.
I modelli visione-linguaggio-azione (VLA) hanno attirato una significativa attenzione per il loro potenziale nel migliorare la manipolazione robotica. Tuttavia, gli approcci precedenti si basano principalmente sulle capacità di comprensione generale dei modelli visione-linguaggio (VLM) per generare segnali d'azione, spesso trascurando la ricca struttura temporale e causale incorporata nelle osservazioni visive. In questo articolo, presentiamo UniVLA, un modello VLA multimodale unificato e nativo che modella autoregressivamente segnali di visione, linguaggio e azione come sequenze di token discreti. Questa formulazione consente un apprendimento flessibile di compiti multimodali, in particolare da dati video su larga scala. Incorporando la modellazione del mondo durante il post-addestramento, UniVLA cattura dinamiche causali dai video, facilitando un trasferimento efficace all'apprendimento di politiche downstream, specialmente per compiti a lungo termine. Il nostro approccio stabilisce nuovi risultati all'avanguardia su diversi benchmark di simulazione ampiamente utilizzati, tra cui CALVIN, LIBERO e Simplenv-Bridge, superando significativamente i metodi precedenti. Ad esempio, UniVLA raggiunge una percentuale media di successo del 95,5% sul benchmark LIBERO, superando l'85,5% di pi0-FAST. Dimostriamo inoltre la sua ampia applicabilità nella manipolazione reale ALOHA e nella guida autonoma.
La risoluzione di problemi complessi in SQL rimane un significativo collo di bottiglia nelle applicazioni di database del mondo reale. Gli attuali Modelli Linguistici di Grande Dimensione (LLM), sebbene abili nella traduzione da testo a SQL, non sono stati rigorosamente valutati sul compito più impegnativo del debug di problemi SQL. Per colmare questa lacuna, introduciamo BIRD-CRITIC, un nuovo benchmark per il debug di problemi SQL che comprende 530 task PostgreSQL (BIRD-CRITIC-PG) e 570 task multi-dialetto (BIRD-CRITIC-Multi), distillati da problemi autentici degli utenti e riprodotti in nuovi ambienti per facilitare una valutazione rigorosa. Le valutazioni di base sottolineano la complessità del compito, con il modello di ragionamento leader O3-Mini che raggiunge solo un tasso di successo del 38,87% su BIRD-CRITIC-PG e del 33,33% su BIRD-CRITIC-Multi. Nel frattempo, il progresso dei modelli open-source per i task di database è cruciale per potenziare lo sviluppo locale garantendo la privacy dei dati. Pertanto, presentiamo Six-Gym (Sql-fIX-Gym), un ambiente di formazione per elevare le capacità dei modelli open-source nel debug di problemi SQL. Questo ambiente sfrutta la strategia SQL-Rewind, che genera automaticamente dataset eseguibili di problemi-soluzioni attraverso il reverse engineering di problemi da SQL verificati. Tuttavia, i popolari metodi di fine-tuning basati su traiettorie non esplorano segnali di supervisione sostanziali. Proponiamo inoltre f-Plan Boosting, che estrae piani di debug di alto livello dalle soluzioni SQL, consentendo agli LLM insegnanti di produrre il 73,7% in più di traiettorie di successo per la formazione. Integriamo questi componenti in un agente open-source, Bird-Fixer. Basato su Qwen-2.5-Coder-14B, Bird-Fixer raggiunge un tasso di successo del 38,11% su BIRD-CRITIC-PG e del 29,65% su BIRD-CRITIC-Multi, superando i principali modelli proprietari come Claude-3.7-Sonnet e GPT-4.1, segnando un passo significativo verso la democratizzazione delle capacità sofisticate di debug SQL. La classifica e il codice sorgente sono disponibili al seguente link: https://bird-critic.github.io/
La variazione nelle annotazioni umane (cioè, i disaccordi nelle annotazioni) è comune nel NLP e spesso riflette informazioni importanti come la soggettività del compito e l'ambiguità dei campioni. Sebbene i Modelli Linguistici di Grande Dimensione (LLM) siano sempre più utilizzati per l'annotazione automatica al fine di ridurre lo sforzo umano, la loro valutazione si concentra spesso sulla previsione delle etichette "ground truth" determinate a maggioranza. Tuttavia, non è ancora chiaro se questi modelli siano in grado di catturare anche la variazione informativa nelle annotazioni umane. Il nostro lavoro affronta questa lacuna valutando estensivamente la capacità degli LLM di prevedere i disaccordi nelle annotazioni senza accesso a ripetute etichette umane. I nostri risultati mostrano che gli LLM hanno difficoltà nel modellare i disaccordi, che possono essere trascurati dalle valutazioni basate sulle etichette a maggioranza. In particolare, mentre il ragionamento in stile RLVR (Reinforcement learning with verifiable rewards) generalmente migliora le prestazioni degli LLM, esso peggiora le prestazioni nella previsione dei disaccordi. Le nostre scoperte evidenziano la necessità critica di valutare e migliorare gli annotatori LLM nella modellazione dei disaccordi. Codice e dati disponibili su https://github.com/EdisonNi-hku/Disagreement_Prediction.
I grandi modelli linguistici (LLM) hanno compiuto progressi significativi nei compiti di ragionamento, tuttavia l'integrazione ottimale del Fine-Tuning Supervisionato (SFT) e dell'Apprendimento per Rinforzo (RL) rimane una sfida fondamentale. Attraverso un'analisi completa delle distribuzioni di token, delle dinamiche di apprendimento e dei meccanismi di integrazione da prospettive basate sull'entropia, riveliamo differenze chiave tra questi paradigmi: l'SFT induce cambiamenti globali a grana grossa nelle distribuzioni delle politiche degli LLM, mentre l'RL esegue ottimizzazioni selettive a grana fine, con l'entropia che funge da indicatore critico dell'efficacia dell'addestramento. Sulla base di queste osservazioni, proponiamo il Fine-Tuning Supervisionato con Rinforzo (SRFT), un metodo a stadio unico che unifica entrambi i paradigmi di fine-tuning attraverso meccanismi di ponderazione consapevoli dell'entropia. Il nostro approccio applica simultaneamente l'SFT e l'RL per ottimizzare direttamente l'LLM utilizzando dimostrazioni e rollouts di auto-esplorazione, anziché ricorrere a metodi sequenziali a due stadi. Esperimenti estesi dimostrano che l'SRFT raggiunge una precisione media del 59,1%, superando i metodi senza RL del 9,0% su cinque benchmark di ragionamento matematico e del 10,9% su tre benchmark fuori distribuzione.
La guida senza classificatore (Classifier-Free Guidance, CFG) è diventata un componente essenziale dei moderni modelli di diffusione condizionata. Sebbene sia altamente efficace nella pratica, i meccanismi sottostanti attraverso i quali la CFG migliora qualità, dettaglio e allineamento con il prompt non sono ancora completamente compresi. Presentiamo una nuova prospettiva sulla CFG analizzandone gli effetti nel dominio della frequenza, dimostrando che le frequenze basse e alte hanno impatti distinti sulla qualità della generazione. Nello specifico, la guida a bassa frequenza governa la struttura globale e l'allineamento alla condizione, mentre la guida ad alta frequenza migliora principalmente la fedeltà visiva. Tuttavia, applicare una scala uniforme a tutte le frequenze – come avviene nella CFG standard – porta a una sovrasaturazione e a una ridotta diversità a scale elevate e a un degrado della qualità visiva a scale basse. Sulla base di queste intuizioni, proponiamo la guida disaccoppiata in frequenza (Frequency-Decoupled Guidance, FDG), un approccio efficace che scompone la CFG in componenti a bassa e alta frequenza e applica forze di guida separate a ciascuna componente. La FDG migliora la qualità dell'immagine a scale di guida basse ed evita per progettazione gli svantaggi delle scale elevate della CFG. Attraverso esperimenti estesi su più dataset e modelli, dimostriamo che la FDG migliora costantemente la fedeltà dei campioni preservando la diversità, portando a un miglioramento dell'FID e del richiamo rispetto alla CFG, stabilendo il nostro metodo come un'alternativa plug-and-play alla guida senza classificatore standard.
I modelli di diffusione latente sono emersi come un paradigma leader per la generazione efficiente di video. Tuttavia, con l'evoluzione delle aspettative degli utenti verso output ad alta risoluzione, fare affidamento esclusivamente sul calcolo latente risulta inadeguato. Un approccio promettente prevede di scomporre il processo in due fasi: generazione del contenuto semantico e sintesi dei dettagli. La prima impiega un modello base computazionalmente intensivo a risoluzioni inferiori, mentre la seconda sfrutta un modello leggero di super-risoluzione video (VSR) a cascata per ottenere un output ad alta risoluzione. In questo lavoro, ci concentriamo sullo studio dei principi chiave di progettazione per i modelli VSR a cascata, attualmente poco esplorati. In primo luogo, proponiamo due strategie di degradazione per generare coppie di addestramento che mimano meglio le caratteristiche di output del modello base, garantendo l'allineamento tra il modello VSR e il generatore a monte. In secondo luogo, forniamo approfondimenti critici sul comportamento del modello VSR attraverso un'analisi sistematica di (1) strategie di campionamento dei tempi e (2) effetti dell'aumentazione del rumore sugli input a bassa risoluzione (LR). Questi risultati informano direttamente le nostre innovazioni architetturali e di addestramento. Infine, introduciamo l'unità temporale intercalata e l'attenzione locale sparsa per ottenere un addestramento e un'inferenza efficienti, riducendo drasticamente il sovraccarico computazionale. Esperimenti estensivi dimostrano la superiorità del nostro framework rispetto ai metodi esistenti, con studi di ablazione che confermano l'efficacia di ogni scelta progettuale. Il nostro lavoro stabilisce una baseline semplice ma efficace per la generazione di super-risoluzione video a cascata, offrendo spunti pratici per guidare i futuri progressi nei sistemi di sintesi a cascata efficienti.
I modelli di ragionamento eccellono generando lunghe catene di pensiero, ma la decodifica delle migliaia di token risultanti è lenta. La decodifica speculativa a livello di token (SD) aiuta, ma il suo beneficio è limitato, poiché la probabilità che un'intera ipotesi di gamma-token sia corretta diminuisce esponenzialmente all'aumentare di gamma. Ciò significa che allocare più risorse computazionali per bozze di token più lunghe incontra un limite algoritmico, rendendo il miglioramento della velocità modesto e indipendente dall'hardware. Superiamo questo limite con il Ragionamento Anticipato, che sfrutta un secondo livello di parallelismo a livello di passaggio. La nostra intuizione chiave è che i modelli di ragionamento generano passo dopo passo, e ogni passaggio deve essere solo semanticamente corretto, non una corrispondenza esatta di token. Nel Ragionamento Anticipato, un modello di bozza leggero propone diversi passaggi futuri; il modello target espande ciascuna proposta in un'unica passata in batch, e un verificatore mantiene i passaggi semanticamente corretti mentre permette al modello target di rigenerare quelli che falliscono. La SD a livello di token opera ancora all'interno di ogni passaggio di ragionamento, quindi i due livelli di parallelismo si moltiplicano. Mostriamo che il Ragionamento Anticipato aumenta il picco di miglioramento della velocità della SD sia teoricamente che empiricamente. Su GSM8K, AIME e altri benchmark, il Ragionamento Anticipato migliora il miglioramento della velocità della SD da 1.4x a 2.1x mantenendo la qualità delle risposte, e il suo miglioramento della velocità scala meglio con una maggiore capacità di elaborazione della GPU. Il nostro codice è disponibile su https://github.com/hao-ai-lab/LookaheadReasoning.
L'apprendimento auto-supervisionato (SSL) ha rivoluzionato le rappresentazioni audio, ma i modelli spesso rimangono specifici per dominio, concentrandosi su compiti legati al parlato o al non-parlato. In questo lavoro, presentiamo Universal Speech and Audio Distillation (USAD), un approccio unificato per l'apprendimento di rappresentazioni audio che integra diversi tipi di audio - parlato, suoni e musica - in un unico modello. USAD utilizza una distillazione efficiente strato per strato da modelli SSL specifici per dominio per addestrare uno studente su un dataset audio completo. USAD offre prestazioni competitive su vari benchmark e dataset, inclusi compiti di elaborazione del parlato a livello di frame e di istanza, etichettatura audio e classificazione dei suoni, raggiungendo risultati quasi all'avanguardia con un singolo encoder sui benchmark SUPERB e HEAR.
Il code-switching (CSW) è l'atto di alternare due o più lingue all'interno di un singolo discorso. Questo fenomeno è diffuso nelle comunità multilingue e sempre più presente nei contenuti online, dove gli utenti mescolano naturalmente le lingue nella comunicazione quotidiana. Di conseguenza, i Large Language Models (LLM), oggi centrali nell'elaborazione e generazione di contenuti, sono frequentemente esposti a input con code-switching. Data la loro ampia diffusione, è cruciale comprendere come i LLM elaborano e ragionano su testi misti in più lingue. Questo articolo presenta una valutazione sistematica della comprensione dei LLM in contesti di code-switching, generando varianti CSW di benchmark consolidati per il ragionamento e la comprensione. Sebbene si osservi un degrado quando token stranieri interrompono il testo in inglese—anche in presenza di vincoli linguistici—l'inserimento dell'inglese in altre lingue spesso migliora la comprensione. Sebbene il prompting produca risultati contrastanti, il fine-tuning offre un percorso più stabile per mitigare il degrado.
I Large Language Model (LLM) mostrano un grande potenziale nell'automatizzazione delle attività di analisi dati, tuttavia i modelli open-source presentano significative limitazioni in questi scenari ad alta intensità di ragionamento. In questo lavoro, esploriamo strategie per migliorare le capacità di analisi dati dei LLM open-source. Curando un dataset iniziale composto da scenari diversificati e realistici, valutiamo i modelli lungo tre dimensioni: comprensione dei dati, generazione di codice e pianificazione strategica. La nostra analisi rivela tre risultati chiave: (1) La qualità della pianificazione strategica rappresenta il principale determinante delle prestazioni del modello; (2) Il design dell'interazione e la complessità del compito influenzano significativamente le capacità di ragionamento; (3) La qualità dei dati dimostra un impatto maggiore rispetto alla diversità nel raggiungere prestazioni ottimali. Sfruttiamo queste intuizioni per sviluppare una metodologia di sintesi dati, dimostrando significativi miglioramenti nelle capacità di ragionamento analitico dei LLM open-source.
L'ottimizzazione ortogonale (OFT) offre un adattamento altamente efficiente in termini di parametri prevenendo l'oblio catastrofico, ma le sue elevate esigenze di tempo di esecuzione e memoria ne limitano l'implementazione pratica. Identifichiamo il principale collo di bottiglia computazionale nell'OFT nella sua implementazione centrata sui pesi, che si basa su costose moltiplicazioni matrice-matrice con complessità cubica. Per superare questo problema, proponiamo OFTv2, una riformulazione centrata sugli input che utilizza invece moltiplicazioni matrice-vettore (ovvero calcolo senza matrice), riducendo il costo computazionale a quadratico. Introduciamo inoltre la parametrizzazione Cayley-Neumann, una parametrizzazione ortogonale efficiente che approssima l'inversione di matrice nella trasformata di Cayley tramite una serie di Neumann troncata. Queste modifiche consentono a OFTv2 di ottenere un addestramento fino a 10 volte più veloce e un utilizzo della memoria GPU 3 volte inferiore senza compromettere le prestazioni. Inoltre, estendiamo OFTv2 per supportare l'ottimizzazione di modelli di base quantizzati e dimostriamo che supera il popolare QLoRA in termini di stabilità dell'addestramento, efficienza e utilizzo della memoria.
La generazione di modalità visive ad alta dimensionalità è un compito computazionalmente intensivo. Una soluzione comune è la generazione progressiva, in cui gli output vengono sintetizzati in modo spettrale autoregressivo da grossolano a fine. Sebbene i modelli di diffusione traggano vantaggio dalla natura da grossolano a fine del denoising, raramente vengono adottate architetture esplicite multi-stadio. Queste architetture hanno aumentato la complessità dell'approccio complessivo, introduendo la necessità di una formulazione di diffusione personalizzata, transizioni di stadio dipendenti dalla decomposizione, campionatori ad-hoc o una cascata di modelli. Il nostro contributo, Decomposable Flow Matching (DFM), è un framework semplice ed efficace per la generazione progressiva di contenuti visivi. DFM applica il Flow Matching in modo indipendente a ciascun livello di una rappresentazione multi-scala definita dall'utente (come la piramide Laplaciana). Come dimostrato dai nostri esperimenti, il nostro approccio migliora la qualità visiva sia per le immagini che per i video, ottenendo risultati superiori rispetto ai framework multi-stadio precedenti. Su Imagenet-1k 512px, DFM raggiunge un miglioramento del 35,2% nei punteggi FDD rispetto all'architettura di base e del 26,4% rispetto alla baseline con le migliori prestazioni, a parità di risorse di calcolo per l'addestramento. Quando applicato al fine-tuning di modelli di grandi dimensioni, come FLUX, DFM mostra una velocità di convergenza più rapida verso la distribuzione di addestramento. Fondamentalmente, tutti questi vantaggi sono ottenuti con un singolo modello, semplicità architetturale e modifiche minime alle pipeline di addestramento esistenti.
I modelli linguistici di grandi dimensioni (LLM), in particolare i modelli a pensiero lento, spesso manifestano gravi allucinazioni, producendo contenuti errati a causa dell'incapacità di riconoscere con precisione i confini della conoscenza durante il ragionamento. Sebbene l'apprendimento per rinforzo (RL) possa potenziare le capacità di ragionamento complesso, il suo meccanismo di ricompensa orientato ai risultati spesso manca di supervisione fattuale sul processo di pensiero, aggravando ulteriormente il problema delle allucinazioni. Per affrontare l'elevata incidenza di allucinazioni nei modelli a pensiero lento, proponiamo l'apprendimento per rinforzo potenziato dalla conoscenza, KnowRL. KnowRL guida i modelli a eseguire un pensiero lento basato sui fatti integrando una ricompensa di fattualità, basata sulla verifica della conoscenza, nel processo di addestramento RL, aiutandoli a riconoscere i propri confini di conoscenza. Questo input fattuale mirato durante l'addestramento RL consente al modello di apprendere e interiorizzare strategie di ragionamento basate sui fatti. Ricompensando direttamente l'aderenza ai fatti all'interno dei passaggi di ragionamento, KnowRL promuove un processo di pensiero più affidabile. I risultati sperimentali su tre dataset di valutazione delle allucinazioni e due dataset di valutazione del ragionamento dimostrano che KnowRL mitiga efficacemente le allucinazioni nei modelli a pensiero lento mantenendo le loro originarie forti capacità di ragionamento. Il nostro codice è disponibile all'indirizzo https://github.com/zjunlp/KnowRL.
Questo studio esplora l'efficacia dei modelli di manutenzione predittiva e l'ottimizzazione dei sistemi intelligenti di Operazione e Manutenzione (O&M) nel migliorare l'efficienza della generazione di energia eolica. Attraverso una ricerca qualitativa, sono state condotte interviste strutturate con cinque ingegneri e responsabili della manutenzione di parchi eolici, ciascuno con una vasta esperienza nelle operazioni delle turbine. Utilizzando l'analisi tematica, lo studio ha rivelato che, sebbene i modelli di manutenzione predittiva riducano efficacemente i tempi di fermo identificando guasti maggiori, spesso incontrano difficoltà nel rilevare guasti minori e graduali. Le principali sfide identificate includono falsi positivi, malfunzionamenti dei sensori e difficoltà nell'integrazione di nuovi modelli con sistemi di turbine più vecchi. Tecnologie avanzate come i gemelli digitali, i sistemi SCADA e il monitoraggio delle condizioni hanno significativamente migliorato le pratiche di manutenzione delle turbine. Tuttavia, queste tecnologie richiedono ancora miglioramenti, in particolare nel perfezionamento dell'IA e nell'integrazione dei dati in tempo reale. I risultati sottolineano la necessità di uno sviluppo continuo per ottimizzare pienamente le prestazioni delle turbine eoliche e supportare una più ampia adozione delle energie rinnovabili.
La Navigazione Visivo-Linguistica (VLN) in ambienti urbani su larga scala richiede che agenti incarnati ancorino istruzioni linguistiche a scene complesse e richiamino esperienze rilevanti su orizzonti temporali estesi. Le pipeline modulari precedenti offrono interpretabilità ma mancano di una memoria unificata, mentre gli agenti end-to-end (M)LLM eccellono nel fondere visione e linguaggio ma rimangono limitati da finestre di contesto fisse e ragionamento spaziale implicito. Introduciamo Mem4Nav, un sistema di memoria a lungo e breve termine gerarchico per la cognizione spaziale che può potenziare qualsiasi backbone VLN. Mem4Nav combina un octree sparso per l'indicizzazione fine di voxel con un grafo topologico semantico per la connettività di landmark di alto livello, memorizzando entrambi in token di memoria addestrabili incorporati tramite un Transformer reversibile. La memoria a lungo termine (LTM) comprime e conserva osservazioni storiche sia nei nodi dell'octree che del grafo, mentre la memoria a breve termine (STM) memorizza in cache voci multimodali recenti in coordinate relative per l'evitamento di ostacoli in tempo reale e la pianificazione locale. Ad ogni passo, il recupero della STM riduce drasticamente il contesto dinamico e, quando è necessario un contesto storico più profondo, i token LTM vengono decodificati senza perdita per ricostruire gli embedding passati. Valutato su Touchdown e Map2Seq su tre backbone (modulare, VLN all'avanguardia con LLM basato su prompt e VLN all'avanguardia con MLLM a attenzione stridificata), Mem4Nav produce guadagni del 7-13 pp nel Completamento del Compito, una riduzione sufficiente della SPD e un miglioramento >10 pp nel nDTW. Le ablazioni confermano l'indispensabilità sia della mappa gerarchica che dei moduli di memoria duali. I nostri codici sono open-source su https://github.com/tsinghua-fib-lab/Mem4Nav.