Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'unificazione della comprensione e generazione multimodale ha dimostrato capacità impressionanti nei sistemi proprietari all'avanguardia. In questo lavoro, introduciamo BAGEL, un modello fondazionale open-source che supporta nativamente la comprensione e generazione multimodale. BAGEL è un modello unificato, esclusivamente decoder, pre-addestrato su trilioni di token curati da dati intercalati su larga scala di testo, immagini, video e web. Quando scalato con dati intercalati multimodali così diversificati, BAGEL mostra capacità emergenti nel ragionamento multimodale complesso. Di conseguenza, supera significativamente i modelli unificati open-source sia nella generazione che nella comprensione multimodale attraverso benchmark standard, dimostrando al contempo abilità avanzate di ragionamento multimodale come la manipolazione libera di immagini, la previsione di frame futuri, la manipolazione 3D e la navigazione nel mondo. Con l'obiettivo di facilitare ulteriori opportunità per la ricerca multimodale, condividiamo i risultati chiave, i dettagli del pre-addestramento, il protocollo di creazione dei dati e rilasciamo il nostro codice e checkpoint alla comunità. La pagina del progetto è disponibile all'indirizzo https://bagel-ai.org/
L'efficienza dell'attenzione è cruciale a causa della sua complessità temporale quadratica. Miglioriamo l'efficienza dell'attenzione attraverso due contributi chiave: in primo luogo, sfruttiamo i nuovi Tensor Core FP4 nelle GPU Blackwell per accelerare il calcolo dell'attenzione. La nostra implementazione raggiunge 1038 TOPS su RTX5090, ottenendo un incremento di velocità di 5x rispetto alla più veloce FlashAttention su RTX5090. Gli esperimenti dimostrano che la nostra attenzione FP4 può accelerare l'inferenza di vari modelli in modo plug-and-play. In secondo luogo, siamo pionieri nell'applicazione dell'attenzione a basso bit ai task di addestramento. Le attuali soluzioni di attenzione a basso bit, come FlashAttention3 e SageAttention, si concentrano solo sull'inferenza. Tuttavia, l'efficienza nell'addestramento di modelli di grandi dimensioni è altrettanto importante. Per esplorare se l'attenzione a basso bit possa essere efficacemente applicata ai task di addestramento, progettiamo un'attenzione a 8 bit precisa ed efficiente sia per la propagazione in avanti che per quella all'indietro. Gli esperimenti indicano che l'attenzione a 8 bit raggiunge prestazioni senza perdite nei task di fine-tuning, ma mostra una convergenza più lenta nei task di pre-addestramento. Il codice sarà disponibile su https://github.com/thu-ml/SageAttention.
I modelli di ricompensa svolgono un ruolo cruciale nel guidare i grandi modelli linguistici verso output che si allineano alle aspettative umane. Tuttavia, rimane una sfida aperta nell'utilizzo efficace del calcolo al momento del test per migliorare le prestazioni dei modelli di ricompensa. In questo lavoro, introduciamo i Modelli di Ragionamento sulla Ricompensa (RRM), progettati specificamente per eseguire un processo di ragionamento deliberato prima di generare ricompense finali. Attraverso il ragionamento a catena di pensiero, gli RRM sfruttano ulteriori risorse di calcolo al momento del test per query complesse in cui le ricompense appropriate non sono immediatamente evidenti. Per sviluppare gli RRM, implementiamo un framework di apprendimento per rinforzo che favorisce capacità di ragionamento sulla ricompensa auto-evolute senza richiedere tracce di ragionamento esplicite come dati di addestramento. I risultati sperimentali dimostrano che gli RRM raggiungono prestazioni superiori nei benchmark di modellazione della ricompensa in diversi domini. In particolare, mostriamo che gli RRM possono sfruttare in modo adattivo il calcolo al momento del test per migliorare ulteriormente l'accuratezza della ricompensa. I modelli di ragionamento sulla ricompensa preaddestrati sono disponibili all'indirizzo https://huggingface.co/Reward-Reasoning.
Il ridimensionamento del calcolo in fase di test è cruciale per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). Gli approcci esistenti tipicamente impiegano l'apprendimento per rinforzo (RL) per massimizzare una ricompensa verificabile ottenuta alla fine delle tracce di ragionamento. Tuttavia, tali metodi ottimizzano solo la performance finale sotto un budget di token ampio e fisso, il che ostacola l'efficienza sia nell'addestramento che nel deployment. In questo lavoro, presentiamo un nuovo framework, AnytimeReasoner, per ottimizzare la performance di ragionamento in qualsiasi momento, con l'obiettivo di migliorare l'efficienza dei token e la flessibilità del ragionamento sotto vincoli di budget di token variabili. Per raggiungere questo obiettivo, tronchiamo il processo di pensiero completo per adattarlo a budget di token campionati da una distribuzione a priori, costringendo il modello a riassumere la risposta ottimale per ogni pensiero troncato per la verifica. Questo introduce ricompense dense verificabili nel processo di ragionamento, facilitando un'assegnazione di credito più efficace nell'ottimizzazione RL. Successivamente, ottimizziamo le politiche di pensiero e riassunto in modo disaccoppiato per massimizzare la ricompensa cumulativa. Inoltre, introduciamo una nuova tecnica di riduzione della varianza, Budget Relative Policy Optimization (BRPO), per migliorare la robustezza e l'efficienza del processo di apprendimento quando si rinforza la politica di pensiero. I risultati empirici in compiti di ragionamento matematico dimostrano che il nostro metodo supera costantemente GRPO in tutti i budget di pensiero sotto varie distribuzioni a priori, migliorando sia l'addestramento che l'efficienza dei token.
I predittori neurosimbolici (NeSy) combinano la percezione neurale con il ragionamento simbolico per risolvere compiti come il ragionamento visivo. Tuttavia, i predittori NeSy standard presuppongono l'indipendenza condizionale tra i simboli che estraggono, limitando così la loro capacità di modellare interazioni e incertezza - spesso portando a previsioni eccessivamente sicure e a una scarsa generalizzazione fuori distribuzione. Per superare i limiti dell'assunzione di indipendenza, introduciamo i modelli di diffusione neurosimbolici (NeSyDMs), una nuova classe di predittori NeSy che utilizzano la diffusione discreta per modellare le dipendenze tra i simboli. Il nostro approccio riutilizza l'assunzione di indipendenza dei predittori NeSy in ogni fase del processo di diffusione, consentendo un apprendimento scalabile mentre cattura le dipendenze tra simboli e la quantificazione dell'incertezza. Su benchmark sia sintetici che del mondo reale - inclusi la pianificazione di percorsi visivi ad alta dimensionalità e la guida autonoma basata su regole - i NeSyDMs raggiungono un'accuratezza all'avanguardia tra i predittori NeSy e dimostrano una forte calibrazione.
Una tendenza chiave nei Large Reasoning Models (ad esempio, OpenAI's o3) è la capacità agentica nativa di utilizzare strumenti esterni come browser web per la ricerca e la scrittura/esecuzione di codice per la manipolazione di immagini, consentendo di pensare con le immagini. Nella comunità di ricerca open-source, sebbene siano stati compiuti progressi significativi nelle capacità agentiche basate esclusivamente sul linguaggio, come il richiamo di funzioni e l'integrazione di strumenti, lo sviluppo di capacità agentiche multimodali che coinvolgono un vero e proprio pensiero con le immagini, e i relativi benchmark, sono ancora poco esplorati. Questo lavoro evidenzia l'efficacia del Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) per abilitare capacità di ragionamento flessibili e adattive nei Large Vision-Language Models (LVLMs). Grazie al Visual-ARFT, i LVLM open-source acquisiscono la capacità di navigare su siti web per aggiornamenti di informazioni in tempo reale e di scrivere codice per manipolare e analizzare immagini in input attraverso tecniche di elaborazione come ritaglio, rotazione e altre. Presentiamo inoltre un Multi-modal Agentic Tool Bench (MAT) con due configurazioni (MAT-Search e MAT-Coding) progettato per valutare le capacità agentiche di ricerca e codifica dei LVLM. I nostri risultati sperimentali dimostrano che il Visual-ARFT supera il suo baseline di +18,6% F1 / +13,0% EM su MAT-Coding e +10,3% F1 / +8,7% EM su MAT-Search, superando infine GPT-4o. Il Visual-ARFT raggiunge anche guadagni di +29,3% F1 / +25,9% EM su benchmark esistenti di QA multi-hop come 2Wiki e HotpotQA, dimostrando forti capacità di generalizzazione. I nostri risultati suggeriscono che il Visual-ARFT offre una strada promettente verso la costruzione di agenti multimodali robusti e generalizzabili.
DeepSeek-R1 ha dimostrato una notevole efficacia nell'incentivare le capacità di ragionamento e generalizzazione dei grandi modelli linguistici (LLMs) attraverso l'apprendimento per rinforzo. Tuttavia, il potenziale della modellazione computazionale indotta dal ragionamento non è stato approfonditamente esplorato nel contesto della valutazione della qualità delle immagini (IQA), un compito che dipende in modo critico dal ragionamento visivo. In questo articolo, introduciamo VisualQuality-R1, un modello di IQA senza riferimento (NR-IQA) indotto dal ragionamento, e lo addestriamo con l'apprendimento per rinforzo per il ranking, un algoritmo di apprendimento adattato alla natura intrinsecamente relativa della qualità visiva. Nello specifico, per una coppia di immagini, utilizziamo l'ottimizzazione della politica relativa di gruppo per generare più punteggi di qualità per ciascuna immagine. Queste stime vengono poi utilizzate per calcolare le probabilità comparative che un'immagine abbia una qualità superiore rispetto all'altra secondo il modello di Thurstone. Le ricompense per ciascuna stima di qualità sono definite utilizzando misure di fedeltà continua piuttosto che etichette binarie discretizzate. Esperimenti estensivi dimostrano che il modello proposto VisualQuality-R1 supera costantemente i modelli NR-IQA basati sull'apprendimento profondo discriminativo, nonché un recente metodo di regressione della qualità indotto dal ragionamento. Inoltre, VisualQuality-R1 è in grado di generare descrizioni della qualità contestualmente ricche e allineate con il giudizio umano, e supporta l'addestramento su più dataset senza richiedere il riallineamento della scala percettiva. Queste caratteristiche rendono VisualQuality-R1 particolarmente adatto per misurare in modo affidabile i progressi in un'ampia gamma di compiti di elaborazione delle immagini come la super-risoluzione e la generazione di immagini.
I Transformer, l'implementazione standard per i grandi modelli linguistici (LLM), sono tipicamente composti da decine a centinaia di strati discreti. Sebbene un numero maggiore di strati possa portare a prestazioni migliori, questo approccio è stato messo in discussione come poco efficiente, specialmente considerando la superiorità degli strati continui dimostrata dai modelli basati su diffusione e flusso per la generazione di immagini. Proponiamo il Latent Flow Transformer (LFT), che sostituisce un blocco di strati con un singolo operatore di trasporto appreso addestrato tramite il flow matching, offrendo una significativa compressione mantenendo la compatibilità con l'architettura originale. Inoltre, affrontiamo le limitazioni dei metodi basati su flusso esistenti nel preservare l'accoppiamento introducendo l'algoritmo Flow Walking (FW). Sul modello Pythia-410M, l'LFT addestrato con flow matching comprime 6 dei 24 strati e supera il salto diretto di 2 strati (divergenza KL dei logit del modello linguistico a 0.407 vs. 0.529), dimostrando la fattibilità di questo design. Quando addestrato con FW, l'LFT distilla ulteriormente 12 strati in uno riducendo la KL a 0.736, superando quella ottenuta saltando 3 strati (0.932), riducendo significativamente il divario tra i paradigmi di generazione autoregressivi e quelli basati su flusso.
Scopo: Con i progressi nei Large Language Models (LLM) per il settore sanitario, sorge la necessità di modelli open-source competitivi per proteggere l'interesse pubblico. Questo lavoro contribuisce al campo degli LLM medici open-source ottimizzando le fasi chiave della pre-elaborazione dei dati e dell'addestramento, dimostrando come migliorare la sicurezza del modello (attraverso DPO) e l'efficacia (attraverso RAG). La metodologia di valutazione utilizzata, che include quattro diversi tipi di test, definisce un nuovo standard per il settore. I modelli risultanti, dimostrati competitivi rispetto alle migliori alternative private, vengono rilasciati con una licenza permissiva. Metodi: Basandosi su modelli di base robusti come Llama 3.1 e Qwen 2.5, Aloe Beta utilizza un dataset personalizzato per arricchire i dati pubblici con esempi sintetici di Chain of Thought. I modelli vengono allineati tramite Direct Preference Optimization, enfatizzando prestazioni etiche e allineate alle politiche in presenza di attacchi di jailbreaking. La valutazione include test a risposta chiusa, a risposta aperta, di sicurezza e valutazioni umane, per massimizzare l'affidabilità dei risultati. Risultati: Vengono fornite raccomandazioni lungo l'intera pipeline, supportate dalle solide prestazioni della famiglia Aloe. Questi modelli offrono prestazioni competitive su benchmark sanitari e campi medici, e sono spesso preferiti dai professionisti del settore. Su bias e tossicità, i modelli Aloe Beta migliorano significativamente la sicurezza, mostrando resilienza agli attacchi di jailbreaking non visti. Per un rilascio responsabile, è allegata una valutazione del rischio specifica per il settore sanitario ai modelli della famiglia Aloe. Conclusione: I modelli Aloe Beta, e la ricetta che li ha prodotti, rappresentano un contributo significativo al campo degli LLM medici open-source, offrendo prestazioni all'avanguardia mantenendo alti standard etici. Questo lavoro stabilisce un nuovo standard per lo sviluppo e la reportistica di LLM allineati nel settore sanitario.
L'apprendimento per rinforzo (Reinforcement Learning, RL) ha recentemente dimostrato un forte potenziale nel migliorare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). In particolare, il "Zero" reinforcement learning introdotto da Deepseek-R1-Zero consente l'addestramento diretto tramite RL dei modelli linguistici di base senza fare affidamento su una fase intermedia di fine-tuning supervisionato. Nonostante questi progressi, i lavori attuali sul ragionamento dei LLM si concentrano principalmente sui domini matematici e di programmazione, in gran parte a causa dell'abbondanza di dati e della facilità di verifica delle risposte. Ciò limita l'applicabilità e la generalizzazione di tali modelli a domini più ampi, dove le domande spesso hanno rappresentazioni di risposta diverse e i dati sono più scarsi. In questo articolo, proponiamo General-Reasoner, un nuovo paradigma di addestramento progettato per migliorare le capacità di ragionamento dei LLM in diversi domini. I nostri contributi principali includono: (1) la costruzione di un dataset su larga scala e di alta qualità di domande con risposte verificabili, curato tramite web crawling e che copre un'ampia gamma di discipline; e (2) lo sviluppo di un verificatore di risposte basato su modelli generativi, che sostituisce la verifica tradizionale basata su regole con la capacità di catena di pensiero (chain-of-thought) e consapevolezza del contesto. Addestriamo una serie di modelli e li valutiamo su un'ampia gamma di dataset che coprono domini come fisica, chimica, finanza, elettronica, ecc. La nostra valutazione completa su questi 12 benchmark (ad esempio MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH e MATH AMC) dimostra che General-Reasoner supera i metodi di base esistenti, raggiungendo prestazioni di ragionamento robuste e generalizzabili mantenendo un'efficacia superiore nei compiti di ragionamento matematico.
Nonostante i loro punti di forza, i grandi modelli linguistici (LLM) spesso non riescono a comunicare accuratamente il loro livello di confidenza, rendendo difficile valutare quando potrebbero sbagliare e limitando la loro affidabilità. In questo lavoro, dimostriamo che i modelli di ragionamento - LLM che si impegnano in un ragionamento a catena di pensiero (CoT) esteso - mostrano prestazioni superiori non solo nella risoluzione dei problemi, ma anche nell'esprimere con precisione la loro confidenza. Nello specifico, valutiamo sei modelli di ragionamento su sei dataset e riscontriamo che ottengono una calibrazione della confidenza nettamente migliore rispetto alle loro controparti non di ragionamento in 33 su 36 contesti. La nostra analisi dettagliata rivela che questi miglioramenti nella calibrazione derivano dai comportamenti di "pensiero lento" dei modelli di ragionamento - come l'esplorazione di approcci alternativi e il backtracking - che consentono loro di adattare dinamicamente la loro confidenza durante il CoT, rendendola progressivamente più accurata. In particolare, osserviamo che i modelli di ragionamento diventano sempre meglio calibrati man mano che il CoT si sviluppa, una tendenza non riscontrata nei modelli non di ragionamento. Inoltre, rimuovere i comportamenti di pensiero lento dal CoT porta a un significativo calo nella calibrazione. Infine, mostriamo che questi miglioramenti non sono esclusivi dei modelli di ragionamento - anche i modelli non di ragionamento traggono beneficio quando vengono guidati a eseguire pensiero lento tramite apprendimento in contesto.
I recenti Modelli di Ragionamento su Grande Scala (LRMs) hanno dimostrato capacità di ragionamento notevolmente migliorate rispetto ai tradizionali Modelli Linguistici su Grande Scala (LLMs), grazie all'incorporazione di processi di pensiero estesi prima di produrre risposte finali. Tuttavia, un pensiero eccessivamente prolungato introduce un sovraccarico significativo in termini di consumo di token e latenza, che risulta particolarmente superfluo per query semplici. In questo lavoro, introduciamo i Modelli di Ragionamento Ibrido su Grande Scala (LHRMs), il primo tipo di modello in grado di determinare in modo adattivo se eseguire o meno il pensiero basandosi sulle informazioni contestuali delle query degli utenti. Per raggiungere questo obiettivo, proponiamo una pipeline di addestramento in due fasi che comprende un Fine-Tuning Ibrido (HFT) come avvio a freddo, seguito da un apprendimento per rinforzo online con la proposta Ottimizzazione delle Politiche di Gruppo Ibrido (HGPO) per imparare implicitamente a selezionare la modalità di pensiero appropriata. Inoltre, introduciamo una metrica chiamata Accuratezza Ibrida per valutare quantitativamente la capacità del modello di pensiero ibrido. I risultati sperimentali estesi dimostrano che gli LHRMs possono eseguire in modo adattivo un pensiero ibrido su query di diversa difficoltà e tipo. Superano gli LRMs e gli LLMs esistenti sia nelle capacità di ragionamento che in quelle generali, migliorando significativamente l'efficienza. Insieme, il nostro lavoro promuove una riconsiderazione dell'uso appropriato dei processi di pensiero estesi e fornisce un solido punto di partenza per la costruzione di sistemi di pensiero ibrido.
I recenti modelli linguistici focalizzati sul ragionamento raggiungono un'elevata accuratezza generando percorsi di ragionamento intermedi estesi prima di produrre risposte finali. Sebbene questo approccio sia efficace nel risolvere problemi che richiedono pensiero logico, i lunghi percorsi di ragionamento aumentano significativamente l'uso della memoria e il throughput della generazione di token, limitando il dispiegamento pratico di tali modelli. Proponiamo la Compressione del Percorso di Ragionamento (RPC), un metodo senza addestramento che accelera l'inferenza sfruttando la sparsità semantica dei percorsi di ragionamento. RPC comprime periodicamente la cache KV mantenendo le cache KV che ricevono un punteggio di importanza elevato, calcolato utilizzando una finestra selettrice composta da query generate di recente. Gli esperimenti mostrano che RPC migliora il throughput di generazione di QwQ-32B fino a 1,60 volte rispetto all'inferenza con la cache KV completa, con un calo di accuratezza dell'1,2% sul benchmark AIME 2024. I nostri risultati dimostrano che la sparsità semantica nelle tracce di ragionamento può essere efficacemente sfruttata per la compressione, offrendo un percorso pratico verso il dispiegamento efficiente di modelli linguistici di ragionamento. Il nostro codice è disponibile all'indirizzo https://github.com/jiwonsong-dev/ReasoningPathCompression.
L'apprendimento di capacità di ragionamento general-purpose è da tempo un problema complesso nell'ambito dell'IA. Ricerche recenti sui grandi modelli linguistici (LLM), come DeepSeek-R1, hanno dimostrato che tecniche di apprendimento per rinforzo come GRPO possono consentire a LLM pre-addestrati di sviluppare capacità di ragionamento utilizzando semplici coppie domanda-risposta. In questo articolo, ci proponiamo di addestrare modelli linguistici visivi (VLM) a eseguire ragionamenti su dati immagine attraverso l'apprendimento per rinforzo e coppie domanda-risposta visive, senza alcuna supervisione esplicita di catena di pensiero (CoT). I nostri risultati indicano che applicare semplicemente l'apprendimento per rinforzo a un VLM -- sollecitando il modello a produrre una catena di ragionamento prima di fornire una risposta -- può portare il modello a sviluppare scorciatoie a partire da domande facili, riducendo così la sua capacità di generalizzare su distribuzioni di dati non viste. Sosteniamo che la chiave per mitigare l'apprendimento di scorciatoie sia incoraggiare il modello a interpretare le immagini prima di ragionare. Pertanto, addestriamo il modello a seguire un formato di output descrizione-ragionamento-risposta: inizialmente generando una descrizione dettagliata per un'immagine, seguita dalla costruzione di una catena di ragionamento estesa. Quando addestrato su 273K coppie domanda-risposta visive prive di CoT e utilizzando solo l'apprendimento per rinforzo, il nostro modello, denominato Visionary-R1, supera modelli multimodali robusti, come GPT-4o, Claude3.5-Sonnet e Gemini-1.5-Pro, su molteplici benchmark di ragionamento visivo.
I modelli multimodali di grandi dimensioni (LMM) sono recentemente emersi come uno strumento potente per la comprensione di video lunghi (LVU), stimolando lo sviluppo di benchmark LVU standardizzati per valutarne le prestazioni. Tuttavia, la nostra indagine rivela una lezione piuttosto sobria per gli attuali benchmark LVU. In primo luogo, la maggior parte dei benchmark esistenti si basa fortemente su domande a scelta multipla (MCQ), i cui risultati di valutazione sono gonfiati a causa della possibilità di indovinare la risposta corretta; in secondo luogo, una parte significativa delle domande in questi benchmark presenta forti presupposti che consentono ai modelli di rispondere direttamente senza nemmeno leggere il video di input. Ad esempio, Gemini-1.5-Pro può raggiungere un'accuratezza superiore al 50% dato un fotogramma casuale da un video lungo su Video-MME. Osserviamo inoltre che aumentare il numero di fotogrammi non porta necessariamente a un miglioramento nei benchmark esistenti, il che è controintuitivo. Di conseguenza, la validità e la robustezza degli attuali benchmark LVU sono compromesse, ostacolando una valutazione fedele della capacità dei LMM di comprendere video lunghi. Per affrontare questo problema, proponiamo VideoEval-Pro, un benchmark LVU realistico contenente domande con risposte brevi aperte, che richiedono una vera comprensione dell'intero video. VideoEval-Pro valuta sia la comprensione a livello di segmento che quella dell'intero video attraverso compiti di percezione e ragionamento. Valutando 21 LMM video proprietari e open-source, concludiamo con le seguenti osservazioni: (1) i LMM video mostrano un calo drastico delle prestazioni (>25%) nelle domande aperte rispetto alle MCQ; (2) sorprendentemente, punteggi più alti nelle MCQ non portano a punteggi più alti nelle domande aperte su VideoEval-Pro; (3) rispetto ad altri benchmark MCQ, VideoEval-Pro beneficia maggiormente dell'aumento del numero di fotogrammi di input. I nostri risultati dimostrano che VideoEval-Pro offre una misura più realistica e affidabile della comprensione di video lunghi, fornendo una visione più chiara dei progressi in questo dominio.
La creazione intelligente di giochi rappresenta un progresso trasformativo nello sviluppo di giochi, sfruttando l'intelligenza artificiale generativa per generare e migliorare dinamicamente i contenuti dei giochi. Nonostante i notevoli progressi nei modelli generativi, la sintesi completa di asset di gioco di alta qualità, inclusi sia immagini che video, rimane una frontiera impegnativa. Per creare contenuti di gioco ad alta fedeltà che si allineino simultaneamente alle preferenze dei giocatori e aumentino significativamente l'efficienza dei designer, presentiamo Hunyuan-Game, un progetto innovativo progettato per rivoluzionare la produzione intelligente di giochi. Hunyuan-Game comprende due rami principali: la generazione di immagini e la generazione di video. Il componente di generazione di immagini è costruito su un vasto dataset che comprende miliardi di immagini di giochi, portando allo sviluppo di un gruppo di modelli di generazione di immagini personalizzati per scenari di gioco: (1) Generazione Generale di Immagini da Testo. (2) Generazione di Effetti Visivi per Giochi, che coinvolge la generazione di effetti visivi basati su testo e immagini di riferimento. (3) Generazione di Immagini Trasparenti per personaggi, scene ed effetti visivi di gioco. (4) Generazione di Personaggi di Gioco basata su schizzi, immagini in bianco e nero e modelli bianchi. Il componente di generazione di video è costruito su un dataset completo di milioni di video di giochi e anime, portando allo sviluppo di cinque modelli algoritmici core, ciascuno mirato a punti critici nello sviluppo di giochi e con una robusta adattabilità a diversi scenari di video di gioco: (1) Generazione di Video da Immagini. (2) Sintesi di Video Avatar con Pose 360 A/T. (3) Generazione di Illustrazioni Dinamiche. (4) Super-Risoluzione Generativa di Video. (5) Generazione di Video di Gioco Interattivi. Questi modelli di generazione di immagini e video non solo mostrano un'espressione estetica di alto livello, ma integrano profondamente conoscenze specifiche del dominio, stabilendo una comprensione sistematica di diversi stili artistici di giochi e anime.
Il pruning degli LLM è emerso come una tecnologia promettente per comprimere i modelli linguistici di grandi dimensioni, consentendone il dispiegamento su dispositivi con risorse limitate. Tuttavia, le metodologie attuali richiedono tipicamente l'accesso a campioni di calibrazione pubblici, che possono essere difficili da ottenere in domini sensibili alla privacy. Per affrontare questo problema, introduciamo FedPrLLM, un framework completo di pruning federato progettato per la compressione degli LLM preservando la privacy. In FedPrLLM, ogni client deve solo calcolare una matrice di maschera di pruning basata sui propri dati di calibrazione locali e condividerla con il server per potare il modello globale. Questo approccio consente una potatura collaborativa del modello globale sfruttando la conoscenza di ciascun client, mantenendo al contempo la privacy dei dati locali. Inoltre, conduciamo esperimenti estesi per esplorare varie possibilità all'interno del framework FedPrLLM, inclusi diversi gruppi di confronto, strategie di pruning e la decisione di scalare i pesi. La nostra valutazione approfondita rivela che il pruning one-shot con confronto a livello e senza scalatura dei pesi rappresenta la scelta ottimale all'interno del framework FedPrLLM. Speriamo che il nostro lavoro possa guidare futuri sforzi nel pruning degli LLM in campi sensibili alla privacy. Il nostro codice è disponibile all'indirizzo https://github.com/Pengxin-Guo/FedPrLLM.
Il code-switching (CS) rappresenta una sfida significativa per i Large Language Models (LLMs), eppure la sua comprensibilità rimane poco esplorata in questi modelli. Introduciamo CS-Sum per valutare la comprensibilità del CS da parte degli LLMs attraverso la sintesi di dialoghi CS in inglese. CS-Sum è il primo benchmark per la sintesi di dialoghi CS tra mandarino-inglese (EN-ZH), tamil-inglese (EN-TA) e malese-inglese (EN-MS), con 900-1300 dialoghi annotati manualmente per ciascuna coppia linguistica. Valutando dieci LLMs, inclusi modelli open e closed-source, analizziamo le prestazioni attraverso approcci few-shot, translate-summarize e fine-tuning (LoRA, QLoRA su dati sintetici). I nostri risultati mostrano che, sebbene i punteggi sulle metriche automatiche siano elevati, gli LLMs commettono errori sottili che alterano il significato completo del dialogo. A tal fine, introduciamo i 3 tipi di errori più comuni che gli LLMs commettono quando gestiscono input CS. I tassi di errore variano tra le coppie CS e gli LLMs, con alcuni LLMs che mostrano errori più frequenti su determinate coppie linguistiche, sottolineando la necessità di un addestramento specializzato su dati code-switched.
La filigrana invisibile delle immagini può proteggere la proprietà delle immagini e prevenire l'uso malevolo dei modelli generativi visivi. Tuttavia, i metodi esistenti di filigrana generativa sono principalmente progettati per i modelli di diffusione, mentre la filigrana per i modelli di generazione di immagini autoregressivi rimane largamente inesplorata. Proponiamo IndexMark, un framework di filigrana senza addestramento per i modelli di generazione di immagini autoregressivi. IndexMark è ispirato dalla proprietà di ridondanza del codebook: sostituire gli indici generati autoregressivamente con indici simili produce differenze visive trascurabili. Il componente principale di IndexMark è un metodo semplice ma efficace di abbinamento e sostituzione, che seleziona attentamente i token di filigrana dal codebook in base alla similarità dei token e promuove l'uso dei token di filigrana attraverso la sostituzione dei token, incorporando così la filigrana senza influenzare la qualità dell'immagine. La verifica della filigrana viene ottenuta calcolando la proporzione di token di filigrana nelle immagini generate, con una precisione ulteriormente migliorata da un Index Encoder. Inoltre, introduciamo uno schema di validazione ausiliario per aumentare la robustezza contro gli attacchi di ritaglio. Gli esperimenti dimostrano che IndexMark raggiunge prestazioni all'avanguardia in termini di qualità dell'immagine e accuratezza della verifica, e mostra robustezza contro varie perturbazioni, inclusi ritaglio, rumori, sfocatura gaussiana, cancellazione casuale, variazione di colore e compressione JPEG.
Nonostante la diffusa adozione, i modelli linguistici multimodali di grandi dimensioni (MLLM) subiscono un degrado delle prestazioni quando si trovano ad affrontare query non familiari in presenza di cambiamenti nella distribuzione dei dati. I metodi esistenti per migliorare la generalizzazione degli MLLM richiedono tipicamente una maggiore quantità di dati di istruzione o architetture di modelli più avanzate, entrambe soluzioni che comportano costi non trascurabili in termini di lavoro umano o risorse computazionali. In questo lavoro, adottiamo un approccio alternativo per migliorare la robustezza degli MLLM in presenza di cambiamenti nella distribuzione, partendo da una prospettiva di apprendimento delle rappresentazioni. Ispirati dal principio del collo di bottiglia informativo (IB), deriviamo un limite inferiore variazionale dell'IB per gli MLLM e sviluppiamo un'implementazione pratica, denominata Visual Instruction Bottleneck Tuning (Vittle). Forniamo quindi una giustificazione teorica di Vittle rivelando la sua connessione con una metrica di robustezza di tipo informativo per gli MLLM. La validazione empirica di tre MLLM su compiti di risposta a domande aperte e chiuse e di rilevamento di allucinazioni oggettuali su 45 dataset, inclusi 30 scenari di cambiamento, dimostra che Vittle migliora costantemente la robustezza degli MLLM in presenza di cambiamenti perseguendo l'apprendimento di una rappresentazione minimale sufficiente.
Con l'aumento esponenziale delle dimensioni dei modelli linguistici di grandi dimensioni, la memoria delle GPU è diventata un collo di bottiglia per l'adattamento di questi modelli a compiti downstream. In questo articolo, miriamo a spingere i limiti dell'addestramento efficiente in termini di memoria minimizzando l'utilizzo della memoria per i pesi del modello, i gradienti e gli stati dell'ottimizzatore, all'interno di un framework unificato. La nostra idea è eliminare sia i gradienti che gli stati dell'ottimizzatore utilizzando l'ottimizzazione di ordine zero, che approssima i gradienti perturbando i pesi durante le passate in avanti per identificare le direzioni del gradiente. Per minimizzare l'utilizzo della memoria sui pesi, impieghiamo la quantizzazione del modello, ad esempio convertendo da bfloat16 a int4. Tuttavia, applicare direttamente l'ottimizzazione di ordine zero ai pesi quantizzati è infattibile a causa del divario di precisione tra i pesi discreti e i gradienti continui, che altrimenti richiederebbero de-quantizzazione e ri-quantizzazione. Per superare questa sfida, proponiamo l'Ottimizzazione di Ordine Zero Quantizzata (QZO), un approccio innovativo che perturba la scala di quantizzazione continua per la stima del gradiente e utilizza un metodo di clipping della derivata direzionale per stabilizzare l'addestramento. QZO è ortogonale sia ai metodi di quantizzazione post-addestramento basati su scalari che su codebook. Rispetto al fine-tuning completo dei parametri in bfloat16, QZO può ridurre il costo totale della memoria di oltre 18 volte per LLM a 4 bit e consente il fine-tuning di Llama-2-13B e Stable Diffusion 3.5 Large all'interno di una singola GPU da 24GB.
Nonostante i notevoli progressi nei Modelli Visivo-Linguistici (VLMs) per compiti multi-modali, la loro dipendenza da input RGB limita una comprensione spaziale precisa. I metodi esistenti per integrare indicazioni spaziali, come nuvole di punti o profondità, richiedono sensori specializzati o non riescono a sfruttare efficacemente le informazioni di profondità per ragionamenti di ordine superiore. A tal fine, proponiamo un nuovo metodo chiamato Spatial Sense and Reasoning (SSR), un framework innovativo che trasforma i dati grezzi di profondità in razionalità testuali strutturate e interpretabili. Queste razionalità testuali fungono da rappresentazioni intermedie significative per migliorare notevolmente le capacità di ragionamento spaziale. Inoltre, sfruttiamo la distillazione della conoscenza per comprimere le razionalità generate in embedding latenti compatti, che facilitano un'integrazione efficiente in termini di risorse e plug-and-play nei VLMs esistenti senza necessità di riaddestramento. Per consentire una valutazione completa, introduciamo un nuovo dataset denominato SSR-CoT, un dataset di ragionamento visivo-linguistico su larga scala arricchito con annotazioni intermedie di ragionamento spaziale, e presentiamo SSRBench, un benchmark multi-task completo. Esperimenti estesi su più benchmark dimostrano che SSR migliora sostanzialmente l'utilizzo della profondità e potenzia il ragionamento spaziale, avvicinando così i VLMs a una comprensione multi-modale più simile a quella umana. La nostra pagina del progetto è disponibile all'indirizzo https://yliu-cs.github.io/SSR.
Le architetture Mixture-of-Experts (MoE) all'interno dei Large Reasoning Models (LRM) hanno raggiunto capacità di ragionamento impressionanti attivando selettivamente esperti per facilitare processi cognitivi strutturati. Nonostante i notevoli progressi, i modelli di ragionamento esistenti spesso soffrono di inefficienze cognitive come il sovrapensiero e il sottopensiero. Per affrontare queste limitazioni, introduciamo una nuova metodologia di guida al momento dell'inferenza chiamata Reinforcing Cognitive Experts (RICE), progettata per migliorare le prestazioni di ragionamento senza ulteriore addestramento o euristiche complesse. Sfruttando la Pointwise Mutual Information normalizzata (nPMI), identifichiamo sistematicamente esperti specializzati, denominati "esperti cognitivi", che orchestrano operazioni di ragionamento a livello meta caratterizzate da token come "<think>". Valutazioni empiriche con i principali LRM basati su MoE (DeepSeek-R1 e Qwen3-235B) su benchmark rigorosi di ragionamento quantitativo e scientifico dimostrano miglioramenti evidenti e consistenti nell'accuratezza del ragionamento, nell'efficienza cognitiva e nella generalizzazione cross-dominio. In modo cruciale, il nostro approccio leggero supera sostanzialmente le tecniche prevalenti di guida del ragionamento, come il design dei prompt e i vincoli di decodifica, preservando al contempo le capacità generali del modello di seguire le istruzioni. Questi risultati evidenziano il rafforzamento degli esperti cognitivi come una direzione promettente, pratica e interpretabile per migliorare l'efficienza cognitiva all'interno di modelli di ragionamento avanzati.
La ricerca generativa basata sull'IA sta ridefinendo il recupero delle informazioni offrendo risposte end-to-end a query complesse, riducendo la dipendenza degli utenti dalla navigazione manuale e dalla sintesi di più pagine web. Tuttavia, sebbene questo paradigma aumenti la convenienza, interrompe il ciclo di miglioramento basato sul feedback che ha storicamente alimentato l'evoluzione della ricerca web tradizionale. La ricerca web può migliorare continuamente i suoi modelli di ranking raccogliendo feedback degli utenti su larga scala e a grana fine (ad esempio, clic, tempo di permanenza) a livello di documento. Al contrario, la ricerca generativa basata sull'IA opera attraverso una pipeline di ricerca molto più lunga, che comprende la scomposizione delle query, il recupero dei documenti e la generazione delle risposte, ma riceve tipicamente solo feedback a grana grossa sulla risposta finale. Ciò introduce una disconnessione nel ciclo di feedback, in cui il feedback degli utenti per l'output finale non può essere efficacemente mappato su specifici componenti del sistema, rendendo difficile migliorare ogni fase intermedia e mantenere il ciclo di feedback. In questo articolo, immaginiamo NExT-Search, un paradigma di nuova generazione progettato per reintrodurre feedback a grana fine a livello di processo nella ricerca generativa basata sull'IA. NExT-Search integra due modalità complementari: la Modalità Debug Utente, che consente agli utenti impegnati di intervenire in fasi chiave; e la Modalità Utente Ombra, in cui un agente utente personalizzato simula le preferenze dell'utente e fornisce feedback assistito dall'IA per utenti meno interattivi. Inoltre, immaginiamo come questi segnali di feedback possano essere sfruttati attraverso l'adattamento online, che perfeziona gli output di ricerca correnti in tempo reale, e l'aggiornamento offline, che aggrega i log di interazione per ottimizzare periodicamente i modelli di scomposizione delle query, recupero e generazione. Ripristinando il controllo umano sulle fasi chiave della pipeline di ricerca generativa basata sull'IA, crediamo che NExT-Search offra una direzione promettente per costruire sistemi di ricerca IA ricchi di feedback che possano evolversi continuamente insieme al feedback umano.
La distillazione si è affermata come un approccio pratico ed efficace per potenziare le capacità di ragionamento dei modelli linguistici open-source. In questo lavoro, conduciamo uno studio empirico su larga scala sulla distillazione di dati di ragionamento, raccogliendo output verificati da tre modelli insegnanti all'avanguardia—AM-Thinking-v1, Qwen3-235B-A22B e DeepSeek-R1—su un corpus condiviso di 1,89 milioni di query. Costruiamo tre dataset paralleli e analizziamo le loro distribuzioni, rivelando che i dati distillati da AM-Thinking-v1 mostrano una maggiore diversità nella lunghezza dei token e una minore perplessità. I modelli studente addestrati su ciascun dataset vengono valutati su benchmark di ragionamento come AIME2024, AIME2025, MATH500 e LiveCodeBench. Il modello basato su AM ottiene costantemente le migliori prestazioni (ad esempio, 84,3 su AIME2024, 72,2 su AIME2025, 98,4 su MATH500 e 65,9 su LiveCodeBench) e dimostra un comportamento adattivo nella produzione di output—risposte più lunghe per compiti più difficili e più brevi per quelli più semplici. Questi risultati evidenziano il valore di tracce di ragionamento verificate e di alta qualità. Rilasciamo i dataset distillati di AM-Thinking-v1 e Qwen3-235B-A22B per supportare future ricerche su modelli linguistici open-source e ad alte prestazioni orientati al ragionamento. I dataset sono pubblicamente disponibili su Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
Man mano che i modelli linguistici diventano più potenti e sofisticati, è cruciale che rimangano affidabili e degni di fiducia. Esistono prove preliminari preoccupanti che suggeriscono che i modelli possano tentare di ingannare o nascondere segreti ai loro operatori. Per esplorare la capacità delle tecniche attuali di estrarre tali conoscenze nascoste, abbiamo addestrato un modello Taboo: un modello linguistico che descrive una parola segreta specifica senza dichiararla esplicitamente. È importante notare che la parola segreta non viene presentata al modello nei suoi dati di addestramento o nel prompt. Successivamente, indaghiamo metodi per scoprire questo segreto. In primo luogo, valutiamo approcci non interpretabili (black-box). In seguito, sviluppiamo strategie largamente automatizzate basate su tecniche di interpretabilità meccanicistica, tra cui il logit lens e gli autoencoder sparsi. La valutazione dimostra che entrambi gli approcci sono efficaci nell'estrarre la parola segreta nel nostro contesto di prova. I nostri risultati evidenziano il potenziale di questi approcci per estrarre conoscenze nascoste e suggeriscono diverse promettenti direzioni per lavori futuri, inclusi il test e il perfezionamento di questi metodi su organismi modello più complessi. Questo lavoro mira a essere un passo verso la risoluzione del problema cruciale dell'estrazione di conoscenze segrete dai modelli linguistici, contribuendo così al loro utilizzo sicuro e affidabile.
Presentiamo Vox-Profile, un benchmark completo per caratterizzare tratti ricchi del parlante e del discorso utilizzando modelli di fondazione del parlato. A differenza dei lavori esistenti che si concentrano su una singola dimensione dei tratti del parlante, Vox-Profile fornisce profili olistici e multidimensionali che riflettono sia tratti statici del parlante (ad esempio, età, sesso, accento) che proprietà dinamiche del discorso (ad esempio, emozione, flusso del parlato). Questo benchmark è radicato nella scienza del parlato e nella linguistica, sviluppato con esperti del settore per indicizzare accuratamente le caratteristiche del parlante e del discorso. Riportiamo esperimenti di benchmark utilizzando oltre 15 dataset di parlato pubblicamente disponibili e diversi modelli di fondazione del parlato ampiamente utilizzati che mirano a varie proprietà statiche e dinamiche del parlante e del discorso. Oltre agli esperimenti di benchmark, mostriamo diverse applicazioni downstream supportate da Vox-Profile. In primo luogo, dimostriamo che Vox-Profile può arricchire i dataset esistenti di riconoscimento del parlato per analizzare la variabilità delle prestazioni ASR. Vox-Profile è anche utilizzato come strumento per valutare le prestazioni dei sistemi di generazione del parlato. Infine, valutiamo la qualità dei nostri profili automatizzati attraverso il confronto con la valutazione umana e mostriamo una validità convergente. Vox-Profile è disponibile pubblicamente all'indirizzo: https://github.com/tiantiaf0627/vox-profile-release.
Gemini viene sempre più utilizzato per eseguire attività per conto degli utenti, dove le capacità di chiamata di funzioni e utilizzo di strumenti consentono al modello di accedere ai dati degli utenti. Alcuni strumenti, tuttavia, richiedono l'accesso a dati non attendibili, introducendo rischi. Gli avversari possono incorporare istruzioni malevole in dati non attendibili, facendo deviare il modello dalle aspettative dell'utente e gestendo in modo errato i loro dati o permessi. In questo rapporto, illustriamo l'approccio di Google DeepMind per valutare la robustezza avversaria dei modelli Gemini e descriviamo le principali lezioni apprese dal processo. Testiamo come Gemini si comporta contro un avversario sofisticato attraverso un framework di valutazione avversaria, che impiega una serie di tecniche di attacco adattive per operare continuamente su versioni passate, presenti e future di Gemini. Descriviamo come queste valutazioni in corso contribuiscano direttamente a rendere Gemini più resistente alle manipolazioni.
Il fine-tuning con rinforzo (RFT) è diventato un approccio standard per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, il suo impatto sull'affidabilità dei modelli rimane poco esplorato. In questo lavoro, identifichiamo e studiamo sistematicamente un effetto collaterale critico del RFT, che definiamo tassa sulle allucinazioni: un deterioramento nel comportamento di rifiuto che induce i modelli a produrre risposte allucinate a domande irrisolvibili con sicurezza. Per indagare questo fenomeno, introduciamo SUM (Synthetic Unanswerable Math), un dataset di alta qualità di problemi matematici irrisolvibili progettato per testare la capacità dei modelli di riconoscere una domanda irrisolvibile ragionando a partire da informazioni insufficienti o ambigue. I nostri risultati mostrano che l'addestramento standard con RFT potrebbe ridurre i tassi di rifiuto del modello di oltre l'80%, aumentando significativamente la tendenza del modello a produrre allucinazioni. Dimostriamo inoltre che l'incorporazione di appena il 10% di SUM durante il RFT ripristina sostanzialmente un comportamento di rifiuto appropriato, con compromessi minimi sull'accuratezza per i compiti risolvibili. In modo cruciale, questo approccio consente ai LLM di sfruttare il calcolo in fase di inferenza per ragionare sulla propria incertezza e sui limiti delle conoscenze, migliorando la generalizzazione non solo per problemi matematici fuori dominio, ma anche per compiti di risposta a domande fattuali.
Nonostante il loro notevole successo e l'implementazione in flussi di lavoro diversificati, i modelli linguistici a volte producono risposte non veritiere. La nostra comprensione limitata di come la veridicità sia codificata meccanicamente all'interno di questi modelli compromette la loro affidabilità e sicurezza. In questo articolo, proponiamo un metodo per identificare le rappresentazioni della veridicità a livello neuronale. Dimostriamo che i modelli linguistici contengono neuroni della verità, che codificano la veridicità in modo indipendente dal soggetto. Esperimenti condotti su modelli di diverse dimensioni convalidano l'esistenza dei neuroni della verità, confermando che la codifica della veridicità a livello neuronale è una proprietà condivisa da molti modelli linguistici. I modelli di distribuzione dei neuroni della verità attraverso gli strati si allineano con precedenti scoperte sulla geometria della veridicità. La soppressione selettiva delle attivazioni dei neuroni della verità identificati attraverso il dataset TruthfulQA degrada le prestazioni sia su TruthfulQA che su altri benchmark, dimostrando che i meccanismi di veridicità non sono legati a un dataset specifico. I nostri risultati offrono nuove intuizioni sui meccanismi alla base della veridicità nei modelli linguistici e evidenziano potenziali direzioni per migliorarne l'affidabilità e la fiducia.
Progettare LLM (Large Language Models) capaci di ragionamento efficace richiede tipicamente un addestramento utilizzando il Reinforcement Learning con Ricompense Verificabili (RLVR) o la distillazione con Catene di Pensiero (CoT) accuratamente curate, entrambi i metodi che dipendono fortemente da una vasta quantità di dati di addestramento. Ciò rappresenta una sfida significativa quando la quantità di dati di addestramento di qualità è limitata. Proponiamo una strategia di addestramento in due fasi, efficiente in termini di campioni, per sviluppare LLM con capacità di ragionamento in contesti con supervisione limitata. Nella prima fase, "riscaldiamo" il modello distillando CoT lunghe da un dominio giocattolo, ovvero gli enigmi logici di Cavalieri e Furfanti (K&K), per acquisire abilità di ragionamento generali. Nella seconda fase, applichiamo RLVR al modello riscaldato utilizzando un insieme limitato di esempi del dominio target. I nostri esperimenti dimostrano che questo approccio in due fasi offre diversi vantaggi: (i) la fase di riscaldamento da sola facilita il ragionamento generalizzato, portando a miglioramenti delle prestazioni in una gamma di task, tra cui MATH, HumanEval⁺ e MMLU-Pro; (ii) Quando sia il modello base che il modello riscaldato vengono addestrati con RLVR sullo stesso piccolo dataset (≤100 esempi), il modello riscaldato supera costantemente il modello base; (iii) Il riscaldamento prima dell'addestramento RLVR consente a un modello di mantenere la generalizzabilità cross-dominio anche dopo l'addestramento su un dominio specifico; (iv) L'introduzione del riscaldamento nella pipeline migliora non solo l'accuratezza ma anche l'efficienza complessiva in termini di campioni durante l'addestramento RLVR. I risultati di questo documento evidenziano il potenziale del riscaldamento per costruire LLM robusti con capacità di ragionamento in ambienti con dati scarsi.
Garantire la sicurezza dei grandi modelli linguistici (LLM) è fondamentale per un dispiegamento responsabile, tuttavia le valutazioni esistenti spesso privilegiano le prestazioni rispetto all'identificazione delle modalità di fallimento. Introduciamo Phare, un framework diagnostico multilingue per analizzare e valutare il comportamento degli LLM lungo tre dimensioni critiche: allucinazioni e affidabilità, pregiudizi sociali e generazione di contenuti dannosi. La nostra valutazione di 17 LLM all'avanguardia rivela schemi di vulnerabilità sistematiche in tutte le dimensioni di sicurezza, inclusa la sottomissione, la sensibilità ai prompt e la riproduzione di stereotipi. Evidenziando queste specifiche modalità di fallimento anziché limitarsi a classificare i modelli, Phare fornisce a ricercatori e professionisti spunti operativi per costruire sistemi linguistici più robusti, allineati e affidabili.
Il rapido progresso delle tecniche di individuazione dei bug ha portato alla scoperta di un numero di vulnerabilità superiore a quello che gli sviluppatori possono ragionevolmente correggere, creando un’urgente necessità di metodi efficaci di Riparazione Automatica dei Programmi (Automated Program Repair, APR). Tuttavia, la complessità dei bug moderni rende spesso difficile e inaffidabile un’analisi precisa della causa principale. Per affrontare questa sfida, proponiamo la riparazione al punto di crash per semplificare il compito di riparazione, mitigando comunque il rischio di sfruttamento. Inoltre, introduciamo un approccio di generazione di patch guidato da template che riduce significativamente il costo in token dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) mantenendo sia l’efficienza che l’efficacia. Implementiamo il nostro sistema prototipo, WILLIAMT, e lo valutiamo rispetto agli strumenti APR più avanzati. I nostri risultati mostrano che, combinato con l’agente di punta CodeRover-S, WILLIAMT riduce il costo in token del 45,9% e aumenta il tasso di correzione dei bug al 73,5% (+29,6%) su ARVO, un benchmark di vulnerabilità del software open source di riferimento. Inoltre, dimostriamo che WILLIAMT può funzionare efficacemente anche senza accesso a LLMs di frontiera: persino un modello locale eseguito su un Mac M4 Mini raggiunge un tasso di riparazione ragionevole. Questi risultati evidenziano l’ampia applicabilità e scalabilità di WILLIAMT.
Con il rapido progresso dei potenti modelli linguistici su larga scala (LLM) negli ultimi anni, un'ampia gamma di attività di ingegneria del software può ora essere affrontata utilizzando gli LLM, migliorando significativamente la produttività e la scalabilità. Numerosi dataset di benchmark sono stati sviluppati per valutare le capacità di codifica di questi modelli, sebbene si concentrino principalmente su attività di risoluzione di problemi e questioni. Al contrario, introduciamo un nuovo benchmark di codifica, MIGRATION-BENCH, con un focus distinto: la migrazione del codice. MIGRATION-BENCH mira a servire come benchmark completo per la migrazione da Java 8 alle ultime versioni di supporto a lungo termine (LTS) (Java 17, 21), includendo un dataset completo e un suo sottoinsieme selezionato con 5.102 e 300 repository rispettivamente. Il sottoinsieme selezionato è rappresentativo e curato per complessità e difficoltà, offrendo una risorsa versatile per supportare la ricerca nel campo della migrazione del codice. Inoltre, forniamo un framework di valutazione completo per facilitare una valutazione rigorosa e standardizzata degli LLM su questo compito impegnativo. Proponiamo ulteriormente SD-Feedback e dimostriamo che gli LLM possono affrontare efficacemente la migrazione del codice a livello di repository verso Java 17. Per il sottoinsieme selezionato con Claude-3.5-Sonnet-v2, SD-Feedback raggiunge un tasso di successo (pass@1) del 62,33% e del 27,00% rispettivamente per la migrazione minima e massima. Il dataset di benchmark e il codice sorgente sono disponibili su: https://huggingface.co/collections/AmazonScience e https://github.com/amazon-science/self_debug rispettivamente.
Man mano che le tecniche di post-addestramento evolvono, i grandi modelli linguistici (LLM) vengono sempre più potenziati con capacità di ragionamento strutturato a più passi, spesso ottimizzate attraverso l'apprendimento per rinforzo. Questi modelli arricchiti di ragionamento superano gli LLM standard in compiti complessi e ora costituiscono la base di molte API commerciali di LLM. Tuttavia, per proteggere il comportamento proprietario e ridurre la verbosità, i fornitori tipicamente nascondono le tracce di ragionamento, restituendo solo la risposta finale. Questa opacità introduce un divario critico di trasparenza: gli utenti vengono fatturati per token di ragionamento invisibili, che spesso rappresentano la maggior parte del costo, ma non hanno modo di verificarne l'autenticità. Ciò apre la porta all'inflazione del conteggio dei token, dove i fornitori potrebbero sovrastimare l'uso dei token o iniettare token sintetici a basso sforzo per gonfiare i costi. Per affrontare questo problema, proponiamo CoIn, un framework di verifica che controlla sia la quantità che la validità semantica dei token nascosti. CoIn costruisce un albero di hash verificabile dalle impronte digitali degli embedding dei token per verificare i conteggi, e utilizza il matching di rilevanza basato sugli embedding per rilevare contenuti di ragionamento fabbricati. Gli esperimenti dimostrano che CoIn, quando implementato come un auditor di terze parti fidato, può rilevare efficacemente l'inflazione del conteggio dei token con un tasso di successo che raggiunge fino al 94,7%, mostrando una forte capacità di ripristinare la trasparenza nella fatturazione nei servizi opachi di LLM. Il dataset e il codice sono disponibili all'indirizzo https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
La miscela sparsa di esperti (Sparse Mixture of Experts, SMoE) offre una soluzione interessante per aumentare la complessità del modello senza ricorrere all'aumento della profondità o della larghezza della rete. Tuttavia, sosteniamo che l'addestramento efficace di SMoE rimane una sfida a causa del processo di routing subottimale, in cui gli esperti che eseguono i calcoli non contribuiscono direttamente al processo di routing. In questo lavoro, proponiamo la competizione, un nuovo meccanismo per indirizzare i token agli esperti con la risposta neurale più elevata. Teoricamente, dimostriamo che il meccanismo di competizione offre una migliore efficienza campionaria rispetto al tradizionale routing softmax. Inoltre, sviluppiamo CompeteSMoE, un algoritmo semplice ma efficace per addestrare modelli linguistici di grandi dimensioni, utilizzando un router per apprendere la politica di competizione, ottenendo così prestazioni elevate con un basso sovraccarico di addestramento. Le nostre valutazioni empiriche estese su entrambi i compiti di ottimizzazione delle istruzioni visive e di pre-addestramento linguistico dimostrano l'efficacia, la robustezza e la scalabilità di CompeteSMoE rispetto alle migliori strategie SMoE attuali. Abbiamo reso disponibile l'implementazione all'indirizzo: https://github.com/Fsoft-AIC/CompeteSMoE. Questo lavoro è una versione migliorata dello studio precedente disponibile su arXiv:2402.02526.
Il ragionamento dei Large Language Model (LLM) per compiti complessi implica intrinsecamente un compromesso tra accuratezza della soluzione ed efficienza computazionale. La fase successiva di verifica, sebbene concepita per migliorare le prestazioni, complica ulteriormente questo scenario introducendo un proprio difficile compromesso: i sofisticati Generative Reward Models (GenRMs) possono essere computazionalmente proibitivi se integrati in modo ingenuo con i LLM durante il test, mentre metodi più semplici e veloci potrebbero mancare di affidabilità. Per superare queste sfide, introduciamo FlexiVe, un verificatore generativo innovativo che bilancia in modo flessibile le risorse computazionali tra un pensiero rapido e affidabile e un pensiero lento e meticoloso, utilizzando una strategia di Allocazione Flessibile del Budget di Verifica. Proponiamo inoltre la pipeline Solve-Detect-Verify, un framework di scalabilità efficiente durante l'inferenza che integra in modo intelligente FlexiVe, identificando proattivamente i punti di completamento della soluzione per attivare una verifica mirata e fornire un feedback focalizzato al risolutore. Gli esperimenti dimostrano che FlexiVe raggiunge una precisione superiore nell'individuare errori all'interno delle tracce di ragionamento su ProcessBench. Inoltre, su benchmark impegnativi di ragionamento matematico (AIME 2024, AIME 2025 e CNMO), il nostro approccio completo supera i baseline come l'autoconsistenza in termini di accuratezza del ragionamento ed efficienza dell'inferenza. Il nostro sistema offre una soluzione scalabile ed efficace per migliorare il ragionamento dei LLM durante il test.
Il ridimensionamento al momento del test (Test-time Scaling, TTS) si è dimostrato efficace nel potenziare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). La verifica svolge un ruolo chiave nel TTS, influenzando simultaneamente (1) le prestazioni di ragionamento e (2) l'efficienza computazionale, a causa della qualità e del costo computazionale della verifica stessa. In questo lavoro, mettiamo in discussione i paradigmi convenzionali della verifica e compiamo il primo tentativo di indagare sistematicamente l'impatto della granularità della verifica, ovvero con quale frequenza il verificatore viene invocato durante la generazione, andando oltre la semplice verifica dell'output finale o dei singoli passi di generazione. A tal fine, introduciamo la Ricerca a Granularità Variabile (Variable Granularity Search, VG-Search), un algoritmo unificato che generalizza la ricerca a fascio (beam search) e il campionamento Best-of-N attraverso un parametro di granularità regolabile g. Esperimenti estesi con VG-Search, condotti con diversi budget computazionali, configurazioni generatore-verificatore e attributi del task, rivelano che la selezione dinamica di g può migliorare l'efficienza computazionale e il comportamento di ridimensionamento. Sulla base di questi risultati, proponiamo strategie adattive di VG-Search che raggiungono miglioramenti in accuratezza fino al 3,1% rispetto alla ricerca a fascio e al 3,6% rispetto al Best-of-N, riducendo al contempo i FLOPs di oltre il 52%. Renderemo disponibile il codice open-source per supportare la ricerca futura.
Nonostante i significativi progressi nei grandi modelli linguistici (LLM), le loro capacità di memorizzazione della conoscenza rimangono poco esplorate, a causa della mancanza di un terreno di prova standardizzato e di alta qualità. In questo articolo, introduciamo un nuovo benchmark di iniezione di conoscenza su larga scala e basato sul mondo reale, che si evolve continuamente nel tempo senza richiedere intervento umano. Nello specifico, proponiamo WikiDYK, che sfrutta fatti recentemente aggiunti e scritti da esseri umani provenienti dalle voci "Lo sapevi che..." di Wikipedia. Queste voci sono selezionate con cura da esperti editori di Wikipedia in base a criteri come verificabilità e chiarezza. Ogni voce viene convertita in più coppie domanda-risposta che coprono diversi formati di compiti, dai prompt cloze semplici a domande complesse multi-hop. WikiDYK contiene 12.290 fatti e 77.180 domande, ed è anche facilmente estendibile con futuri aggiornamenti da parte degli editori di Wikipedia. Esperimenti estesi utilizzando il pre-addestramento continuo rivelano un'osservazione sorprendente: nonostante la loro prevalenza nei moderni LLM, i Modelli Linguistici Causali (CLM) dimostrano capacità di memorizzazione della conoscenza significativamente più deboli rispetto ai Modelli Linguistici Bidirezionali (BiLM), mostrando un'accuratezza inferiore del 23% in termini di affidabilità. Per compensare le dimensioni più ridotte degli attuali BiLM, introduciamo un framework collaborativo modulare che utilizza ensemble di BiLM come repository di conoscenza esterna da integrare con gli LLM. L'esperimento mostra che il nostro framework migliora ulteriormente l'accuratezza dell'affidabilità fino al 29,1%.
Questa ricerca offre una valutazione unica di come i sistemi di intelligenza artificiale interpretano il linguaggio digitale della Generazione Alpha (Gen Alpha, nati tra il 2010 e il 2024). Essendo la prima coorte cresciuta a fianco dell'IA, la Gen Alpha si trova ad affrontare nuove forme di rischio online a causa di un coinvolgimento digitale immersivo e di un crescente disallineamento tra la loro comunicazione in evoluzione e gli strumenti di sicurezza esistenti. Il loro linguaggio distintivo, plasmato dai giochi, dai meme e dalle tendenze guidate dall'IA, spesso nasconde interazioni dannose sia ai moderatori umani che ai sistemi automatizzati. Valutiamo quattro modelli di IA leader (GPT-4, Claude, Gemini e Llama 3) sulla loro capacità di rilevare molestie e manipolazioni mascherate all'interno del discorso della Gen Alpha. Utilizzando un dataset di 100 espressioni recenti provenienti da piattaforme di gioco, social media e contenuti video, lo studio rivela fallimenti critici nella comprensione con implicazioni dirette per la sicurezza online. Questo lavoro contribuisce: (1) un dataset unico nel suo genere che cattura le espressioni della Gen Alpha; (2) un framework per migliorare i sistemi di moderazione dell'IA per la protezione dei giovani; (3) una valutazione multi-prospettica che include sistemi di IA, moderatori umani e genitori, con il contributo diretto di co-ricercatori della Gen Alpha; e (4) un'analisi di come la divergenza linguistica aumenti la vulnerabilità dei giovani. I risultati evidenziano l'urgente necessità di ridisegnare i sistemi di sicurezza in sintonia con la comunicazione giovanile, soprattutto considerando la riluttanza della Gen Alpha a cercare aiuto quando gli adulti non comprendono il loro mondo digitale. Questo studio combina l'intuizione di un ricercatore della Gen Alpha con un'analisi accademica sistematica per affrontare le sfide critiche della sicurezza digitale.
Rilevare i rischi dell'IA diventa sempre più complesso man mano che emergono modelli più potenti e trovano metodi innovativi, come il "Alignment Faking", per eludere questi tentativi di rilevamento. Ispirati dal modo in cui i comportamenti rischiosi negli esseri umani (ad esempio, attività illegali che possono danneggiare gli altri) sono talvolta guidati da valori fortemente radicati, riteniamo che identificare i valori all'interno dei modelli di IA possa rappresentare un sistema di allerta precoce per i comportamenti rischiosi dell'IA. Abbiamo creato LitmusValues, una pipeline di valutazione per rivelare le priorità dei modelli di IA su una gamma di classi di valori legati all'IA. Successivamente, abbiamo raccolto AIRiskDilemmas, una collezione diversificata di dilemmi che mettono in contrapposizione i valori in scenari rilevanti per i rischi di sicurezza dell'IA, come la ricerca di potere. Misurando la priorizzazione dei valori di un modello di IA attraverso le sue scelte aggregate, otteniamo un insieme coerente di priorità di valori previste che svelano potenziali rischi. Dimostriamo che i valori in LitmusValues (inclusi quelli apparentemente innocui come la Cura) possono prevedere sia comportamenti rischiosi osservati in AIRiskDilemmas sia comportamenti rischiosi non osservati in HarmBench.
La rilevazione del bias mediatico è un compito cruciale per garantire una diffusione delle informazioni equa e bilanciata, ma rimane impegnativo a causa della soggettività del bias e della scarsità di dati annotati di alta qualità. In questo lavoro, eseguiamo una classificazione del bias a livello di frase ottimizzando un modello basato su RoBERTa sul dataset BABE annotato da esperti. Utilizzando il test di McNemar e il test t accoppiato con validazione incrociata 5x2, dimostriamo miglioramenti statisticamente significativi nelle prestazioni rispetto a una baseline DA-RoBERTa pre-addestrata con adattamento al dominio. Inoltre, un'analisi basata sull'attenzione mostra che il nostro modello evita errori comuni come l'eccessiva sensibilità ai termini politicamente carichi e si concentra invece in modo più significativo sui token rilevanti dal punto di vista contestuale. Per un esame completo del bias mediatico, presentiamo una pipeline che combina il nostro modello con un classificatore di tipi di bias già esistente. Il nostro metodo mostra una buona generalizzazione e interpretabilità, nonostante sia limitato dall'analisi a livello di frase e dalla dimensione del dataset a causa della mancanza di corpora di bias più ampi e avanzati. Discutiamo la modellazione contestuale, la neutralizzazione del bias e la classificazione avanzata dei tipi di bias come potenziali direzioni future. I nostri risultati contribuiscono alla costruzione di sistemi NLP più robusti, spiegabili e socialmente responsabili per la rilevazione del bias mediatico.
Negli ultimi anni si è registrato un significativo aumento nella creazione e nel consumo di contenuti video. Realizzare contenuti coinvolgenti richiede una curata selezione sia degli elementi visivi che di quelli audio. Mentre la cura dei segnali visivi, attraverso tecniche come la selezione del punto di vista ottimale o il post-editing, è stata centrale nella produzione mediatica, la sua controparte naturale, l'audio, non ha subito avanzamenti equivalenti. Ciò spesso si traduce in una disconnessione tra la salienza visiva e quella acustica. Per colmare questa lacuna, introduciamo un nuovo compito: l'evidenziazione acustica guidata visivamente, che mira a trasformare l'audio per fornire effetti di evidenziazione appropriati guidati dal video associato, creando infine un'esperienza audio-visiva più armoniosa. Proponiamo un framework multimodale flessibile basato su transformer per risolvere questo compito. Per addestrare il nostro modello, introduciamo anche un nuovo dataset -- il muddy mix dataset, sfruttando la meticolosa cura audio e video presente nei film, che fornisce una forma di supervisione gratuita. Sviluppiamo un processo di generazione di pseudo-dati per simulare audio mal miscelato, imitando scenari reali attraverso un processo in tre fasi -- separazione, regolazione e rimiscelazione. Il nostro approccio supera costantemente diverse baseline sia nella valutazione quantitativa che in quella soggettiva. Studiamo inoltre sistematicamente l'impatto di diversi tipi di guida contestuale e dei livelli di difficoltà del dataset. La nostra pagina del progetto è disponibile qui: https://wikichao.github.io/VisAH/.
L'apprendimento multimodale potenzia le capacità percettive dei sistemi cognitivi integrando informazioni provenienti da diverse modalità sensoriali. Tuttavia, la ricerca esistente sulla fusione multimodale assume tipicamente un'integrazione statica, non incorporando pienamente i meccanismi dinamici chiave presenti nel cervello. Nello specifico, il cervello mostra un fenomeno di efficacia inversa, per cui segnali unimodali più deboli producono maggiori benefici nell'integrazione multisensoriale; al contrario, quando i segnali individuali sono più forti, l'effetto della fusione si riduce. Questo meccanismo consente ai sistemi biologici di raggiungere una cognizione robusta anche con segnali percettivi scarsi o rumorosi. Ispirati da questo meccanismo biologico, esploriamo la relazione tra l'output multimodale e le informazioni provenienti dalle singole modalità, proponendo una strategia di fusione multimodale guidata dall'efficacia inversa (IEMF). Incorporando questa strategia nelle reti neurali, otteniamo un'integrazione più efficiente con migliori prestazioni del modello e maggiore efficienza computazionale, dimostrando una riduzione dei costi computazionali fino al 50% in vari metodi di fusione. Condividiamo esperimenti su classificazione audio-visiva, apprendimento continuo e risposta a domande per validare il nostro metodo. I risultati dimostrano costantemente che il nostro metodo eccelle in questi compiti. Per verificare universalità e generalizzazione, conduciamo anche esperimenti su Reti Neurali Artificiali (ANN) e Reti Neurali a Spikes (SNN), con risultati che mostrano una buona adattabilità a entrambi i tipi di rete. La nostra ricerca sottolinea il potenziale di incorporare meccanismi ispirati alla biologia nelle reti multimodali e fornisce direzioni promettenti per lo sviluppo futuro dell'intelligenza artificiale multimodale. Il codice è disponibile su https://github.com/Brain-Cog-Lab/IEMF.
La tokenizzazione rappresenta il primo - e spesso sottovalutato - strato di computazione nei modelli linguistici. Sebbene il prompting a catena di pensiero (Chain-of-Thought, CoT) consenta ai modelli transformer di approssimare la computazione ricorrente esternalizzando i passaggi intermedi, dimostriamo che il successo di tale ragionamento è fondamentalmente limitato dalla struttura degli input tokenizzati. Questo lavoro presenta un'indagine teorica ed empirica su come gli schemi di tokenizzazione, in particolare i metodi basati su sottoparole come il byte-pair encoding (BPE), ostacolino la computazione simbolica fondendo o oscurando unità di ragionamento atomiche. Introduciamo il concetto di Consapevolezza del Token per formalizzare come una scarsa granularità dei token interrompa l'allineamento logico e impedisca ai modelli di generalizzare procedure simboliche. Attraverso una valutazione sistematica su compiti aritmetici e simbolici, dimostriamo che la struttura dei token influisce drasticamente sulle prestazioni di ragionamento, causando fallimenti anche con il CoT, mentre formati allineati atomicamente sbloccano una forte generalizzazione, permettendo a modelli di piccole dimensioni (ad esempio, GPT-4o-mini) di superare sistemi più grandi (ad esempio, o1) nel ragionamento strutturato. Le nostre scoperte rivelano che la capacità di ragionamento simbolico nei LLM non è puramente architetturale, ma profondamente condizionata dalle rappresentazioni a livello di token.
La geolocalizzazione globale di immagini - il compito di prevedere le coordinate GPS da immagini scattate in qualsiasi parte del mondo - rappresenta una sfida fondamentale a causa della vasta diversità di contenuti visivi tra le diverse regioni. Sebbene gli approcci recenti adottino una pipeline in due fasi che prevede il recupero di candidati e la selezione della migliore corrispondenza, essi si basano tipicamente su euristiche di similarità semplicistiche e supervisione puntuale, non riuscendo a modellare le relazioni spaziali tra i candidati. In questo articolo, proponiamo GeoRanker, un framework di ranking consapevole della distanza che sfrutta modelli di visione e linguaggio su larga scala per codificare congiuntamente le interazioni query-candidato e prevedere la prossimità geografica. Inoltre, introduciamo una funzione di perdita multi-ordine che classifica sia le distanze assolute che quelle relative, consentendo al modello di ragionare su relazioni spaziali strutturate. A supporto di ciò, abbiamo curato GeoRanking, il primo dataset progettato esplicitamente per compiti di ranking geografico con informazioni multimodali sui candidati. GeoRanker ottiene risultati all'avanguardia su due benchmark consolidati (IM2GPS3K e YFCC4K), superando significativamente i metodi attualmente migliori.
Il Question Answering Multi-hop (MHQA) aggiunge livelli di complessità al question answering, rendendolo più impegnativo. Quando i Language Models (LM) vengono sollecitati con più risultati di ricerca, sono chiamati non solo a recuperare informazioni rilevanti, ma anche a impiegare ragionamenti multi-hop attraverso le fonti di informazioni. Sebbene i LM performino bene nei tradizionali compiti di question answering, la maschera causale può ostacolare la loro capacità di ragionare in contesti complessi. In questo articolo, esploriamo come i LM rispondono a domande multi-hop permutando i risultati di ricerca (documenti recuperati) in varie configurazioni. Il nostro studio rivela interessanti risultati come segue: 1) I modelli encoder-decoder, come quelli della famiglia Flan-T5, generalmente superano i LM decoder-only causali nei compiti MHQA, nonostante siano significativamente più piccoli in termini di dimensioni; 2) alterare l'ordine dei documenti gold rivela tendenze distinte sia nei modelli Flan T5 che nei modelli decoder-only fine-tuned, con prestazioni ottimali osservate quando l'ordine dei documenti si allinea con l'ordine della catena di ragionamento; 3) potenziare i modelli decoder-only causali con attenzione bidirezionale modificando la maschera causale può efficacemente migliorare le loro prestazioni finali. Oltre a quanto sopra, conduciamo un'indagine approfondita sulla distribuzione dei pesi di attenzione dei LM nel contesto dell'MHQA. I nostri esperimenti rivelano che i pesi di attenzione tendono a raggiungere picchi più alti quando la risposta risultante è corretta. Sfruttiamo questa scoperta per migliorare euristicamente le prestazioni dei LM su questo compito. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/hwy9855/MultiHopQA-Reasoning.
I recenti progressi nei grandi modelli linguistici (LLM) e l'abbondanza di dati alimentari hanno portato a studi volti a migliorare la comprensione del cibo utilizzando gli LLM. Nonostante diversi sistemi di raccomandazione utilizzino LLM e grafi di conoscenza (KG), la ricerca sull'integrazione di KG relativi al cibo con gli LLM è stata limitata. Introduciamo KERL, un sistema unificato che sfrutta KG alimentari e LLM per fornire raccomandazioni alimentari personalizzate e generare ricette con informazioni associate sui micronutrienti. Data una domanda in linguaggio naturale, KERL estrae le entità, recupera sottografi dal KG, che vengono poi inseriti nell'LLM come contesto per selezionare le ricette che soddisfano i vincoli. Successivamente, il nostro sistema genera i passaggi di cottura e le informazioni nutrizionali per ogni ricetta. Per valutare il nostro approccio, abbiamo anche sviluppato un dataset di riferimento curando domande relative alle ricette, combinate con vincoli e preferenze personali. Attraverso esperimenti estesi, dimostriamo che il nostro LLM potenziato con KG supera significativamente gli approcci esistenti, offrendo una soluzione completa e coerente per la raccomandazione alimentare, la generazione di ricette e l'analisi nutrizionale. Il nostro codice e i dataset di riferimento sono disponibili pubblicamente all'indirizzo https://github.com/mohbattharani/KERL.
La decodifica da cervello a immagine ha recentemente ricevuto un impulso significativo grazie ai progressi nei modelli generativi di intelligenza artificiale e alla disponibilità di grandi quantità di dati di risonanza magnetica funzionale (fMRI) ad ultra-alto campo. Tuttavia, gli approcci attuali dipendono da pipeline multi-stadio complesse e da passaggi di pre-elaborazione che tipicamente collassano la dimensione temporale delle registrazioni cerebrali, limitando così i decodificatori cerebrali risolti nel tempo. Qui presentiamo Dynadiff (Dynamic Neural Activity Diffusion for Image Reconstruction), un nuovo modello di diffusione a singolo stadio progettato per ricostruire immagini da registrazioni fMRI in evoluzione dinamica. Il nostro approccio offre tre contributi principali. In primo luogo, Dynadiff semplifica l'addestramento rispetto agli approcci esistenti. In secondo luogo, il nostro modello supera i modelli all'avanguardia sui segnali fMRI risolti nel tempo, in particolare sulle metriche di ricostruzione semantica di alto livello delle immagini, pur rimanendo competitivo sui dati fMRI pre-elaborati che collassano il tempo. In terzo luogo, questo approccio consente una caratterizzazione precisa dell'evoluzione delle rappresentazioni delle immagini nell'attività cerebrale. Nel complesso, questo lavoro getta le basi per la decodifica da cervello a immagine risolta nel tempo.
Nonostante i progressi nei modelli linguistici basati su trasformatori (LM), una domanda fondamentale rimane in gran parte senza risposta: Tutti i livelli vengono attivati durante l'inferenza? Esploriamo questa questione rilevando i livelli non attivati (che chiamiamo Voids) utilizzando un metodo di calcolo adattivo non addestrabile e privo di parametri chiamato L2 Adaptive Computation (LAC). Adattiamo LAC dalla sua applicazione originale focalizzata sull'efficienza per tracciare i livelli attivati durante l'inferenza. Questo metodo monitora i cambiamenti nella norma L2 delle attivazioni per identificare i voids. Analizziamo l'attivazione dei livelli nei LM ottimizzati per istruzioni in due fasi: Elaborazione del Prompt (PP), in cui tracciamo i livelli attivati per ogni token nei prompt di input, e Generazione della Risposta (RG), in cui tracciamo i livelli attivati per ogni token generato. Dimostriamo inoltre che livelli distinti vengono attivati durante queste due fasi. Per dimostrare l'efficacia del nostro metodo, abbiamo valutato tre diversi LM ottimizzati per istruzioni delle famiglie Llama, Mistral e Qwen su tre benchmark: MMLU, GPQA Diamond e BoolQ. Ad esempio, su MMLU con un'impostazione zero-shot, saltare i voids in Qwen2.5-7B-Instruct ha portato a un miglioramento da 69.24 a 71.29 mentre il modello utilizza solo il 30% dei livelli. Allo stesso modo, Mistral-7B-Instruct-v0.3 su GPQA Diamond è migliorato da 13.88 a 18.36 utilizzando il 70% dei livelli durante entrambe le fasi PP e RG. Questi risultati mostrano che non tutti i livelli contribuiscono in modo uguale durante l'inferenza e che saltarne selettivamente la maggior parte può migliorare le prestazioni dei modelli su determinati compiti.
Un problema ben noto del Retrieval Augmented Generation (RAG) è che i passaggi recuperati irrilevanti rispetto alla query a volte distraggono il modello linguistico generativo (LLM), portandolo a fornire una risposta errata. In questo articolo, approfondiamo questo problema centrale e formuliamo l'effetto distraente di un passaggio rispetto a una query (e a un LLM). Forniamo una misura quantificabile dell'effetto distraente di un passaggio e dimostriamo la sua robustezza tra diversi LLM. La nostra ricerca introduce metodi innovativi per identificare e utilizzare passaggi fortemente distraenti per migliorare i sistemi RAG. Ottimizzando gli LLM con questi passaggi distraenti selezionati con cura, otteniamo un aumento fino al 7,5% nell'accuratezza delle risposte rispetto a modelli ottimizzati su dataset RAG convenzionali. Il nostro contributo è duplice: in primo luogo, andiamo oltre la semplice classificazione binaria dei passaggi irrilevanti come completamente non correlati o distraenti, e in secondo luogo, sviluppiamo e analizziamo più metodi per individuare passaggi fortemente distraenti. A nostra conoscenza, nessun'altra ricerca ha fornito un quadro così completo per l'identificazione e l'utilizzo di passaggi fortemente distraenti.
Presentiamo un framework concettuale per l'addestramento di Modelli Visione-Linguaggio (VLMs) per eseguire la Presa di Prospettiva Visiva (VPT), una capacità fondamentale per la cognizione incarnata essenziale nell'Interazione Uomo-Robot (HRI). Come primo passo verso questo obiettivo, introduciamo un dataset sintetico, generato in NVIDIA Omniverse, che consente l'apprendimento supervisionato per compiti di ragionamento spaziale. Ogni istanza include un'immagine RGB, una descrizione in linguaggio naturale e una matrice di trasformazione 4x4 ground-truth che rappresenta la posa dell'oggetto. Ci concentriamo sull'inferire la distanza lungo l'asse Z come abilità di base, con estensioni future mirate al ragionamento completo a 6 Gradi di Libertà (DOFs). Il dataset è pubblicamente disponibile per supportare ulteriori ricerche. Questo lavoro rappresenta un passo fondamentale verso sistemi di AI incarnata capaci di comprensione spaziale in scenari interattivi uomo-robot.
Le rappresentazioni visive sono centrali per le capacità di apprendimento e generalizzazione delle politiche di manipolazione robotica. Mentre i metodi esistenti si basano su caratteristiche globali o dense, tali rappresentazioni spesso intrecciano informazioni rilevanti e irrilevanti per il compito, limitando la robustezza in caso di cambiamenti nella distribuzione dei dati. In questo lavoro, investigiamo le rappresentazioni centrate sugli oggetti (OCR) come alternativa strutturata che segmenta l'input visivo in un insieme definito di entità, introducendo bias induttivi che si allineano più naturalmente con i compiti di manipolazione. Confrontiamo una gamma di encoder visivi - metodi centrati sugli oggetti, globali e densi - su una serie di compiti di manipolazione simulati e nel mondo reale, che vanno da semplici a complessi, e valutiamo la loro capacità di generalizzazione in diverse condizioni visive, inclusi cambiamenti nell'illuminazione, nella texture e nella presenza di distrattori. I nostri risultati rivelano che le politiche basate su OCR superano le rappresentazioni dense e globali negli scenari di generalizzazione, anche senza pre-addestramento specifico per il compito. Queste intuizioni suggeriscono che l'OCR è una direzione promettente per progettare sistemi visivi che generalizzano efficacemente in ambienti robotici dinamici e reali.