Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'Intelligenza Artificiale (IA) sta accelerando la trasformazione dei paradigmi della ricerca scientifica, non solo migliorando l'efficienza della ricerca ma anche guidando l'innovazione. Presentiamo NovelSeek, un framework unificato a ciclo chiuso basato su agenti multipli per condurre Ricerca Scientifica Autonoma (ASR) in vari campi di ricerca scientifica, consentendo ai ricercatori di affrontare problemi complessi in questi ambiti con una velocità e precisione senza precedenti. NovelSeek evidenzia tre vantaggi chiave: 1) Scalabilità: NovelSeek ha dimostrato la sua versatilità in 12 compiti di ricerca scientifica, essendo in grado di generare idee innovative per migliorare le prestazioni del codice di base. 2) Interattività: NovelSeek fornisce un'interfaccia per il feedback di esperti umani e l'interazione tra agenti multipli in processi automatizzati end-to-end, consentendo l'integrazione senza soluzione di continuità delle conoscenze degli esperti di dominio. 3) Efficienza: NovelSeek ha ottenuto promettenti miglioramenti delle prestazioni in diversi campi scientifici con un costo temporale significativamente inferiore rispetto agli sforzi umani. Ad esempio, nella previsione della resa di reazione, è passata dal 27,6% al 35,4% in sole 12 ore; nella previsione dell'attività degli enhancer, l'accuratezza è aumentata da 0,52 a 0,79 con solo 4 ore di elaborazione; e nella segmentazione semantica 2D, la precisione è avanzata dal 78,8% all'81,0% in appena 30 ore.
La capacità di seguire le istruzioni è essenziale per allineare i grandi modelli linguistici (LLMs) con l'intento dell'utente. Sebbene i recenti modelli orientati al ragionamento mostrino prestazioni impressionanti su problemi matematici complessi, la loro capacità di aderire a istruzioni in linguaggio naturale rimane poco esplorata. In questo lavoro, introduciamo MathIF, un benchmark dedicato per valutare il rispetto delle istruzioni nei compiti di ragionamento matematico. La nostra analisi empirica rivela una tensione costante tra il potenziamento della capacità di ragionamento e il mantenimento della controllabilità, poiché i modelli che ragionano in modo più efficace spesso faticano a conformarsi alle direttive dell'utente. Troviamo che i modelli ottimizzati su catene di pensiero lunghe distillate o addestrati con rinforzo orientato al ragionamento spesso peggiorano nell'aderenza alle istruzioni, specialmente quando aumenta la lunghezza della generazione. Inoltre, dimostriamo che anche interventi semplici possono recuperare parzialmente l'obbedienza, sebbene a scapito delle prestazioni di ragionamento. Questi risultati evidenziano una tensione fondamentale negli attuali paradigmi di addestramento degli LLM e motivano la necessità di modelli di ragionamento più consapevoli delle istruzioni. Rilasciamo il codice e i dati su https://github.com/TingchenFu/MathIF.
Recentemente, i grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di ragionamento attraverso l'apprendimento per rinforzo su larga scala (RL). Tuttavia, sfruttare l'algoritmo RL per potenziare un ragionamento collaborativo efficace con più strumenti negli LLM rimane una sfida aperta. In questo articolo, introduciamo Tool-Star, un framework basato su RL progettato per consentire agli LLM di invocare autonomamente più strumenti esterni durante il ragionamento passo-passo. Tool-Star integra sei tipi di strumenti e incorpora design sistematici sia nella sintesi dei dati che nell'addestramento. Per affrontare la scarsità di dati sull'uso degli strumenti, proponiamo una pipeline generale per la sintesi di dati di ragionamento integrato con strumenti, che combina il prompting integrato con strumenti e il campionamento basato su suggerimenti per generare automaticamente e in modo scalabile traiettorie di uso degli strumenti. Un successivo processo di normalizzazione della qualità e classificazione basata sulla difficoltà filtra i campioni di bassa qualità e organizza il dataset dal più semplice al più complesso. Inoltre, proponiamo un framework di addestramento in due fasi per migliorare il ragionamento collaborativo con più strumenti: (1) fine-tuning in modalità cold-start, che guida gli LLM a esplorare modelli di ragionamento attraverso il feedback sull'invocazione degli strumenti; e (2) un algoritmo RL multi-strumento con auto-critica e design gerarchico delle ricompense, che rafforza la comprensione delle ricompense e promuove una collaborazione efficace tra gli strumenti. Le analisi sperimentali su oltre 10 benchmark di ragionamento complessi evidenziano l'efficacia e l'efficienza di Tool-Star. Il codice è disponibile all'indirizzo https://github.com/dongguanting/Tool-Star.
Il ragionamento a catena di pensiero ha migliorato significativamente le prestazioni dei Modelli Linguistici di Grande Dimensione (LLMs) in vari domini. Tuttavia, questo processo di ragionamento è stato confinato esclusivamente allo spazio testuale, limitandone l'efficacia nei compiti ad alta intensità visiva. Per affrontare questa limitazione, introduciamo il concetto di ragionamento nello spazio dei pixel. All'interno di questo nuovo framework, i Modelli Visione-Linguaggio (VLMs) sono dotati di una serie di operazioni di ragionamento visivo, come lo zoom e la selezione del frame. Queste operazioni consentono ai VLMs di ispezionare, interrogare e inferire direttamente dalle evidenze visive, migliorando così la fedeltà del ragionamento per i compiti visivi. Coltivare tali capacità di ragionamento nello spazio dei pixel nei VLMs presenta sfide significative, tra cui la competenza inizialmente squilibrata del modello e la sua riluttanza ad adottare le nuove operazioni nello spazio dei pixel. Affrontiamo queste sfide attraverso un approccio di addestramento in due fasi. La prima fase utilizza l'ottimizzazione delle istruzioni su tracce di ragionamento sintetizzate per familiarizzare il modello con le nuove operazioni visive. Successivamente, una fase di apprendimento per rinforzo (RL) sfrutta uno schema di ricompensa guidato dalla curiosità per bilanciare l'esplorazione tra il ragionamento nello spazio dei pixel e quello testuale. Con queste operazioni visive, i VLMs possono interagire con input visivi complessi, come immagini o video ricchi di informazioni, per raccogliere proattivamente le informazioni necessarie. Dimostriamo che questo approccio migliora significativamente le prestazioni dei VLMs su vari benchmark di ragionamento visivo. Il nostro modello da 7B, \model, raggiunge l'84\% su V* bench, il 74\% su TallyQA-Complex e l'84\% su InfographicsVQA, segnando la massima accuratezza raggiunta da qualsiasi modello open-source fino ad oggi. Questi risultati evidenziano l'importanza del ragionamento nello spazio dei pixel e l'efficacia del nostro framework.
I recenti progressi nei modelli generativi multimodali hanno permesso significativi avanzamenti nell'editing di immagini basato su istruzioni. Tuttavia, sebbene questi modelli producano risultati visivamente plausibili, la loro capacità di eseguire task di editing basati sul ragionamento conoscitivo rimane poco esplorata. In questo articolo, introduciamo KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), un benchmark diagnostico progettato per valutare i modelli attraverso una lente cognitivamente informata. Attingendo dalla teoria educativa, KRIS-Bench categorizza i task di editing in tre tipologie fondamentali di conoscenza: Fattuale, Concettuale e Procedurale. Basandoci su questa tassonomia, progettiamo 22 task rappresentativi che coprono 7 dimensioni di ragionamento e rilasciamo 1.267 istanze di editing annotate di alta qualità. Per supportare una valutazione granulare, proponiamo un protocollo completo che incorpora una nuova metrica di Plausibilità della Conoscenza, potenziata da suggerimenti conoscitivi e calibrata attraverso studi umani. I risultati empirici su 10 modelli all'avanguardia rivelano significative lacune nelle prestazioni di ragionamento, evidenziando la necessità di benchmark centrati sulla conoscenza per far progredire lo sviluppo di sistemi intelligenti di editing delle immagini.
La comprensione di video lunghi è emersa come una capacità cruciale in applicazioni del mondo reale come la sorveglianza video, la sintesi di riunioni, l'analisi di lezioni educative e la trasmissione sportiva. Tuttavia, rimane computazionalmente proibitiva per i VideoLLM, principalmente a causa di due colli di bottiglia: 1) la decodifica sequenziale del video, il processo di conversione del flusso di bit grezzo in fotogrammi RGB può richiedere fino a un minuto per input video di un'ora, e 2) il costoso prefilling di fino a diversi milioni di token per l'inferenza LLM, che comporta un'elevata latenza e uso di memoria. Per affrontare queste sfide, proponiamo QuickVideo, una co-progettazione sistema-algoritmo che accelera significativamente la comprensione di video lunghi per supportare applicazioni downstream in tempo reale. Comprende tre innovazioni chiave: QuickDecoder, un decodificatore video basato su CPU parallelizzato che ottiene un'accelerazione di 2-3 volte suddividendo i video in intervalli allineati ai fotogrammi chiave elaborati in modo concorrente; QuickPrefill, un metodo di prefilling efficiente in termini di memoria che utilizza la potatura della cache KV per supportare più fotogrammi con meno memoria GPU; e uno schema di sovrapposizione che sovrappone la decodifica video della CPU con l'inferenza della GPU. Insieme, questi componenti riducono il tempo di inferenza di un minuto su input video lunghi, consentendo una comprensione video scalabile e di alta qualità anche su hardware limitato. Gli esperimenti dimostrano che QuickVideo si generalizza su durate e frequenze di campionamento, rendendo fattibile l'elaborazione di video lunghi nella pratica.
I Diffusion Transformer si sono affermati come fondamento per i modelli generativi visivi, ma la loro scalabilità è limitata dall'elevato costo della sintonizzazione degli iperparametri (HP) su larga scala. Recentemente, è stata proposta la Parametrizzazione ad Aggiornamento Massimo (muP) per i Transformer standard, che consente un trasferimento stabile degli HP da modelli linguistici piccoli a quelli grandi, riducendo drasticamente i costi di sintonizzazione. Tuttavia, rimane incerto se la muP dei Transformer standard si estenda ai Diffusion Transformer, che differiscono sia a livello architetturale che obiettivo. In questo lavoro, generalizziamo la muP standard ai Diffusion Transformer e ne validiamo l'efficacia attraverso esperimenti su larga scala. In primo luogo, dimostriamo rigorosamente che la muP dei principali Diffusion Transformer, tra cui DiT, U-ViT, PixArt-alpha e MMDiT, è allineata con quella del Transformer standard, consentendo l'applicazione diretta delle metodologie muP esistenti. Sfruttando questo risultato, dimostriamo sistematicamente che DiT-muP gode di una robusta trasferibilità degli HP. In particolare, DiT-XL-2-muP con tasso di apprendimento trasferito raggiunge una convergenza 2,9 volte più veloce rispetto al DiT-XL-2 originale. Infine, validiamo l'efficacia della muP nella generazione di immagini da testo scalando PixArt-alpha da 0,04B a 0,61B e MMDiT da 0,18B a 18B. In entrambi i casi, i modelli con muP superano i rispettivi baseline pur richiedendo un costo di sintonizzazione ridotto, solo il 5,5% di una singola esecuzione di addestramento per PixArt-alpha e il 3% del consumo da parte di esperti umani per MMDiT-18B. Questi risultati stabiliscono la muP come un framework principiato ed efficiente per la scalabilità dei Diffusion Transformer.
In questo lavoro, presentiamo LLaDA-V, un Multimodal Large Language Model (MLLM) basato esclusivamente su modelli di diffusione che integra il tuning di istruzioni visive con modelli di diffusione mascherati, rappresentando una deviazione dai paradigmi autoregressivi dominanti negli approcci multimodali attuali. Costruito su LLaDA, un rappresentativo modello di diffusione per linguaggio di grandi dimensioni, LLaDA-V incorpora un encoder visivo e un connettore MLP che proietta le caratteristiche visive nello spazio di embedding linguistico, consentendo un efficace allineamento multimodale. La nostra indagine empirica rivela diversi risultati interessanti: in primo luogo, LLaDA-V dimostra prestazioni multimodali promettenti nonostante il suo modello linguistico sia meno performante in compiti puramente testuali rispetto a controparti come LLaMA3-8B e Qwen2-7B. Quando addestrato sugli stessi dati di istruzione, LLaDA-V è altamente competitivo rispetto a LLaMA3-V in compiti multimodali, con una migliore scalabilità dei dati. Riduce inoltre il divario di prestazioni rispetto a Qwen2-VL, suggerendo l'efficacia della sua architettura per compiti multimodali. In secondo luogo, LLaDA-V raggiunge prestazioni all'avanguardia nella comprensione multimodale rispetto agli attuali MLLM ibridi autoregressivi-diffusivi e basati esclusivamente su diffusione. I nostri risultati suggeriscono che i modelli di diffusione per linguaggio di grandi dimensioni mostrano promettenti potenzialità in contesti multimodali e meritano ulteriori indagini in future ricerche. Pagina del progetto e codici: https://ml-gsai.github.io/LLaDA-V-demo/.
Nonostante i recenti progressi nell'apprendimento per rinforzo (RL) su larga scala per il ragionamento, la ricetta di addestramento per costruire modelli di ragionamento ad alte prestazioni rimane sfuggente. I dettagli chiave di implementazione dei modelli all'avanguardia, come DeepSeek-R1, inclusi le strategie di curatela dei dati e la ricetta di addestramento RL, sono spesso omessi. Inoltre, ricerche recenti indicano che la distillazione rimane più efficace dell'RL per modelli più piccoli. In questo lavoro, dimostriamo che l'RL su larga scala può migliorare significativamente le capacità di ragionamento di modelli forti di piccole e medie dimensioni, ottenendo risultati che superano quelli dei modelli basati su distillazione all'avanguardia. Studiamo sistematicamente il processo di addestramento RL attraverso ampie ablazioni e proponiamo un approccio semplice ma efficace: addestrare prima su prompt esclusivamente matematici, poi su prompt esclusivamente di codice. In particolare, scopriamo che l'RL esclusivamente matematico non solo migliora significativamente le prestazioni di modelli distillati forti su benchmark matematici (ad esempio, +14,6% / +17,2% su AIME 2025 per i modelli 7B / 14B), ma anche su compiti di ragionamento di codice (ad esempio, +6,8% / +5,8% su LiveCodeBench per i modelli 7B / 14B). Inoltre, iterazioni estese di RL esclusivamente di codice migliorano ulteriormente le prestazioni sui benchmark di codice con un degrado minimo o nullo nei risultati matematici. Sviluppiamo una pipeline robusta di curatela dei dati per raccogliere prompt impegnativi con risposte verificabili di alta qualità e casi di test per abilitare l'RL basato sulla verifica in entrambi i domini. Infine, identifichiamo intuizioni sperimentali chiave, tra cui l'apprendimento curriculare con lunghezze di risposta progressivamente crescenti e l'effetto stabilizzante degli aggiornamenti dei parametri on-policy. Scopriamo che l'RL non solo elicita le capacità di ragionamento fondamentali acquisite durante il pre-addestramento e la messa a punto supervisionata (ad esempio, la distillazione), ma spinge anche i limiti della capacità di ragionamento del modello, consentendogli di risolvere problemi che in precedenza erano irrisolvibili.
I modelli di generazione visiva hanno compiuto progressi significativi nella creazione di immagini realistiche a partire da prompt testuali, ma incontrano difficoltà con prompt complessi che specificano più oggetti con relazioni spaziali e attributi precisi. La gestione efficace di tali prompt richiede un ragionamento esplicito sul contenuto semantico e sul layout spaziale. Presentiamo GoT-R1, un framework che applica il reinforcement learning per potenziare il ragionamento semantico-spaziale nella generazione visiva. Basandosi sull'approccio Generation Chain-of-Thought, GoT-R1 consente ai modelli di scoprire autonomamente strategie di ragionamento efficaci oltre i modelli predefiniti, attraverso un reinforcement learning accuratamente progettato. Per raggiungere questo obiettivo, proponiamo un framework di reward a doppio stadio e multidimensionale che sfrutta i MLLM per valutare sia il processo di ragionamento che l'output finale, consentendo una supervisione efficace lungo l'intera pipeline di generazione. Il sistema di reward valuta l'allineamento semantico, l'accuratezza spaziale e la qualità visiva in un approccio unificato. I risultati sperimentali dimostrano miglioramenti significativi sul benchmark T2I-CompBench, in particolare nei task composizionali che coinvolgono relazioni spaziali precise e il binding degli attributi. GoT-R1 avanza lo stato dell'arte nella generazione di immagini trasferendo con successo sofisticate capacità di ragionamento nel dominio della generazione visiva. Per facilitare la ricerca futura, rendiamo disponibili pubblicamente il nostro codice e i modelli pre-addestrati all'indirizzo https://github.com/gogoduan/GoT-R1.
L'apprendimento per rinforzo avverso al rischio trova applicazione in vari campi ad alto rischio. A differenza dell'apprendimento per rinforzo classico, che mira a massimizzare i rendimenti attesi, gli agenti avversi al rischio scelgono politiche che minimizzano il rischio, sacrificando occasionalmente il valore atteso. Queste preferenze possono essere inquadrate attraverso la teoria dell'utilità. Ci concentriamo sul caso specifico della funzione di utilità esponenziale, dove possiamo derivare le equazioni di Bellman e impiegare vari algoritmi di apprendimento per rinforzo con poche modifiche. Tuttavia, questi metodi soffrono di instabilità numerica a causa della necessità di calcolare esponenziali durante il processo. Per affrontare questo problema, introduciamo una funzione di perdita numericamente stabile e matematicamente solida basata sulla divergenza di Itakura-Saito per l'apprendimento delle funzioni di valore degli stati e delle azioni. Valutiamo la nostra funzione di perdita proposta rispetto ad alternative consolidate, sia teoricamente che empiricamente. Nella sezione sperimentale, esploriamo diversi scenari finanziari, alcuni con soluzioni analitiche note, e dimostriamo che la nostra funzione di perdita supera le alternative.
L'intelligenza artificiale generativa (GenAI) offre un potenziale significativo per automatizzare le attività quotidiane di editing delle immagini, specialmente dopo il recente lancio di GPT-4o il 25 marzo 2025. Tuttavia, quali sono i soggetti che le persone desiderano modificare più frequentemente? Quali tipi di azioni di editing vogliono eseguire (ad esempio, rimuovere o stilizzare il soggetto)? Le persone preferiscono modifiche precise con risultati prevedibili o altamente creative? Comprendendo le caratteristiche delle richieste del mondo reale e le corrispondenti modifiche effettuate da esperti freelance di fotoritocco, possiamo trarre insegnamenti per migliorare gli editor basati su IA e determinare quali tipi di richieste possono attualmente essere gestite con successo dagli editor IA? In questo articolo, presentiamo uno studio unico che affronta queste domande analizzando 83k richieste degli ultimi 12 anni (2013-2025) sulla comunità Reddit, che ha raccolto 305k modifiche PSR-wizard. Secondo le valutazioni umane, solo circa il 33% delle richieste può essere soddisfatto dai migliori editor IA (inclusi GPT-4o, Gemini-2.0-Flash, SeedEdit). È interessante notare che gli editor IA performano peggio su richieste a bassa creatività che richiedono un editing preciso rispetto a compiti più aperti. Spesso faticano a preservare l'identità di persone e animali e frequentemente effettuano ritocchi non richiesti. Dall'altro lato, i giudici VLM (ad esempio, o1) si comportano diversamente dai giudici umani e potrebbero preferire le modifiche IA rispetto a quelle umane. Codice ed esempi qualitativi sono disponibili al seguente link: https://psrdataset.github.io
L'addestramento di modelli robusti per il recupero e il riordinamento si basa tipicamente su dataset di recupero su larga scala; ad esempio, la collezione BGE contiene 1,6 milioni di coppie query-passaggio provenienti da varie fonti di dati. Tuttavia, abbiamo osservato che alcuni dataset possono influire negativamente sull'efficacia del modello: rimuovendo 8 dei 15 dataset dalla collezione BGE, la dimensione del set di addestramento si riduce di 2,35 volte e l'nDCG@10 su BEIR aumenta di 1,0 punto. Ciò motiva un esame più approfondito della qualità dei dati di addestramento, con un particolare focus sui "falsi negativi", dove passaggi rilevanti sono erroneamente etichettati come irrilevanti. Proponiamo un approccio semplice ed economico che utilizza prompt a cascata di LLM per identificare e rietichettare i negativi difficili. I risultati sperimentali mostrano che rietichettare i falsi negativi con veri positivi migliora sia i modelli di recupero E5 (base) che Qwen2.5-7B di 0,7-1,4 nDCG@10 su BEIR e di 1,7-1,8 nDCG@10 nella valutazione zero-shot di AIR-Bench. Si osservano guadagni simili per i riordinatori fine-tuned sui dati rietichettati, come Qwen2.5-3B su BEIR. L'affidabilità del design a cascata è ulteriormente supportata dai risultati delle annotazioni umane, dove si riscontra che il giudizio di GPT-4o mostra un accordo molto più elevato con gli umani rispetto a GPT-4o-mini.
I grandi modelli linguistici (LLM) hanno ottenuto progressi significativi nei compiti matematici grazie al ragionamento a catena di pensiero (CoT). Tuttavia, i dataset CoT matematici esistenti spesso presentano il problema dei "salti di pensiero" dovuti all'omissione di passaggi intermedi da parte degli esperti, il che influisce negativamente sull'apprendimento e sulla generalizzazione del modello. Proponiamo il compito CoT Thought Leap Bridge, che mira a rilevare automaticamente i salti e a generare i passaggi di ragionamento intermedi mancanti per ripristinare la completezza e la coerenza del CoT. Per facilitare ciò, abbiamo costruito un dataset di addestramento specializzato chiamato ScaleQM+, basato sul dataset strutturato ScaleQuestMath, e abbiamo addestrato CoT-Bridge a colmare i salti di pensiero. Attraverso esperimenti completi su benchmark di ragionamento matematico, dimostriamo che i modelli fine-tuned su dataset "pontati" superano costantemente quelli addestrati su dataset originali, con miglioramenti fino a +5,87% su NuminaMath. Il nostro approccio migliora efficacemente i dati distillati (+3,02%) e fornisce punti di partenza migliori per l'apprendimento per rinforzo (+3,1%), funzionando come un modulo plug-and-play compatibile con le tecniche di ottimizzazione esistenti. Inoltre, CoT-Bridge mostra una migliore generalizzazione su compiti di ragionamento logico fuori dominio, confermando che il miglioramento della completezza del ragionamento produce benefici ampiamente applicabili.
I grandi modelli di ragionamento (Large Reasoning Models, LRM), come OpenAI o1 e DeepSeek-R1, hanno notevolmente migliorato le loro capacità di ragionamento generando catene di pensiero più lunghe, dimostrando prestazioni eccezionali in una varietà di compiti. Tuttavia, questo guadagno in termini di prestazioni avviene al costo di un sostanziale aumento del ragionamento ridondante durante il processo di generazione, portando a un elevato sovraccarico computazionale e aggravando il problema del sovrapensiero. Sebbene numerosi approcci esistenti mirino a risolvere il problema del sovrapensiero, essi spesso si basano su interventi esterni. In questo articolo, proponiamo un nuovo framework, il Self-Braking Tuning (SBT), che affronta il sovrapensiero dalla prospettiva di consentire al modello di regolare autonomamente il proprio processo di ragionamento, eliminando così la dipendenza da meccanismi di controllo esterni. Costruiamo un insieme di metriche di identificazione del sovrapensiero basate su risposte standard e progettiamo un metodo sistematico per rilevare il ragionamento ridondante. Questo metodo identifica accuratamente i passaggi non necessari all'interno della traiettoria di ragionamento e genera segnali di addestramento per apprendere comportamenti di autoregolazione. Sulla base di queste fondamenta, sviluppiamo una strategia completa per la costruzione di dati con lunghezze di ragionamento adattive e introduciamo un innovativo meccanismo di prompt di frenata che consente al modello di apprendere naturalmente quando terminare il ragionamento in un punto appropriato. Esperimenti condotti su benchmark matematici (AIME, AMC, MATH500, GSM8K) dimostrano che il nostro metodo riduce il consumo di token fino al 60% mantenendo un'accuratezza comparabile a quella dei modelli non vincolati.
Nonostante la qualità di generazione notevole dei modelli video Diffusion Transformer (DiT), il loro utilizzo pratico è fortemente limitato dagli elevati requisiti computazionali. Questa inefficienza deriva da due sfide principali: la complessità quadratica dell'auto-attenzione rispetto alla lunghezza dei token e la natura multi-step dei modelli di diffusione. Per affrontare queste limitazioni, presentiamo Jenga, una pipeline di inferenza innovativa che combina il dynamic attention carving con la generazione progressiva della risoluzione. Il nostro approccio si basa su due intuizioni chiave: (1) i primi passi di denoising non richiedono latenti ad alta risoluzione, e (2) i passi successivi non necessitano di un'attenzione densa. Jenga introduce un meccanismo di attenzione a blocchi che seleziona dinamicamente le interazioni rilevanti tra i token utilizzando curve di riempimento spaziale 3D, insieme a una strategia di risoluzione progressiva che aumenta gradualmente la risoluzione dei latenti durante la generazione. I risultati sperimentali dimostrano che Jenga ottiene accelerazioni significative su più modelli video di diffusione all'avanguardia, mantenendo una qualità di generazione comparabile (un'accelerazione di 8,83 volte con un calo delle prestazioni dello 0,01% su VBench). Come soluzione plug-and-play, Jenga abilita la generazione pratica e di alta qualità di video su hardware moderno, riducendo il tempo di inferenza da minuti a secondi, senza richiedere il riaddestramento del modello. Codice: https://github.com/dvlab-research/Jenga
In questo lavoro, proponiamo Dimple, il primo Modello Linguistico Multimodale a Diffusione Discreta (DMLLM). Osserviamo che l'addestramento con un approccio puramente discreto di diffusione porta a una significativa instabilità durante il training, prestazioni subottimali e gravi problemi di bias nella lunghezza. Per affrontare queste sfide, progettiamo un nuovo paradigma di addestramento che combina una fase iniziale autoregressiva con una successiva fase di diffusione. Questo approccio dà vita al modello Dimple-7B, addestrato sullo stesso dataset e utilizzando una pipeline di training simile a quella di LLaVA-NEXT. Dimple-7B supera infine LLaVA-NEXT in termini di prestazioni del 3,9%, dimostrando che il DMLLM può raggiungere prestazioni paragonabili a quelle dei modelli autoregressivi. Per migliorare l'efficienza durante l'inferenza, proponiamo una strategia di decodifica denominata confident decoding, che regola dinamicamente il numero di token generati a ogni passo, riducendo significativamente il numero di iterazioni di generazione. Nei modelli autoregressivi, il numero di iterazioni in avanti durante la generazione è uguale alla lunghezza della risposta. Con il confident decoding, tuttavia, il numero di iterazioni necessarie per Dimple è pari a solo text{lunghezza della risposta}{3}. Reimplementiamo inoltre la tecnica di prefilling nei modelli autoregressivi e dimostriamo che non influisce significativamente sulle prestazioni nella maggior parte delle valutazioni benchmark, offrendo un'accelerazione da 1,5x a 7x. Inoltre, esploriamo la capacità di Dimple di controllare con precisione la sua risposta utilizzando prior strutturali. Questi prior consentono risposte strutturate in modo diverso rispetto ai prompt basati su istruzioni o su catene di pensiero e permettono un controllo fine sulla formattazione e sulla lunghezza della risposta, cosa difficile da ottenere nei modelli autoregressivi. Nel complesso, questo lavoro valida la fattibilità e i vantaggi del DMLLM e ne migliora l'efficienza inferenziale e la controllabilità. Codice e modelli sono disponibili su https://github.com/yu-rp/Dimple.
Con i videogiochi che ora generano i ricavi più alti nell'industria dell'intrattenimento, l'ottimizzazione dei flussi di lavoro nello sviluppo dei giochi è diventata essenziale per la crescita sostenibile del settore. I recenti progressi nei Modelli Visione-Linguaggio (VLMs) offrono un potenziale considerevole per automatizzare e migliorare vari aspetti dello sviluppo dei giochi, in particolare il Controllo Qualità (QA), che rimane uno dei processi più laboriosi del settore con opzioni di automazione limitate. Per valutare accuratamente le prestazioni dei VLMs nei compiti di QA dei videogiochi e determinarne l'efficacia nella gestione di scenari reali, c'è un chiaro bisogno di benchmark standardizzati, poiché quelli esistenti sono insufficienti per affrontare le specifiche esigenze di questo dominio. Per colmare questa lacuna, introduciamo VideoGameQA-Bench, un benchmark completo che copre un'ampia gamma di attività di QA nei giochi, inclusi test unitari visivi, test di regressione visiva, compiti di ricerca dell'ago nel pagliaio, rilevamento di glitch e generazione di report di bug per immagini e video di vari giochi. Il codice e i dati sono disponibili al seguente indirizzo: https://asgaardlab.github.io/videogameqa-bench/
Sebbene l'apprendimento per rinforzo (RL) abbia dimostrato un notevole successo nel potenziare i grandi modelli linguistici (LLM), si è principalmente concentrato su compiti a turno singolo come la risoluzione di problemi matematici. Addestrare agenti web efficaci per interazioni multi-turno rimane una sfida a causa della complessità del processo decisionale a lungo orizzonte attraverso interfacce web dinamiche. In questo lavoro, presentiamo WebAgent-R1, un framework RL end-to-end semplice ma efficace per l'addestramento di agenti web. Impara direttamente dalle interazioni online con ambienti web generando in modo asincrono traiettorie diverse, interamente guidato da ricompense binarie in base al successo del compito. Gli esperimenti sul benchmark WebArena-Lite dimostrano l'efficacia di WebAgent-R1, aumentando il tasso di successo dei compiti di Qwen-2.5-3B dal 6,1% al 33,9% e di Llama-3.1-8B dall'8,5% al 44,8%, superando significativamente i metodi all'avanguardia esistenti e modelli proprietari robusti come OpenAI o3. Analisi approfondite rivelano l'efficacia della strategia di prompting basata sul pensiero e del ridimensionamento al momento del test attraverso un aumento delle interazioni per i compiti web. Investigiamo ulteriormente diverse politiche di inizializzazione RL introducendo due varianti, ovvero WebAgent-R1-Zero e WebAgent-R1-CoT, che evidenziano l'importanza della fase di addestramento di riscaldamento (cioè, clonazione del comportamento) e forniscono approfondimenti sull'incorporazione di ragionamenti a lunga catena di pensiero (CoT) negli agenti web.
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) vengono sempre più utilizzati in contesti di fine-tuning-as-a-service (FTaaS), dove dataset forniti dagli utenti adattano modelli generici a compiti specifici. Questa flessibilità, tuttavia, introduce seri rischi per la sicurezza, poiché un fine-tuning malevolo può impiantare backdoor negli MLLM con uno sforzo minimo. In questo articolo, osserviamo che i trigger dei backdoor interrompono sistematicamente l'elaborazione cross-modale causando una concentrazione anomala dell'attenzione su regioni non semantiche—un fenomeno che definiamo collasso dell'attenzione. Basandoci su questa intuizione, proponiamo Believe Your Eyes (BYE), un framework di filtraggio dei dati che sfrutta i modelli di entropia dell'attenzione come segnali auto-supervisionati per identificare e filtrare campioni contenenti backdoor. BYE opera attraverso una pipeline in tre fasi: (1) estrazione delle mappe di attenzione utilizzando il modello fine-tuned, (2) calcolo dei punteggi di entropia e profilazione degli strati sensibili tramite separazione bimodale, e (3) esecuzione di clustering non supervisionato per rimuovere campioni sospetti. A differenza delle difese precedenti, BYE non richiede supervisione pulita, etichette ausiliarie o modifiche al modello. Esperimenti estesi su vari dataset, modelli e diversi tipi di trigger convalidano l'efficacia di BYE: raggiunge tassi di successo dell'attacco quasi nulli mantenendo le prestazioni sui compiti puliti, offrendo una soluzione robusta e generalizzabile contro le minacce di backdoor negli MLLM.
I recenti progressi hanno dimostrato successi nel suscitare forti capacità di ragionamento nei modelli linguistici multimodali di grandi dimensioni (MLLM) attraverso l'apprendimento per rinforzo (RL) basato su regole con ricompense basate sui risultati. Tuttavia, questo paradigma tipicamente manca di supervisione sul processo di pensiero che porta al risultato finale. Di conseguenza, il modello potrebbe apprendere strategie di ragionamento subottimali, che possono ostacolare la sua capacità di generalizzazione. Alla luce di ciò, proponiamo SophiaVL-R1, come un tentativo di aggiungere segnali di ricompensa per il processo di pensiero in questo paradigma. Per raggiungere questo obiettivo, addestriamo prima un modello di ricompensa del pensiero che valuta la qualità dell'intero processo di ragionamento. Dato che la ricompensa del pensiero potrebbe essere inaffidabile per certi campioni a causa del fenomeno di "reward hacking", proponiamo il metodo Trust-GRPO, che assegna un peso di affidabilità alla ricompensa del pensiero durante l'addestramento. Questo peso è calcolato basandosi sul confronto delle ricompense del pensiero tra risposte che portano a risposte corrette rispetto a quelle errate, aiutando a mitigare l'impatto di ricompense del pensiero potenzialmente inaffidabili. Inoltre, progettiamo una strategia di addestramento ad annealing che riduce gradualmente la ricompensa del pensiero nel tempo, permettendo al modello di fare maggior affidamento sulla precisa ricompensa basata su regole nei risultati nelle fasi avanzate dell'addestramento. Gli esperimenti mostrano che il nostro SophiaVL-R1 supera una serie di MLLM di ragionamento su vari benchmark (ad esempio, MathVisita, MMMU), dimostrando forti capacità di ragionamento e generalizzazione. In particolare, il nostro SophiaVL-R1-7B supera persino LLaVA-OneVision-72B sulla maggior parte dei benchmark, nonostante quest'ultimo abbia 10 volte più parametri. Tutto il codice, i modelli e i dataset sono resi pubblicamente disponibili su https://github.com/kxfan2002/SophiaVL-R1.
Il Reinforcement Learning (RL) è diventato uno strumento potente per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM) ottimizzando le loro politiche attraverso segnali di ricompensa. Tuttavia, il successo del RL dipende dall'affidabilità delle ricompense, che sono fornite da verificatori. In questo articolo, esponiamo e analizziamo un problema diffuso—i falsi negativi—dove i verificatori rifiutano erroneamente output corretti del modello. Il nostro studio approfondito del dataset Big-Math-RL-Verified rivela che oltre il 38% delle risposte generate dal modello soffre di falsi negativi, in cui il verificatore non riconosce risposte corrette. Dimostriamo, sia empiricamente che teoricamente, che questi falsi negativi compromettono gravemente l'addestramento del RL privando il modello di segnali di gradiente informativi e rallentando la convergenza. Per mitigare questo problema, proponiamo TinyV, un verificatore leggero basato su LLM che integra i metodi esistenti basati su regole, identificando dinamicamente potenziali falsi negativi e recuperando risposte valide per produrre stime di ricompensa più accurate. Su più benchmark di ragionamento matematico, l'integrazione di TinyV aumenta i tassi di successo fino al 10% e accelera la convergenza rispetto alla baseline. I nostri risultati evidenziano l'importanza cruciale di affrontare i falsi negativi dei verificatori e offrono un approccio pratico per migliorare il fine-tuning basato su RL dei LLM. Il nostro codice è disponibile all'indirizzo https://github.com/uw-nsl/TinyV.
I modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno ottenuto un successo impressionante nei compiti di risposta alle domande, ma le loro capacità di comprensione spaziale sono meno esplorate. Questo lavoro indaga una questione cruciale: i MLLM esistenti possiedono abilità di percezione e comprensione spaziale 3D? Nello specifico, in questo articolo facciamo i seguenti contributi: (i) introduciamo VGBench, un benchmark progettato specificamente per valutare i MLLM nella percezione della geometria visiva, ad esempio nella stima della posa della telecamera e del movimento; (ii) proponiamo SpatialScore, il benchmark più completo e diversificato per la comprensione spaziale multimodale fino ad oggi, integrando VGBench con dati rilevanti provenienti da altri 11 dataset esistenti. Questo benchmark comprende 28K campioni su vari compiti di comprensione spaziale, modalità e formati di domande e risposte, insieme a un sottoinsieme accuratamente selezionato e impegnativo, SpatialScore-Hard; (iii) sviluppiamo SpatialAgent, un innovativo sistema multi-agente che incorpora 9 strumenti specializzati per la comprensione spaziale, supportando sia i paradigmi di ragionamento Plan-Execute che ReAct; (iv) conduciamo valutazioni estensive per rivelare le persistenti sfide nel ragionamento spaziale, dimostrando al contempo l'efficacia di SpatialAgent. Crediamo che SpatialScore offrirà preziose intuizioni e servirà come un rigoroso benchmark per la prossima evoluzione dei MLLM.
I moderni modelli visione-linguaggio (VLMs) possono risolvere un'ampia gamma di compiti che richiedono ragionamento visivo. Negli scenari reali, le proprietà desiderabili per i VLMs includono inferenza rapida e generazione controllabile (ad esempio, vincolare gli output a rispettare un formato desiderato). Tuttavia, gli attuali VLMs autoregressivi (AR) come LLaVA faticano in questi aspetti. I modelli di diffusione discreta (DMs) offrono un'alternativa promettente, consentendo decodifica parallela per un'inferenza più veloce e contesto bidirezionale per una generazione controllabile tramite riempimento di testo. Sebbene efficaci in contesti esclusivamente linguistici, il potenziale dei DMs per compiti multimodali è poco esplorato. Introduciamo LaViDa, una famiglia di VLMs basata su DMs. Costruiamo LaViDa dotando i DMs di un encoder visivo e ottimizzando congiuntamente le parti combinate per il seguimento di istruzioni multimodali. Per affrontare le sfide incontrate, LaViDa incorpora tecniche innovative come il mascheramento complementare per un addestramento efficace, la cache KV prefissata per un'inferenza efficiente e lo spostamento temporale per un campionamento di alta qualità. Gli esperimenti mostrano che LaViDa raggiunge prestazioni competitive o superiori rispetto ai VLMs AR su benchmark multimodali come MMMU, offrendo al contempo i vantaggi unici dei DMs, tra cui flessibilità nel compromesso velocità-qualità, controllabilità e ragionamento bidirezionale. Su COCO captioning, LaViDa supera Open-LLaVa-Next-8B di +4.1 CIDEr con un'accelerazione di 1.92x. Su compiti bidirezionali, ottiene un miglioramento del +59% su Constrained Poem Completion. Questi risultati dimostrano LaViDa come una valida alternativa ai VLMs AR. Codice e modelli saranno rilasciati nella versione finale.
Recentemente, i modelli multimodali di linguaggio (MLLM) basati sul ragionamento hanno ottenuto un certo successo nella generazione di catene di ragionamento testuale di lunga durata. Tuttavia, continuano a incontrare difficoltà con compiti complessi che richiedono un'attenzione dinamica e iterativa su regioni visive, necessaria per ottenere un ancoraggio preciso del ragionamento testuale nell'evidenza visiva. Introduciamo VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), un framework che equipaggia un MLLM con la capacità di (i) decidere quando è necessaria ulteriore evidenza visiva, (ii) determinare dove ancorarsi all'interno dell'immagine, e (iii) integrare in modo fluido il contenuto delle sotto-immagini rilevanti in una catena di pensiero intervallata. Il cuore del nostro metodo è l'ottimizzazione della politica di rinforzo condizionata alle regioni (R-GRPO), un paradigma di addestramento che premia il modello per la selezione di regioni informative, la formulazione di trasformazioni appropriate (ad esempio, ritaglio, zoom) e l'integrazione del contesto visivo risultante nei passaggi successivi di ragionamento. Per avviare questa politica, abbiamo compilato un corpus modesto ma accuratamente curato di razionalità intervallata visuo-linguistica (VLIR) che fornisce una supervisione a livello di passaggio sulla selezione delle regioni e sulla giustificazione testuale. Esperimenti estensivi su MathVista, ScienceQA e altri benchmark dimostrano che VLM-R^3 stabilisce un nuovo stato dell'arte in contesti zero-shot e few-shot, con i maggiori miglioramenti osservati su domande che richiedono un ragionamento spaziale sottile o l'estrazione di indizi visivi di alta granularità.
Studi recenti hanno dimostrato l'efficacia dell'utilizzo del Reinforcement Learning (RL) nella costruzione di modelli di ragionamento che articolano catene di pensiero prima di produrre risposte finali. Tuttavia, nonostante i progressi continui mirati a abilitare il ragionamento per compiti di visione e linguaggio, i modelli open-source esistenti per il ragionamento visivo generano tipicamente contenuti di ragionamento utilizzando esclusivamente linguaggio naturale, senza un'integrazione esplicita delle informazioni visive. Ciò limita la loro capacità di produrre catene di ragionamento chiaramente articolate e basate su elementi visivi. A tal fine, proponiamo Grounded Reasoning with Images and Texts (GRIT), un metodo innovativo per addestrare MLLM (Modelli Multilingue di Linguaggio) a pensare con le immagini. GRIT introduce un paradigma di ragionamento basato su elementi visivi, in cui i modelli generano catene di ragionamento che alternano linguaggio naturale e coordinate esplicite di bounding box. Queste coordinate indicano regioni dell'immagine di input che il modello consulta durante il processo di ragionamento. Inoltre, GRIT è dotato di un approccio di reinforcement learning, GRPO-GR, basato sull'algoritmo GRPO. GRPO-GR utilizza ricompense robuste focalizzate sull'accuratezza della risposta finale e sul formato dell'output di ragionamento basato su elementi visivi, eliminando la necessità di dati con annotazioni di catene di ragionamento o etichette esplicite di bounding box. Di conseguenza, GRIT raggiunge un'eccellente efficienza dei dati, richiedendo solo 20 triplette immagine-domanda-risposta da dataset esistenti. Valutazioni complete dimostrano che GRIT addestra efficacemente i MLLM a produrre catene di ragionamento coerenti e basate su elementi visivi, mostrando una riuscita unificazione delle capacità di ragionamento e di ancoraggio visivo.
Il Reinforcement Learning (RL) si è dimostrato una strategia efficace post-addestramento per migliorare il ragionamento nei modelli visione-linguaggio (VLMs). Il Group Relative Policy Optimization (GRPO) è un metodo recente e di rilievo che incoraggia i modelli a generare tracce di ragionamento complete prima di rispondere, portando a un aumento dell'uso di token e del costo computazionale. Ispirati dal processo di pensiero umano—dove le persone saltano il ragionamento per domande semplici ma riflettono attentamente quando necessario—esploriamo come consentire ai VLMs di decidere prima quando il ragionamento è necessario. Per realizzare ciò, proponiamo TON, una strategia di addestramento in due fasi: (i) una fase di fine-tuning supervisionato (SFT) con una semplice ma efficace operazione di 'thought dropout', in cui le tracce di ragionamento vengono sostituite casualmente con pensieri vuoti. Questo introduce un formato think-or-not che funge da avvio a freddo per il ragionamento selettivo; (ii) una fase GRPO che consente al modello di esplorare liberamente quando pensare o meno, massimizzando al contempo le ricompense basate sul compito. I risultati sperimentali mostrano che TON può ridurre la lunghezza di completamento fino al 90% rispetto al GRPO standard, senza sacrificare le prestazioni o addirittura migliorandole. Ulteriori valutazioni su una varietà di compiti visione-linguaggio—che coprono un range di difficoltà di ragionamento sia con modelli da 3B che da 7B—rivelano costantemente che il modello impara progressivamente a bypassare i passaggi di ragionamento non necessari man mano che l'addestramento procede. Questi risultati gettano luce sul percorso verso modelli di ragionamento simili a quelli umani negli approcci di reinforcement learning. Il nostro codice è disponibile all'indirizzo https://github.com/kokolerk/TON.
L'apprendimento per rinforzo (RL) apporta miglioramenti significativi nelle prestazioni dei modelli linguistici di grandi dimensioni (LLMs) su task downstream e nel loro allineamento con i valori umani. Sorprendentemente, tali grandi miglioramenti derivano dall'aggiornamento di una piccola sottorete che comprende solo il 5% al 30% dei parametri, mentre il resto rimane sostanzialmente invariato. Definiamo questo fenomeno come sparsità degli aggiornamenti dei parametri indotta dall'RL. Questo comportamento è stato osservato in tutti i 7 algoritmi di RL ampiamente utilizzati (ad esempio, PPO, GRPO, DPO) e in tutti i 10 LLMs appartenenti a famiglie diverse nei nostri esperimenti. Tale sparsità è intrinseca e si verifica senza l'uso esplicito di regolarizzazioni che promuovono la sparsità o vincoli architetturali. Il fine-tuning della sola sottorete recupera l'accuratezza sul test e, in modo notevole, produce un modello quasi identico a quello ottenuto con un fine-tuning completo. Le sottoreti ottenute da diversi seed casuali, dati di addestramento e persino algoritmi di RL mostrano una sovrapposizione sostanzialmente maggiore rispetto a quanto ci si aspetterebbe casualmente. La nostra analisi suggerisce che questa sparsità non è dovuta all'aggiornamento di un solo sottoinsieme di layer, ma quasi tutte le matrici di parametri ricevono aggiornamenti altrettanto sparsi. Inoltre, gli aggiornamenti per quasi tutte le matrici di parametri sono quasi a rango pieno, suggerendo che l'RL aggiorna un piccolo sottoinsieme di parametri che tuttavia coprono quasi tutti i sottospazi che le matrici di parametri possono rappresentare. Ipotesizziamo che questa sparsità degli aggiornamenti possa essere principalmente attribuita all'addestramento su dati vicini alla distribuzione della policy, mentre tecniche che incoraggiano la policy a rimanere vicina al modello pre-addestrato, come la regolarizzazione KL e il clipping del gradiente, hanno un impatto limitato.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto rapidi progressi nei compiti visivi, ma la loro comprensione spaziale rimane limitata a singole immagini, rendendoli poco adatti per la robotica e altre applicazioni del mondo reale che richiedono ragionamenti su più frame. In questo articolo, proponiamo un framework per dotare gli MLLM di una solida comprensione spaziale multi-frame, integrando la percezione della profondità, la corrispondenza visiva e la percezione dinamica. Al centro del nostro approccio c'è il dataset MultiSPA, una nuova e ampia raccolta di oltre 27 milioni di campioni che abbracciano scene 3D e 4D diverse. Accanto a MultiSPA, introduciamo un benchmark completo che testa un'ampia gamma di compiti spaziali con metriche uniformi. Il nostro modello risultante, Multi-SpatialMLLM, ottiene miglioramenti significativi rispetto ai sistemi di base e proprietari, dimostrando un ragionamento multi-frame scalabile e generalizzabile. Osserviamo inoltre benefici multi-task e primi segnali di capacità emergenti in scenari complessi, e mostriamo come il nostro modello possa servire come annotatore di ricompense multi-frame per la robotica.
I recenti progressi nei modelli linguistici di ragionamento (LLM, ad esempio DeepSeek-R1 e OpenAI-o1) hanno dimostrato capacità di ragionamento impressionanti attraverso l'apprendimento per rinforzo. Tuttavia, estendere queste capacità ai modelli linguistici multimodali (MLLM) è ostacolato dai costi proibitivi del riaddestramento e dalla scarsità di dataset multimodali di ragionamento di alta qualità e verificabili. Questo articolo introduce il modello FRANK, un MLLM training-FRee ANd r1-liKe che conferisce ai modelli MLLM esistenti capacità di ragionamento e riflessione, senza alcun aggiornamento del gradiente o supervisione aggiuntiva. La nostra intuizione chiave è quella di disaccoppiare la percezione e il ragionamento attraverso i livelli del decoder MLLM. In particolare, osserviamo che, rispetto ai livelli più profondi del decoder, i livelli superficiali del decoder dedicano maggiore attenzione ai token visivi, mentre i livelli più profondi si concentrano sulla semantica testuale. Questa osservazione motiva un approccio di fusione gerarchica dei pesi che combina un MLLM preaddestrato su dati visivi con un LLM specializzato nel ragionamento. A tal fine, proponiamo un meccanismo di fusione a livello di layer, derivato da Taylor, che integra la capacità di ragionamento nei livelli profondi del decoder preservando il grounding visivo nei livelli superficiali. Esperimenti estesi su benchmark di ragionamento multimodale complessi dimostrano l'efficacia del nostro approccio. Sul benchmark MMMU, il nostro modello FRANK-38B raggiunge un'accuratezza del 69,2, superando il baseline più forte, InternVL2.5-38B, di +5,3, e supera persino il modello proprietario GPT-4o. La nostra homepage del progetto è disponibile all'indirizzo: http://iip.whu.edu.cn/frank/index.html.
I grandi modelli visione-linguaggio (LVLM) rimangono vulnerabili all'allucinazione, generando spesso contenuti non allineati con gli input visivi. Sebbene approcci recenti abbiano avanzato l'ottimizzazione diretta delle preferenze multimodali (DPO) per mitigare l'allucinazione, essi si basano tipicamente su campioni negativi predefiniti o modificati casualmente che non riflettono gli errori effettivi del modello, limitando l'efficacia dell'addestramento. In questo lavoro, proponiamo un framework di apprendimento delle preferenze visione-linguaggio online (OViP) che costruisce dinamicamente dati di addestramento contrastivi basati sugli output allucinati del modello stesso. Identificando le differenze semantiche tra coppie di risposte campionate e sintetizzando immagini negative utilizzando un modello di diffusione, OViP genera segnali di supervisione più rilevanti in tempo reale. Questo addestramento guidato dagli errori consente un allineamento adattivo delle preferenze sia testuali che visive. Inoltre, perfezioniamo i protocolli di valutazione esistenti per catturare meglio il compromesso tra soppressione dell'allucinazione ed espressività. Esperimenti su benchmark di allucinazione e generali dimostrano che OViP riduce efficacemente le allucinazioni preservando le capacità multimodali fondamentali.
I Large Language Model (LLM) hanno dimostrato capacità avanzate in applicazioni agentive del mondo reale. Gli sforzi di ricerca in crescita mirano a sviluppare agenti basati su LLM per soddisfare esigenze pratiche, introducendo una nuova sfida: gli scenari agentivi spesso coinvolgono istruzioni lunghe con vincoli complessi, come prompt di sistema estesi e specifiche dettagliate degli strumenti. Sebbene l'aderenza a tali istruzioni sia cruciale per le applicazioni agentive, la capacità degli LLM di seguirle in modo affidabile rimane poco esplorata. In questo articolo, introduciamo AgentIF, il primo benchmark per valutare sistematicamente la capacità degli LLM di seguire le istruzioni in scenari agentivi. AgentIF presenta tre caratteristiche chiave: (1) Realistico, costruito da 50 applicazioni agentive del mondo reale. (2) Lungo, con una media di 1.723 parole e un massimo di 15.630 parole. (3) Complesso, con una media di 11,9 vincoli per istruzione, che coprono diversi tipi di vincoli, come specifiche degli strumenti e vincoli condizionali. Per costruire AgentIF, abbiamo raccolto 707 istruzioni annotate da esseri umani in 50 task agentivi provenienti da agenti di applicazioni industriali e sistemi agentivi open-source. Per ogni istruzione, abbiamo annotato i vincoli associati e le corrispondenti metriche di valutazione, tra cui valutazione basata su codice, valutazione basata su LLM e valutazione ibrida codice-LLM. Utilizziamo AgentIF per valutare sistematicamente gli LLM avanzati esistenti. Osserviamo che i modelli attuali generalmente hanno prestazioni scarse, specialmente nella gestione di strutture di vincoli complesse e specifiche degli strumenti. Inoltre, conduciamo analisi degli errori e esperimenti analitici sulla lunghezza delle istruzioni e sui meta vincoli, fornendo alcuni risultati sui modi di fallimento degli LLM esistenti. Abbiamo rilasciato il codice e i dati per facilitare la ricerca futura.
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è diventato un potente paradigma di post-addestramento per allineare i grandi modelli linguistici alle preferenze umane. Una delle principali sfide nell'RLHF è la costruzione di segnali di ricompensa accurati, dove i tradizionali modelli di ricompensa Bradley-Terry (BT RM) spesso soffrono di sensibilità alla dimensione e alla copertura dei dati, nonché di vulnerabilità agli attacchi di manipolazione delle ricompense. I modelli di ricompensa generativi (GenRM) offrono un'alternativa più robusta generando razionalità a catena di pensiero (CoT) seguite da una ricompensa finale. Tuttavia, gli attuali GenRM si basano su ragionamenti superficiali e scalati verticalmente, limitando la loro capacità di gestire compiti sfumati o complessi (ad esempio, intensivi dal punto di vista del ragionamento). Inoltre, le loro uscite di preferenza a coppie sono incompatibili con gli algoritmi RLHF standard che richiedono segnali di ricompensa puntuali. In questo lavoro, introduciamo Think-RM, un framework di addestramento che abilita il ragionamento a lungo orizzonte nei GenRM modellando un processo di pensiero interno. Piuttosto che produrre razionalità strutturate e fornite esternamente, Think-RM genera tracce di ragionamento flessibili e autoguidate che supportano capacità avanzate come l'autoriflessione, il ragionamento ipotetico e il ragionamento divergente. Per stimolare queste abilità di ragionamento, inizialmente riscaldiamo i modelli mediante fine-tuning supervisionato (SFT) su dati CoT lunghi. Successivamente, miglioriamo ulteriormente le capacità a lungo orizzonte del modello attraverso l'apprendimento per rinforzo basato su regole (RL). Inoltre, proponiamo una nuova pipeline RLHF a coppie che ottimizza direttamente le politiche utilizzando ricompense di preferenza a coppie, eliminando la necessità di conversione delle ricompense puntuali e consentendo un uso più efficace delle uscite di Think-RM. Gli esperimenti dimostrano che Think-RM raggiunge risultati all'avanguardia su RM-Bench, superando sia BT RM che GenRM scalati verticalmente dell'8%. Quando combinato con la nostra pipeline RLHF a coppie, dimostra prestazioni superiori delle politiche finali rispetto agli approcci tradizionali.
I Large Reasoning Models (LRM) introducono un nuovo paradigma generativo basato sul ragionamento esplicito prima di rispondere, portando a notevoli miglioramenti nei compiti complessi. Tuttavia, presentano significativi rischi per la sicurezza contro query dannose e attacchi avversari. Sebbene i recenti sforzi principali per la sicurezza degli LRM, come il fine-tuning supervisionato (SFT), migliorino le prestazioni di sicurezza, abbiamo osservato che i modelli allineati con SFT faticano a generalizzare su prompt di jailbreak non visti. Dopo un'analisi approfondita della generazione degli LRM, abbiamo identificato un "momento aha" di sicurezza che può attivare il ragionamento di sicurezza e portare a una risposta sicura. Questo momento aha appare tipicamente nella "frase chiave", che segue il processo di comprensione della query da parte del modello e può indicare se il modello procederà in modo sicuro. Sulla base di queste intuizioni, proponiamo SafeKey, che include due obiettivi complementari per attivare meglio il momento aha di sicurezza nella frase chiave: (1) una Dual-Path Safety Head per potenziare il segnale di sicurezza nelle rappresentazioni interne del modello prima della frase chiave, e (2) un obiettivo di Query-Mask Modeling per migliorare l'attenzione del modello sulla comprensione della query, che contiene importanti indizi di sicurezza. Esperimenti su molteplici benchmark di sicurezza dimostrano che i nostri metodi migliorano significativamente la generalizzazione della sicurezza su un'ampia gamma di attacchi di jailbreak e prompt dannosi fuori distribuzione, riducendo il tasso medio di dannosità del 9,6%, mantenendo al contempo le capacità generali. La nostra analisi rivela come SafeKey migliori la sicurezza rimodellando l'attenzione interna e migliorando la qualità delle rappresentazioni nascoste.
I Modelli di Ricompensa del Processo (PRM), che forniscono feedback passo-passo sul ragionamento generato dai Modelli Linguistici di Grande Scala (LLM), stanno ricevendo crescente attenzione. Tuttavia, rimangono due lacune di ricerca chiave: la raccolta di etichette accurate a livello di passo per l'addestramento richiede tipicamente costose annotazioni umane, e gli attuali PRM sono limitati ai problemi di ragionamento matematico. In risposta a queste lacune, questo articolo mira ad affrontare le sfide della creazione automatica di dataset e della generalizzazione dei PRM a compiti di ragionamento diversi. Per raggiungere questo obiettivo, proponiamo FoVer, un approccio per addestrare PRM su etichette di errore a livello di passo annotate automaticamente da strumenti di verifica formale, come Z3 per la logica formale e Isabelle per la dimostrazione di teoremi, che forniscono una verifica automatica e accurata per compiti simbolici. Utilizzando questo approccio, sintetizziamo un dataset di addestramento con etichette di errore sulle risposte degli LLM per compiti di logica formale e dimostrazione di teoremi senza annotazioni umane. Sebbene questa sintesi di dati sia fattibile solo per compiti compatibili con la verifica formale, osserviamo che i PRM basati su LLM addestrati sul nostro dataset mostrano una generalizzazione cross-task, migliorando la verifica su vari compiti di ragionamento. In particolare, i PRM addestrati con FoVer superano significativamente i PRM di base basati sugli LLM originali e raggiungono risultati competitivi o superiori rispetto ai PRM all'avanguardia addestrati su etichette annotate da umani o modelli più forti, come misurato dalla verifica a livello di passo su ProcessBench e dalle prestazioni Best-of-K su 12 benchmark di ragionamento, tra cui MATH, AIME, ANLI, MMLU e BBH. I dataset, i modelli e il codice sono disponibili su https://github.com/psunlpgroup/FoVer.
I sistemi di traduzione automatica di alta qualità basati su modelli linguistici di grandi dimensioni (LLM) hanno semplificato la produzione di traduzioni personalizzate che riflettono vincoli stilistici specifici. Tuttavia, questi sistemi continuano a incontrare difficoltà in contesti in cui i requisiti stilistici sono meno espliciti e potrebbero essere più difficili da trasmettere tramite prompt. Esploriamo varie strategie per personalizzare le traduzioni generate da LLM in contesti a basso contenuto di risorse, concentrandoci sul dominio impegnativo della traduzione letteraria. Analizziamo strategie di prompting e interventi al momento dell'inferenza per orientare le generazioni del modello verso uno stile personalizzato, e proponiamo un framework contrastivo che sfrutta concetti latenti estratti da autoencoder sparsi per identificare proprietà salienti di personalizzazione. I nostri risultati dimostrano che l'orientamento consente una forte personalizzazione preservando la qualità della traduzione. Esaminiamo inoltre l'impatto dell'orientamento sulle rappresentazioni dei LLM, riscontrando che i livelli del modello con un impatto rilevante per la personalizzazione sono influenzati in modo simile dal prompting multi-shot e dal nostro metodo di orientamento, suggerendo meccanismi simili in azione.
Valutare le capacità di generazione di testo dei grandi modelli linguistici (LLMs) è una sfida, in particolare per le lingue a bassa risorsa dove i metodi di valutazione diretta sono scarsi. Proponiamo MUG-Eval, un nuovo framework che valuta le capacità di generazione multilingue degli LLMs trasformando benchmark esistenti in task conversazionali e misurando l'accuratezza degli LLMs su tali task. Abbiamo progettato specificamente questi task conversazionali per richiedere una comunicazione efficace nella lingua target. Successivamente, utilizziamo semplicemente il tasso di successo del task come indicatore di una generazione conversazionale riuscita. Il nostro approccio offre due vantaggi chiave: è indipendente da strumenti NLP specifici per lingua o dataset annotati, che sono limitati per la maggior parte delle lingue, e non si affida a LLMs come giudici, la cui qualità di valutazione si degrada al di fuori di poche lingue ad alta risorsa. Valutiamo 8 LLMs in 30 lingue che coprono categorie ad alta, media e bassa risorsa, e troviamo che MUG-Eval correla fortemente con benchmark consolidati (r > 0,75) consentendo al contempo confronti standardizzati tra lingue e modelli. Il nostro framework fornisce una soluzione robusta ed efficiente in termini di risorse per la valutazione della generazione multilingue che può essere estesa a migliaia di lingue.
Proponiamo RoPECraft, un metodo di trasferimento del movimento video senza addestramento per i trasformatori diffusivi che opera esclusivamente modificando i loro embedding posizionali rotazionali (RoPE). Inizialmente estraiamo il flusso ottico denso da un video di riferimento e utilizziamo gli spostamenti di movimento risultanti per deformare i tensori complesso-esponenziali di RoPE, codificando efficacemente il movimento nel processo di generazione. Questi embedding vengono poi ulteriormente ottimizzati durante i passaggi di denoising attraverso l'allineamento della traiettoria tra le velocità previste e quelle target utilizzando un obiettivo di flusso-matching. Per mantenere l'output fedele al prompt testuale e prevenire duplicazioni, incorporiamo un termine di regolarizzazione basato sulle componenti di fase della trasformata di Fourier del video di riferimento, proiettando gli angoli di fase su una varietà liscia per sopprimere gli artefatti ad alta frequenza. Gli esperimenti sui benchmark rivelano che RoPECraft supera tutti i metodi pubblicati di recente, sia qualitativamente che quantitativamente.
La comprensione metaforica nelle immagini rimane una sfida cruciale per i sistemi di intelligenza artificiale, poiché i modelli esistenti faticano a cogliere le implicazioni culturali, emotive e contestuali sottili incorporate nei contenuti visivi. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLMs) eccellano nei compiti di base di risposta a domande visive (VQA), presentano una limitazione fondamentale nei compiti di implicazione delle immagini: lacune contestuali che oscurano le relazioni tra diversi elementi visivi e i loro significati astratti. Ispirati dal processo cognitivo umano, proponiamo Let Androids Dream (LAD), un nuovo framework per la comprensione e il ragionamento sulle implicazioni delle immagini. LAD affronta le mancanze contestuali attraverso un framework in tre fasi: (1) Percezione: conversione delle informazioni visive in rappresentazioni testuali ricche e multilivello, (2) Ricerca: ricerca iterativa e integrazione di conoscenze cross-dominio per risolvere le ambiguità, e (3) Ragionamento: generazione di implicazioni delle immagini allineate al contesto attraverso un ragionamento esplicito. Il nostro framework, con il modello leggero GPT-4o-mini, raggiunge prestazioni all'avanguardia rispetto a oltre 15 MLLMs sul benchmark di implicazione delle immagini in inglese e un notevole miglioramento sul benchmark cinese, ottenendo risultati comparabili al modello GPT-4o nelle domande a scelta multipla (MCQ) e superandolo del 36,7% nelle domande aperte (OSQ). Inoltre, il nostro lavoro offre nuove intuizioni su come l'IA possa interpretare più efficacemente le implicazioni delle immagini, avanzando il campo del ragionamento visivo-linguistico e dell'interazione uomo-IA. Il nostro progetto è disponibile pubblicamente all'indirizzo https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
I grandi modelli linguistici (LLM) sono in grado di ammettere i propri errori quando dovrebbero saperne di più? In questo lavoro, definiamo il comportamento di riconoscere gli errori nelle risposte precedentemente generate come "ritrattazione" e miriamo a comprendere quando e perché gli LLM scelgono di ritrattare. In primo luogo, costruiamo dataset specifici per modello per valutare se un modello ritratterà una risposta errata che contraddice la propria conoscenza parametrica. Sebbene gli LLM siano capaci di ritrattazione, lo fanno solo raramente. Dimostriamo che la ritrattazione è strettamente legata a indicatori precedentemente identificati delle convinzioni interne dei modelli: i modelli non ritrattano risposte errate che "credono" essere fattualmente corrette. Esperimenti di guida dimostrano ulteriormente che le convinzioni interne influenzano causalmente la ritrattazione del modello. In particolare, quando il modello non crede nella propria risposta, ciò non solo incoraggia il modello a tentare di verificare la risposta, ma altera anche il comportamento dell'attenzione durante l'autoverifica. Infine, dimostriamo che una semplice messa a punto supervisionata migliora significativamente le prestazioni di ritrattazione aiutando il modello a apprendere convinzioni interne più accurate. Codice e dataset sono disponibili su https://github.com/ayyyq/llm-retraction.
I modelli Vision-Language (VLMs) acquisiscono conoscenza del mondo reale e capacità di ragionamento generale attraverso corpora di immagini e testi su scala Internet. Possono potenziare i sistemi robotici con la comprensione della scena e la pianificazione dei compiti, e assistere le politiche visuomotorie addestrate su dati di traiettoria robotica. Esploriamo il paradigma inverso: utilizzare dati ricchi, reali e multimodali di traiettoria robotica per migliorare e valutare i VLMs. In questo articolo, presentiamo Robo2VLM, un framework per la generazione di dataset di Visual Question Answering (VQA) per VLMs. Dato una traiettoria robotica teleoperata da un umano, Robo2VLM deriva la verità di base da modalità sensoriali non visive e non descrittive, come la posa dell'end-effector, l'apertura della pinza e il rilevamento della forza. Sulla base di queste modalità, segmenta la traiettoria robotica in una sequenza di fasi di manipolazione. In ogni fase, Robo2VLM utilizza la comprensione della scena e dell'interazione per identificare le proprietà 3D del robot, l'obiettivo del compito e l'oggetto target. Le proprietà vengono utilizzate per generare query VQA rappresentative - immagini con domande a scelta multipla testuali - basate su modelli di domande di ragionamento spaziale, condizionato all'obiettivo e di interazione. Abbiamo curato Robo2VLM-1, un dataset su larga scala in contesti reali con 684.710 domande che coprono 463 scene distinte e 3.396 compiti di manipolazione robotica da 176k traiettorie robotiche reali. I risultati suggeriscono che Robo2VLM-1 può valutare e migliorare le capacità dei VLMs nel ragionamento spaziale e di interazione.
Nonostante i significativi progressi nei Modelli Linguistico-Visuali di Grande Scala (LVLM), persiste un divario, in particolare per quanto riguarda la loro interpretabilità e il modo in cui individuano e interpretano le informazioni testuali all'interno delle immagini. In questo articolo, esploriamo vari LVLM per identificare le specifiche "teste" responsabili del riconoscimento del testo dalle immagini, che definiamo come "Testa OCR" (Optical Character Recognition Head). Le nostre scoperte riguardo a queste teste sono le seguenti: (1) Meno Sparsi: a differenza delle precedenti teste di recupero, un gran numero di teste viene attivato per estrarre informazioni testuali dalle immagini. (2) Qualitativamente Distinte: le teste OCR possiedono proprietà che differiscono significativamente dalle teste di recupero generali, mostrando una bassa somiglianza nelle loro caratteristiche. (3) Staticamente Attivate: la frequenza di attivazione di queste teste è strettamente allineata con i loro punteggi OCR. Convalidiamo le nostre scoperte in compiti a valle applicando il Chain-of-Thought (CoT) sia alle teste OCR che a quelle di recupero convenzionali e mascherando queste teste. Dimostriamo inoltre che la ridistribuzione dei valori dei token sink all'interno delle teste OCR migliora le prestazioni. Queste intuizioni forniscono una comprensione più profonda dei meccanismi interni che i LVLM impiegano per elaborare le informazioni testuali incorporate nelle immagini.
Man mano che i modelli visione-linguaggio (VLMs) si integrano sempre più nella vita quotidiana, la necessità di una comprensione accurata della cultura visiva sta diventando cruciale. Tuttavia, questi modelli spesso non riescono a interpretare efficacemente le sfumature culturali. Ricerche precedenti hanno dimostrato l'efficacia della generazione aumentata da recupero (RAG) nel migliorare la comprensione culturale in contesti esclusivamente testuali, mentre la sua applicazione in scenari multimodali rimane poco esplorata. Per colmare questa lacuna, introduciamo RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), un nuovo benchmark progettato per avanzare la comprensione della cultura visiva attraverso il recupero, concentrandosi su due compiti: risposta a domande visive focalizzate sulla cultura (cVQA) e descrizione di immagini informata dalla cultura (cIC). RAVENEA estende i dataset esistenti integrando oltre 10.000 documenti Wikipedia curati e classificati da annotatori umani. Con RAVENEA, addestriamo e valutiamo sette recuperatori multimodali per ogni query di immagine e misuriamo l'impatto a valle degli input aumentati da recupero su quattordici VLMs all'avanguardia. I nostri risultati mostrano che i VLMs leggeri, quando aumentati con il recupero consapevole della cultura, superano le loro controparti non aumentate (di almeno il 3,2% assoluto su cVQA e il 6,2% assoluto su cIC). Ciò evidenzia il valore dei metodi aumentati da recupero e dei benchmark culturalmente inclusivi per la comprensione multimodale.
I tokenizzatori BPE moderni spesso suddividono le date del calendario in frammenti privi di significato, ad esempio, 20250312 diventa 202, 503, 12, aumentando il numero di token e oscurando la struttura intrinseca necessaria per un ragionamento temporale robusto. In questo lavoro, (1) introduciamo una metrica semplice ma interpretabile, denominata rapporto di frammentazione delle date, che misura quanto fedelmente un tokenizer preserva i componenti a più cifre delle date; (2) rilasciamo DateAugBench, una suite di 6500 esempi che copre tre compiti di ragionamento temporale: risoluzione di date basata sul contesto, enigmi di invarianza al formato e aritmetica delle date attraverso regimi storici, contemporanei e futuri; e (3) attraverso analisi stratificate e analisi degli hop di attenzione causale, scopriamo un meccanismo emergente di astrazione delle date in base al quale i modelli linguistici di grandi dimensioni ricuciono insieme i frammenti dei componenti mese, giorno e anno per il ragionamento temporale. I nostri esperimenti mostrano che un'eccessiva frammentazione è correlata a cali di accuratezza fino a 10 punti su date insolite come quelle storiche e futuristiche. Inoltre, scopriamo che più grande è il modello, più velocemente viene raggiunta l'astrazione emergente delle date che ripara i frammenti. Infine, osserviamo un percorso di ragionamento che i LLM seguono per assemblare i frammenti di date, tipicamente diverso dall'interpretazione umana (anno → mese → giorno).
Introduciamo un nuovo dataset progettato per valutare le capacità di ragionamento fisico e spaziale dei Modelli Linguistici di Grande Dimensione (LLM) basati sull'ottimizzazione topologica, un metodo per calcolare la distribuzione ottimale dei materiali all'interno di uno spazio di progetto sotto carichi e supporti predefiniti. In questo dataset, ai LLM vengono fornite condizioni come contorni 2D, forze applicate e supporti, e devono ragionare sulla distribuzione ottimale risultante dei materiali. Il dataset include una varietà di task, che vanno dal riempimento di regioni mascherate all'interno di strutture parziali alla previsione di distribuzioni complete dei materiali. Risolvere questi task richiede la comprensione del flusso delle forze e della distribuzione necessaria dei materiali sotto vincoli dati, senza accesso a strumenti di simulazione o modelli fisici espliciti, mettendo alla prova i modelli nel ragionare sulla stabilità strutturale e sull'organizzazione spaziale. Il nostro dataset mira a valutare le abilità di ragionamento spaziale e fisico in contesti 2D, offrendo una prospettiva complementare ai benchmark tradizionali di linguaggio e logica.
Addestrando preliminarmente i modelli generativi a sintetizzare immagini coerenti da input perturbati, questi apprendono intrinsecamente a comprendere i confini degli oggetti e le composizioni delle scene. Come possiamo riutilizzare queste rappresentazioni generative per l'organizzazione percettiva di scopi generali? Abbiamo ottimizzato Stable Diffusion e MAE (encoder+decoder) per la segmentazione di istanze indipendente dalla categoria, utilizzando esclusivamente la nostra funzione di perdita basata sulla colorazione delle istanze su un ristretto insieme di tipi di oggetti (arredamento interno e automobili). Sorprendentemente, i nostri modelli mostrano una forte generalizzazione zero-shot, segmentando accuratamente oggetti di tipi e stili non visti durante l'ottimizzazione (e in molti casi, neppure nel pre-addestramento di MAE su ImageNet-1K). I nostri modelli più performanti si avvicinano notevolmente al SAM, fortemente supervisionato, quando valutati su tipi e stili di oggetti non visti, e lo superano nella segmentazione di strutture fini e confini ambigui. Al contrario, le architetture di segmentazione promptable esistenti o i modelli pre-addestrati in modo discriminativo non riescono a generalizzare. Ciò suggerisce che i modelli generativi apprendono un meccanismo di raggruppamento intrinseco che si trasferisce tra categorie e domini, anche senza un pre-addestramento su scala internet. Codice, modelli pre-addestrati e demo sono disponibili sul nostro sito web.
I grandi modelli audio-linguistici (LALMs) estendono i grandi modelli linguistici con una comprensione multimodale nel parlato, nell'audio, ecc. Sebbene le loro prestazioni nelle attività di elaborazione del parlato e dell'audio siano ampiamente studiate, le loro capacità di ragionamento rimangono poco esplorate. In particolare, il loro ragionamento multi-hop, ovvero la capacità di richiamare e integrare più fatti, manca di una valutazione sistematica. I benchmark esistenti si concentrano su compiti generali di elaborazione del parlato e dell'audio, sulle abilità conversazionali e sull'equità, ma trascurano questo aspetto. Per colmare questa lacuna, introduciamo SAKURA, un benchmark che valuta il ragionamento multi-hop dei LALMs basato su informazioni vocali e audio. I risultati mostrano che i LALMs faticano a integrare le rappresentazioni del parlato/audio per il ragionamento multi-hop, anche quando estraggono correttamente le informazioni rilevanti, evidenziando una sfida fondamentale nel ragionamento multimodale. Le nostre scoperte rivelano una limitazione critica nei LALMs, offrendo spunti e risorse per future ricerche.