Articoli di ricerca IA selezionati quotidianamente con traduzioni
Per affrontare il collo di bottiglia dell'interpretazione accurata dell'intento dell'utente all'interno della comunità attuale di generazione video, presentiamo Any2Caption, un nuovo framework per la generazione video controllabile in qualsiasi condizione. L'idea chiave è disaccoppiare i vari passaggi di interpretazione delle condizioni dal passaggio di sintesi video. Sfruttando moderni modelli linguistici multimodali di grandi dimensioni (MLLMs), Any2Caption interpreta input diversi—testo, immagini, video e segnali specializzati come regioni, movimento e pose della fotocamera—in didascalie dense e strutturate che offrono ai generatori video di base una guida migliore. Introduciamo inoltre Any2CapIns, un dataset su larga scala con 337K istanze e 407K condizioni per il tuning delle istruzioni da qualsiasi condizione a didascalia. Valutazioni complete dimostrano miglioramenti significativi del nostro sistema in termini di controllabilità e qualità video attraverso vari aspetti dei modelli esistenti di generazione video. Pagina del progetto: https://sqwu.top/Any2Cap/
L'ascesa dei Large Language Models (LLM) come valutatori offre un'alternativa scalabile all'annotazione umana, tuttavia gli approcci esistenti di Supervised Fine-Tuning (SFT) per i giudici spesso si rivelano insufficienti nei domini che richiedono ragionamenti complessi. In questo lavoro, indaghiamo se i giudici LLM traggono effettivo vantaggio da capacità di ragionamento potenziate. Attraverso un'analisi dettagliata dei requisiti di ragionamento nei compiti di valutazione, riveliamo una correlazione negativa tra i miglioramenti delle prestazioni dell'SFT e la proporzione di campioni che richiedono ragionamenti complessi, evidenziando i limiti dell'SFT in tali scenari. Per affrontare questo problema, introduciamo JudgeLRM, una famiglia di LLM orientati al giudizio addestrati utilizzando il reinforcement learning (RL) con ricompense guidate dai risultati e specifiche per i giudici. I modelli JudgeLRM superano costantemente sia i modelli ottimizzati con SFT che i modelli di ragionamento all'avanguardia. In particolare, JudgeLRM-3B supera GPT-4, e JudgeLRM-7B supera DeepSeek-R1 del 2,79% nel punteggio F1, eccellendo soprattutto nei compiti di giudizio che richiedono un ragionamento profondo.
L'attenzione soft è un meccanismo cruciale che consente ai LLM di individuare le parti rilevanti all'interno di un determinato contesto. Tuttavia, i pesi di attenzione individuali sono determinati dalla similarità di un solo vettore di token query e key. Questa "attenzione a singolo token" limita la quantità di informazioni utilizzate per distinguere una parte rilevante dal resto del contesto. Per affrontare questo problema, proponiamo un nuovo metodo di attenzione, Multi-Token Attention (MTA), che consente ai LLM di condizionare i propri pesi di attenzione su più vettori query e key simultaneamente. Questo è ottenuto applicando operazioni di convoluzione su query, key e testine, permettendo alle query e key vicine di influenzare reciprocamente i pesi di attenzione per un'attenzione più precisa. Di conseguenza, il nostro metodo può individuare il contesto rilevante utilizzando informazioni più ricche e sfumate che possono superare la capacità di un singolo vettore. Attraverso valutazioni estensive, dimostriamo che MTA raggiunge prestazioni migliorate su una gamma di benchmark popolari. In particolare, supera i modelli baseline Transformer nei compiti standard di modellazione del linguaggio e nei compiti che richiedono la ricerca di informazioni all'interno di contesti lunghi, dove la capacità del nostro metodo di sfruttare informazioni più ricche si rivela particolarmente vantaggiosa.
I recenti progressi nella generazione di Catena di Pensiero (Chain of Thought, COT) hanno significativamente migliorato le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs), con l'apprendimento per rinforzo (Reinforcement Learning, RL) che emerge come un approccio efficace nel post-addestramento. I Modelli Linguistici Multimodali di Grande Dimensione (Multimodal Large Language Models, MLLMs) ereditano questo potenziale di ragionamento, ma rimangono poco esplorati in compiti che richiedono sia percezione che ragionamento logico. Per affrontare questa lacuna, introduciamo SEED-Bench-R1, un benchmark progettato per valutare sistematicamente i metodi di post-addestramento per MLLMs nella comprensione di video. Questo include video complessi del mondo reale e compiti di pianificazione quotidiana in formato di domande a scelta multipla, che richiedono una percezione e un ragionamento sofisticati. SEED-Bench-R1 valuta la generalizzazione attraverso una gerarchia a tre livelli: scenari in-distribuzione, cross-ambiente e cross-ambiente-compito, dotato di un ampio dataset di addestramento con risposte di verità facilmente verificabili. Utilizzando Qwen2-VL-Instruct-7B come modello di base, confrontiamo RL con il fine-tuning supervisionato (Supervised Fine-Tuning, SFT), dimostrando l'efficienza dei dati di RL e le sue prestazioni superiori sia nei compiti in-distribuzione che out-of-distribution, superando persino SFT su benchmark generali di comprensione video come LongVideoBench. La nostra analisi dettagliata rivela che RL migliora la percezione visiva ma spesso produce catene di ragionamento meno coerenti logicamente. Identifichiamo limitazioni chiave come il ragionamento incoerente e gli indizi visivi trascurati, e suggeriamo miglioramenti futuri nel ragionamento del modello di base, nella modellazione delle ricompense e nella robustezza di RL contro segnali rumorosi.
La riproduzione del pre-training di modelli linguistici multimodali all'avanguardia incontra ostacoli in ogni fase della pipeline, inclusi il filtraggio di dati di alta qualità, le strategie di miscelazione di dati multimodali, le tecniche di impacchettamento delle sequenze e i framework di addestramento. Presentiamo Open-Qwen2VL, un modello linguistico multimodale open-source da 2 miliardi di parametri, pre-addestrato in modo efficiente su 29 milioni di coppie immagine-testo utilizzando solo 442 ore di GPU A100-40G. Il nostro approccio impiega una risoluzione dinamica delle immagini da bassa ad alta e l'impacchettamento di sequenze multimodali per migliorare significativamente l'efficienza del pre-training. Il dataset di addestramento è stato curato con attenzione utilizzando sia tecniche di filtraggio basate su MLLM (ad esempio, MLM-Filter) che metodi di filtraggio convenzionali basati su CLIP, migliorando sostanzialmente la qualità dei dati e l'efficienza dell'addestramento. Il pre-training di Open-Qwen2VL è stato condotto su GPU 8xA100-40G di livello accademico presso l'UCSB su 5 miliardi di token multimodali impacchettati, che rappresentano lo 0,36% dei 1,4 trilioni di token multimodali di pre-training di Qwen2-VL. La versione finale di Open-Qwen2VL, ottimizzata per istruzioni, supera il modello MLLM parzialmente open-source all'avanguardia Qwen2-VL-2B su vari benchmark multimodali come MMBench, SEEDBench, MMstar e MathVista, dimostrando la notevole efficienza di addestramento di Open-Qwen2VL. Rilasciamo open-source tutti gli aspetti del nostro lavoro, inclusi i dettagli dell'addestramento efficiente in termini di calcolo e dati, i metodi di filtraggio dei dati, gli script per l'impacchettamento delle sequenze, i dati di pre-training in formato WebDataset, il codice di addestramento basato su FSDP, e i checkpoint sia del modello base che di quello ottimizzato per istruzioni. Ridefiniamo "completamente open" per i modelli linguistici multimodali come il rilascio completo di: 1) il codice di addestramento, 2) le tecniche dettagliate di filtraggio dei dati, e 3) tutti i dati di pre-training e di fine-tuning supervisionato utilizzati per sviluppare il modello.
La sintesi induttiva di programmi, o programmazione per esempi, richiede la sintesi di funzioni a partire da esempi di input-output che generalizzano a input non visti. Sebbene i modelli linguistici di grandi dimensioni abbiano mostrato potenziale nei compiti di programmazione guidati dal linguaggio naturale, la loro capacità di eseguire la sintesi induttiva di programmi è ancora poco esplorata. I protocolli di valutazione esistenti si basano su insiemi statici di esempi e test separati, non fornendo feedback quando le funzioni sintetizzate sono errate e non riflettendo scenari reali come il reverse engineering. Proponiamo CodeARC, la Code Abstraction and Reasoning Challenge, un nuovo framework di valutazione in cui gli agenti interagiscono con una funzione target nascosta interrogandola con nuovi input, sintetizzando funzioni candidate e perfezionando iterativamente le loro soluzioni utilizzando un oracolo di test differenziale. Questo contesto interattivo incoraggia gli agenti a eseguire chiamate di funzioni e autocorrezione basandosi sui feedback. Costruiamo il primo benchmark su larga scala per la sintesi induttiva di programmi a scopo generale, comprendente 1114 funzioni. Tra i 18 modelli valutati, o3-mini ottiene i migliori risultati con un tasso di successo del 52,7%, evidenziando la difficoltà di questo compito. Il fine-tuning di LLaMA-3.1-8B-Instruct su tracce di sintesi curate produce un miglioramento relativo delle prestazioni fino al 31%. CodeARC fornisce un banco di prova più realistico e impegnativo per valutare la sintesi di programmi e il ragionamento induttivo basati su LLM.
L'apprendimento visivo auto-supervisionato (SSL) attualmente ottiene prestazioni inferiori rispetto al Pretraining Contrastivo Linguaggio-Immagine (CLIP) in contesti multimodali come il Visual Question Answering (VQA). Questo divario multimodale è spesso attribuito alla semantica introdotta dalla supervisione linguistica, nonostante i modelli SSL visivi e CLIP siano spesso addestrati su dati diversi. In questo lavoro, ci poniamo la domanda: "Gli approcci visivi auto-supervisionati sono in ritardo rispetto a CLIP a causa della mancanza di supervisione linguistica o delle differenze nei dati di addestramento?" Studiamo questa questione addestrando sia modelli SSL visivi che CLIP sugli stessi dati MetaCLIP e utilizzando il VQA come banco di prova diversificato per gli encoder visivi. In questa configurazione controllata, i modelli SSL visivi scalano meglio dei modelli CLIP in termini di dati e capacità del modello, e le prestazioni SSL visive non si saturano nemmeno dopo aver scalato fino a 7 miliardi di parametri. Di conseguenza, osserviamo che i metodi SSL visivi raggiungono prestazioni pari a quelle di CLIP su un'ampia gamma di benchmark VQA e classici di visione. Questi risultati dimostrano che l'SSL visivo puro può eguagliare il pretraining visivo supervisionato dal linguaggio su larga scala, aprendo nuove opportunità per l'apprendimento di rappresentazioni centrate sulla visione.
Nonostante i notevoli progressi nella stima della profondità video, i metodi esistenti presentano limitazioni intrinseche nel raggiungere una fedeltà geometrica attraverso previsioni invarianti rispetto alle trasformazioni affini, limitando la loro applicabilità nella ricostruzione e in altre attività a valle basate su metriche. Proponiamo GeometryCrafter, un nuovo framework che recupera sequenze di mappe di punti ad alta fedeltà con coerenza temporale da video del mondo reale, consentendo una ricostruzione 3D/4D accurata, la stima dei parametri della telecamera e altre applicazioni basate sulla profondità. Al centro del nostro approccio si trova un Variational Autoencoder (VAE) per mappe di punti che apprende uno spazio latente indipendente dalle distribuzioni latenti dei video, consentendo una codifica e decodifica efficace delle mappe di punti. Sfruttando il VAE, addestriamo un modello di diffusione video per modellare la distribuzione delle sequenze di mappe di punti condizionate ai video di input. Valutazioni estensive su diversi dataset dimostrano che GeometryCrafter raggiunge una precisione 3D all'avanguardia, coerenza temporale e capacità di generalizzazione.
Numerose applicazioni dei modelli linguistici di grandi dimensioni (LLM) si basano sulla loro capacità di eseguire ragionamenti passo-passo. Tuttavia, il comportamento di ragionamento degli LLM rimane poco compreso, ponendo sfide alla ricerca, allo sviluppo e alla sicurezza. Per colmare questa lacuna, introduciamo il "paesaggio dei pensieri", il primo strumento di visualizzazione che consente agli utenti di ispezionare i percorsi di ragionamento della catena di pensiero e delle sue derivate su qualsiasi dataset a scelta multipla. Nello specifico, rappresentiamo gli stati in un percorso di ragionamento come vettori di caratteristiche che quantificano le loro distanze da tutte le opzioni di risposta. Queste caratteristiche vengono poi visualizzate in grafici bidimensionali utilizzando t-SNE. L'analisi qualitativa e quantitativa con il paesaggio dei pensieri distingue efficacemente tra modelli forti e deboli, risposte corrette e errate, nonché diversi compiti di ragionamento. Inoltre, rivela modelli di ragionamento indesiderati, come bassa coerenza e alta incertezza. Gli utenti possono anche adattare il nostro strumento a un modello che predice la proprietà che osservano. Dimostriamo questo vantaggio adattando il nostro strumento a un verificatore leggero che valuta la correttezza dei percorsi di ragionamento. Il codice è disponibile pubblicamente all'indirizzo: https://github.com/tmlr-group/landscape-of-thoughts.
I modelli linguistici di grandi dimensioni (LLM) possono ottenere una migliore risoluzione di problemi complessi attraverso il ridimensionamento computazionale al momento del test, ma ciò spesso comporta contesti più lunghi e costi elevati in termini di token di ragionamento. In questo articolo, proponiamo un metodo efficiente di ridimensionamento al momento del test che addestra gli LLM su traiettorie di ragionamento legate al codice, facilitando la riduzione dei token di pensiero in eccesso mantenendo le prestazioni. In primo luogo, creiamo Z1-Code-Reasoning-107K, un dataset curato di problemi di codifica semplici e complessi accoppiati con le loro traiettorie di soluzione brevi e lunghe. In secondo luogo, presentiamo una nuova Finestra di Pensiero Spostata per mitigare il sovraccarico di pensiero rimuovendo i tag di delimitazione del contesto (ad esempio, <think>. . . </think>) e limitando i token di ragionamento. Addestrato con dati di traiettorie lunghe e brevi e dotato della Finestra di Pensiero Spostata, il nostro modello, Z1-7B, dimostra la capacità di adattare il suo livello di ragionamento in base alla complessità dei problemi e mostra un ridimensionamento efficiente al momento del test su diverse attività di ragionamento che eguaglia le prestazioni di R1-Distill-Qwen-7B con circa il 30% dei suoi token di pensiero medi. È degno di nota che, addestrato solo con traiettorie di codice, Z1-7B dimostra una generalizzazione a compiti di ragionamento più ampi (47,5% su GPQA Diamond). La nostra analisi sull'elicitazione efficiente del ragionamento fornisce anche spunti preziosi per la ricerca futura.
In questo rapporto descriviamo lo sviluppo di Command A, un potente modello linguistico di grandi dimensioni progettato specificamente per eccellere in casi d'uso aziendali reali. Command A è un modello ottimizzato per agenti e multilingue, con supporto per 23 lingue utilizzate nel business globale, e una nuova architettura ibrida che bilancia efficienza e prestazioni di alto livello. Offre capacità di Generazione Aumentata con Recupero (RAG) di prim'ordine, con ancoraggio alla realtà e utilizzo di strumenti per automatizzare processi aziendali sofisticati. Queste capacità sono state raggiunte attraverso un approccio di addestramento decentralizzato, che include algoritmi di auto-affinamento e tecniche di fusione di modelli. Includiamo anche i risultati per Command R7B, che condivide capacità e somiglianze architetturali con Command A. I pesi di entrambi i modelli sono stati rilasciati per scopi di ricerca. Questo rapporto tecnico dettaglia la nostra pipeline di addestramento originale e presenta una valutazione estensiva dei nostri modelli su una serie di task rilevanti per il mondo aziendale e benchmark pubblici, dimostrando prestazioni e efficienza eccellenti.
Gli agenti di utilizzo del computer automatizzano le attività digitali interagendo direttamente con le interfacce grafiche utente (GUI) su computer e dispositivi mobili, offrendo un potenziale significativo per migliorare la produttività umana completando uno spazio aperto di richieste degli utenti. Tuttavia, gli agenti attuali affrontano sfide considerevoli: un'ancoraggio impreciso degli elementi GUI, difficoltà nella pianificazione di attività a lungo termine e colli di bottiglia nelle prestazioni dovuti all'uso di modelli generalisti singoli per compiti cognitivi diversi. A tal fine, introduciamo Agent S2, un nuovo framework composizionale che delega le responsabilità cognitive a vari modelli generalisti e specializzati. Proponiamo una nuova tecnica di Mixture-of-Grounding per ottenere una localizzazione precisa delle GUI e introduciamo la Pianificazione Gerarchica Proattiva, che affina dinamicamente i piani d'azione su più scale temporali in risposta a osservazioni in evoluzione. Le valutazioni dimostrano che Agent S2 stabilisce nuove prestazioni all'avanguardia (SOTA) su tre importanti benchmark di utilizzo del computer. In particolare, Agent S2 ottiene miglioramenti relativi del 18,9% e del 32,7% rispetto ai principali agenti di riferimento come Claude Computer Use e UI-TARS nelle valutazioni a 15 e 50 passi di OSWorld. Inoltre, Agent S2 si generalizza efficacemente ad altri sistemi operativi e applicazioni, superando i precedenti metodi migliori del 52,8% su WindowsAgentArena e del 16,52% su AndroidWorld in termini relativi. Il codice è disponibile all'indirizzo https://github.com/simular-ai/Agent-S.
La rapida escalation dai problemi di livello elementare a quelli di frontiera della difficoltà per i benchmark dei modelli linguistici (LLM) negli ultimi anni ha creato un miracolo per i ricercatori, portandoci a credere di essere a un passo dal superare l'intelligenza umana. Tuttavia, la straordinaria capacità di ragionamento dei LLM deriva davvero da una vera intelligenza secondo gli standard umani, o si tratta semplicemente di una ripetizione di soluzioni osservate durante l'addestramento su scala Internet? Per studiare questo problema, proponiamo RoR-Bench, un nuovo benchmark multimodale progettato per rilevare il comportamento di ripetizione dei LLM quando vengono posti problemi di ragionamento semplici ma con condizioni leggermente modificate, e conduciamo un'analisi empirica sul nostro benchmark. Sorprendentemente, abbiamo scoperto che i LLM all'avanguardia esistenti mostrano unanimemente un comportamento di ripetizione estremamente grave; cambiando una sola frase nella condizione, modelli di punta come OpenAI-o1 e DeepSeek-R1 possono subire una perdita di prestazioni del 60% su problemi aritmetici e di ragionamento di livello elementare. Tali risultati rappresentano un campanello d'allarme per la comunità dei LLM, costringendoci a rivalutare il vero livello di intelligenza dei modelli linguistici all'avanguardia.
Valutare efficacemente i grandi modelli linguistici (LLM) rimane un collo di bottiglia critico, poiché i benchmark statici tradizionali soffrono di saturazione e contaminazione, mentre le valutazioni umane sono costose e lente. Ciò ostacola valutazioni tempestive o specifiche per dominio, cruciali per applicazioni nel mondo reale. Introduciamo YourBench, un nuovo framework open-source che affronta queste limitazioni consentendo la generazione dinamica e automatizzata di benchmark affidabili, aggiornati e personalizzati per dominio in modo economico e senza annotazione manuale, direttamente da documenti forniti dall'utente. Ne dimostriamo l'efficacia replicando 7 sottoinsiemi diversi di MMLU utilizzando un testo sorgente minimo, raggiungendo questo obiettivo con un costo totale di inferenza inferiore a 15 USD, preservando perfettamente le classifiche relative delle prestazioni dei modelli (Spearman Rho = 1) osservate sul benchmark originale. Per garantire che YourBench generi dati basati sugli input forniti invece di affidarsi a conoscenze parametriche posteriori nei modelli, introduciamo anche Tempora-0325, un nuovo dataset di oltre 7K documenti diversi, pubblicati esclusivamente dopo marzo 2025. La nostra analisi completa copre 26 modelli SoTA di 7 famiglie principali su varie scale (3-671B parametri) per convalidare la qualità delle valutazioni generate attraverso controlli algoritmici rigorosi (ad esempio, grounding delle citazioni) e valutazioni umane. Rilasciamo la libreria YourBench, il dataset Tempora-0325, oltre 150k coppie domanda-risposta basate su Tempora e tutte le tracce di valutazione e inferenza per facilitare la ricerca riproducibile e consentire alla comunità di generare benchmark su misura su richiesta, promuovendo una valutazione dei LLM più rilevante e affidabile.
Gli agenti GUI, alimentati da grandi modelli di base, possono interagire con interfacce digitali, abilitando varie applicazioni nell'automazione web, nella navigazione mobile e nel testing software. Tuttavia, la loro crescente autonomia ha sollevato preoccupazioni critiche riguardo alla loro sicurezza, privacy e affidabilità. Questo studio esamina l'affidabilità degli agenti GUI in cinque dimensioni critiche: vulnerabilità di sicurezza, affidabilità in ambienti dinamici, trasparenza e spiegabilità, considerazioni etiche e metodologie di valutazione. Identifichiamo inoltre le principali sfide, come la vulnerabilità agli attacchi avversari, le modalità di guasto a cascata nel processo decisionale sequenziale e la mancanza di benchmark di valutazione realistici. Questi problemi non solo ostacolano il dispiegamento nel mondo reale, ma richiedono anche strategie di mitigazione complete che vadano oltre il successo del compito. Man mano che gli agenti GUI diventano più diffusi, è essenziale stabilire standard di sicurezza robusti e pratiche di sviluppo responsabili. Questo studio fornisce una base per avanzare verso agenti GUI affidabili attraverso una comprensione sistematica e future ricerche.
Generare movimenti umani guidati da condizioni come descrizioni testuali è una sfida a causa della necessità di dataset con coppie di movimenti di alta qualità e le loro corrispondenti condizioni. La difficoltà aumenta quando si mira a un controllo più fine nella generazione. A tal fine, lavori precedenti hanno proposto di combinare diversi modelli di diffusione del movimento pre-addestrati su dataset con diversi tipi di condizioni, consentendo così il controllo con più condizioni. Tuttavia, le strategie di fusione proposte trascurano che il modo ottimale per combinare i processi di generazione potrebbe dipendere dalle particolarità di ciascun modello generativo pre-addestrato e anche dalle specifiche descrizioni testuali. In questo contesto, introduciamo MixerMDM, la prima tecnica di composizione di modelli apprendibile per combinare modelli di diffusione del movimento umano pre-addestrati condizionati da testo. A differenza degli approcci precedenti, MixerMDM fornisce una strategia di miscelazione dinamica che viene addestrata in modo avversario per imparare a combinare il processo di denoising di ciascun modello in base all'insieme di condizioni che guidano la generazione. Utilizzando MixerMDM per combinare modelli di diffusione del movimento per singole persone e per più persone, otteniamo un controllo fine sulla dinamica di ogni individuo e anche sull'interazione complessiva. Inoltre, proponiamo una nuova tecnica di valutazione che, per la prima volta in questo compito, misura l'interazione e la qualità individuale calcolando l'allineamento tra i movimenti generati miscelati e le loro condizioni, nonché le capacità di MixerMDM di adattare la miscelazione durante il processo di denoising in base ai movimenti da miscelare.
Il rapido progresso dei modelli linguistici multimodali (MLLM) come GPT-4o ha spinto lo sviluppo dei modelli linguistici Omni, progettati per elaborare e rispondere proattivamente a flussi continui di dati multimodali. Nonostante il loro potenziale, valutare le loro capacità interattive nel mondo reale in contesti di streaming video rimane una sfida formidabile. In questo lavoro, introduciamo OmniMMI, un benchmark completo per l'interazione multimodale, specificamente adattato per gli OmniLLM in contesti di streaming video. OmniMMI comprende oltre 1.121 video e 2.290 domande, affrontando due sfide critiche ma poco esplorate negli attuali benchmark video: la comprensione dello streaming video e il ragionamento proattivo, attraverso sei sottotask distinti. Inoltre, proponiamo un nuovo framework, il Multi-modal Multiplexing Modeling (M4), progettato per abilitare un modello di streaming efficiente nell'inferenza che possa vedere, ascoltare mentre genera.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno notevolmente migliorato la loro capacità di eseguire compiti di ragionamento complesso, passando da un pensiero rapido e intuitivo (Sistema 1) a un ragionamento lento e profondo (Sistema 2). Sebbene il ragionamento del Sistema 2 migliori l'accuratezza dei compiti, spesso comporta costi computazionali significativi a causa della sua natura di pensiero lento e di comportamenti di ragionamento inefficienti o non necessari. Al contrario, il ragionamento del Sistema 1 è computazionalmente efficiente, ma porta a prestazioni subottimali. Di conseguenza, è fondamentale bilanciare il compromesso tra prestazioni (benefici) e costi computazionali (budget), dando vita al concetto di economia del ragionamento. In questa rassegna, forniamo un'analisi completa dell'economia del ragionamento sia nelle fasi di post-addestramento che di inferenza in tempo reale degli LLM, comprendendo i) la causa dell'inefficienza del ragionamento, ii) l'analisi del comportamento dei diversi modelli di ragionamento e iii) le potenziali soluzioni per raggiungere l'economia del ragionamento. Offrendo intuizioni pratiche e evidenziando le sfide aperte, miriamo a far luce sulle strategie per migliorare l'economia del ragionamento degli LLM, servendo così come una risorsa preziosa per avanzare la ricerca in questo settore in evoluzione. Forniamo inoltre un repository pubblico per monitorare continuamente gli sviluppi in questo campo in rapida evoluzione.
Il ridimensionamento del calcolo in fase di test è emerso come una strategia chiave per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), in particolare in compiti come la risoluzione di problemi matematici. Un approccio tradizionale, l'Autoconsistenza (SC), genera più soluzioni a un problema e seleziona la risposta più comune tramite voto a maggioranza. Un altro metodo comune prevede di assegnare un punteggio a ciascuna soluzione utilizzando un modello di ricompensa (verificatore) e di scegliere la migliore. I recenti progressi nei Modelli di Ricompensa Generativi (GenRM) riformulano la verifica come un compito di previsione del token successivo, consentendo il ridimensionamento in fase di inferenza lungo un nuovo asse. Nello specifico, GenRM genera più catene di pensiero di verifica per valutare ciascuna soluzione. Con un budget di inferenza limitato, ciò introduce un compromesso fondamentale: è meglio spendere il budget per ridimensionare le soluzioni tramite SC o generare meno soluzioni e allocare il calcolo alla verifica tramite GenRM? Per affrontare questa questione, valutiamo GenRM rispetto a SC con un budget di inferenza fisso. Interessantemente, scopriamo che SC è più efficiente in termini di calcolo rispetto a GenRM per la maggior parte dei budget di inferenza pratici, su diversi modelli e dataset. Ad esempio, GenRM raggiunge per la prima volta le prestazioni di SC solo dopo aver consumato fino a 8 volte il calcolo di inferenza e richiede un calcolo significativamente maggiore per superarlo. Inoltre, deriviamo le leggi di ridimensionamento dell'inferenza per il paradigma GenRM, rivelando che l'inferenza ottimale in termini di calcolo favorisce un ridimensionamento più aggressivo della generazione di soluzioni rispetto al numero di verifiche. Il nostro lavoro fornisce indicazioni pratiche sull'ottimizzazione del ridimensionamento in fase di test bilanciando la generazione di soluzioni e la verifica. Il codice è disponibile all'indirizzo https://github.com/nishadsinghi/sc-genrm-scaling.
La riduzione dei token visivi abbassa i costi di inferenza causati dalle estese caratteristiche delle immagini nei grandi modelli visione-linguaggio (LVLM). A differenza degli studi rilevanti che eliminano i token nei LVLM basati esclusivamente su self-attention, il nostro lavoro affronta in modo unico i modelli basati su cross-attention, che raggiungono prestazioni superiori. Identifichiamo che la dimensione della cache chiave-valore (KV) per i token delle immagini nei livelli di cross-attention supera significativamente quella dei token di testo nei livelli di self-attention, rappresentando un importante collo di bottiglia computazionale. Per mitigare questo problema, sfruttiamo la natura sparsa delle mappe di cross-attention per eliminare selettivamente le caratteristiche visive ridondanti. Il nostro Trimmed Llama riduce efficacemente le richieste della cache KV senza necessitare di ulteriore addestramento. Beneficiando di una riduzione del 50% delle caratteristiche visive, il nostro modello può ridurre la latenza di inferenza e l'utilizzo della memoria mantenendo prestazioni in linea con i benchmark.
Recentemente, i metodi di fusione di modelli hanno dimostrato una potente capacità di combinare abilità su vari task provenienti da più modelli linguistici di grandi dimensioni (LLM). Mentre i precedenti metodi di fusione si concentravano principalmente sulla fusione di modelli omogenei con architettura identica, incontrano difficoltà quando si tratta di Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) con una proprietà intrinsecamente eterogenea, inclusa la differenza nell'architettura del modello e l'asimmetria nello spazio dei parametri. In questo lavoro, proponiamo AdaMMS, un nuovo metodo di fusione di modelli progettato specificamente per MLLM eterogenei. Il nostro metodo affronta le sfide in tre passaggi: mappatura, fusione e ricerca. Nello specifico, progettiamo prima una funzione di mappatura tra i modelli per applicare la fusione su MLLM con architetture diverse. Successivamente, applichiamo un'interpolazione lineare sui pesi del modello per adattare attivamente l'asimmetria nei MLLM eterogenei. Infine, nel passaggio di ricerca degli iperparametri, proponiamo un metodo di selezione degli iperparametri non supervisionato per la fusione di modelli. Essendo il primo metodo di fusione in grado di unire MLLM eterogenei senza dati etichettati, esperimenti estesi su varie combinazioni di modelli hanno dimostrato che AdaMMS supera i precedenti metodi di fusione su vari benchmark di visione e linguaggio.
Il ridimensionamento al momento del test è emerso come una tecnica potente per migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni. Tuttavia, la sua efficacia nel ragionamento medico rimane incerta, poiché il dominio medico differisce fondamentalmente dai compiti matematici in termini di rappresentazione della conoscenza e processi decisionali. In questo articolo, forniamo la prima indagine completa sul ridimensionamento al momento del test per il ragionamento medico e presentiamo m1, un approccio semplice ma efficace che aumenta la capacità di ragionamento medico di un modello durante l'inferenza. La nostra valutazione su una varietà di compiti medici dimostra che il ridimensionamento al momento del test migliora costantemente il ragionamento medico, consentendo a modelli leggeri e ottimizzati con meno di 10B di parametri di stabilire nuove prestazioni all'avanguardia, mentre il nostro modello da 32B rivaleggia con precedenti modelli linguistici medici su scala 70B. Tuttavia, identifichiamo un budget ottimale di token di ragionamento di circa 4K, oltre il quale le prestazioni possono degradare a causa di un eccessivo ragionamento. Il forzamento del budget, che estende il calcolo al momento del test attraverso prompt iterativi, aiuta i modelli a ricontrollare le risposte ma non migliora necessariamente le prestazioni complessive delle domande e risposte mediche e, in alcuni casi, introduce persino errori in risposte precedentemente corrette. La nostra analisi caso per caso identifica una conoscenza medica insufficiente come un collo di bottiglia chiave che impedisce ulteriori guadagni di prestazioni attraverso il ridimensionamento al momento del test. Scopriamo che aumentare la scala dei dati, migliorare la qualità dei dati e espandere la capacità del modello migliora costantemente l'ancoraggio della conoscenza medica, consentendo miglioramenti continui delle prestazioni, in particolare su benchmark medici impegnativi dove i modelli più piccoli raggiungono la saturazione. Questi risultati sottolineano le differenze fondamentali tra il ragionamento medico e quello matematico nei modelli linguistici di grandi dimensioni, evidenziando che una conoscenza medica arricchita, oltre a una maggiore profondità di ragionamento, è essenziale per realizzare i benefici del ridimensionamento al momento del test.
Il ridimensionamento al momento dell'inferenza può potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM) su problemi complessi che beneficiano di una risoluzione passo-passo. Sebbene l'allungamento dei fogli di lavoro generati si sia dimostrato efficace per compiti matematici, l'impatto più ampio di questo approccio su altri compiti rimane meno chiaro. In questo lavoro, indaghiamo i vantaggi e i limiti dei metodi di ridimensionamento su nove modelli all'avanguardia e otto compiti impegnativi, tra cui ragionamento matematico e STEM, pianificazione del calendario, problemi NP-difficili, navigazione e ragionamento spaziale. Confrontiamo modelli convenzionali (ad esempio, GPT-4o) con modelli ottimizzati per il ridimensionamento al momento dell'inferenza (ad esempio, o1) attraverso protocolli di valutazione che prevedono chiamate ripetute al modello, in modo indipendente o sequenziale con feedback. Queste valutazioni approssimano i limiti inferiori e superiori delle prestazioni e il potenziale di miglioramento futuro per ciascun modello, sia attraverso un addestramento migliorato che sistemi di inferenza multi-modello. La nostra ampia analisi empirica rivela che i vantaggi del ridimensionamento al momento dell'inferenza variano a seconda del compito e diminuiscono all'aumentare della complessità del problema. Inoltre, l'uso di più token non si traduce necessariamente in una maggiore accuratezza in questi regimi impegnativi. I risultati di più esecuzioni indipendenti con modelli convenzionali che utilizzano verificatori perfetti mostrano che, per alcuni compiti, questi modelli possono raggiungere prestazioni vicine alla media delle prestazioni dei modelli di ragionamento più avanzati di oggi. Tuttavia, per altri compiti, rimane un divario significativo nelle prestazioni, anche in regimi di ridimensionamento molto elevati. Incoraggiante è il fatto che tutti i modelli mostrano guadagni significativi quando l'inferenza viene ulteriormente ridimensionata con verificatori perfetti o feedback forte, suggerendo un ampio potenziale per miglioramenti futuri.
Text-to-SQL è un compito impegnativo che coinvolge molteplici sottotask intensivi dal punto di vista del ragionamento, tra cui la comprensione del linguaggio naturale, la comprensione dello schema del database e la formulazione precisa di query SQL. Gli approcci esistenti spesso si basano su percorsi di ragionamento manualmente costruiti con bias induttivi che possono limitarne l'efficacia complessiva. Ispirati dai recenti successi di modelli potenziati dal ragionamento come DeepSeek R1 e OpenAI o1, che sfruttano efficacemente l'auto-esplorazione guidata da ricompense per migliorare le capacità di ragionamento e la generalizzazione, proponiamo un nuovo insieme di ricompense parziali specificamente progettate per il task Text-to-SQL. Il nostro insieme di ricompense include il collegamento dello schema, il feedback dell'IA, la similarità n-gram e il controllo della sintassi, esplicitamente concepiti per affrontare il problema della scarsità di ricompense prevalente nell'apprendimento per rinforzo (RL). Sfruttando l'ottimizzazione relativa delle politiche di gruppo (GRPO), il nostro approccio incoraggia esplicitamente i grandi modelli linguistici (LLM) a sviluppare capacità di ragionamento intrinseche necessarie per la generazione accurata di query SQL. Con modelli di diverse dimensioni, dimostriamo che l'addestramento esclusivo con RL utilizzando le nostre ricompense proposte raggiunge costantemente una maggiore accuratezza e una superiore generalizzazione rispetto al fine-tuning supervisionato (SFT). In modo notevole, il nostro modello da 14B parametri addestrato con RL supera significativamente modelli proprietari più grandi, ad esempio o3-mini del 4% e Gemini-1.5-Pro-002 del 3% sul benchmark BIRD. Questi risultati evidenziano l'efficacia del nostro framework di addestramento RL con ricompense parziali per migliorare sia l'accuratezza che le capacità di ragionamento nei task Text-to-SQL.
Affrontiamo il compito di suddivisione in capitoli di video, ovvero la partizione di una timeline video lunga in unità semantiche e la generazione di titoli corrispondenti per ciascun capitolo. Sebbene relativamente poco esplorata, la suddivisione automatica in capitoli ha il potenziale di abilitare una navigazione e un recupero dei contenuti efficienti nei video di lunga durata. In questo articolo, otteniamo prestazioni eccellenti nella suddivisione in capitoli per video della durata di un'ora affrontando in modo efficiente il problema nel dominio testuale con il nostro framework 'Chapter-Llama'. Nello specifico, sfruttiamo un modello linguistico di grandi dimensioni (LLM) preaddestrato con un ampio contesto di finestra, e forniamo come input (i) trascrizioni del parlato e (ii) didascalie che descrivono i fotogrammi video, insieme ai rispettivi timestamp. Data l'inefficienza di descrivere esaustivamente tutti i fotogrammi, proponiamo una strategia leggera di selezione dei fotogrammi guidata dal contenuto della trascrizione del parlato, e dimostriamo sperimentalmente vantaggi significativi. Addestriamo l'LLM a produrre timestamp per i confini dei capitoli, nonché titoli di capitoli in forma libera. Questo approccio semplice ma potente si adatta alla elaborazione di video della durata di un'ora in un singolo passaggio in avanti. I nostri risultati dimostrano miglioramenti sostanziali (ad esempio, 45,3 contro 26,7 punteggio F1) rispetto allo stato dell'arte sul recente benchmark VidChapters-7M. Per promuovere ulteriori ricerche, rilasciamo il nostro codice e i modelli sulla pagina del progetto.
I modelli linguistici di grandi dimensioni (LLM) possiedono impressionanti capacità linguistiche, ma spesso non riescono a conservare fedelmente le conoscenze fattuali, portando a allucinazioni e output inaffidabili. Comprendere le carenze conoscitive degli LLM attraverso una valutazione esaustiva rispetto a basi di conoscenza complete è computazionalmente proibitivo, specialmente per i modelli a pesi chiusi. Proponiamo lo Stochastic Error Ascent (SEA), un framework scalabile ed efficiente per individuare carenze conoscitive (errori) nei LLM a pesi chiusi con un budget di query rigoroso. Invece di sondare in modo ingenuo tutti i candidati di conoscenza, SEA formula la scoperta degli errori come un processo di ottimizzazione stocastica: recupera iterativamente nuovi candidati ad alto errore sfruttando la similarità semantica con i fallimenti precedentemente osservati. Per migliorare ulteriormente l'efficienza e la copertura della ricerca, SEA utilizza un recupero gerarchico a livello di documento e paragrafo, e costruisce un grafo aciclico diretto di relazioni per modellare la propagazione degli errori e identificare modalità di fallimento sistematiche. Empiricamente, SEA scopre 40,7 volte più errori conoscitivi rispetto all'Automated Capability Discovery e il 26,7% in più rispetto ad AutoBencher, riducendo il costo per errore rispettivamente di 599 e 9 volte. La valutazione umana conferma l'alta qualità delle domande generate, mentre le analisi di ablazione e convergenza validano il contributo di ciascun componente in SEA. Un'ulteriore analisi sugli errori scoperti rivela schemi di fallimento correlati tra famiglie di LLM e deficit ricorrenti, evidenziando la necessità di una migliore copertura dei dati e di un fine-tuning mirato nello sviluppo futuro degli LLM.
Le mani umane svolgono un ruolo centrale nell'interazione, motivando una crescente ricerca nella manipolazione robotica abile. Gli algoritmi di intelligenza artificiale incarnata basati sui dati richiedono sequenze di manipolazione precise, su larga scala e simili a quelle umane, difficili da ottenere con l'apprendimento per rinforzo convenzionale o la teleoperazione nel mondo reale. Per affrontare questa sfida, introduciamo ManipTrans, un metodo innovativo a due stadi per trasferire efficacemente le abilità bimanuali umane a mani robotiche abili in simulazione. ManipTrans pre-allena prima un imitatore di traiettorie generalista per imitare il movimento della mano, poi perfeziona un modulo residuo specifico sotto vincoli di interazione, consentendo un apprendimento efficiente e un'esecuzione accurata di compiti bimanuali complessi. Gli esperimenti dimostrano che ManipTrans supera i metodi all'avanguardia in termini di tasso di successo, fedeltà ed efficienza. Sfruttando ManipTrans, trasferiamo più dataset mano-oggetto a mani robotiche, creando DexManipNet, un dataset su larga scala che include compiti inesplorati come l'inserimento del tappo di una penna e l'apertura di una bottiglia. DexManipNet comprende 3.3K episodi di manipolazione robotica ed è facilmente estendibile, facilitando ulteriori addestramenti di politiche per mani abili e consentendo implementazioni nel mondo reale.
La ricostruzione di rappresentazioni 3D nitide a partire da immagini multi-vista sfocate è un problema di lunga data nel campo della visione artificiale. Recenti lavori cercano di migliorare la sintesi di nuove viste di alta qualità a partire dal motion blur sfruttando telecamere basate su eventi, beneficiando dell'elevato intervallo dinamico e della risoluzione temporale al microsecondo. Tuttavia, spesso raggiungono una qualità visiva sub-ottimale, ripristinando colori inaccurati o perdendo dettagli fini. In questo articolo, presentiamo DiET-GS, un approccio di motion deblurring 3DGS assistito da un prior di diffusione e da flussi di eventi. Il nostro framework sfrutta efficacemente sia i flussi di eventi privi di blur che il prior di diffusione in una strategia di addestramento a due fasi. Nello specifico, introduciamo un nuovo framework per vincolare il 3DGS con un doppio integrale di eventi, ottenendo sia colori accurati che dettagli ben definiti. Inoltre, proponiamo una tecnica semplice per sfruttare il prior di diffusione per migliorare ulteriormente i dettagli dei bordi. I risultati qualitativi e quantitativi su dati sia sintetici che reali dimostrano che il nostro DiET-GS è in grado di produrre nuove viste di qualità significativamente migliore rispetto alle baseline esistenti. La nostra pagina del progetto è https://diet-gs.github.io.
Proponiamo un framework unificato che integra il rilevamento di oggetti (OD) e il grounding visivo (VG) per immagini di telerilevamento (RS). Per supportare il convenzionale OD e stabilire un priore intuitivo per il compito VG, ottimizziamo un rilevatore di oggetti open-set utilizzando dati di espressioni referenziali, inquadrandolo come un compito OD parzialmente supervisionato. Nella prima fase, costruiamo una rappresentazione grafica di ciascuna immagine, comprendente query di oggetti, embedding di classe e posizioni delle proposte. Successivamente, la nostra architettura task-aware elabora questo grafico per eseguire il compito VG. Il modello è composto da: (i) una rete multi-branch che integra caratteristiche spaziali, visive e categoriali per generare proposte task-aware, e (ii) una rete di ragionamento sugli oggetti che assegna probabilità alle proposte, seguita da un meccanismo di selezione soft per la localizzazione finale dell'oggetto referenziato. Il nostro modello dimostra prestazioni superiori sui dataset OPT-RSVG e DIOR-RSVG, ottenendo miglioramenti significativi rispetto ai metodi state-of-the-art pur mantenendo le capacità classiche di OD. Il codice sarà disponibile nel nostro repository: https://github.com/rd20karim/MB-ORES.