Articoli di ricerca IA selezionati quotidianamente con traduzioni
Text-to-SQL mira a tradurre query in linguaggio naturale in istruzioni SQL, un'operazione pratica che consente a chiunque di recuperare facilmente le informazioni desiderate dai database. Recentemente, molti approcci esistenti affrontano questo problema utilizzando Large Language Models (LLM), sfruttando la loro forte capacità di comprendere le query degli utenti e generare il corrispondente codice SQL. Tuttavia, la conoscenza parametrica degli LLM potrebbe essere limitata nel coprire tutte le query diversificate e specifiche per dominio che richiedono un ancoraggio a vari schemi di database, rendendo spesso meno accurati gli SQL generati. Per risolvere questo problema, proponiamo la costruzione di una base di conoscenza per text-to-SQL, una fonte fondamentale di conoscenza da cui recuperiamo e generiamo le informazioni necessarie per le query specifiche. In particolare, a differenza degli approcci esistenti che annotano manualmente la conoscenza o generano solo poche informazioni per ogni query, la nostra base di conoscenza è completa, costruita sulla combinazione di tutte le domande disponibili e dei relativi schemi di database insieme alle loro conoscenze associate, e può essere riutilizzata per database non visti provenienti da diversi dataset e domini. Validiamo il nostro approccio su più dataset text-to-SQL, considerando sia scenari con database sovrapposti che non sovrapposti, dimostrando prestazioni sostanzialmente superiori rispetto alle baseline rilevanti.
Il seguire le istruzioni (Instruction Following, IF) è una capacità cruciale per i grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, gestire istruzioni complesse con molteplici vincoli rimane una sfida. I metodi precedenti selezionano tipicamente coppie di preferenze basandosi sul numero di vincoli soddisfatti, introducendo rumore laddove gli esempi scelti potrebbero non rispettare alcuni vincoli e gli esempi rifiutati potrebbero eccellere in certi aspetti rispetto a quelli scelti. Per affrontare la sfida dell'allineamento con preferenze multiple, proponiamo un metodo semplice ma efficace chiamato Reverse Preference Optimization (RPO). Questo metodo mitiga il rumore nelle coppie di preferenze invertendo dinamicamente i vincoli all'interno dell'istruzione per garantire che la risposta scelta sia perfetta, alleviando il carico di campionamento e filtraggio estensivo per raccogliere risposte perfette. Inoltre, l'inversione amplia il divario tra le risposte scelte e quelle rifiutate, chiarendo così la direzione di ottimizzazione e rendendola più robusta al rumore. Valutiamo RPO su due benchmark IF multi-turn, Sysbench e Multi-IF, dimostrando miglioramenti medi rispetto alla baseline DPO di 4,6 e 2,5 punti (su Llama-3.1 8B), rispettivamente. Inoltre, RPO scala efficacemente tra diverse dimensioni del modello (da 8B a 70B parametri), con il modello RPO da 70B che supera GPT-4o.
Questo articolo mira a superare un ostacolo significativo nel ridimensionamento del RL (Reinforcement Learning) per il ragionamento con LLM (Large Language Models), ovvero il collasso dell'entropia della politica. Tale fenomeno è stato osservato costantemente in numerose esecuzioni di RL senza interventi sull'entropia, dove l'entropia della politica è diminuita drasticamente nella fase iniziale dell'addestramento. Questa ridotta capacità esplorativa è sempre accompagnata dalla saturazione delle prestazioni della politica. Nella pratica, abbiamo stabilito un'equazione di trasformazione R=-a*e^H+b tra l'entropia H e le prestazioni a valle R. Questa legge empirica indica fortemente che le prestazioni della politica sono scambiate con l'entropia della politica, risultando quindi limitate dal suo esaurimento, e il limite massimo è completamente prevedibile: H=0, R=-a+b. La nostra scoperta rende necessaria la gestione dell'entropia per una continua esplorazione verso il ridimensionamento del calcolo nel RL. A tal fine, abbiamo studiato la dinamica dell'entropia sia teoricamente che empiricamente. La nostra derivazione evidenzia che il cambiamento nell'entropia della politica è guidato dalla covarianza tra la probabilità dell'azione e il cambiamento nei logit, che è proporzionale al suo vantaggio quando si utilizzano algoritmi simili al Policy Gradient. Lo studio empirico mostra che i valori del termine di covarianza e le differenze di entropia corrispondono esattamente, supportando la conclusione teorica. Inoltre, il termine di covarianza rimane prevalentemente positivo durante l'addestramento, spiegando ulteriormente perché l'entropia della politica diminuirebbe in modo monotono. Comprendendo il meccanismo alla base della dinamica dell'entropia, siamo motivati a controllare l'entropia limitando l'aggiornamento dei token con alta covarianza. In particolare, proponiamo due tecniche semplici ma efficaci, ovvero Clip-Cov e KL-Cov, che applicano rispettivamente un clipping e una penalità KL ai token con alte covarianze. Gli esperimenti mostrano che questi metodi incoraggiano l'esplorazione, aiutando così la politica a sfuggire al collasso dell'entropia e a ottenere migliori prestazioni a valle.
Gli agenti basati su LLM hanno dimostrato capacità promettenti in un numero crescente di attività di ingegneria del software (SWE). Tuttavia, il progresso in questo campo affronta due sfide critiche. Innanzitutto, i dati di addestramento di alta qualità sono scarsi, specialmente quelli che riflettono scenari reali di SWE, in cui gli agenti devono interagire con ambienti di sviluppo, eseguire codice e adattare il comportamento in base ai risultati delle loro azioni. I dataset esistenti sono limitati alla generazione di codice one-shot o comprendono piccole raccolte manualmente curate di attività interattive, mancando sia di scala che di diversità. In secondo luogo, la mancanza di nuove attività interattive di SWE influisce sulla valutazione di modelli in rapido miglioramento, poiché i benchmark statici diventano rapidamente obsoleti a causa di problemi di contaminazione. Per affrontare queste limitazioni, introduciamo una pipeline innovativa, automatizzata e scalabile per estrarre continuamente attività interattive di SWE reali da vari repository GitHub. Utilizzando questa pipeline, costruiamo SWE-rebench, un dataset pubblico che comprende oltre 21.000 attività interattive di SWE basate su Python, adatto per l'apprendimento per rinforzo di agenti SWE su larga scala. Inoltre, utilizziamo un flusso continuo di nuove attività raccolte con la metodologia SWE-rebench per costruire un benchmark privo di contaminazione per l'ingegneria del software agentica. Confrontiamo i risultati di vari LLM su questo benchmark con i risultati su SWE-bench Verified e mostriamo che le prestazioni di alcuni modelli linguistici potrebbero essere sovrastimate a causa di problemi di contaminazione.
I Large Language Models (LLM) raggiungono impressionanti capacità di ragionamento al costo di un sovraccarico computazionale significativo, rappresentando una sfida sostanziale per il loro dispiegamento. Sebbene i Small Language Models (SLM) distillati migliorino notevolmente l'efficienza, le loro prestazioni ne risentono poiché non riescono a seguire i percorsi di ragionamento degli LLM. Fortunatamente, abbiamo scoperto che solo una piccola frazione di token effettivamente diverge i percorsi di ragionamento tra LLM e SLM. La maggior parte dei token generati sono identici o presentano differenze neutre, come variazioni minori nelle abbreviazioni o nelle espressioni. Sfruttando questa intuizione, introduciamo **Roads to Rome (R2R)**, un metodo di routing neurale dei token che utilizza selettivamente gli LLM solo per questi token critici e divergenti, lasciando la maggior parte della generazione dei token allo SLM. Abbiamo anche sviluppato una pipeline automatica di generazione dati che identifica i token divergenti e genera etichette di routing a livello di token per addestrare il router leggero. Applichiamo R2R per combinare i modelli R1-1.5B e R1-32B della famiglia DeepSeek, e valutiamo su benchmark impegnativi di matematica, codifica e QA. Con una dimensione media dei parametri attivati di 5.6B, R2R supera l'accuratezza media di R1-7B di 1.6x, superando persino il modello R1-14B. Rispetto a R1-32B, offre un'accelerazione del tempo di esecuzione di 2.8x con prestazioni comparabili, avanzando la frontiera di Pareto dell'efficienza di scalabilità in fase di test. Il nostro codice è disponibile all'indirizzo https://github.com/thu-nics/R2R.
Il successo di DeepSeek-R1 sottolinea il ruolo significativo dell'apprendimento per rinforzo (RL) nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). In questo lavoro, presentiamo Skywork-OR1, un'implementazione efficace e scalabile di RL per modelli a lunga catena di pensiero (CoT). Basandoci sulla serie di modelli DeepSeek-R1-Distill, il nostro approccio RL raggiunge miglioramenti prestazionali significativi, aumentando l'accuratezza media su AIME24, AIME25 e LiveCodeBench dal 57,8% al 72,8% (+15,0%) per il modello 32B e dal 43,6% al 57,5% (+13,9%) per il modello 7B. Il nostro modello Skywork-OR1-32B supera sia DeepSeek-R1 che Qwen3-32B sui benchmark AIME24 e AIME25, ottenendo risultati comparabili su LiveCodeBench. I modelli Skywork-OR1-7B e Skywork-OR1-Math-7B dimostrano capacità di ragionamento competitive tra i modelli di dimensioni simili. Eseguiamo studi di ablazione completi sui componenti principali della nostra pipeline di addestramento per validarne l'efficacia. Inoltre, indaghiamo approfonditamente il fenomeno del collasso dell'entropia, identifichiamo i fattori chiave che influenzano la dinamica dell'entropia e dimostriamo che mitigare il collasso prematuro dell'entropia è cruciale per migliorare le prestazioni nei test. Per supportare la ricerca della comunità, rendiamo completamente open-source i pesi dei nostri modelli, il codice di addestramento e i dataset di addestramento.
I modelli di ragionamento visione-linguaggio (VLMs) hanno dimostrato prestazioni promettenti in compiti multimodali complessi. Tuttavia, affrontano ancora sfide significative: sono altamente sensibili agli errori di ragionamento, richiedono grandi volumi di dati annotati o verificatori accurati e faticano a generalizzare oltre domini specifici. Per affrontare queste limitazioni, esploriamo l'autocorrezione come strategia per migliorare i VLMs di ragionamento. Iniziamo conducendo un'analisi approfondita delle capacità di autocorrezione dei VLMs e identifichiamo le principali lacune. Sulla base delle nostre scoperte, introduciamo Sherlock, un framework di addestramento per l'autocorrezione e il miglioramento autonomo. Sherlock introduce un obiettivo di autocorrezione a livello di traiettoria, un metodo di costruzione dei dati di preferenza basato sulla perturbazione visiva e un beta dinamico per la regolazione delle preferenze. Una volta che il modello acquisisce capacità di autocorrezione utilizzando solo 20k dati annotati campionati casualmente, continua a migliorarsi autonomamente senza supervisione esterna. Basato sul modello Llama3.2-Vision-11B, Sherlock ottiene risultati notevoli su otto benchmark, raggiungendo un'accuratezza media di 64.1 con la generazione diretta e 65.4 dopo l'autocorrezione. Supera LLaVA-CoT (63.2), Mulberry (63.9) e LlamaV-o1 (63.4) utilizzando meno del 20% dei dati annotati.
I moderni modelli di super-risoluzione su singola immagine (SISR) forniscono risultati fotorealistici sui fattori di scala su cui sono addestrati, ma collassano quando viene chiesto loro di ingrandire ben oltre tale regime. Affrontiamo questo collo di bottiglia di scalabilità con Chain-of-Zoom (CoZ), un framework indipendente dal modello che scompone la SISR in una catena autoregressiva di stati di scala intermedi con prompt multi-scala. CoZ riutilizza ripetutamente un modello SR di base, scomponendo la probabilità condizionale in sottoproblemi trattabili per raggiungere risoluzioni estreme senza ulteriore addestramento. Poiché gli indizi visivi si riducono ad alti ingrandimenti, arricchiamo ogni passaggio di zoom con prompt testuali multi-scala generati da un modello visione-linguaggio (VLM). L'estrattore di prompt stesso viene messo a punto utilizzando l'ottimizzazione delle politiche di ricompensa generalizzata (GRPO) con un VLM critico, allineando la guida testuale alle preferenze umane. Gli esperimenti dimostrano che un modello standard di super-risoluzione diffusa 4x integrato in CoZ raggiunge ingrandimenti oltre 256x con alta qualità percettiva e fedeltà. Pagina del progetto: https://bryanswkim.github.io/chain-of-zoom/.
L'efficienza dell'attenzione è cruciale poiché la sua complessità temporale cresce quadraticamente con la lunghezza della sequenza. SageAttention2 affronta questo problema utilizzando la quantizzazione per accelerare le moltiplicazioni di matrici (Matmul) nell'attenzione. Per accelerare ulteriormente SageAttention2, proponiamo di utilizzare l'istruzione più veloce di Matmul FP8 accumulata in FP16. Questa istruzione è 2 volte più veloce rispetto alla Matmul FP8 utilizzata in SageAttention2. I nostri esperimenti dimostrano che SageAttention2++ raggiunge un'accelerazione di 3,9 volte rispetto a FlashAttention, mantenendo la stessa precisione dell'attenzione di SageAttention2. Ciò significa che SageAttention2++ accelera efficacemente vari modelli, inclusi quelli per la generazione di linguaggio, immagini e video, con una perdita trascurabile nelle metriche end-to-end. Il codice sarà disponibile all'indirizzo https://github.com/thu-ml/SageAttention.
Migliorare i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) nella fase post-addestramento si basa tipicamente sul fine-tuning supervisionato (SFT) o sull'apprendimento per rinforzo (RL). Tuttavia, questi metodi supervisionati richiedono dati multimodali costosi e annotati manualmente, una risorsa alla fine insostenibile. Sebbene recenti sforzi abbiano esplorato il post-addestramento non supervisionato, i loro metodi sono complessi e difficili da iterare. In questo lavoro, siamo i primi a investigare l'uso di GRPO, un algoritmo di RL online stabile e scalabile, per abilitare un miglioramento continuo senza alcuna supervisione esterna. Proponiamo MM-UPT, un framework semplice ma efficace per il post-addestramento non supervisionato di MLLMs. MM-UPT si basa su GRPO, sostituendo i tradizionali segnali di ricompensa con un meccanismo di auto-ricompensa basato sul voto a maggioranza su più risposte campionate. I nostri esperimenti dimostrano che MM-UPT migliora significativamente la capacità di ragionamento di Qwen2.5-VL-7B (ad esempio, dal 66.3% al 72.9% su MathVista, dal 62.9% al 68.7% su We-Math), utilizzando dataset standard senza etichette di verità. MM-UPT supera anche i precedenti baseline non supervisionati e si avvicina persino ai risultati del GRPO supervisionato. Inoltre, mostriamo che l'incorporazione di domande sintetiche, generate esclusivamente dall'MLLM stesso, può aumentare ulteriormente le prestazioni, evidenziando un approccio promettente per il miglioramento scalabile. Nel complesso, MM-UPT offre un nuovo paradigma per il miglioramento continuo e autonomo degli MLLMs in assenza di supervisione esterna. Il nostro codice è disponibile su https://github.com/waltonfuture/MM-UPT.
I recenti progressi nei grandi modelli linguistici (LLM) hanno dimostrato impressionanti capacità di ragionamento a catena di pensiero, con l'apprendimento per rinforzo (RL) che svolge un ruolo cruciale in questo avanzamento. Sebbene i modelli "aha moment" – in cui i modelli mostrano auto-correzione attraverso la riflessione – siano spesso attribuiti a proprietà emergenti dell'RL, dimostriamo innanzitutto che questi modelli esistono nei modelli linguistici multimodali (MLLM) prima dell'addestramento RL, ma non necessariamente si correlano con un miglioramento delle prestazioni di ragionamento. Basandoci su queste intuizioni, presentiamo uno studio completo sul potenziamento del ragionamento multimodale attraverso un approccio in due fasi: (1) fine-tuning supervisionato (SFT) come avvio a freddo con schemi strutturati di ragionamento a catena di pensiero, seguito da (2) apprendimento per rinforzo tramite GRPO per affinare ulteriormente queste capacità. I nostri esperimenti estesi dimostrano che questo approccio combinato supera costantemente sia i metodi basati esclusivamente su SFT che quelli basati esclusivamente su RL in benchmark impegnativi di ragionamento multimodale. I modelli risultanti raggiungono prestazioni all'avanguardia tra gli MLLM open-source sia su scala 3B che 7B, con il nostro modello 7B che mostra miglioramenti sostanziali rispetto ai modelli base (ad esempio, 66.3 %rightarrow73.4 % su MathVista, 62.9 %rightarrow70.4 % su We-Math) e il nostro modello 3B che raggiunge prestazioni competitive con diversi modelli 7B. Nel complesso, questo lavoro fornisce indicazioni pratiche per la costruzione di modelli avanzati di ragionamento multimodale. Il nostro codice è disponibile all'indirizzo https://github.com/waltonfuture/RL-with-Cold-Start.
Presentiamo RenderFormer, una pipeline di rendering neurale che genera direttamente un'immagine da una rappresentazione basata su triangoli di una scena, con effetti completi di illuminazione globale e senza richiedere addestramento o fine-tuning specifico per ogni scena. Invece di adottare un approccio centrato sulla fisica per il rendering, formuliamo il rendering come una trasformazione sequenza-a-sequenza in cui una sequenza di token che rappresentano triangoli con proprietà di riflettanza viene convertita in una sequenza di token di output che rappresentano piccole porzioni di pixel. RenderFormer segue una pipeline a due stadi: uno stadio indipendente dalla vista che modella il trasporto della luce tra triangoli, e uno stadio dipendente dalla vista che trasforma un token rappresentante un fascio di raggi nei corrispondenti valori di pixel, guidato dalla sequenza di triangoli proveniente dallo stadio indipendente dalla vista. Entrambi gli stadi si basano sull'architettura transformer e vengono appresi con vincoli a priori minimi. Dimostriamo e valutiamo RenderFormer su scene con complessità variabile nella forma e nel trasporto della luce.
La previsione del token successivo costituisce il compito di apprendimento fondamentale che abilita il ragionamento nei LLM. Ma quale dovrebbe essere il compito di apprendimento quando si mira a dotare i MLLM di capacità di ragionamento temporale su input video? Compiti esistenti come il question answering su video spesso si basano su annotazioni umane o su MLLM molto più potenti, mentre la descrizione video tende a intrecciare il ragionamento temporale con le informazioni spaziali. Per colmare questa lacuna, proponiamo la previsione del prossimo evento (NEP), un compito di apprendimento che sfrutta i segmenti video futuri come segnale auto-supervisionato ricco per favorire il ragionamento temporale. Segmentiamo ogni video in fotogrammi passati e futuri: il MLLM prende in input i fotogrammi passati e prevede un riassunto degli eventi derivati dai fotogrammi futuri, incoraggiando così il modello a ragionare temporalmente per completare il compito. Per supportare questo compito, abbiamo curato V1-33K, un dataset composto da 33.000 segmenti video estratti automaticamente che coprono una vasta gamma di scenari del mondo reale. Esploriamo inoltre una serie di strategie di instruction-tuning su video per studiarne gli effetti sul ragionamento temporale. Per valutare i progressi, introduciamo FutureBench per valutare la coerenza nella previsione di eventi futuri non visti. Gli esperimenti convalidano che NEP offre un paradigma di formazione scalabile ed efficace per favorire il ragionamento temporale nei MLLM.
I sistemi di ricerca approfondita rappresentano una nuova classe di metodi di recupero delle informazioni agentivi che generano report completi e ben supportati per query complesse. Tuttavia, la maggior parte dei framework esistenti si basa su API di ricerca commerciali dinamiche, che presentano sfide di riproducibilità e trasparenza oltre ai loro costi. Per affrontare queste limitazioni, introduciamo DeepResearchGym, un sandbox open-source che combina un'API di ricerca riproducibile con un protocollo di valutazione rigoroso per il benchmarking dei sistemi di ricerca approfondita. L'API indicizza corpora web pubblici su larga scala, in particolare ClueWeb22 e FineWeb, utilizzando un recuperatore denso all'avanguardia e una ricerca approssimata del vicino più prossimo tramite DiskANN. Raggiunge una latenza inferiore rispetto alle popolari API commerciali garantendo al contempo classifiche di documenti stabili tra le esecuzioni, ed è liberamente disponibile per uso di ricerca. Per valutare gli output dei sistemi di ricerca approfondita, estendiamo il benchmark Researchy Questions con metriche automatiche attraverso valutazioni LLM-as-a-judge per misurare l'allineamento con le esigenze informative degli utenti, la fedeltà del recupero e la qualità del report. I risultati sperimentali mostrano che i sistemi integrati con DeepResearchGym raggiungono prestazioni comparabili a quelli che utilizzano API commerciali, con classifiche di prestazioni che rimangono coerenti tra le metriche di valutazione. Uno studio di valutazione umana conferma ulteriormente che il nostro protocollo automatico è allineato con le preferenze umane, validando la capacità del framework di supportare una valutazione controllata dei sistemi di ricerca approfondita. Il nostro codice e la documentazione dell'API sono disponibili su https://www.deepresearchgym.ai.
I sistemi di ricerca aziendali spesso incontrano difficoltà nel recuperare informazioni accurate e specifiche del dominio a causa di disallineamenti semantici e terminologie sovrapposte. Questi problemi possono compromettere le prestazioni delle applicazioni downstream, come la gestione della conoscenza, il supporto clienti e gli agenti di generazione aumentata dal recupero. Per affrontare questa sfida, proponiamo un framework scalabile per il mining di negativi difficili, specificamente progettato per dati aziendali di dominio specifico. Il nostro approccio seleziona dinamicamente documenti semanticamente complessi ma contestualmente irrilevanti per migliorare i modelli di riordinamento implementati. Il nostro metodo integra modelli di embedding diversificati, esegue la riduzione della dimensionalità e seleziona in modo univoco i negativi difficili, garantendo efficienza computazionale e precisione semantica. La valutazione sul nostro corpus aziendale proprietario (dominio dei servizi cloud) dimostra miglioramenti sostanziali del 15\% in MRR@3 e del 19\% in MRR@10 rispetto ai benchmark di stato dell'arte e ad altre tecniche di campionamento negativo. Un'ulteriore validazione su dataset pubblici specifici del dominio (FiQA, Climate Fever, TechQA) conferma la generalizzabilità del nostro metodo e la sua prontezza per applicazioni nel mondo reale.
Affrontare problemi complessi del mondo reale richiede una ricerca approfondita delle informazioni e un ragionamento a più fasi. I recenti progressi nei sistemi agentici, esemplificati da Deep Research, sottolineano il potenziale per una ricerca autonoma a più fasi. In questo lavoro, presentiamo un paradigma coerente per costruire agenti di ricerca delle informazioni end-to-end da una prospettiva centrata sui dati e sulle fasi di addestramento. Il nostro approccio consiste in quattro fasi chiave: (1) costruzione dei dati di navigazione, (2) campionamento delle traiettorie, (3) fine-tuning supervisionato per un avvio efficace a freddo, e (4) apprendimento per rinforzo per una migliore generalizzazione. Istanziamo questo framework in un agente web basato su ReAct, WebDancer. Le valutazioni empiriche sui benchmark impegnativi di ricerca delle informazioni, GAIA e WebWalkerQA, dimostrano le prestazioni solide di WebDancer, ottenendo risultati considerevoli e evidenziando l'efficacia del nostro paradigma di addestramento. Un'ulteriore analisi dell'addestramento degli agenti fornisce intuizioni preziose e percorsi sistematici e praticabili per sviluppare modelli agentici più capaci. I codici e la demo saranno rilasciati su https://github.com/Alibaba-NLP/WebAgent.
In questo lavoro, proponiamo Few Shot Domain Adapting Graph (FS-DAG), un'architettura di modello scalabile ed efficiente per la comprensione di documenti visivamente ricchi (VRDU) in contesti few-shot. FS-DAG sfrutta backbone specifici per dominio e per linguaggio/visione all'interno di un framework modulare per adattarsi a diversi tipi di documenti con dati minimi. Il modello è robusto rispetto a sfide pratiche come la gestione di errori OCR, refusi e cambiamenti di dominio, aspetti critici nelle implementazioni reali. FS-DAG è altamente performante con meno di 90 milioni di parametri, rendendolo adatto a complesse applicazioni reali per attività di estrazione di informazioni (IE) in contesti con risorse computazionali limitate. Dimostriamo le capacità di FS-DAG attraverso esperimenti estesi per il compito di estrazione di informazioni, mostrando miglioramenti significativi nella velocità di convergenza e nelle prestazioni rispetto ai metodi all'avanguardia. Inoltre, questo lavoro evidenzia i progressi continui nello sviluppo di modelli più piccoli ed efficienti che non compromettono le prestazioni. Codice: https://github.com/oracle-samples/fs-dag
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità generali notevoli, ma il potenziamento di abilità come il ragionamento spesso richiede risorse computazionali sostanziali e può compromettere la loro generalizzazione. Sebbene i metodi di fine-tuning efficiente in termini di parametri (PEFT) offrano un'alternativa più attenta alle risorse, generalmente richiedono un riaddestramento per ogni architettura di LLM a causa delle dipendenze architetturali. Per affrontare queste sfide, qui proponiamo Universal Reasoner (UniR) - un modulo di ragionamento singolo, leggero, componibile e plug-and-play che può essere utilizzato con qualsiasi LLM congelato per dotarlo di capacità di ragionamento specializzate. Nello specifico, UniR scompone la ricompensa in un modulo di ragionamento autonomo che viene addestrato indipendentemente utilizzando ricompense predefinite, traducendo efficacemente segnali a livello di traiettoria in guida a livello di token. Una volta addestrato, UniR può essere combinato con qualsiasi LLM congelato al momento dell'inferenza semplicemente sommando i suoi logit a quelli dell'architettura LLM. Questa struttura additiva consente naturalmente una composizione modulare: più moduli UniR addestrati per diversi compiti possono essere applicati congiuntamente sommando i loro logit, abilitando un ragionamento complesso tramite composizione. I risultati sperimentali su compiti di ragionamento matematico e traduzione automatica mostrano che UniR supera significativamente i metodi di fine-tuning esistenti utilizzando il modello Llama3.2. Inoltre, UniR dimostra una forte generalizzazione da debole a forte: i moduli di ragionamento addestrati su modelli più piccoli guidano efficacemente LLM molto più grandi. Questo rende UniR una soluzione efficiente in termini di costi, adattabile e robusta per potenziare il ragionamento negli LLM senza comprometterne le capacità fondamentali. Il codice è open-source all'indirizzo https://github.com/hangeol/UniR.
I modelli linguistici autoregressivi (LM) generano un token alla volta, mentre il ragionamento umano opera su astrazioni di livello superiore - frasi, proposizioni e concetti. Questo contrasto solleva una domanda centrale: i LM possono imparare a ragionare su unità semantiche strutturate piuttosto che su sequenze grezze di token? In questo lavoro, indaghiamo se i LM preaddestrati possano essere elevati a tali spazi di ragionamento astratto basandosi sulle loro rappresentazioni apprese. Presentiamo un framework che adatta un LM preaddestrato a livello di token per operare nello spazio delle frasi, prevedendo autoregressivamente gli embedding continui delle frasi successive. Esploriamo due paradigmi di embedding ispirati dall'apprendimento di rappresentazioni classico: 1) embedding semantici, appresi tramite auto-codifica per preservare il significato superficiale; e 2) embedding contestuali, addestrati tramite la previsione della frase successiva per codificare la struttura anticipatoria. Valutiamo entrambi sotto due regimi di inferenza: Discretizzato, che decodifica ogni embedding previsto in testo prima di ricodificarlo; e Continuo, che ragiona interamente nello spazio degli embedding per una maggiore efficienza. In quattro domini - matematica, logica, senso comune e pianificazione - gli embedding contestuali sotto inferenza continua mostrano prestazioni competitive con il Chain-of-Thought (CoT) riducendo in media i FLOP al momento dell'inferenza della metà. Presentiamo anche i primi segni di scalabilità e adattamento modulare. Infine, per visualizzare le traiettorie latenti, introduciamo SentenceLens, uno strumento diagnostico che decodifica gli stati intermedi del modello in frasi interpretabili. Insieme, i nostri risultati indicano che i LM preaddestrati possono effettivamente transitare verso un ragionamento astratto e strutturato all'interno di spazi di embedding latenti.
Dati di addestramento multilingue di alta qualità sono essenziali per il pre-addestramento efficace di grandi modelli linguistici (LLM). Tuttavia, la disponibilità di dataset multilingue open-source adeguati rimane limitata. Gli attuali dataset all'avanguardia si basano principalmente su metodi di filtraggio euristico, limitando sia la loro trasferibilità cross-linguale che la scalabilità. Qui presentiamo JQL, un approccio sistematico che cura in modo efficiente dati multilingue diversificati e di alta qualità su larga scala, riducendo significativamente le richieste computazionali. JQL distilla le capacità di annotazione degli LLM in annotatori leggeri basati su embedding multilingue pre-addestrati. Questi modelli dimostrano prestazioni robuste multilingue e cross-linguale, anche per lingue e script non visti durante l'addestramento. Valutato empiricamente su 35 lingue, la pipeline di annotazione risultante supera sostanzialmente i metodi di filtraggio euristico attuali come Fineweb2. JQL migliora notevolmente la qualità dell'addestramento dei modelli downstream e aumenta i tassi di ritenzione dei dati. La nostra ricerca fornisce intuizioni pratiche e risorse preziose per la cura di dati multilingue, elevando gli standard di sviluppo dei dataset multilingue.
La recente prosperità dei modelli di diffusione testo-immagine, come Stable Diffusion, ha stimolato la ricerca per adattarli alla generazione di panorami a 360 gradi. Studi precedenti hanno dimostrato la fattibilità di utilizzare tecniche convenzionali di adattamento a basso rango su modelli di diffusione pre-addestrati per generare immagini panoramiche. Tuttavia, il notevole divario di dominio tra immagini prospettiche e panoramiche solleva interrogativi sui meccanismi sottostanti che consentono questo successo empirico. Ipotesi e analisi suggeriscono che le controparti addestrabili mostrano comportamenti distinti quando vengono perfezionate su dati panoramici, e tale adattamento nasconde alcuni meccanismi intrinseci per sfruttare la conoscenza pregressa all'interno dei modelli di diffusione pre-addestrati. La nostra analisi rivela quanto segue: 1) le matrici di query e chiave nei moduli di attenzione sono responsabili di informazioni comuni che possono essere condivise tra i domini panoramico e prospettico, risultando quindi meno rilevanti per la generazione di panorami; e 2) le matrici di valore e di peso dell'output si specializzano nell'adattare la conoscenza pre-addestrata al dominio panoramico, svolgendo un ruolo più critico durante il perfezionamento per la generazione di panorami. Verifichiamo empiricamente queste intuizioni introducendo un semplice framework chiamato UniPano, con l'obiettivo di stabilire una linea di base elegante per la ricerca futura. UniPano non solo supera i metodi esistenti, ma riduce significativamente l'uso della memoria e il tempo di addestramento rispetto agli approcci a doppio ramo precedenti, rendendolo scalabile per la generazione end-to-end di panorami con risoluzione più elevata. Il codice verrà rilasciato.
Un tratto distintivo dell'innovazione umana è il processo di ricombinazione: la creazione di idee originali integrando elementi di meccanismi e concetti esistenti. In questo lavoro, analizziamo automaticamente la letteratura scientifica e costruiamo CHIMERA: una knowledge base (KB) su larga scala di esempi di ricombinazione. CHIMERA può essere utilizzata per esplorare empiricamente, su vasta scala, come gli scienziati ricombinano concetti e traggono ispirazione da aree diverse, o per addestrare modelli di machine learning supervisionati che imparano a prevedere nuove direzioni creative interdominio. Per costruire questa KB, presentiamo un nuovo task di estrazione delle informazioni volto a identificare la ricombinazione negli abstract di articoli scientifici, raccogliamo un corpus di alta qualità composto da centinaia di abstract annotati manualmente e lo utilizziamo per addestrare un modello di estrazione basato su LLM. Il modello viene applicato a un ampio corpus di articoli nel dominio dell'IA, producendo una KB con oltre 28K esempi di ricombinazione. Analizziamo CHIMERA per esplorare le proprietà della ricombinazione in diverse sottoaree dell'IA. Infine, addestriamo un modello di generazione di ipotesi scientifiche utilizzando la KB, che prevede nuove direzioni di ricombinazione che i ricercatori del mondo reale trovano stimolanti. I nostri dati e il codice sono disponibili all'indirizzo https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
Man mano che i modelli linguistici di grandi dimensioni (LLM) partecipano sempre più alle interazioni uomo-IA, diventa cruciale valutare le loro capacità di Teoria della Mente (ToM) - in particolare la loro abilità di tracciare stati mentali dinamici. Sebbene i benchmark esistenti valutino le abilità di base della ToM, si concentrano prevalentemente su istantanee statiche degli stati mentali, trascurando l'evoluzione temporale che caratterizza le interazioni sociali nel mondo reale. Presentiamo DynToM, un nuovo benchmark specificamente progettato per valutare la capacità degli LLM di comprendere e tracciare la progressione temporale degli stati mentali attraverso scenari interconnessi. Attraverso un framework sistematico in quattro fasi, generiamo 1.100 contesti sociali che comprendono 5.500 scenari e 78.100 domande, ciascuno validato per realismo e qualità. La nostra valutazione completa di dieci LLM all'avanguardia rivela che la loro prestazione media è inferiore del 44,7% rispetto a quella umana, con un significativo deterioramento delle prestazioni quando si tratta di tracciare e ragionare sul cambiamento degli stati mentali. Questo divario di prestazione evidenzia limitazioni fondamentali nella capacità degli attuali LLM di modellare la natura dinamica degli stati mentali umani.
Presentiamo "Pensare con Immagini Generate", un paradigma innovativo che trasforma radicalmente il modo in cui i modelli multimodali di grandi dimensioni (LMM) interagiscono con il ragionamento visivo, consentendo loro di pensare in modo nativo attraverso le modalità di testo e visione mediante la generazione spontanea di passaggi intermedi di pensiero visivo. Attualmente, il ragionamento visivo con gli LMM è limitato all'elaborazione di immagini fisse fornite dall'utente o al ragionamento esclusivamente basato su catene di pensiero (CoT) testuali. "Pensare con Immagini Generate" sblocca una nuova dimensione di capacità cognitiva in cui i modelli possono costruire attivamente pensieri visivi intermedi, criticare le proprie ipotesi visive e affinarle come componenti integrali del loro processo di ragionamento. Dimostriamo l'efficacia del nostro approccio attraverso due meccanismi complementari: (1) generazione visiva con sotto-obiettivi visivi intermedi, in cui i modelli scompongono compiti visivi complessi in componenti gestibili che vengono generate e integrate progressivamente, e (2) generazione visiva con auto-critica, in cui i modelli generano un'ipotesi visiva iniziale, ne analizzano i limiti attraverso il ragionamento testuale e producono output raffinati basati sulle proprie critiche. I nostri esperimenti sui benchmark di generazione visiva mostrano miglioramenti sostanziali rispetto agli approcci di base, con i nostri modelli che raggiungono un miglioramento relativo fino al 50% (da 38% a 57%) nella gestione di scenari complessi con più oggetti. Dai biochimici che esplorano nuove strutture proteiche, agli architetti che iterano su progetti spaziali, dagli analisti forensi che ricostruiscono scene del crimine, ai giocatori di basket che immaginano strategie di gioco, il nostro approccio consente ai modelli di intelligenza artificiale di impegnarsi nel tipo di immaginazione visiva e affinamento iterativo che caratterizza il pensiero creativo, analitico e strategico umano. Rilasciamo la nostra suite open-source all'indirizzo https://github.com/GAIR-NLP/thinking-with-generated-images.
Il routing robusto in condizioni di incertezza è fondamentale per la logistica nel mondo reale, tuttavia la maggior parte dei benchmark presuppone scenari statici e idealizzati. Presentiamo SVRPBench, il primo benchmark aperto che cattura dinamiche stocastiche ad alta fedeltà nel routing di veicoli su scala urbana. Comprendendo oltre 500 istanze con fino a 1000 clienti, simula condizioni di consegna realistiche: congestione dipendente dal tempo, ritardi log-normali, incidenti probabilistici e finestre temporali basate su dati empirici per clienti residenziali e commerciali. La nostra pipeline genera scenari diversificati e ricchi di vincoli, inclusi setup multi-deposito e multi-veicolo. Il benchmarking rivela che i solutori RL all'avanguardia come POMO e AM peggiorano di oltre il 20% in caso di cambiamento distributivo, mentre i metodi classici e meta-euristici rimangono robusti. Per consentire una ricerca riproducibile, rilasciamo il dataset e la suite di valutazione. SVRPBench sfida la comunità a progettare solutori che generalizzino oltre le ipotesi sintetiche e si adattino all'incertezza del mondo reale.
I grandi modelli linguistici (LLM) generano tipicamente risposte identiche o simili per tutti gli utenti a fronte dello stesso prompt, rappresentando un serio rischio per la sicurezza in applicazioni ad alto rischio dove le vulnerabilità degli utenti variano ampiamente. Le valutazioni di sicurezza esistenti si basano principalmente su metriche indipendenti dal contesto, come l'accuratezza fattuale, i pregiudizi o la tossicità, trascurando il fatto che la stessa risposta può comportare rischi divergenti a seconda del background o della condizione dell'utente. Introduciamo la sicurezza personalizzata per colmare questa lacuna e presentiamo PENGUIN, un benchmark che comprende 14.000 scenari in sette domini sensibili con varianti sia ricche di contesto che prive di contesto. Valutando sei principali LLM, dimostriamo che le informazioni personalizzate sull'utente migliorano significativamente i punteggi di sicurezza del 43,2%, confermando l'efficacia della personalizzazione nell'allineamento della sicurezza. Tuttavia, non tutti gli attributi del contesto contribuiscono in egual modo al miglioramento della sicurezza. Per affrontare questo problema, sviluppiamo RAISE, un framework agente a due fasi senza addestramento che acquisisce strategicamente il background specifico dell'utente. RAISE migliora i punteggi di sicurezza fino al 31,6% rispetto a sei LLM standard, mantenendo un basso costo di interazione di appena 2,7 query utente in media. I nostri risultati evidenziano l'importanza della raccolta selettiva di informazioni nei domini critici per la sicurezza e offrono una soluzione pratica per personalizzare le risposte degli LLM senza dover riaddestrare il modello. Questo lavoro getta le basi per la ricerca sulla sicurezza che si adatta ai contesti individuali degli utenti piuttosto che assumere uno standard universale di danno.
Nelle architetture Transformer, i token\textemdash unità discrete derivate dai dati grezzi\textemdash vengono formati segmentando gli input in blocchi di lunghezza fissa. Ogni token viene poi mappato in un embedding, consentendo calcoli di attenzione paralleli preservando le informazioni essenziali dell'input. A causa della complessità computazionale quadratica dei meccanismi di self-attention dei transformer, la riduzione dei token è stata principalmente utilizzata come strategia di efficienza. Ciò è particolarmente vero nei domini di visione e linguaggio singoli, dove aiuta a bilanciare i costi computazionali, l'uso della memoria e la latenza di inferenza. Nonostante questi progressi, questo articolo sostiene che la riduzione dei token dovrebbe trascendere il suo ruolo tradizionale orientato all'efficienza nell'era dei grandi modelli generativi. Invece, la posizioniamo come un principio fondamentale nella modellazione generativa, influenzando criticamente sia l'architettura del modello che le applicazioni più ampie. Nello specifico, sosteniamo che, nei sistemi di visione, linguaggio e multimodali, la riduzione dei token può: (i) facilitare un'integrazione e un allineamento multimodale più profondo, (ii) mitigare il "sovrapensiero" e le allucinazioni, (iii) mantenere la coerenza su input lunghi e (iv) migliorare la stabilità dell'addestramento, tra gli altri. Riformuliamo la riduzione dei token come più di una misura di efficienza. In tal modo, delineiamo promettenti direzioni future, tra cui la progettazione di algoritmi, la riduzione dei token guidata dal reinforcement learning, l'ottimizzazione dei token per l'apprendimento in contesto e i domini più ampi dell'apprendimento automatico e scientifico. Ne evidenziamo il potenziale di guidare nuove architetture di modelli e strategie di apprendimento che migliorano la robustezza, aumentano l'interpretabilità e si allineano meglio agli obiettivi della modellazione generativa.
Questo articolo indaga approcci per potenziare le capacità di ragionamento degli agenti basati su Large Language Model (LLM) utilizzando il Reinforcement Learning (RL). In particolare, ci concentriamo su scenari di utilizzo di strumenti multi-turn, che possono essere naturalmente modellati come Processi di Decisione Markoviani (MDP). Mentre gli approcci esistenti spesso addestrano agenti LLM multi-turn con stime del vantaggio a livello di traiettoria in contesti di bandit, essi incontrano difficoltà nell'assegnazione del credito a livello di turno attraverso più passaggi decisionali, limitando le loro prestazioni nei compiti di ragionamento multi-turn. Per affrontare questo problema, introduciamo una strategia di stima del vantaggio a livello di turno più granulare, che consente un'assegnazione del credito più precisa nelle interazioni multi-turn degli agenti. La strategia è generale e può essere incorporata in vari algoritmi RL, come l'Optimization delle Preferenze Relative di Gruppo (GRPO). La nostra valutazione sperimentale su compiti di ragionamento multi-turn e di utilizzo di strumenti basati su ricerca con implementazioni GRPO evidenzia l'efficacia del framework MDP e dell'assegnazione del credito a livello di turno nel migliorare le capacità di ragionamento multi-turn degli agenti LLM in contesti decisionali complessi. Il nostro metodo raggiunge il 100% di successo nell'esecuzione degli strumenti e il 50% di accuratezza nella corrispondenza esatta delle risposte, superando significativamente i baseline, che non riescono a invocare gli strumenti e raggiungono solo un'accuratezza di corrispondenza esatta del 20-30%.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli attraverso approcci di scalabilità al momento del test, in particolare quando vengono perfezionati con dati di catena di pensiero (CoT) distillati da modelli di ragionamento di grandi dimensioni (LRM) più potenti. Tuttavia, queste catene di ragionamento spesso contengono elementi verbosi che rispecchiano la risoluzione dei problemi umana, classificati come ragionamento progressivo (il percorso essenziale di sviluppo della soluzione) ed elementi funzionali (processi di verifica, approcci alternativi alla soluzione e correzioni degli errori). Sebbene il ragionamento progressivo sia cruciale, gli elementi funzionali aumentano significativamente le richieste computazionali durante l'inferenza al momento del test. Introduciamo PIR (Perplexity-based Importance Refinement), un framework principiato che valuta quantitativamente l'importanza di ogni passo di ragionamento in base al suo impatto sulla fiducia nella previsione della risposta. PIR identifica sistematicamente e pota selettivamente solo i passi funzionali di bassa importanza, preservando i componenti del ragionamento progressivo, creando dati di addestramento ottimizzati che mantengono l'integrità del percorso di soluzione principale riducendo la verbosità. I modelli perfezionati sui dati ottimizzati da PIR mostrano proprietà di scalabilità al momento del test superiori, generando catene di ragionamento più concise e ottenendo una precisione migliorata (+0,9\% a +6,6\%) con un utilizzo significativamente ridotto dei token (-3\% a -41\%) su benchmark di ragionamento impegnativi (AIME, AMC e GPQA Diamond). Il nostro approccio dimostra una forte generalizzabilità su diverse dimensioni del modello, fonti di dati e budget di token, offrendo una soluzione pratica per il dispiegamento di LLM capaci di ragionamento in scenari in cui la scalabilità efficiente al momento del test, il tempo di risposta e l'efficienza computazionale sono vincoli preziosi.
Recuperare, ragionare e comprendere efficacemente informazioni visivamente ricche rimane una sfida per i metodi RAG. I tradizionali approcci basati su testo non sono in grado di gestire informazioni legate al contesto visivo. D'altra parte, gli attuali approcci RAG basati sulla visione sono spesso limitati da pipeline rigide e faticano a ragionare efficacemente a causa dell'attivazione insufficiente delle capacità fondamentali dei modelli. Poiché l'RL (Reinforcement Learning) si è dimostrato vantaggioso per il ragionamento dei modelli, introduciamo VRAG-RL, un nuovo framework RL progettato per il ragionamento complesso su informazioni visivamente ricche. Con questo framework, i VLMs (Vision-Language Models) interagiscono con i motori di ricerca, campionando autonomamente traiettorie di ragionamento a turno singolo o multiplo con l'aiuto di token di percezione visiva e sottoponendosi a un'ottimizzazione continua basata su questi campioni. Il nostro approccio evidenzia due limitazioni chiave dell'RL nei domini RAG: (i) I precedenti approcci RAG multimodali tendono a incorporare semplicemente le immagini nel contesto, portando a un'allocazione insufficiente dei token di ragionamento e trascurando la percezione specifica del contesto visivo; e (ii) Quando i modelli interagiscono con i motori di ricerca, le loro query spesso non riescono a recuperare informazioni rilevanti a causa dell'incapacità di articolare i requisiti, portando così a prestazioni subottimali. Per affrontare queste sfide, definiamo uno spazio di azioni progettato per input visivamente ricchi, con azioni che includono ritaglio e ridimensionamento, consentendo al modello di raccogliere informazioni da una prospettiva grossolana a fine. Inoltre, per colmare il divario tra le richieste originali degli utenti e il sistema di recupero, utilizziamo una ricompensa semplice ma efficace che integra la riscrittura delle query e le prestazioni di recupero con una ricompensa basata sul modello. Il nostro VRAG-RL ottimizza i VLMs per i task RAG utilizzando strategie RL appositamente progettate, allineando il modello con applicazioni del mondo reale. Il codice è disponibile all'indirizzo https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
I recenti approcci sul controllo della telecamera 3D nei modelli di diffusione video (VDM) spesso creano video di ancoraggio per guidare i modelli di diffusione come un priore strutturato, renderizzando da nuvole di punti stimate seguendo traiettorie della telecamera annotate. Tuttavia, gli errori intrinseci nella stima delle nuvole di punti spesso portano a video di ancoraggio imprecisi. Inoltre, la necessità di ampie annotazioni delle traiettorie della telecamera aumenta ulteriormente le richieste di risorse. Per affrontare queste limitazioni, introduciamo EPiC, un framework di apprendimento per il controllo della telecamera efficiente e preciso che costruisce automaticamente video di ancoraggio di alta qualità senza costose annotazioni delle traiettorie della telecamera. Nello specifico, creiamo video di ancoraggio altamente precisi per l'addestramento mascherando i video sorgente in base alla visibilità del primo fotogramma. Questo approccio garantisce un elevato allineamento, elimina la necessità di annotazioni delle traiettorie della telecamera e può quindi essere facilmente applicato a qualsiasi video in-the-wild per generare coppie di addestramento immagine-video (I2V). Inoltre, introduciamo Anchor-ControlNet, un modulo di condizionamento leggero che integra la guida del video di ancoraggio nelle regioni visibili ai VDM pre-addestrati, con meno dell'1% dei parametri del modello principale. Combinando i dati del video di ancoraggio proposti e il modulo ControlNet, EPiC raggiunge un addestramento efficiente con un numero sostanzialmente inferiore di parametri, passi di addestramento e meno dati, senza richiedere modifiche al modello di diffusione principale tipicamente necessarie per mitigare i disallineamenti di rendering. Sebbene sia addestrato su video di ancoraggio basati su mascheratura, il nostro metodo si generalizza robustamente a video di ancoraggio creati con nuvole di punti durante l'inferenza, consentendo un controllo preciso della telecamera informato in 3D. EPiC raggiunge prestazioni all'avanguardia su RealEstate10K e MiraData per il compito di controllo della telecamera I2V, dimostrando un'abilità di controllo della telecamera precisa e robusta sia quantitativamente che qualitativamente. In particolare, EPiC mostra anche una forte generalizzazione zero-shot agli scenari video-to-video.
I modelli linguistici visivi (VLMs) tipicamente accoppiano un encoder visivo di dimensioni modeste con un grande modello linguistico (LLM), ad esempio Llama-70B, rendendo il decoder il principale onere computazionale durante l'addestramento. Per ridurre i costi, una strategia potenzialmente promettente consiste nel addestrare prima l'encoder visivo utilizzando un piccolo modello linguistico prima di trasferirlo a quello più grande. Costruiamo piccoli "modelli surrogati" che condividono lo stesso spazio di embedding e linguaggio di rappresentazione del grande LLM target ereditandone direttamente gli strati superficiali. Gli encoder visivi addestrati sul surrogato possono quindi essere trasferiti direttamente al modello più grande, un processo che chiamiamo innesto zero-shot: quando collegati direttamente al LLM target a grandezza naturale, la coppia innestata supera la coppia encoder-surrogato e, in alcuni benchmark, performa addirittura alla pari con l'addestramento completo del decoder con il LLM target. Inoltre, il nostro approccio di addestramento surrogato riduce i costi complessivi di addestramento dei VLM di circa il 45% quando si utilizza Llama-70B come decoder.
Il ricaptioning delle immagini è ampiamente utilizzato per generare dataset di addestramento di qualità superiore per varie attività multimodali. I metodi di ricaptioning esistenti si basano tipicamente su potenti modelli linguistici multimodali di grandi dimensioni (MLLM) per migliorare le descrizioni testuali, ma spesso soffrono di imprecisioni dovute a allucinazioni e incompletezza causate dalla mancanza di dettagli granulari. Per affrontare queste limitazioni, proponiamo RICO, un nuovo framework che perfeziona le didascalie attraverso la ricostruzione visiva. Nello specifico, sfruttiamo un modello text-to-image per ricostruire una didascalia in un'immagine di riferimento e sollecitiamo un MLLM a identificare le discrepanze tra l'immagine originale e quella ricostruita per affinare la didascalia. Questo processo viene eseguito in modo iterativo, promuovendo ulteriormente la generazione di descrizioni più fedeli e complete. Per mitigare il costo computazionale aggiuntivo indotto dal processo iterativo, introduciamo RICO-Flash, che impara a generare didascalie come RICO utilizzando DPO. Esperimenti estensivi dimostrano che il nostro approccio migliora significativamente l'accuratezza e la completezza delle didascalie, superando la maggior parte dei benchmark di circa il 10% sia su CapsBench che su CompreCap. Il codice è disponibile all'indirizzo https://github.com/wangyuchi369/RICO.
La generazione di immagini trasparenti multistrato di alta qualità a partire da prompt testuali può sbloccare un nuovo livello di controllo creativo, consentendo agli utenti di modificare ogni strato con la stessa facilità con cui si modificano gli output testuali dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, lo sviluppo di modelli generativi multistrato è in ritardo rispetto ai modelli convenzionali di testo-immagine, a causa della mancanza di un ampio corpus di dati trasparenti multistrato di alta qualità. In questo articolo, affrontiamo questa sfida fondamentale: (i) rilasciando il primo dataset aperto e ad altissima fedeltà PrismLayers (PrismLayersPro) composto da 200K (20K) immagini trasparenti multistrato con alpha matte accurati, (ii) introducendo una pipeline di sintesi senza addestramento che genera tali dati su richiesta utilizzando modelli di diffusione disponibili sul mercato, e (iii) fornendo un modello generativo multistrato open-source robusto, ART+, che eguaglia l'estetica dei moderni modelli di generazione testo-immagine. I contributi tecnici chiave includono: LayerFLUX, che eccelle nella generazione di singoli strati trasparenti di alta qualità con alpha matte accurati, e MultiLayerFLUX, che compone più output di LayerFLUX in immagini complete, guidato da un layout semantico annotato manualmente. Per garantire una qualità superiore, applichiamo una fase di filtraggio rigorosa per rimuovere artefatti e incongruenze semantiche, seguita da una selezione manuale. Il fine-tuning del modello ART all'avanguardia sul nostro dataset sintetico PrismLayersPro produce ART+, che supera l'originale ART nel 60% dei confronti in uno studio utente diretto e addirittura eguaglia la qualità visiva delle immagini generate dal modello FLUX.1-[dev]. Prevediamo che il nostro lavoro stabilirà una solida base di dati per il compito di generazione di immagini trasparenti multistrato, abilitando ricerche e applicazioni che richiedono immagini stratificate precise, modificabili e visivamente accattivanti.
Il tradizionale RLHF ottimizza i modelli linguistici con ricompense scalari grossolane che mascherano le ragioni dettagliate dietro il successo o il fallimento, portando a un apprendimento lento e opaco. Recenti lavori hanno arricchito il RL con critiche testuali attraverso prompt o riflessioni, migliorando l'interpretabilità ma lasciando inalterati i parametri del modello. Introduciamo Text2Grad, un paradigma di apprendimento per rinforzo che trasforma il feedback testuale in gradienti a livello di span. Dato un feedback umano (o programmatico), Text2Grad allinea ogni frase di critica con gli span di token rilevanti, converte questi allineamenti in segnali di ricompensa differenziabili ed esegue aggiornamenti di gradiente che affinano direttamente le porzioni problematiche della politica del modello. Ciò produce aggiustamenti precisi e condizionati dal feedback, anziché modifiche globali. Text2Grad è realizzato attraverso tre componenti: (1) una pipeline di annotazione di feedback di alta qualità che associa le critiche agli span di token; (2) un modello di ricompensa fine che predice la ricompensa a livello di span sulle risposte mentre genera critiche esplicative; e (3) un ottimizzatore di politica a livello di span che propaga all'indietro i gradienti in linguaggio naturale. In ambiti come la sintesi, la generazione di codice e la risposta alle domande, Text2Grad supera costantemente il RL con ricompense scalari e i baseline basati solo su prompt, fornendo sia metriche di task più elevate che una maggiore interpretabilità. I nostri risultati dimostrano che il feedback in linguaggio naturale, quando convertito in gradienti, è un segnale potente per l'ottimizzazione fine della politica. Il codice del nostro metodo è disponibile all'indirizzo https://github.com/microsoft/Text2Grad.
Verificatori affidabili sono essenziali per il successo del reinforcement learning con ricompensa verificabile (RLVR), che rappresenta la metodologia centrale dietro vari modelli di ragionamento su larga scala come DeepSeek-R1. In domini complessi come il ragionamento matematico, verificatori basati su regole sono stati ampiamente adottati in lavori precedenti per addestrare modelli di ragionamento robusti. Tuttavia, l'affidabilità di questi verificatori e il loro impatto sul processo di addestramento RL rimangono poco compresi. In questo lavoro, prendiamo il ragionamento matematico come caso di studio e conduciamo un'analisi completa di vari verificatori sia in scenari di valutazione statica che di addestramento RL. In primo luogo, scopriamo che gli attuali verificatori open-source basati su regole spesso non riescono a riconoscere risposte equivalenti presentate in formati diversi su più dataset matematici comunemente utilizzati, risultando in tassi di falsi negativi non trascurabili. Questa limitazione influisce negativamente sulle prestazioni dell'addestramento RL e diventa più evidente man mano che il modello di policy diventa più forte. Successivamente, investigiamo i verificatori basati su modelli come una potenziale soluzione per affrontare queste limitazioni. Sebbene la valutazione statica mostri che i verificatori basati su modelli raggiungono un'accuratezza di verifica significativamente più elevata, ulteriori analisi e risultati dell'addestramento RL suggeriscono che sono altamente suscettibili a manipolazioni, in cui classificano erroneamente determinati pattern nelle risposte come corretti (cioè falsi positivi). Questa vulnerabilità viene sfruttata durante l'ottimizzazione del modello di policy, portando a ricompense artificialmente gonfiate. Le nostre scoperte evidenziano i rischi unici intrinseci sia ai verificatori basati su regole che su modelli, con l'obiettivo di offrire spunti preziosi per sviluppare sistemi di ricompensa più robusti nel reinforcement learning.
La natura diversificata dei compiti di previsione proteica ha tradizionalmente richiesto modelli specializzati, ostacolando lo sviluppo di Modelli Linguistici Proteici (PLM) ampiamente applicabili e computazionalmente efficienti. In questo lavoro, introduciamo Prot2Token, un framework unificato che supera queste sfide convertendo un'ampia gamma di previsioni relative alle proteine, dalle proprietà a livello di sequenza e attributi specifici dei residui alle complesse interazioni inter-proteiche, in un formato standardizzato di previsione del token successivo. Al suo nucleo, Prot2Token utilizza un decoder autoregressivo, condizionato su embedding da encoder proteici pre-addestrati e guidato da token di compito apprendibili, per eseguire previsioni diversificate. Questa architettura facilita in modo unico l'apprendimento multi-task, consentendo a un singolo modello di padroneggiare numerosi compiti con una maggiore efficienza. Presentiamo una vasta validazione sperimentale su una varietà di benchmark, dimostrando la forte capacità predittiva di Prot2Token in diversi tipi di compiti di previsione proteica. I risultati chiave includono significativi miglioramenti in termini di velocità (ad esempio, quasi 1000x rispetto ad AlphaFold2 con MSA) e prestazioni che spesso eguagliano o superano approcci specializzati. Oltre a ciò, introduciamo un approccio ausiliario di pre-addestramento self-supervised del decoder per migliorare le prestazioni nei compiti sensibili alla spazialità. Prot2Token rappresenta quindi un passo significativo verso un paradigma versatile e ad alto rendimento per la modellazione proteica, promettendo di accelerare la scoperta biologica e lo sviluppo di nuove terapie. Il codice è disponibile all'indirizzo https://github.com/mahdip72/prot2token.
Il manga, o fumetto giapponese, è una forma narrativa fortemente multimodale che combina immagini e testo in modi complessi. Insegnare ai grandi modelli multimodali (LMM) a comprendere tali narrazioni a un livello simile a quello umano potrebbe aiutare i creatori di manga a riflettere e affinare le loro storie. A tal fine, introduciamo due benchmark per la comprensione multimodale dei manga: MangaOCR, che si concentra sul riconoscimento del testo all'interno delle pagine, e MangaVQA, un nuovo benchmark progettato per valutare la comprensione contestuale attraverso il visual question answering. MangaVQA è composto da 526 coppie domanda-risposta di alta qualità, costruite manualmente, che consentono una valutazione affidabile in diversi scenari narrativi e visivi. Basandoci su questi benchmark, sviluppiamo MangaLMM, un modello specializzato per i manga, ottimizzato a partire dal modello open-source LMM Qwen2.5-VL per gestire entrambe le attività. Attraverso esperimenti estensivi, inclusi confronti con modelli proprietari come GPT-4o e Gemini 2.5, valutiamo quanto bene i LMM comprendono i manga. Il nostro benchmark e il modello forniscono una base completa per valutare e avanzare i LMM nel ricco dominio narrativo dei manga.
I modelli di diffusione Text-to-Image (T2I) hanno compiuto progressi significativi nella modellazione generativa; tuttavia, devono affrontare un compromesso tra velocità di inferenza e qualità dell'immagine, ponendo sfide per un dispiegamento efficiente. I modelli T2I distillati esistenti possono generare immagini ad alta fedeltà con un numero ridotto di passaggi di campionamento, ma spesso incontrano difficoltà nella diversità e nella qualità, specialmente nei modelli a un solo passaggio. Dalla nostra analisi, osserviamo calcoli ridondanti negli encoder UNet. I nostri risultati suggeriscono che, per i modelli di diffusione T2I, i decoder sono più abili nel catturare informazioni semantiche più ricche ed esplicite, mentre gli encoder possono essere efficacemente condivisi tra decoder provenienti da diversi passaggi temporali. Sulla base di queste osservazioni, introduciamo il primo Time-independent Unified Encoder (TiUE) per l'architettura UNet del modello studente, che rappresenta un approccio alla generazione di immagini senza loop per la distillazione dei modelli di diffusione T2I. Utilizzando uno schema a passaggio unico, TiUE condivide le caratteristiche dell'encoder tra più passaggi temporali del decoder, consentendo un campionamento parallelo e riducendo significativamente la complessità temporale dell'inferenza. Inoltre, incorporiamo un termine di divergenza KL per regolarizzare la previsione del rumore, migliorando il realismo percettivo e la diversità delle immagini generate. I risultati sperimentali dimostrano che TiUE supera i metodi all'avanguardia, inclusi LCM, SD-Turbo e SwiftBrushv2, producendo risultati più diversificati e realistici mantenendo al contempo l'efficienza computazionale.
I modelli di intelligenza artificiale generativa spesso apprendono e riproducono informazioni false presenti nei loro corpora di addestramento. Questo position paper sostiene che, analogamente all'immunizzazione biologica, in cui l'esposizione controllata a un patogeno indebolito sviluppa l'immunità, i modelli di IA dovrebbero essere ottimizzati su piccoli set di falsità esplicitamente etichettate e messe in quarantena, come un "vaccino" contro la disinformazione. Questi esempi falsi curati vengono periodicamente iniettati durante l'ottimizzazione, rafforzando la capacità del modello di riconoscere e respingere affermazioni fuorvianti, preservando al contempo l'accuratezza sugli input veritieri. Uno studio di caso illustrativo dimostra che i modelli immunizzati generano sostanzialmente meno disinformazione rispetto ai modelli di base. Per quanto ne sappiamo, questo è il primo framework di addestramento che tratta le falsità verificate come un vaccino supervisionato, piuttosto che affidarsi a perturbazioni degli input o a segnali generici di feedback umano, per rafforzare i modelli contro la disinformazione futura. Delineiamo inoltre salvaguardie etiche e controlli di governance per garantire l'uso sicuro di dati falsi. L'immunizzazione dei modelli offre un paradigma proattivo per allineare i sistemi di IA alla veridicità.
La crescita esplosiva dei modelli generativi di video ha amplificato la richiesta di una tutela affidabile del copyright per i contenuti generati dall'IA. Nonostante la sua popolarità nella sintesi di immagini, il watermarking generativo invisibile rimane ampiamente inesplorato nella generazione di video. Per colmare questa lacuna, proponiamo Safe-Sora, il primo framework per incorporare watermark grafici direttamente nel processo di generazione video. Motivati dall'osservazione che le prestazioni del watermarking sono strettamente legate alla somiglianza visiva tra il watermark e il contenuto di copertina, introduciamo un meccanismo di adattamento gerarchico dal generale al dettaglio. Nello specifico, l'immagine del watermark viene suddivisa in patch, ciascuna assegnata al fotogramma video visivamente più simile, e ulteriormente localizzata nella regione spaziale ottimale per un'incorporazione senza soluzione di continuità. Per abilitare la fusione spazio-temporale delle patch di watermark tra i fotogrammi video, sviluppiamo un'architettura Mappa potenziata da trasformata wavelet 3D con una nuova strategia di scansione locale spazio-temporale, modellando efficacemente le dipendenze a lungo raggio durante l'incorporazione e il recupero del watermark. Per quanto ne sappiamo, questo è il primo tentativo di applicare modelli a stati spazio al watermarking, aprendo nuove strade per una protezione efficiente e robusta dei watermark. Esperimenti estensivi dimostrano che Safe-Sora raggiunge prestazioni all'avanguardia in termini di qualità video, fedeltà del watermark e robustezza, attribuibili in gran parte alle nostre proposte. Rilasceremo il nostro codice alla pubblicazione.
La stilizzazione istantanea di scene 3D mantenendo la coerenza multi-vista e rispecchiando fedelmente un'immagine di stile rimane una sfida significativa. I metodi attuali all'avanguardia per la stilizzazione 3D comportano tipicamente un'ottimizzazione computazionalmente intensa al momento del test per trasferire caratteristiche artistiche in una rappresentazione 3D pre-addestrata, spesso richiedendo immagini di input dense e posate. Al contrario, sfruttando i recenti progressi nei modelli di ricostruzione feed-forward, dimostriamo un approccio innovativo per ottenere una stilizzazione 3D diretta in meno di un secondo utilizzando immagini di scene sparse e non posate e un'immagine di stile arbitraria. Per affrontare il disaccoppiamento intrinseco tra ricostruzione e stilizzazione, introduciamo un'architettura ramificata che separa la modellazione della struttura e l'ombreggiatura dell'aspetto, prevenendo efficacemente la distorsione della struttura sottostante della scena 3D durante il trasferimento stilistico. Inoltre, adattiamo una perdita di identità per facilitare il pre-addestramento del nostro modello di stilizzazione attraverso il compito di sintesi di nuove viste. Questa strategia consente anche al nostro modello di mantenere le sue capacità originali di ricostruzione mentre viene perfezionato per la stilizzazione. Valutazioni complete, utilizzando sia dataset in dominio che fuori dominio, dimostrano che il nostro approccio produce contenuti 3D stilizzati di alta qualità che raggiungono una miscela superiore di stile e aspetto della scena, superando anche i metodi esistenti in termini di coerenza multi-vista ed efficienza.
La selezione efficace dei dati è fondamentale per l'addestramento efficiente dei moderni Large Language Models (LLM). Questo articolo introduce Influence Distillation, un nuovo framework matematicamente giustificato per la selezione dei dati che utilizza informazioni di secondo ordine per ponderare in modo ottimale i campioni di addestramento. Distillando l'influenza di ciascun campione su una distribuzione target, il nostro metodo assegna pesi specifici per il modello che vengono utilizzati per selezionare i dati di addestramento per il fine-tuning degli LLM, guidandoli verso prestazioni solide nel dominio target. Deriviamo questi pesi ottimali sia per l'ottimizzatore Gradient Descent che per Adam. Per garantire scalabilità e ridurre i costi computazionali, proponiamo un'approssimazione basata su landmark: l'influenza viene calcolata con precisione per un piccolo sottoinsieme di campioni "landmark" e poi propagata efficientemente a tutti gli altri campioni per determinarne i pesi. Validiamo Influence Distillation applicandolo al tuning delle istruzioni sul dataset Tulu V2, mirando a una gamma di task tra cui GSM8k, SQuAD e MMLU, su diversi modelli delle famiglie Llama e Qwen. Gli esperimenti dimostrano che Influence Distillation eguaglia o supera le prestazioni state-of-the-art, raggiungendo una selezione fino a 3,5 volte più veloce.
I recenti progressi nei Modelli di Linguaggio Visivo (VLMs) hanno dimostrato prestazioni eccezionali nei compiti di ragionamento visivo. Tuttavia, la geo-localizzazione presenta sfide uniche, richiedendo l'estrazione di indizi visivi multigranulari dalle immagini e la loro integrazione con conoscenze esterne del mondo per un ragionamento sistematico. Gli approcci attuali ai compiti di geo-localizzazione spesso mancano di meccanismi di ragionamento robusti e di spiegabilità, limitandone l'efficacia. Per affrontare queste limitazioni, proponiamo la Geo Reason Enhancement (GRE) Suite, un nuovo framework che potenzia i VLMs con catene di ragionamento strutturate per un'inferenza di localizzazione accurata e interpretabile. La GRE Suite è sviluppata sistematicamente lungo tre dimensioni chiave: dataset, modello e benchmark. In primo luogo, introduciamo GRE30K, un dataset di ragionamento per geo-localizzazione di alta qualità progettato per facilitare l'analisi visiva e contestuale fine. Successivamente, presentiamo il modello GRE, che impiega una strategia di ragionamento multi-stadio per inferire progressivamente attributi della scena, dettagli locali e caratteristiche semantiche, restringendo così le potenziali regioni geografiche con precisione migliorata. Infine, costruiamo il Geo Reason Evaluation Benchmark (GREval-Bench), un framework di valutazione completo che valuta i VLMs in diverse scene urbane, naturali e di landmark per misurare le prestazioni di localizzazione sia a livello granulare grossolano (ad esempio, paese, continente) che fine (ad esempio, città, strada). I risultati sperimentali dimostrano che GRE supera significativamente i metodi esistenti in tutti i livelli di granularità dei compiti di geo-localizzazione, sottolineando l'efficacia dei VLMs potenziati dal ragionamento nell'inferenza geografica complessa. Codice e dati saranno rilasciati su https://github.com/Thorin215/GRE.
L'apprendimento per rinforzo (Reinforcement Learning, RL) ha guidato progressi significativi nel campo della robotica, ma la sua complessità e i lunghi tempi di addestramento rimangono ostacoli principali. In questo rapporto, presentiamo FastTD3, un algoritmo RL semplice, veloce e performante che accelera notevolmente l'addestramento per robot umanoidi in suite popolari come HumanoidBench, IsaacLab e MuJoCo Playground. La nostra ricetta è sorprendentemente semplice: addestriamo un agente TD3 off-policy con diverse modifiche — simulazione parallela, aggiornamenti con batch di grandi dimensioni, un critico distribuzionale e iperparametri attentamente ottimizzati. FastTD3 risolve una serie di task di HumanoidBench in meno di 3 ore su una singola GPU A100, mantenendo la stabilità durante l'addestramento. Forniamo inoltre un'implementazione leggera e facile da usare di FastTD3 per accelerare la ricerca RL nella robotica.
La comprensione dell'orientamento degli oggetti rappresenta una sfida fondamentale nella percezione visiva, cruciale per applicazioni come la manipolazione robotica e la realtà aumentata. Gli attuali benchmark di visione e linguaggio non riescono a isolare questa capacità, spesso confondendola con relazioni posizionali e comprensione generale della scena. Introduciamo DORI (Discriminative Orientation Reasoning Intelligence), un benchmark completo che stabilisce la percezione dell'orientamento degli oggetti come obiettivo primario di valutazione. DORI valuta quattro dimensioni della comprensione dell'orientamento: allineamento frontale, trasformazioni rotazionali, relazioni direzionali relative e comprensione dell'orientamento canonico. Attraverso compiti accuratamente selezionati da 11 dataset che coprono 67 categorie di oggetti in scenari sia sintetici che reali, DORI fornisce approfondimenti su come i sistemi multimodali comprendono l'orientamento degli oggetti. La nostra valutazione di 15 modelli all'avanguardia di visione e linguaggio rivela limitazioni critiche: anche i migliori modelli raggiungono solo il 54,2% di accuratezza su compiti grossolani e il 33,0% su giudizi di orientamento granulari, con prestazioni che peggiorano per compiti che richiedono cambiamenti di frame di riferimento o rotazioni composte. Questi risultati dimostrano la necessità di meccanismi dedicati per la rappresentazione dell'orientamento, poiché i modelli mostrano un'incapacità sistematica di eseguire stime angolari precise, tracciare cambiamenti di orientamento tra punti di vista e comprendere rotazioni composte, suggerendo limitazioni nelle loro rappresentazioni spaziali 3D interne. Come primo framework diagnostico progettato specificamente per la consapevolezza dell'orientamento nei sistemi multimodali, DORI offre implicazioni per migliorare il controllo robotico, la ricostruzione di scene 3D e l'interazione uomo-IA in ambienti fisici. Dati DORI: https://huggingface.co/datasets/appledora/DORI-Benchmark
Il fine-tuning dei Large Language Models (LLMs) ha significativamente migliorato le loro capacità di seguire istruzioni, tuttavia i meccanismi computazionali sottostanti che guidano questi miglioramenti rimangono poco compresi. Questo studio esamina sistematicamente come il fine-tuning riconfigura i calcoli degli LLMs isolando e analizzando componenti sparsi specifici per le istruzioni, ovvero neuroni nei modelli densi e sia neuroni che esperti nelle architetture Mixture-of-Experts (MoE). In particolare, introduciamo HexaInst, un dataset di istruzioni accuratamente curato e bilanciato che copre sei categorie distinte, e proponiamo SPARCOM, un nuovo framework analitico che comprende tre contributi chiave: (1) un metodo per identificare questi componenti sparsi, (2) una valutazione della loro generalità funzionale e unicità, e (3) un confronto sistematico delle loro alterazioni. Attraverso esperimenti, dimostriamo la generalità funzionale, l'unicità e il ruolo cruciale di questi componenti nell'esecuzione delle istruzioni. Chiarendo la relazione tra gli adattamenti indotti dal fine-tuning e i substrati computazionali sparsi, questo lavoro fornisce approfondimenti su come gli LLMs interiorizzano il comportamento di seguire le istruzioni per la comunità degli LLMs affidabili.
I sistemi di tutoraggio intelligenti combinati con modelli linguistici di grandi dimensioni offrono un approccio promettente per soddisfare le esigenze diversificate degli studenti e promuovere un apprendimento autoefficace. Sebbene i modelli linguistici di grandi dimensioni possiedano una buona conoscenza di base dell'ingegneria elettrica, rimangono insufficientemente capaci di rispondere a domande specifiche sui circuiti elettrici. In questo articolo, presentiamo AITEE, un sistema di tutoraggio basato su agenti per l'ingegneria elettrica progettato per accompagnare gli studenti durante il loro processo di apprendimento, offrire supporto individualizzato e promuovere l'apprendimento autonomo. AITEE supporta sia circuiti disegnati a mano che digitali attraverso un processo di ricostruzione del circuito adattato, consentendo un'interazione naturale con gli studenti. La nostra nuova misura di similarità basata su grafo identifica il contesto rilevante dai materiali delle lezioni attraverso un approccio di generazione aumentata dal recupero, mentre la simulazione Spice parallela migliora ulteriormente l'accuratezza nell'applicazione delle metodologie di soluzione. Il sistema implementa un dialogo socratico per favorire l'autonomia dell'apprendimento attraverso domande guidate. Le valutazioni sperimentali dimostrano che AITEE supera significativamente gli approcci di base nell'applicazione di conoscenze specifiche del dominio, con modelli LLM di medie dimensioni che mostrano prestazioni accettabili. I nostri risultati evidenziano il potenziale dei tutor agentici di fornire ambienti di apprendimento scalabili, personalizzati ed efficaci per l'educazione in ingegneria elettrica.
I modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nei compiti multimodali. Tuttavia, le loro prestazioni spesso si deteriorano in scenari a contesto lungo, in particolare nei video lunghi. Sebbene il Rotary Position Embedding (RoPE) sia stato ampiamente adottato per la generalizzazione della lunghezza nei Large Language Models (LLMs), estendere il RoPE standard per catturare le complesse dipendenze spazio-temporali nei video rimane una sfida irrisolta. I metodi esistenti tipicamente assegnano diverse frequenze all'interno del RoPE per codificare informazioni posizionali 3D. Tuttavia, queste strategie di allocazione si basano principalmente su euristiche, mancando di un'analisi teorica approfondita. In questo articolo, studiamo per la prima volta come diverse strategie di allocazione influenzino le capacità a contesto lungo dei VLMs. La nostra analisi rivela che gli attuali RoPE multimodali non riescono a catturare in modo affidabile le similarità semantiche su contesti estesi. Per affrontare questo problema, proponiamo HoPE, un Hybrid of Position Embedding progettato per migliorare le capacità a contesto lungo dei VLMs. HoPE introduce una strategia di allocazione delle frequenze ibrida per una modellazione semantica affidabile su contesti arbitrariamente lunghi, e un meccanismo di scaling temporale dinamico per facilitare un apprendimento robusto e un'inferenza flessibile su diverse lunghezze di contesto. Esperimenti estesi su quattro benchmark video per compiti di comprensione e recupero di video lunghi dimostrano che HoPE supera costantemente i metodi esistenti, confermandone l'efficacia. Il codice è disponibile all'indirizzo https://github.com/hrlics/HoPE.
La rapida crescita delle risorse open source per il machine learning (ML), come modelli e dataset, ha accelerato la ricerca nel campo dell'Information Retrieval (IR). Tuttavia, piattaforme esistenti come Hugging Face non utilizzano esplicitamente rappresentazioni strutturate, limitando query e analisi avanzate come il tracciamento dell'evoluzione dei modelli e la raccomandazione di dataset rilevanti. Per colmare questa lacuna, abbiamo costruito HuggingKG, il primo knowledge graph su larga scala derivato dalla comunità di Hugging Face per la gestione delle risorse di ML. Con 2,6 milioni di nodi e 6,2 milioni di relazioni, HuggingKG cattura relazioni specifiche del dominio e attributi testuali ricchi. Ciò ci ha permesso di presentare ulteriormente HuggingBench, un benchmark multi-task con tre nuove collezioni di test per attività di IR, tra cui la raccomandazione di risorse, la classificazione e il tracciamento. I nostri esperimenti rivelano caratteristiche uniche di HuggingKG e dei task derivati. Entrambe le risorse sono pubblicamente disponibili e si prevede che possano avanzare la ricerca nella condivisione e gestione delle risorse open source.
Comprendere le rappresentazioni funzionali all'interno della corteccia visiva superiore è una questione fondamentale nelle neuroscienze computazionali. Sebbene le reti neurali artificiali pre-addestrate su dataset su larga scala mostrino un allineamento rappresentativo sorprendente con le risposte neurali umane, l'apprendimento di modelli computazionali dell'immagine della corteccia visiva si basa su dataset fMRI su larga scala a livello individuale. La necessità di acquisizione di dati costosa, dispendiosa in termini di tempo e spesso impraticabile limita la generalizzabilità degli encoder a nuovi soggetti e stimoli. BraInCoRL utilizza l'apprendimento in contesto per prevedere le risposte neurali a livello di voxel da esempi few-shot senza alcuna ulteriore messa a punto per nuovi soggetti e stimoli. Sfruttiamo un'architettura transformer che può condizionarsi flessibilmente su un numero variabile di stimoli immagine in contesto, apprendendo un bias induttivo su più soggetti. Durante l'addestramento, ottimizziamo esplicitamente il modello per l'apprendimento in contesto. Condizionando congiuntamente sulle caratteristiche dell'immagine e sulle attivazioni dei voxel, il nostro modello impara a generare direttamente modelli voxelwise più performanti della corteccia visiva superiore. Dimostriamo che BraInCoRL supera costantemente i progetti esistenti di encoder voxelwise in un regime di bassi dati quando valutato su immagini completamente nuove, mostrando anche un forte comportamento di scalabilità al momento del test. Il modello si generalizza inoltre a un nuovo dataset fMRI visivo, che utilizza soggetti diversi e parametri di acquisizione dati fMRI differenti. Inoltre, BraInCoRL facilita una migliore interpretabilità dei segnali neurali nella corteccia visiva superiore prestando attenzione agli stimoli semanticamente rilevanti. Infine, mostriamo che il nostro framework consente mappature interpretabili da query in linguaggio naturale alla selettività dei voxel.
Sebbene le capacità dei Large Language Models (LLM) siano state studiate sia in cinese semplificato che tradizionale, non è ancora chiaro se gli LLM mostrino prestazioni differenziate quando sollecitati in queste due varianti di cinese scritto. Questa comprensione è fondamentale, poiché le disparità nella qualità delle risposte degli LLM possono perpetuare danni rappresentativi ignorando i diversi contesti culturali sottostanti al cinese semplificato rispetto a quello tradizionale, e possono esacerbare danni a valle nei processi decisionali facilitati dagli LLM in domini come l'istruzione o l'assunzione di personale. Per indagare potenziali disparità nelle prestazioni degli LLM, progettiamo due task di benchmark che riflettono scenari reali: la scelta di termini regionali (sollecitando l'LLM a nominare un oggetto descritto che viene indicato diversamente in Cina continentale e Taiwan) e la scelta di nomi regionali (sollecitando l'LLM a scegliere chi assumere da un elenco di nomi sia in cinese semplificato che tradizionale). Per entrambi i task, analizziamo le prestazioni di 11 principali servizi LLM commerciali e modelli open-source, che spaziano da quelli addestrati principalmente in inglese, cinese semplificato o tradizionale. Le nostre analisi indicano che i bias nelle risposte degli LLM dipendono sia dal task che dalla lingua di sollecitazione: mentre la maggior parte degli LLM ha favorito in modo sproporzionato risposte in cinese semplificato nel task di scelta dei termini regionali, ha sorprendentemente favorito nomi in cinese tradizionale nel task di scelta dei nomi regionali. Troviamo che queste disparità possono derivare da differenze nella rappresentazione dei dati di addestramento, nelle preferenze dei caratteri scritti e nella tokenizzazione del cinese semplificato e tradizionale. Questi risultati evidenziano la necessità di ulteriori analisi sui bias degli LLM; pertanto, forniamo un dataset di benchmark open-source per favorire valutazioni riproducibili del comportamento futuro degli LLM tra le varianti della lingua cinese (https://github.com/brucelyu17/SC-TC-Bench).
La comprensione temporale nei video è cruciale per i modelli linguistici multimodali di grandi dimensioni (MLLMs) per ragionare sugli eventi nei video. Nonostante i recenti progressi nella comprensione generale dei video, gli attuali MLLM continuano a lottare con il ragionamento temporale fine. Sebbene il reinforcement learning (RL) sia stato recentemente esplorato per affrontare questo problema, gli approcci RL esistenti rimangono limitati in termini di efficacia. In questo lavoro, proponiamo MUSEG, un metodo innovativo basato su RL che migliora la comprensione temporale introducendo il grounding multi-segmento con consapevolezza dei timestamp. MUSEG consente agli MLLM di allineare le query con più segmenti video rilevanti, promuovendo un ragionamento temporale più completo. Per facilitare un apprendimento efficace, progettiamo una ricetta di addestramento RL personalizzata con ricompense progressive che guidano gradualmente il modello verso un ragionamento temporalmente fondato. Esperimenti estesi su compiti di grounding temporale e QA video sensibili al tempo dimostrano che MUSEG supera significativamente i metodi esistenti e si generalizza bene in diversi scenari di comprensione temporale. Visualizza il nostro progetto all'indirizzo https://github.com/THUNLP-MT/MUSEG.
I modelli linguistici di grandi dimensioni (LLM) spesso acquisiscono durante il pretraining conoscenze indesiderate nei successivi utilizzi, come informazioni sensibili o contenuti protetti da copyright. Gli approcci esistenti per rimuovere tali conoscenze si basano su fine-tuning, addestramento di adattatori a basso rango o modifica a livello di fatti, ma questi sono troppo approssimativi, superficiali o inefficaci. In questo lavoro, proponiamo PISCES (Precise In-parameter Suppression for Concept EraSure), un nuovo framework per cancellare con precisione interi concetti dai parametri del modello modificando direttamente le direzioni che li codificano nello spazio dei parametri. PISCES utilizza un modello di disaccoppiamento per scomporre i vettori MLP in caratteristiche interpretabili, identifica quelle associate a un concetto target utilizzando tecniche di interpretabilità automatizzata e le rimuove dai parametri del modello. Esperimenti su Gemma 2 e Llama 3.1 su vari concetti mostrano che PISCES ottiene modesti miglioramenti in efficacia rispetto ai principali metodi di cancellazione, riducendo l'accuratezza sul concetto target fino al 7,7%, migliorando drasticamente la specificità della cancellazione (fino al 31%) e la robustezza (fino al 38%). Nel complesso, questi risultati dimostrano che la modifica in-parametro basata su caratteristiche consente un approccio più preciso e affidabile per rimuovere conoscenze concettuali nei modelli linguistici.
Il pre-addestramento linguaggio-immagine ha dimostrato prestazioni solide nell'imaging medico 2D, ma il suo successo nelle modalità 3D come TC e RM rimane limitato a causa delle elevate esigenze computazionali dei dati volumetrici, che rappresentano una barriera significativa all'addestramento su studi clinici su larga scala e non curati. In questo studio, introduciamo l'attenzione gerarchica per il pre-addestramento linguaggio-immagine (HLIP), un framework scalabile per il pre-addestramento nell'imaging medico 3D. HLIP adotta un meccanismo di attenzione gerarchica leggero ispirato dalla gerarchia naturale dei dati radiologici: fetta, scansione e studio. Questo meccanismo mostra una forte generalizzabilità, ad esempio, +4,3% di macro AUC sul benchmark Rad-ChestCT quando pre-addestrato su CT-RATE. Inoltre, l'efficienza computazionale di HLIP consente l'addestramento diretto su dataset non curati. Addestrato su 220K pazienti con 3,13 milioni di scansioni per RM cerebrale e 240K pazienti con 1,44 milioni di scansioni per TC cranica, HLIP raggiunge prestazioni all'avanguardia, ad esempio, +32,4% di accuratezza bilanciata sul benchmark pubblicamente disponibile Pub-Brain-5 per RM cerebrale; +1,4% e +6,9% di macro AUC sui benchmark TC cranica RSNA e CQ500, rispettivamente. Questi risultati dimostrano che, con HLIP, il pre-addestramento diretto su dataset clinici non curati è una direzione scalabile ed efficace per il pre-addestramento linguaggio-immagine nell'imaging medico 3D. Il codice è disponibile all'indirizzo https://github.com/Zch0414/hlip.
Comprendere e inferire relazioni causali dai testi è un aspetto fondamentale della cognizione umana ed è essenziale per far progredire i grandi modelli linguistici (LLM) verso l'intelligenza artificiale generale. Il lavoro esistente si concentra principalmente su testi generati sinteticamente che coinvolgono semplici relazioni causali esplicitamente menzionate nel testo. Ciò non riflette la complessità delle attività del mondo reale. In questo articolo, indaghiamo se gli LLM siano in grado di inferire relazioni causali da testi del mondo reale. Sviluppiamo un benchmark tratto dalla letteratura accademica del mondo reale che include testi diversificati per lunghezza, complessità delle relazioni (diversi livelli di esplicitezza, numero di eventi e relazioni causali) e domini e sottodomini. Per quanto ne sappiamo, il nostro benchmark è il primo dataset del mondo reale per questo compito. I nostri esperimenti sugli LLM all'avanguardia, valutati sul benchmark proposto, dimostrano sfide significative, con il modello con le migliori prestazioni che raggiunge un punteggio F1 medio di soli 0,477. L'analisi rivela errori comuni: difficoltà con le informazioni implicitamente dichiarate, nel distinguere i fattori causali rilevanti dai dettagli contestuali circostanti e nel connettere informazioni causalmente rilevanti distribuite su passaggi testuali lunghi. Caratterizzando sistematicamente queste carenze, il nostro benchmark offre approfondimenti mirati per ulteriori ricerche sul miglioramento del ragionamento causale degli LLM.
Il ridimensionamento al momento del test (Test-Time Scaling, TTS), che prevede l'allocazione dinamica delle risorse di calcolo durante l'inferenza, offre un approccio promettente per migliorare il ragionamento nei grandi modelli linguistici. Sebbene i metodi TTS esistenti funzionino bene, spesso si basano su percorsi di decodifica lunghi o richiedono la generazione di un gran numero di campioni, aumentando l'uso di token e la latenza dell'inferenza. Osserviamo il fatto sorprendente che, per i compiti di ragionamento, le tracce più brevi hanno una probabilità molto maggiore di essere corrette rispetto a quelle più lunghe. Motivati da ciò, introduciamo il First Finish Search (FFS), una strategia di decodifica parallela senza addestramento che lancia n campioni indipendenti e restituisce il risultato non appena uno di essi viene completato. Valutiamo FFS insieme a decodifica semplice, beam search, voto a maggioranza e budget forcing su quattro modelli di ragionamento (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B e Phi-4-Reasoning-Plus) e su quattro dataset (AIME24, AIME25-I, AIME25-II e GPQA Diamond). Con DeepSeek-R1, FFS raggiunge un'accuratezza dell'82,23% sui dataset AIME, un miglioramento del 15% rispetto all'accuratezza autonoma di DeepSeek-R1, avvicinandosi quasi alle prestazioni di OpenAI o4-mini. La nostra analisi teorica spiega perché fermarsi alla traccia più breve è probabile che produca una risposta corretta e identifica le condizioni in cui l'arresto anticipato potrebbe essere subottimale. L'eleganza e la semplicità di FFS dimostrano che strategie TTS dirette possono funzionare in modo eccezionale, rivelando il potenziale inesplorato degli approcci semplici al momento dell'inferenza.
Sebbene i grandi modelli visione-linguaggio (VLMs) abbiano dimostrato prestazioni notevoli in un'ampia gamma di attività multimodali, le loro vere capacità di ragionamento nei test di QI umani rimangono poco esplorate. Per avanzare la ricerca sull'intelligenza fluida dei VLMs, introduciamo **IQBench**, un nuovo benchmark progettato per valutare i VLMs su test visivi standardizzati di QI. Ci concentriamo sulla valutazione delle capacità di ragionamento dei VLMs, che riteniamo siano più importanti dell'accuratezza della previsione finale. **Il nostro benchmark è visivamente centrico, minimizzando la dipendenza da contenuti testuali non necessari**, incoraggiando così i modelli a derivare le risposte principalmente dalle informazioni basate sulle immagini piuttosto che dalle conoscenze testuali apprese. A tal fine, abbiamo raccolto e annotato manualmente 500 domande visive di QI per **prevenire la fuoriuscita involontaria di dati durante l'addestramento**. A differenza dei lavori precedenti che si concentrano principalmente sull'accuratezza della risposta finale, valutiamo la capacità di ragionamento dei modelli analizzando le loro spiegazioni e i modelli utilizzati per risolvere ogni problema, insieme all'accuratezza della previsione finale e alla valutazione umana. I nostri esperimenti mostrano che ci sono disparità significative nelle prestazioni tra i compiti, con modelli come `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` che raggiungono le medie di accuratezza più alte rispettivamente di 0,615, 0,578 e 0,548. Tuttavia, tutti i modelli hanno difficoltà con i compiti di ragionamento spaziale 3D e anagrammi, evidenziando limitazioni significative nelle capacità di ragionamento generale degli attuali VLMs. In termini di punteggi di ragionamento, `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` hanno raggiunto le medie più alte rispettivamente di 0,696, 0,586 e 0,516. Questi risultati evidenziano incongruenze tra i processi di ragionamento dei modelli e le loro risposte finali, sottolineando l'importanza di valutare l'accuratezza del ragionamento oltre alle previsioni finali.