Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo QeRL, un framework di Reinforcement Learning (RL) potenziato dalla quantizzazione per modelli linguistici di grandi dimensioni (LLM). Sebbene l'RL sia essenziale per le capacità di ragionamento degli LLM, è dispendioso in termini di risorse, richiedendo una notevole quantità di memoria GPU e lunghi tempi di rollout. QeRL affronta questi problemi combinando la quantizzazione NVFP4 con l'Adattamento a Basso Rango (LoRA), accelerando la fase di rollout dell'RL e riducendo l'overhead di memoria. Oltre all'efficienza, i nostri risultati dimostrano che il rumore della quantizzazione aumenta l'entropia della politica, migliorando l'esplorazione e consentendo la scoperta di strategie migliori durante l'RL. Per ottimizzare ulteriormente l'esplorazione, QeRL introduce un meccanismo di Rumore di Quantizzazione Adattivo (AQN), che regola dinamicamente il rumore durante l'addestramento. Gli esperimenti dimostrano che QeRL offre un'accelerazione di oltre 1,5 volte nella fase di rollout. Inoltre, questo è il primo framework che consente l'addestramento RL di un LLM da 32B su una singola GPU H100 80GB, garantendo al contempo accelerazioni complessive per l'addestramento RL. Raggiunge anche una crescita più rapida della ricompensa e una precisione finale più elevata rispetto a LoRA a 16 bit e QLoRA, eguagliando le prestazioni del fine-tuning completo dei parametri su benchmark matematici come GSM8K (90,8%) e MATH 500 (77,4%) nel modello da 7B. Questi risultati stabiliscono QeRL come un framework efficiente ed efficace per l'addestramento RL negli LLM.
La modellazione generativa latente, in cui un autoencoder pre-addestrato mappa i pixel in uno spazio latente per il processo di diffusione, è diventata la strategia standard per i Diffusion Transformers (DiT); tuttavia, il componente autoencoder è rimasto pressoché invariato. La maggior parte dei DiT continua a fare affidamento sull'originario encoder VAE, che introduce diverse limitazioni: backbone obsoleti che compromettono la semplicità architetturale, spazi latenti a bassa dimensionalità che riducono la capacità informativa e rappresentazioni deboli derivanti da un addestramento puramente basato sulla ricostruzione, limitando infine la qualità generativa. In questo lavoro, esploriamo la sostituzione del VAE con encoder di rappresentazione pre-addestrati (ad esempio, DINO, SigLIP, MAE) abbinati a decoder addestrati, formando ciò che definiamo Representation Autoencoders (RAE). Questi modelli offrono sia ricostruzioni di alta qualità che spazi latenti semanticamente ricchi, consentendo al contempo un'architettura scalabile basata su transformer. Poiché questi spazi latenti sono tipicamente ad alta dimensionalità, una sfida chiave è consentire ai diffusion transformer di operare efficacemente al loro interno. Analizziamo le fonti di questa difficoltà, proponiamo soluzioni teoricamente motivate e le validiamo empiricamente. Il nostro approccio raggiunge una convergenza più rapida senza l'uso di perdite ausiliarie di allineamento delle rappresentazioni. Utilizzando una variante DiT dotata di una testa DDT leggera e ampia, otteniamo risultati forti nella generazione di immagini su ImageNet: 1.51 FID a 256x256 (senza guida) e 1.13 sia a 256x256 che a 512x512 (con guida). RAE offre chiari vantaggi e dovrebbe diventare il nuovo standard per l'addestramento dei diffusion transformer.
I modelli autoregressivi (AR) rimangono lo standard per la generazione del linguaggio naturale, ma continuano a soffrire di un'elevata latenza a causa del decoding strettamente sequenziale. Recenti approcci ispirati alla diffusione, come LlaDA e Dream, mitigano questo problema generando in parallelo, ma presentano due limitazioni fondamentali: la perdita di informazioni, poiché le distribuzioni predittive per i token non finalizzati vengono scartate a ogni passo, e il commitment prematuro, dove le decisioni locali vengono prese senza un'adeguata coordinazione globale. Introduciamo il Latent Refinement Decoding (LRD), un framework a due stadi con Latent Refinement e un Predictive Feedback Loop. Il primo stadio mantiene le posizioni mascherate come miscele distribuzionali di token predetti e dell'embedding della maschera, consentendo al modello di stabilire credenze più globalmente consistenti. Il secondo stadio finalizza progressivamente i token confidenti mantenendo quelli incerti per un feedback iterativo. Le dinamiche della divergenza KL forniscono un criterio affidabile e basato su principi per la convergenza e l'arresto anticipato. Gli esperimenti condotti su compiti di codifica (HumanEval +6.3, MBPP +2.6) e ragionamento (GSM8K +2.9, MATH500 +3.8) dimostrano che LRD migliora l'accuratezza offrendo accelerazioni fino a 10.6x, rendendolo un'alternativa robusta e versatile per la generazione parallela di sequenze.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno dimostrato un potenziale significativo nella comprensione dei video. Tuttavia, i benchmark esistenti non riescono a valutare in modo completo le capacità di ragionamento sinergico tra le modalità audio e visiva, spesso trascurando una delle due modalità o integrandole in modo logicamente incoerente. Per colmare questa lacuna, introduciamo OmniVideoBench, un benchmark su larga scala e rigorosamente progettato dedicato alla valutazione della comprensione sinergica audio-visiva, con una forte enfasi sulla complementarità delle modalità e sulla coerenza logica. Nello specifico, OmniVideoBench comprende 1000 coppie domanda-risposta (QA) di alta qualità, ciascuna annotata con tracce di ragionamento passo-passo, derivate da 628 video diversi che vanno da pochi secondi a 30 minuti, e verificate manualmente per garantire correttezza e unicità complete. Inoltre, OmniVideoBench include 13 tipi di domande accuratamente progettati, che coprono il ragionamento temporale, la localizzazione spaziale, il conteggio, l'inferenza causale, la sintesi e altro ancora, catturando così le sfide essenziali della comprensione dei video. La valutazione di più MLLMs su OmniVideoBench rivela un divario marcato tra le prestazioni del modello e il ragionamento umano, con i modelli open-source che rimangono significativamente indietro rispetto alle loro controparti closed-source, sottolineando la difficoltà intrinseca del ragionamento audio-visivo genuino. Rilasceremo OmniVideoBench per favorire lo sviluppo di MLLMs con capacità di ragionamento più forti e generalizzabili.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso recentemente come un quadro promettente per migliorare le capacità di ragionamento nei Modelli Linguistici di Grande Scala (LLM). Tuttavia, le politiche ottimizzate con verifica binaria tendono a trascurare esplorazioni potenzialmente preziose nel percorso di ragionamento. Considerando l'elevato costo di annotazione dei Modelli di Ricompensa del Processo (PRM) di riferimento, lavori recenti hanno tentato di utilizzare segnali ausiliari per modellare le ricompense dei token di processo, coinvolgendo entropia e verosimiglianza raccolte dallo spazio dei logit. In questo lavoro, offriamo una nuova prospettiva sulla modellazione dell'RLVR con ricompense di flusso derivate dallo spazio latente e proponiamo RLFR, in cui i campi di flusso dei latenti del modello sono costruiti sia da dati di alta qualità off-policy che da dati di campionamento per rifiuto on-policy, e le deviazioni di velocità dei latenti della politica all'interno di esso vengono quantificate per servire come segnale di ricompensa. RLFR dimostra innanzitutto che un campo di flusso ben consolidato può essere un ambiente solido per la raccolta di segnali di ricompensa, evidenziando come lo spazio latente espressivo sia ancora largamente inesplorato. Inoltre, RLFR è in grado di comprimere qualsiasi dato esperto off-policy come riferimento per costituire segnali di ricompensa, e mostriamo che viene sfruttata la dipendenza contestuale efficiente compressa all'interno degli stati nascosti, piuttosto che la denotazione a livello di singolo token per la comprensione del contesto. Esperimenti su benchmark di ragionamento linguistico e multimodale dimostrano l'affidabilità delle ricompense di flusso e suggeriscono un paradigma promettente per la modellazione delle ricompense con segnali ausiliari.
Mentre il Reinforcement Learning con Ricompense Verificabili (RLVR) ha fatto progredire le capacità di ragionamento dei Modelli Linguistico-Visuali di Grande Scala (LVLM), la maggior parte dei metodi esistenti nel ragionamento multimodale trascura il ruolo cruciale della percezione visiva all'interno del processo di ottimizzazione RLVR. In questo articolo, intraprendiamo un'esplorazione pionieristica dell'RLVR multimodale attraverso la nuova prospettiva della percezione dei token, che misura la dipendenza visiva di ciascun token generato. Con un'analisi granulare dei processi Chain-of-Thought (CoT), scopriamo due intuizioni chiave: in primo luogo, la percezione dei token in una traiettoria di rollout è distribuita in modo sparso, dove solo una piccola frazione di token ha un'elevata dipendenza visiva per il ragionamento basato su elementi visivi; in secondo luogo, diverse traiettorie mostrano una significativa divergenza nella loro dipendenza visiva complessiva. Sulla base di queste osservazioni, proponiamo l'Optimizzazione della Politica con Percezione Visiva (VPPO), un nuovo algoritmo a gradiente di politica che sfrutta esplicitamente la percezione dei token per affinare il segnale di apprendimento. Nello specifico, VPPO raggiunge questo obiettivo attraverso un duplice meccanismo: ricalcola il vantaggio di una traiettoria in base alla sua dipendenza visiva complessiva e concentra gli aggiornamenti della politica esclusivamente sui token percettivamente cruciali. Su una suite completa di otto benchmark di percezione e ragionamento, VPPO dimostra guadagni sostanziali rispetto ai principali modelli ottimizzati con RL open-source, con la sua efficacia costantemente validata su scale di modelli da 7B e 32B. Le nostre scoperte non solo stabiliscono una nuova prospettiva percettiva a livello di token per analizzare l'RLVR multimodale, ma presentano anche una nuova ed efficace strategia di ottimizzazione per migliorare significativamente le capacità di ragionamento multimodale degli LVLM.
La modellazione generale di SVG rimane impegnativa a causa di dataset frammentati, limitata trasferibilità dei metodi tra i compiti e la difficoltà di gestire la complessità strutturale. In risposta, sfruttiamo le forti capacità di trasferimento e generalizzazione dei modelli linguistici multimodali di grandi dimensioni (MLLM) per ottenere una modellazione unificata per la comprensione, la modifica e la generazione di SVG. Presentiamo la famiglia InternSVG, una suite integrata di dati, benchmark e modelli. Al suo centro c'è SAgoge, il dataset multimodale più vasto e completo per i compiti SVG, che include sia grafiche statiche che animazioni dinamiche. Copre icone, illustrazioni a sequenza lunga, diagrammi scientifici e animazioni dinamiche, supportando compiti di vari livelli di difficoltà e fornendo gerarchie più profonde con attributi più ricchi rispetto ai dataset precedenti. Basandoci su questa risorsa, introduciamo SArena, un benchmark complementare con definizioni di compiti complete e valutazione standardizzata che si allinea ai domini e allo spettro di difficoltà coperti da SAgoge. Costruendo su queste fondamenta, proponiamo InternSVG, un MLLM unificato per la comprensione, la modifica e la generazione di SVG con token speciali specifici per SVG, inizializzazione di embedding basata su sottoparole e una strategia di addestramento in due fasi che progredisce da SVG statici brevi a illustrazioni a sequenza lunga e animazioni complesse. Questa formulazione unificata induce un trasferimento positivo e migliora le prestazioni complessive. Gli esperimenti su SArena e benchmark precedenti confermano che InternSVG ottiene guadagni sostanziali e supera costantemente le controparti leader sia open che proprietarie.
Recentemente, l'emergere dell'RL agenziale ha dimostrato che l'RL potrebbe anche migliorare efficacemente la capacità di ragionamento agenziale degli LLM, sebbene i principi chiave di progettazione e le pratiche ottimali rimangano poco chiari. In questo lavoro, conduciamo un'indagine completa e sistematica per chiarire il ruolo del reinforcement learning nel ragionamento agenziale da tre prospettive chiave: dati, algoritmo e modalità di ragionamento. Evidenziamo le nostre principali intuizioni: (i) Sostituire traiettorie sintetiche assemblate con traiettorie reali end-to-end di utilizzo di strumenti fornisce un'inizializzazione SFT molto più solida; dataset ad alta diversità e consapevoli del modello sostengono l'esplorazione e migliorano significativamente le prestazioni dell'RL. (ii) Tecniche favorevoli all'esplorazione sono cruciali per l'RL agenziale, come il clipping superiore, il reward shaping prolungato e il mantenimento di un'adeguata entropia della policy, che possono migliorare l'efficienza dell'addestramento. (iii) Una strategia deliberativa con un minor numero di chiamate a strumenti supera le chiamate frequenti o il ragionamento verboso autonomo, migliorando l'efficienza degli strumenti e l'accuratezza finale. Insieme, queste semplici pratiche migliorano costantemente il ragionamento agenziale e l'efficienza dell'addestramento, ottenendo risultati solidi su benchmark impegnativi con modelli più piccoli e stabilendo una baseline pratica per la futura ricerca sull'RL agenziale. Oltre a queste intuizioni empiriche, contribuiamo ulteriormente con un dataset SFT agenziale end-to-end di alta qualità insieme a un dataset RL di alta qualità, e dimostriamo l'efficacia delle nostre intuizioni nel potenziare la capacità di ragionamento agenziale degli LLM su quattro benchmark impegnativi, tra cui AIME2024/AIME2025, GPQA-Diamond e LiveCodeBench-v6. Con le nostre ricette, modelli di dimensioni 4B possono anche ottenere prestazioni di ragionamento agenziale superiori rispetto a modelli di dimensioni 32B. Codice e modelli: https://github.com/Gen-Verse/Open-AgentRL
In questo lavoro, proponiamo DiT360, un framework basato su DiT che esegue un addestramento ibrido su dati prospettici e panoramici per la generazione di immagini panoramiche. Per quanto riguarda i problemi di mantenimento della fedeltà geometrica e del fotorealismo nella qualità della generazione, attribuiamo la causa principale alla mancanza di dati panoramici su larga scala e di alta qualità provenienti dal mondo reale, una visione incentrata sui dati che differisce dai metodi precedenti focalizzati sulla progettazione del modello. Fondamentalmente, DiT360 comprende diversi moduli chiave per la trasformazione inter-dominio e l'aumentazione intra-dominio, applicati sia a livello di immagine pre-VAE che a livello di token post-VAE. A livello di immagine, incorporiamo conoscenze cross-dominio attraverso la guida di immagini prospettiche e il perfezionamento panoramico, che migliorano la qualità percettiva regolando al contempo la diversità e il fotorealismo. A livello di token, viene applicata una supervisione ibrida su più moduli, che includono il padding circolare per la continuità dei bordi, la perdita di yaw per la robustezza rotazionale e la perdita cubica per la consapevolezza della distorsione. Esperimenti estesi sui compiti di testo-a-panorama, inpainting e outpainting dimostrano che il nostro metodo raggiunge una migliore coerenza dei bordi e fedeltà dell'immagine attraverso undici metriche quantitative. Il nostro codice è disponibile all'indirizzo https://github.com/Insta360-Research-Team/DiT360.
La descrizione audiovisiva dei video mira a generare descrizioni semanticamente ricche con un allineamento temporale tra eventi visivi e uditivi, contribuendo così sia alla comprensione che alla generazione di video. In questo articolo, presentiamo AVoCaDO, un potente descrittore audiovisivo di video guidato dall'orchestrazione temporale tra le modalità audio e visiva. Proponiamo una pipeline di post-addestramento in due fasi: (1) AVoCaDO SFT, che perfeziona il modello su un nuovo dataset curato di 107K descrizioni audiovisive di alta qualità e temporalmente allineate; e (2) AVoCaDO GRPO, che sfrutta funzioni di ricompensa personalizzate per migliorare ulteriormente la coerenza temporale e l'accuratezza del dialogo, regolando al contempo la lunghezza delle descrizioni e riducendo il collasso. I risultati sperimentali dimostrano che AVoCaDO supera significativamente i modelli open-source esistenti su quattro benchmark di descrizione audiovisiva dei video e raggiunge anche prestazioni competitive sui benchmark VDC e DREAM-1K in contesti esclusivamente visivi.
Risolvere in modo efficiente problemi del mondo reale con i modelli linguistici di grandi dimensioni (LLM) dipende sempre più dalla loro capacità di interagire con ambienti web dinamici e acquisire autonomamente informazioni esterne. Sebbene ricerche recenti come Search-R1 e WebDancer dimostrino prestazioni solide nella risoluzione di attività web, si affidano pesantemente a strumenti aggiuntivi per convertire l'ambiente web interattivo in contenuti testuali statici. Questo contrasta con i comportamenti di navigazione umani, che implicano interazioni diversificate con il browser, come lo scorrimento, i clic e la digitazione. In questo articolo, proponiamo BrowserAgent, un agente più interattivo che risolve compiti complessi attraverso azioni del browser ispirate a quelle umane. BrowserAgent opera direttamente sulle pagine web grezze tramite Playwright attraverso un insieme di azioni predefinite del browser. Adottiamo un addestramento in due fasi (Supervised Fine-Tuning, SFT, e Rejection Fine-Tuning, RFT) per migliorare le capacità di generalizzazione del modello. Nonostante utilizzi una quantità di dati di addestramento significativamente inferiore rispetto a Search-R1, BrowserAgent ottiene risultati più competitivi in diverse attività di Open-QA. Inoltre, introduciamo un meccanismo di memoria esplicita per memorizzare conclusioni chiave tra i passaggi, migliorando ulteriormente le capacità di ragionamento del modello per attività a lungo termine. In particolare, BrowserAgent-7B può ottenere un miglioramento di circa il 20% rispetto a Search-R1 in attività di QA multi-hop come HotpotQA, 2Wiki e Bamboogle. Questi risultati indicano che BrowserAgent può servire come un framework più avanzato per agenti web più interattivi e scalabili.
I modelli linguistici di grandi dimensioni (LLM) mostrano un grande potenziale per compiti complessi e multi-turn che richiedono l'uso di strumenti, ma il loro sviluppo è spesso ostacolato dalla estrema scarsità di dati di addestramento di alta qualità. Il fine-tuning supervisionato (SFT) su dati sintetici porta a un overfitting, mentre il reinforcement learning (RL) standard fatica a superare un critico problema di cold-start e instabilità durante l'addestramento. Per affrontare queste sfide, introduciamo l'Environment Tuning, un nuovo paradigma di addestramento che consente agli agenti di apprendere comportamenti complessi direttamente dalle istanze del problema senza fare affidamento su traiettorie esperti pre-raccolte. L'Environment Tuning orchestra questo processo di apprendimento attraverso un curriculum strutturato, un'aumentazione dell'ambiente che fornisce feedback correttivo e ricompense di progresso granulari per garantire un'esplorazione stabile ed efficiente. Utilizzando solo 400 istanze del problema dal benchmark Berkeley Function-Calling Leaderboard (BFCL), il nostro metodo non solo raggiunge prestazioni competitive in-distribuzione rispetto a baseline solide, ma dimostra anche una generalizzazione superiore out-of-distribuzione, superando il collasso delle prestazioni comune agli approcci basati su SFT. Il nostro lavoro rappresenta un cambio di paradigma dal fine-tuning supervisionato su traiettorie statiche a un'esplorazione dinamica basata sull'ambiente, aprendo la strada all'addestramento di agenti più robusti ed efficienti dal punto di vista dei dati.
I recenti progressi nei flussi di lavoro agentici hanno reso possibile l'automazione di compiti come la generazione di documenti professionali. Tuttavia, si concentrano principalmente sulla qualità testuale, trascurando la struttura e lo stile visivo, che sono cruciali per la leggibilità e l'engagement. Questa lacuna deriva principalmente dall'assenza di modelli di ricompensa adatti a guidare i flussi di lavoro agentici verso la produzione di documenti con una qualità strutturale e stilistica più forte. Per affrontare questo problema, proponiamo DocReward, un modello di ricompensa per documenti che valuta i documenti in base alla loro struttura e stile. Costruiamo un dataset multi-dominio DocPair di 117K documenti accoppiati, che copre 32 domini e 267 tipi di documenti, ciascuno comprendente un documento ad alta e bassa professionalità con contenuto identico ma struttura e stile diversi. Ciò consente al modello di valutare la professionalità in modo completo e indipendente dalla qualità testuale. DocReward viene addestrato utilizzando la perdita di Bradley-Terry per assegnare punteggi ai documenti, penalizzando le previsioni che contraddicono la classifica annotata. Per valutare le prestazioni dei modelli di ricompensa, creiamo un dataset di test contenente gruppi di documenti classificati da valutatori umani altamente istruiti. In particolare, DocReward supera GPT-4o e GPT-5 in accuratezza rispettivamente di 30,6 e 19,4 punti percentuali, dimostrando la sua superiorità rispetto ai baseline. In una valutazione estrinseca della generazione di documenti, DocReward raggiunge un tasso di vittoria significativamente più alto del 60,8%, rispetto al 37,7% di GPT-5, dimostrando la sua utilità nel guidare gli agenti di generazione verso la produzione di documenti preferiti dagli esseri umani.
Sebbene gli agenti LLM siano in grado di pianificare compiti multi-step, intervenire nella fase di pianificazione, prima che qualsiasi azione venga eseguita, è spesso il modo più sicuro per prevenire danni, poiché alcuni rischi possono portare a conseguenze gravi una volta messi in atto. Tuttavia, le attuali misure di sicurezza operano principalmente post-esecuzione, il che è difficile da scalare e lascia poco spazio per una supervisione controllabile a livello di piano. Per affrontare questa sfida, evidenziamo tre lacune critiche nella ricerca attuale: il divario nei dati, il divario nei modelli e il divario nella valutazione. Per colmare il divario nei dati, introduciamo AuraGen, un motore controllabile che (i) sintetizza traiettorie benigne, (ii) inietta rischi etichettati per categoria con difficoltà calibrata e (iii) filtra gli output tramite un modello di ricompensa automatizzato, producendo corpora ampi e affidabili per la sicurezza pre-esecuzione. Per colmare il divario nei modelli di guardia, proponiamo un guardrail fondamentale, Safiron, che combina un adattatore cross-planner con un modello di guardia compatto. L'adattatore unifica diversi formati di input, mentre Safiron segnala i casi rischiosi, assegna i tipi di rischio e genera motivazioni; addestrato in due fasi con una ricetta di dati ampiamente esplorata, Safiron ottiene un trasferimento robusto tra diversi contesti. Per colmare il divario nella valutazione, rilasciamo Pre-Exec Bench, un benchmark realistico che copre strumenti diversi e traiettorie ramificate, che misura il rilevamento, la categorizzazione fine, la spiegazione e la generalizzazione cross-planner in scenari verificati dall'uomo. Esperimenti estensivi dimostrano guadagni consistenti del guardrail proposto rispetto a baseline forti su Pre-Exec Bench, e le ablazioni distillano ulteriormente pratiche attuabili, fornendo un modello pratico per sistemi agentici più sicuri.
Negli ultimi anni, l'attenzione della ricerca sui modelli linguistici di grandi dimensioni (LLM) e sugli agenti si è spostata sempre più dal dimostrare nuove capacità al ragionamento complesso e all'affrontare compiti impegnativi. Tuttavia, le valutazioni esistenti si concentrano principalmente su competizioni di matematica/codice o su compiti generali, mentre i benchmark accademici multi-dominio esistenti mancano di una profondità di ragionamento sufficiente, lasciando il campo privo di un benchmark rigoroso per il ragionamento di alto livello. Per colmare questa lacuna, introduciamo il benchmark Acadreason, progettato per valutare la capacità degli LLM e degli agenti di acquisire e ragionare sulla conoscenza accademica. Esso consiste in 50 problemi accademici annotati da esperti, distribuiti in cinque domini ad alto contenuto di ragionamento, tra cui informatica, economia, diritto, matematica e filosofia. Tutte le domande sono tratte da pubblicazioni di alto livello degli ultimi anni e sottoposte a un rigoroso processo di annotazione e controllo di qualità per garantire che siano sia impegnative che risolvibili. Abbiamo condotto valutazioni sistematiche su oltre 10 LLM e agenti mainstream. I risultati mostrano che la maggior parte degli LLM ha ottenuto un punteggio inferiore a 20 punti, con il più avanzato GPT-5 che ha raggiunto solo 16 punti. Sebbene gli agenti abbiano ottenuto punteggi più alti, nessuno ha superato i 40 punti. Ciò dimostra l'attuale divario di capacità tra LLM e agenti nei compiti di ricerca accademica super-intelligente e mette in evidenza le sfide di Acadreason.
Risolvere problemi matematici attraverso linguaggi verificabili come Lean ha avuto un impatto significativo sia sulla comunità matematica che su quella informatica. I modelli all'avanguardia attuali sono spesso addestrati con costosi metodi di Reinforcement Learning (RL) online o iterazione esperta. Tuttavia, questi approcci si basano su insiemi di problemi fissi, il che causa un addestramento inefficiente e limita la capacità del modello di affrontare problemi complessi. Per superare queste limitazioni, proponiamo GAR: Generative Adversarial Reinforcement learning, un framework completo di addestramento RL che allena congiuntamente il compositore di problemi e il risolutore in un ciclo avversariale. GAR introduce un meccanismo implicito di curriculum learning, che allinea la difficoltà del compito con l'abilità evolutiva del dimostratore. Ciò migliora l'efficienza dell'addestramento e consente prestazioni più robuste nella dimostrazione di teoremi avanzati. Gli esperimenti mostrano che con l'addestramento GAR, Goedel-Prover-V2-8B e DeepSeek-Prover-V2-7B ottengono un miglioramento relativo medio in pass@32 del 4,20% sul benchmark MiniF2F-Test, mentre il pass@32 di DeepSeek-Prover-V2 su ProofNet-Test aumenta dal 22,58% al 25,81%. Oltre alla dimostrazione formale, GAR stabilisce un paradigma generale di RL per la co-evoluzione della generazione e risoluzione di problemi in ambienti verificabili.
Il ragionamento matematico è un indicatore primario dell'intelligenza dei grandi modelli linguistici (LLM). Tuttavia, gli attuali LLM mostrano carenze in termini di robustezza e generalizzazione. Questo articolo attribuisce tali carenze al ragionamento spurio, ovvero alla produzione di risposte basate su caratteristiche superficiali. Per affrontare questa sfida, proponiamo il framework AdaR per abilitare un ragionamento adattivo, in cui i modelli si basano sulla logica di risoluzione dei problemi per produrre risposte. AdaR sintetizza query logicamente equivalenti variando i valori delle variabili e addestra i modelli con RLVR su questi dati per penalizzare la logica spuria mentre incoraggia la logica adattiva. Per migliorare la qualità dei dati, estraiamo la logica di risoluzione del problema dalla query originale e generiamo la risposta corrispondente tramite esecuzione di codice, applicando poi un controllo di validità. I risultati sperimentali dimostrano che AdaR migliora la robustezza e la generalizzazione, ottenendo un sostanziale miglioramento nel ragionamento matematico mantenendo un'elevata efficienza dei dati. L'analisi indica che la sintesi dei dati e RLVR funzionano in modo coordinato per abilitare il ragionamento adattivo nei LLM. Le analisi successive derivano intuizioni chiave sul design riguardo all'effetto di fattori critici e all'applicabilità per istruire i LLM. Il nostro progetto è disponibile all'indirizzo https://github.com/LaiZhejian/AdaR.
La complessità dei Principi Contabili Generalmente Accettati (GAAP) e la struttura gerarchica dei documenti eXtensible Business Reporting Language (XBRL) rendono sempre più difficile automatizzare e verificare l'audit finanziario. Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato capacità avanzate nella comprensione di testi non strutturati, la loro abilità di ragionare su documenti finanziari strutturati, interdipendenti e guidati da tassonomie rimane in gran parte inesplorata. Per colmare questa lacuna, introduciamo FinAuditing, il primo benchmark allineato alla tassonomia, consapevole della struttura e multi-documento per valutare gli LLM su compiti di audit finanziario. Costruito a partire da documenti XBRL reali conformi agli US-GAAP, FinAuditing definisce tre sottotask complementari: FinSM per la coerenza semantica, FinRE per la coerenza relazionale e FinMR per la coerenza numerica, ciascuno mirato a un aspetto distinto del ragionamento strutturato nell'audit. Proponiamo inoltre un framework di valutazione unificato che integra metriche di recupero, classificazione e ragionamento attraverso questi sottotask. Esperimenti zero-shot su 13 LLM all'avanguardia rivelano che i modelli attuali mostrano prestazioni incoerenti nelle dimensioni semantiche, relazionali e matematiche, con cali di accuratezza fino al 60-90% quando si ragiona su strutture multi-documento gerarchiche. I nostri risultati evidenziano le limitazioni sistematiche dei moderni LLM nel ragionamento finanziario basato su tassonomie e stabiliscono FinAuditing come base per lo sviluppo di sistemi di intelligenza finanziaria affidabili, consapevoli della struttura e allineati alle normative. Il dataset del benchmark è disponibile su Hugging Face.
Sebbene una significativa ricerca si sia concentrata sullo sviluppo di capacità di ragionamento incarnato utilizzando modelli visione-linguaggio (VLMs) o sull'integrazione di VLMs avanzati in modelli visione-linguaggio-azione (VLA) per il controllo end-to-end dei robot, pochi studi affrontano direttamente il divario critico tra il ragionamento basato su VLMs a monte e l'apprendimento delle politiche VLA a valle. In questo lavoro, compiamo un primo passo verso il collegamento del ragionamento incarnato con l'apprendimento delle politiche VLA introducendo Vlaser - un modello visione-linguaggio-azione con capacità di ragionamento incarnato sinergico, che è un modello fondamentale visione-linguaggio progettato per integrare il ragionamento di alto livello con il controllo di basso livello per agenti incarnati. Basato sul dataset di alta qualità Vlaser-6M, Vlaser raggiunge prestazioni all'avanguardia in una gamma di benchmark di ragionamento incarnato, tra cui ragionamento spaziale, grounding incarnato, QA incarnato e pianificazione di compiti. Inoltre, esaminiamo sistematicamente come diverse inizializzazioni di VLMs influenzino la messa a punto supervisionata di VLA, offrendo nuove intuizioni per mitigare lo spostamento di dominio tra i dati di pre-addestramento su scala internet e i dati specifici per l'apprendimento di politiche incarnate. Sulla base di queste intuizioni, il nostro approccio ottiene risultati all'avanguardia sul benchmark WidowX e prestazioni competitive sul benchmark Google Robot.
I modelli multimodali unificati integrano la capacità di ragionamento dei grandi modelli linguistici con la comprensione e la generazione di immagini, dimostrando un grande potenziale per l'intelligenza multimodale avanzata. Tuttavia, la comunità manca ancora di un benchmark rigoroso e centrato sul ragionamento per valutare sistematicamente l'allineamento tra comprensione e generazione, nonché il loro potenziale di generalizzazione in compiti visivi complessi. A tal fine, introduciamo GIR-Bench, un benchmark completo che valuta i modelli unificati secondo tre prospettive complementari. In primo luogo, indaghiamo la coerenza tra comprensione e generazione (GIR-Bench-UGC), chiedendoci se i modelli possano sfruttare in modo coerente le stesse conoscenze sia nei compiti di comprensione che di generazione. In secondo luogo, esaminiamo se i modelli siano in grado di eseguire una generazione di immagini da testo centrata sul ragionamento, che richiede l'applicazione di vincoli logici e conoscenze implicite per produrre contenuti visivi fedeli (GIR-Bench-T2I). In terzo luogo, valutiamo se i modelli possano gestire il ragionamento a più passi nell'editing (GIR-Bench-Edit). Per ciascun sottoinsieme, progettiamo con cura diverse pipeline di valutazione specifiche per il compito, adattate a ciascuna attività. Ciò consente una valutazione granulare e interpretabile, mitigando al contempo i bias derivanti dal paradigma prevalente MLLM-as-a-Judge. Estese analisi su vari modelli unificati e sistemi di sola generazione hanno dimostrato che: sebbene i modelli unificati siano più capaci nei compiti visivi guidati dal ragionamento, mostrano ancora un divario persistente tra comprensione e generazione. I dati e il codice per GIR-Bench sono disponibili all'indirizzo https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
I recenti modelli Text-to-Video (T2V) hanno dimostrato una potente capacità nella simulazione visiva della geometria e delle leggi fisiche del mondo reale, indicando il loro potenziale come modelli impliciti del mondo. Ispirati da ciò, esploriamo la fattibilità di sfruttare il precedente della generazione video per la pianificazione del punto di vista a partire da scene 4D fornite, poiché i video internamente accompagnano scene dinamiche con punti di vista naturali. A tal fine, proponiamo un paradigma in due fasi per adattare i modelli T2V pre-addestrati alla previsione del punto di vista, in modo compatibile. In primo luogo, iniettiamo la rappresentazione della scena 4D nel modello T2V pre-addestrato tramite un ramo di apprendimento adattivo, dove la scena 4D è indipendente dal punto di vista e il video generato condizionatamente incorpora visivamente i punti di vista. Successivamente, formuliamo l'estrazione del punto di vista come un processo di denoising estrinseco della camera guidato da condizioni ibride. Nello specifico, un ramo di diffusione estrinseca della camera viene ulteriormente introdotto sul modello T2V pre-addestrato, prendendo come input il video generato e la scena 4D. I risultati sperimentali mostrano la superiorità del nostro metodo proposto rispetto ai concorrenti esistenti, e gli studi di ablazione convalidano l'efficacia dei nostri principali disegni tecnici. In una certa misura, questo lavoro dimostra il potenziale dei modelli di generazione video verso l'interazione 4D nel mondo reale.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) stanno emergendo come un'alternativa efficiente ai modelli autoregressivi grazie alla loro capacità di decodificare più token in parallelo. Tuttavia, allineare i dLLM con le preferenze umane o con ricompense specifiche per il compito tramite apprendimento per rinforzo (RL) è impegnativo poiché la loro log-verosimiglianza intrattabile preclude l'applicazione diretta dei metodi standard del gradiente della politica. Sebbene lavori precedenti utilizzino approssimazioni unilaterali come il limite inferiore dell'evidenza (ELBO), queste approssimazioni possono introdurre un significativo bias nel gradiente della politica. Per affrontare questo problema, proponiamo il Gradiente della Politica a Sandwich (SPG) che sfrutta sia un limite superiore che un limite inferiore della vera log-verosimiglianza. Gli esperimenti dimostrano che SPG supera significativamente i metodi di riferimento basati su ELBO o stime a un passo. In particolare, SPG migliora l'accuratezza rispetto ai metodi RL all'avanguardia per i dLLM del 3,6% in GSM8K, del 2,6% in MATH500, del 18,4% in Countdown e del 27,0% in Sudoku.
I grandi modelli visione-linguaggio (LVLM), che integrano un encoder visivo (VE) con un grande modello linguistico, hanno ottenuto un notevole successo in vari compiti. Tuttavia, permangono sfide cruciali nei LVLM, come l'allucinazione di oggetti, ovvero la generazione di descrizioni di oggetti che non sono presenti nell'immagine di input. In questo lavoro, sosteniamo che i token visivi incerti all'interno del VE siano un fattore chiave che contribuisce all'allucinazione di oggetti. La nostra analisi statistica ha rilevato che esistono correlazioni positive tra i token visivi con un'elevata incertezza epistemica e l'occorrenza di allucinazioni. Inoltre, dimostriamo sia teoricamente che empiricamente che i token visivi negli strati iniziali del VE che presentano grandi deviazioni di rappresentazione sotto piccole perturbazioni avversarie indicano un'elevata incertezza epistemica. Sulla base di questi risultati, proponiamo una strategia semplice ma efficace per mitigare l'allucinazione di oggetti modificando solo il VE. Il nostro metodo comprende un metodo proxy con perturbazioni avversarie per identificare in modo efficiente i token visivi incerti e un metodo per mascherare questi token visivi incerti durante il processo di self-attention negli strati intermedi del VE, sopprimendo la loro influenza sulla codifica visiva e quindi alleviando le allucinazioni. Esperimenti estesi dimostrano che il nostro metodo riduce significativamente le allucinazioni di oggetti nei LVLM e può funzionare in sinergia con altre tecniche precedenti.
I recenti progressi nei Modelli Linguistici di Grande Scala (LLMs) e nei Modelli Linguistico-Visuali (VLMs) hanno mostrato significativi miglioramenti nel ragionamento matematico, ma continuano a incontrare un collo di bottiglia critico con problemi che richiedono assistenza visiva, come il tracciamento di linee ausiliarie o la rappresentazione grafica di funzioni per risolvere i problemi. La maggior parte degli LLMs e VLMs è limitata a catene di ragionamento basate esclusivamente sul testo, mentre i modelli unificati multimodali in grado di generare testo e immagini intercalati mancano della precisione e della controllabilità necessarie per tali compiti. Per affrontare questa sfida, proponiamo CodePlot-CoT, un paradigma di Catena di Pensiero (Chain-of-Thought) guidato dal codice per "pensare con le immagini" in matematica. Il nostro approccio sfrutta il VLM per generare ragionamenti testuali e codice eseguibile per la rappresentazione grafica, che viene poi convertito in immagini come "pensiero visivo", per risolvere problemi matematici. Per raggiungere questo obiettivo, abbiamo prima costruito Math-VR, il primo dataset e benchmark su larga scala e bilingue per problemi di matematica con ragionamento visivo, composto da 178K campioni. In secondo luogo, per creare dati di addestramento di alta qualità, abbiamo sviluppato un convertitore immagine-codice all'avanguardia specializzato nell'analisi di figure matematiche complesse in codice. Infine, utilizzando questi dati di addestramento, abbiamo addestrato il modello CodePlot-CoT per risolvere problemi matematici. I risultati sperimentali mostrano che il nostro modello raggiunge un incremento fino al 21% rispetto al modello base sul nostro nuovo benchmark, convalidando pienamente l'efficacia del nostro paradigma di ragionamento guidato dal codice. Il nostro lavoro apre una nuova direzione per il ragionamento matematico multimodale e fornisce alla comunità il primo dataset su larga scala, un benchmark completo e un approccio solido per tali problemi. Per facilitare la ricerca futura, rendiamo pubblicamente disponibili i nostri dataset, codice e modelli pre-addestrati all'indirizzo https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato notevoli capacità di ragionamento. Tuttavia, i framework multi-agente esistenti spesso si basano su ruoli fissi o su un controllo centralizzato, limitando la scalabilità e l'adattabilità nel ragionamento a lungo termine. Introduciamo SwarmSys, un framework a ciclo chiuso per il ragionamento multi-agente distribuito ispirato all'intelligenza di sciame. La coordinazione in SwarmSys emerge attraverso interazioni iterative tra tre ruoli specializzati, Esploratori, Lavoratori e Validatori, che ciclicamente passano attraverso fasi di esplorazione, sfruttamento e validazione. Per abilitare una collaborazione scalabile e adattiva, integriamo profili adattivi di agenti ed eventi, un matching probabilistico basato su embedding e un meccanismo di rinforzo ispirato ai feromoni, supportando l'allocazione dinamica dei compiti e la convergenza auto-organizzante senza supervisione globale. In compiti di ragionamento simbolico, sintesi di ricerca e programmazione scientifica, SwarmSys supera costantemente i benchmark, migliorando sia l'accuratezza che la stabilità del ragionamento. Questi risultati evidenziano la coordinazione ispirata allo sciame come un paradigma promettente per il ragionamento multi-agente scalabile, robusto e adattivo, suggerendo che la scalabilità della coordinazione potrebbe rivaleggiare con la scalabilità del modello nel far progredire l'intelligenza degli LLM.
Proponiamo Stable Video Infinity (SVI), in grado di generare video di lunghezza infinita con elevata coerenza temporale, transizioni di scena plausibili e trame streaming controllabili. Mentre i metodi esistenti per video lunghi cercano di mitigare gli errori accumulati attraverso tecniche anti-deriva artigianali (ad esempio, schedulatori di rumore modificati, ancoraggio dei frame), rimangono limitati all'estrapolazione a singolo prompt, producendo scene omogenee con movimenti ripetitivi. Identifichiamo che la sfida fondamentale va oltre l'accumulo di errori, estendendosi a una discrepanza critica tra l'assunzione di training (vedere dati puliti) e la realtà autoregressiva al momento del test (condizionamento su output auto-generati e soggetti a errori). Per colmare questo divario ipotetico, SVI incorpora l'Error-Recycling Fine-Tuning, un nuovo tipo di training efficiente che ricicla gli errori auto-generati dal Diffusion Transformer (DiT) in prompt di supervisione, incoraggiando così il DiT a identificare e correggere attivamente i propri errori. Ciò è ottenuto iniettando, raccogliendo e memorizzando gli errori attraverso un riciclo a ciclo chiuso, apprendendo autoregressivamente dal feedback con errori iniettati. Nello specifico, (i) iniettiamo errori storici commessi dal DiT per intervenire su input puliti, simulando traiettorie con errori accumulati nel flow matching; (ii) approssimiamo efficientemente le previsioni con integrazione bidirezionale a un passo e calcoliamo gli errori con i residui; (iii) memorizziamo dinamicamente gli errori in una memoria di replay attraverso passaggi temporali discretizzati, che vengono ricampionati per nuovi input. SVI è in grado di scalare video da secondi a durate infinite senza costi aggiuntivi di inferenza, rimanendo compatibile con diverse condizioni (ad esempio, flussi audio, scheletro e testo). Valutiamo SVI su tre benchmark, inclusi contesti coerenti, creativi e condizionali, verificando approfonditamente la sua versatilità e il ruolo all'avanguardia.
La scalabilità dell'apprendimento robotico è fondamentalmente limitata dal costo significativo e dalla laboriosità della raccolta di dati nel mondo reale. Sebbene i dati simulati offrano un'alternativa scalabile, spesso non riescono a generalizzare al mondo reale a causa di significative discrepanze nell'aspetto visivo, nelle proprietà fisiche e nelle interazioni con gli oggetti. Per affrontare questo problema, proponiamo RoboSimGS, un nuovo framework Real2Sim2Real che converte immagini multi-vista del mondo reale in ambienti di simulazione scalabili, ad alta fedeltà e fisicamente interattivi per la manipolazione robotica. Il nostro approccio ricostruisce le scene utilizzando una rappresentazione ibrida: il 3D Gaussian Splatting (3DGS) cattura l'aspetto fotorealistico dell'ambiente, mentre le primitive mesh per gli oggetti interattivi garantiscono una simulazione fisica accurata. In modo cruciale, siamo i primi a utilizzare un Modello Linguistico Multimodale di Grande Dimensione (MLLM) per automatizzare la creazione di asset articolati e fisicamente plausibili. L'MLLM analizza i dati visivi per dedurre non solo le proprietà fisiche (ad esempio, densità, rigidità) ma anche le strutture cinematiche complesse (ad esempio, cerniere, guide scorrevoli) degli oggetti. Dimostriamo che le politiche addestrate interamente su dati generati da RoboSimGS raggiungono un trasferimento sim-to-real di successo in un'ampia gamma di compiti di manipolazione nel mondo reale. Inoltre, i dati di RoboSimGS migliorano significativamente le prestazioni e le capacità di generalizzazione dei metodi SOTA. I nostri risultati convalidano RoboSimGS come una soluzione potente e scalabile per colmare il divario sim-to-real.
I recenti modelli basati su transformer per il recupero della mesh umana 3D (HMR) hanno ottenuto prestazioni solide, ma spesso soffrono di un elevato costo computazionale e complessità a causa di architetture transformer profonde e token ridondanti. In questo articolo, introduciamo due strategie di fusione specifiche per HMR: Error-Constrained Layer Merging (ECLM) e Mask-guided Token Merging (Mask-ToMe). L'ECLM seleziona e fonde in modo selettivo i livelli del transformer che hanno un impatto minimo sull'errore medio di posizione per giunto (MPJPE), mentre il Mask-ToMe si concentra sulla fusione dei token di sfondo che contribuiscono poco alla previsione finale. Per affrontare ulteriormente il potenziale calo delle prestazioni causato dalla fusione, proponiamo un decoder basato su diffusione che incorpora il contesto temporale e sfrutta i priori di posa appresi da ampi dataset di motion capture. Gli esperimenti su più benchmark dimostrano che il nostro metodo raggiunge un'accelerazione fino a 2,3x migliorando leggermente le prestazioni rispetto alla baseline.
Mentre i Large Language Model (LLM) eccellono nella generazione di codice algoritmico, incontrano difficoltà nello sviluppo front-end, dove la correttezza è valutata in base ai pixel renderizzati e all'interazione. Presentiamo ReLook, un framework di reinforcement learning agentico e basato sulla visione che consente a un agente di chiudere un robusto ciclo di generazione-diagnosi-affinamento utilizzando un Multimodal LLM (MLLM) come strumento. Durante l'addestramento, l'agente utilizza l'MLLM-in-the-loop sia come critico visivo—assegnando punteggi al codice con screenshot—sia come fonte di feedback azionabile e basato sulla visione; una regola rigorosa di zero ricompensa per rendering non validi garantisce la renderizzabilità e previene il reward hacking. Per evitare il collasso comportamentale, introduciamo l'Optimizzazione Forzata, una regola di accettazione rigorosa che ammette solo revisioni migliorative, producendo traiettorie monotonicamente migliori. Durante l'inferenza, disaccoppiamo il critico e eseguiamo un ciclo di auto-modifica leggero e privo di critico, mantenendo una latenza comparabile alla decodifica di base mentre conserviamo la maggior parte dei guadagni. Su tre benchmark ampiamente utilizzati, ReLook supera costantemente i baseline forti nella generazione di codice front-end basato sulla visione, evidenziando i vantaggi della percezione agentica, delle ricompense visive e del disaccoppiamento tra addestramento e inferenza.
Un paradigma di fine-tuning dei modelli linguistici (LM) si basa sulla creazione di grandi dataset di addestramento, presupponendo che quantità e diversità elevate consentano ai modelli di generalizzare su nuovi compiti dopo il post-training. Nella pratica, raccogliere grandi quantità di dati è inefficiente e addestrarli è proibitivamente costoso; peggio ancora, non vi è alcuna garanzia che il modello risultante gestisca scenari complessi o generalizzi meglio. Inoltre, le tecniche esistenti raramente valutano se un campione di addestramento fornisca informazioni nuove o sia ridondante rispetto alle conoscenze già acquisite dal modello, portando a costi non necessari. In questo lavoro, esploriamo un nuovo metodo di auto-miglioramento al momento del test per creare LM agentivi più efficaci e generalizzabili in tempo reale. L'algoritmo proposto può essere riassunto in tre passaggi: (i) prima identifica i campioni con cui il modello ha difficoltà (auto-consapevolezza), (ii) poi genera esempi simili dai campioni incerti rilevati (auto-aumento dei dati), e (iii) utilizza questi nuovi campioni generati per il fine-tuning al momento del test (auto-miglioramento). Studiamo due varianti di questo approccio: Auto-Miglioramento al Momento del Test (TT-SI), in cui lo stesso modello genera ulteriori esempi di addestramento dai propri casi incerti e poi impara da essi, e confrontiamo questo approccio con la Distillazione al Momento del Test (TT-D), in cui un modello più forte genera esempi simili per i casi incerti, consentendo allo studente di adattarsi utilizzando una supervisione distillata. Le valutazioni empiriche su diversi benchmark agentivi dimostrano che TT-SI migliora le prestazioni con un guadagno medio di accuratezza assoluta del +5,48% su tutti i benchmark e supera altri metodi di apprendimento standard, utilizzando però 68 volte meno campioni di addestramento. I nostri risultati evidenziano le potenzialità di TT-SI, dimostrando il potenziale degli algoritmi di auto-miglioramento al momento del test come nuovo paradigma per costruire agenti più capaci verso l'auto-evoluzione.
I modelli linguistici spesso mostrano scarsi o nulli miglioramenti (cioè, "saturazione") quando vengono addestrati tramite il classico fine-tuning supervisionato (SFT) su dati simili a quelli visti nel loro set di addestramento (ad esempio, MATH). Introduciamo una nuova strategia di fine-tuning, STAT, per addestrare un modello studente sfruttando la capacità di metacognizione di un modello linguistico di grandi dimensioni (LLM) più potente come insegnante. L'insegnante utilizza il dataset del compito per creare un elenco di competenze necessarie per il compito, e poi etichetta ogni punto dati con le competenze richieste (Didolkar et al., 2024). Monitorando le risposte dello studente, l'insegnante crea un Profilo delle Competenze Mancanti per lo studente, tenendo traccia di quante volte non ha applicato ciascuna competenza nelle sue risposte. Utilizziamo questa idea per costruire un set di addestramento modificato in uno dei due modi. In STAT-Sel, l'insegnante utilizza un set esistente di esempi di addestramento ma li ripesa in modo adattivo in base al Profilo delle Competenze Mancanti. In STAT-Syn, l'insegnante sintetizza ulteriori esempi che coinvolgono le competenze mancanti. Attraverso esperimenti estesi sui modelli Llama e Qwen, i nostri metodi producono miglioramenti fino al 7,5% su MATH, mentre l'SFT offre solo guadagni limitati. Inoltre, STAT migliora le prestazioni su benchmark fuori distribuzione (ad esempio, AIME24/25, AMC23, ecc.) in media del 4,6%. È cruciale notare che STAT è complementare all'RL tramite GRPO (Shao et al., 2024): dopo che il modello è stato migliorato utilizzando STAT per colmare le lacune di competenza, GRPO continua ad apportare ulteriori miglioramenti. Concludiamo che l'addestramento adattivo mirato alle competenze dovrebbe migliorare ampiamente le pipeline di addestramento attuali. Il nostro codice è disponibile all'indirizzo: https://github.com/princeton-pli/STAT.
Come dovremmo valutare la robustezza delle difese dei modelli linguistici? Le attuali difese contro i jailbreak e le iniezioni di prompt (che mirano a impedire a un attaccante di elicitare conoscenze dannose o di attivare azioni malevole da remoto, rispettivamente) sono tipicamente valutate o contro un insieme statico di stringhe di attacco dannose, o contro metodi di ottimizzazione computazionalmente deboli che non sono stati progettati tenendo conto della difesa. Sosteniamo che questo processo di valutazione sia imperfetto. Invece, dovremmo valutare le difese contro attaccanti adattivi che modificano esplicitamente la loro strategia di attacco per contrastare il design della difesa, investendo risorse considerevoli per ottimizzare il loro obiettivo. Ottimizzando e scalando sistematicamente tecniche generali di ottimizzazione—discesa del gradiente, apprendimento per rinforzo, ricerca casuale ed esplorazione guidata dall'uomo—superiamo 12 difese recenti (basate su un insieme diversificato di tecniche) con un tasso di successo dell'attacco superiore al 90% nella maggior parte dei casi; in modo significativo, la maggior parte delle difese aveva originariamente riportato tassi di successo dell'attacco vicini allo zero. Crediamo che i futuri lavori sulle difese debbano considerare attacchi più potenti, come quelli che descriviamo, per poter affermare in modo affidabile e convincente la robustezza delle difese.
Il confronto tra le prestazioni umane e quelle dei modelli offre una prospettiva preziosa per comprendere i punti di forza e i limiti dei modelli di embedding, evidenziando dove riescono a cogliere il significato e le sfumature e dove invece falliscono. Tuttavia, tali confronti sono raramente effettuati, poiché le prestazioni umane nei compiti di embedding sono difficili da misurare. Per colmare questa lacuna, introduciamo HUME: Human Evaluation Framework for Text Embeddings. Mentre framework come MTEB forniscono una valutazione ampia dei modelli, mancano di stime affidabili delle prestazioni umane, limitando l'interpretabilità dei punteggi dei modelli. Misuriamo le prestazioni umane su 16 dataset MTEB che coprono attività di reranking, classificazione, clustering e similarità semantica testuale in lingue ad alta e bassa risorsa linguisticamente diverse. Gli esseri umani raggiungono una prestazione media del 77,6% rispetto all'80,1% del miglior modello di embedding, sebbene la variazione sia significativa: i modelli raggiungono prestazioni quasi massimali su alcuni dataset mentre faticano su altri, suggerendo problemi nei dataset e rivelando carenze nelle lingue a bassa risorsa. Forniamo baseline delle prestazioni umane, approfondimenti sui modelli di difficoltà dei task e un framework di valutazione estensibile che consente un'interpretazione più significativa del modello e informa lo sviluppo sia dei modelli che dei benchmark. Il nostro codice, dataset e leaderboard sono disponibili pubblicamente all'indirizzo https://github.com/embeddings-benchmark/mteb.
I Large Reasoning Models (LRM) hanno ottenuto prestazioni impressionanti su compiti di ragionamento complesso generando spiegazioni dettagliate a catena di pensiero (Chain-of-Thought, CoT). Tuttavia, queste risposte sono spesso eccessivamente lunghe, contenendo passaggi di ragionamento ridondanti che aumentano i costi di inferenza e riducono l'usabilità. Controllare la lunghezza del ragionamento generato senza sacrificare l'accuratezza rimane una sfida aperta. Attraverso un'analisi empirica sistematica, riveliamo una correlazione positiva costante tra l'entropia del modello e la lunghezza della risposta in diverse fasi del ragionamento tra vari LRM: la fase di pensiero mostra un'entropia più alta, riflettendo un comportamento esplorativo con risposte più lunghe, mentre la fase della risposta finale presenta un'entropia più bassa, indicando una soluzione più deterministica. Questa osservazione suggerisce che l'entropia nelle diverse fasi del ragionamento può fungere da leva di controllo per bilanciare concisione e prestazioni. Basandoci su questa intuizione, questo articolo introduce il Phase Entropy Aware Reward (PEAR), un meccanismo di ricompensa che incorpora l'entropia dipendente dalla fase nel design della ricompensa. Invece di trattare tutti i token in modo uniforme, PEAR penalizza l'entropia eccessiva durante la fase di pensiero e consente un'esplorazione moderata nella fase della risposta finale, incoraggiando i modelli a generare tracce di ragionamento concise che mantengono sufficiente flessibilità per risolvere correttamente il compito. Ciò consente un controllo adattivo della lunghezza della risposta senza fare affidamento su obiettivi di lunghezza espliciti o regole di troncamento rigide. Esperimenti estesi su quattro benchmark dimostrano che PEAR riduce costantemente la lunghezza della risposta mantenendo un'accuratezza competitiva su diverse scale di modelli. Inoltre, PEAR dimostra una forte robustezza out-of-distribution (OOD) oltre la distribuzione di addestramento. Il nostro codice è disponibile all'indirizzo: https://github.com/iNLP-Lab/PEAR.
Quando un assistente AI ricorda che Sarah è una madre single che lavora due lavori, interpreta il suo stress in modo diverso rispetto a se fosse una dirigente benestante? Man mano che i sistemi AI personalizzati incorporano sempre più la memoria a lungo termine degli utenti, comprendere come questa memoria influenzi il ragionamento emotivo è cruciale. Indaghiamo come la memoria dell'utente influenzi l'intelligenza emotiva nei grandi modelli linguistici (LLM) valutando 15 modelli su test di intelligenza emotiva validati da esseri umani. Scopriamo che scenari identici associati a profili utente diversi producono interpretazioni emotive sistematicamente divergenti. Attraverso scenari emotivi indipendenti dall'utente validati e profili utente diversi, sono emersi pregiudizi sistematici in diversi LLM ad alte prestazioni, dove i profili avvantaggiati ricevevano interpretazioni emotive più accurate. Inoltre, i LLM mostrano disparità significative nei fattori demografici nelle attività di comprensione delle emozioni e di raccomandazioni di supporto, indicando che i meccanismi di personalizzazione possono incorporare gerarchie sociali nel ragionamento emotivo dei modelli. Questi risultati evidenziano una sfida chiave per l'AI potenziata dalla memoria: i sistemi progettati per la personalizzazione possono involontariamente rafforzare le disuguaglianze sociali.
La comprensione intuitiva della fisica nei modelli di diffusione video svolge un ruolo essenziale nella costruzione di simulatori mondiali fisicamente plausibili e di uso generale. Tuttavia, valutare con precisione tale capacità rimane un compito impegnativo a causa della difficoltà nel distinguere la correttezza fisica dall'aspetto visivo nella generazione. A tal fine, introduciamo LikePhys, un metodo senza addestramento che valuta la fisica intuitiva nei modelli di diffusione video distinguendo video fisicamente validi e impossibili utilizzando l'obiettivo di denoising come surrogato della verosimiglianza basato su ELBO su un dataset curato di coppie valide-invalide. Testando sul nostro benchmark costruito di dodici scenari che coprono quattro domini fisici, dimostriamo che la nostra metrica di valutazione, l'Errore di Preferenza di Plausibilità (PPE), mostra una forte allineamento con le preferenze umane, superando i valutatori di stato dell'arte. Successivamente, eseguiamo un benchmark sistematico della comprensione intuitiva della fisica nei modelli di diffusione video attuali. Il nostro studio analizza ulteriormente come il design del modello e le impostazioni di inferenza influenzano la comprensione intuitiva della fisica e mette in evidenza variazioni di capacità specifiche per dominio attraverso le leggi fisiche. I risultati empirici mostrano che, nonostante i modelli attuali abbiano difficoltà con dinamiche complesse e caotiche, c'è una chiara tendenza al miglioramento nella comprensione della fisica man mano che la capacità del modello e le impostazioni di inferenza aumentano.
Generare avatar umani 3D realistici e controllabili rappresenta una sfida di lunga data, in particolare quando si coprono ampi intervalli di attributi come etnia, età, stili di abbigliamento e forme corporee dettagliate. Acquisire e annotare dataset umani su larga scala per addestrare modelli generativi è proibitivamente costoso e limitato in termini di scala e diversità. La domanda centrale che affrontiamo in questo articolo è: È possibile distillare modelli di base esistenti per generare dati umani 3D teoricamente illimitati e riccamente annotati? Introduciamo InfiniHuman, un framework che sinergicamente distilla questi modelli per produrre dati umani riccamente annotati a costi minimi e con una scalabilità teoricamente illimitata. Proponiamo InfiniHumanData, una pipeline completamente automatica che sfrutta modelli di visione-linguaggio e generazione di immagini per creare un dataset multi-modale su larga scala. Uno studio con utenti dimostra che le identità generate automaticamente sono indistinguibili dalle renderizzazioni di scansioni. InfiniHumanData contiene 111K identità che coprono una diversità senza precedenti. Ogni identità è annotata con descrizioni testuali multi-granularità, immagini RGB multi-vista, immagini dettagliate dell'abbigliamento e parametri di forma corporea SMPL. Basandoci su questo dataset, proponiamo InfiniHumanGen, una pipeline generativa basata su diffusione condizionata da testo, forma corporea e asset di abbigliamento. InfiniHumanGen consente una generazione rapida, realistica e precisamente controllabile di avatar. Esperimenti estensivi dimostrano miglioramenti significativi rispetto ai metodi all'avanguardia in termini di qualità visiva, velocità di generazione e controllabilità. Il nostro approccio abilita la generazione di avatar di alta qualità con un controllo fine a una scala effettivamente illimitata attraverso una soluzione pratica e accessibile. Rilasceremo pubblicamente la pipeline automatica di generazione dati, il dataset completo InfiniHumanData e i modelli InfiniHumanGen su https://yuxuan-xue.com/infini-human.
I modelli generativi costituiscono la spina dorsale del moderno machine learning, supportando sistemi all'avanguardia in applicazioni di testo, visione e multimodalità. Sebbene la Massima Verosimiglianza (Maximum Likelihood Estimation) sia tradizionalmente servita come paradigma di addestramento dominante, lavori recenti ne hanno evidenziato i limiti, in particolare nella generalizzazione e nella suscettibilità alla dimenticanza catastrofica rispetto a tecniche di Apprendimento per Rinforzo, come i metodi a Gradiente della Politica (Policy Gradient). Tuttavia, questi approcci dipendono da segnali di ricompensa espliciti, spesso non disponibili nella pratica, lasciando aperto il problema fondamentale di come allineare i modelli generativi quando sono accessibili solo dataset di alta qualità. In questo lavoro, affrontiamo questa sfida attraverso un framework di Ottimizzazione Bilevel, in cui la funzione di ricompensa viene trattata come variabile di ottimizzazione di un problema di livello esterno, mentre un obiettivo a Gradiente della Politica definisce il livello interno. Successivamente, conduciamo un'analisi teorica di questo problema di ottimizzazione in un contesto trattabile ed estraiamo intuizioni che, come dimostriamo, si generalizzano ad applicazioni come la classificazione tabellare e l'apprendimento per rinforzo basato su modelli. Rilasciamo il codice all'indirizzo https://github.com/abenechehab/nll_to_po.
I modelli di fondazione visiva pre-addestrati (VFMs) avanzano l'apprendimento robotico attraverso rappresentazioni visive ricche, tuttavia i singoli VFMs tipicamente eccellono solo in domini specifici, limitando la generalità tra i compiti. Distillare più VFMs in una rappresentazione unificata per la politica può mitigare questa limitazione, ma spesso produce una selezione di caratteristiche specifiche per il compito poco flessibile e richiede un costoso ri-addestramento completo per incorporare conoscenze del dominio robotico. Proponiamo VER, un trasformatore Vision Expert per l'apprendimento robotico. Durante il pre-addestramento, VER distilla più VFMs in una libreria di esperti visivi. Successivamente, fine-tune solo una rete di routing leggera (meno dello 0,4% dei parametri) per selezionare dinamicamente esperti rilevanti per il compito dalla libreria pre-addestrata per i compiti robotici downstream. Introduciamo inoltre il Patchwise Expert Routing con Curriculum Top-K Annealing per migliorare sia la flessibilità che la precisione della selezione dinamica degli esperti. Inoltre, VER supporta il fine-tuning efficiente in termini di parametri per un utilizzo scalabile degli esperti e un'integrazione adattiva delle conoscenze del dominio robotico. Su 17 compiti robotici diversi e più teste di politica, VER raggiunge prestazioni all'avanguardia. Troviamo che VER riduce gli outlier a grande norma nelle regioni irrilevanti per il compito (ad esempio, lo sfondo) e si concentra sulle regioni critiche per il compito. Visualizzazioni e codici sono disponibili su https://yixiaowang7.github.io/ver_page/.
I dati di pre-addestramento di alta qualità sono il combustibile fossile dei grandi modelli linguistici (LLM), ma le loro riserve si stanno esaurendo per i modelli all'avanguardia. In questo articolo, introduciamo RePro, un nuovo metodo di riciclaggio web che addestra un modello linguistico relativamente piccolo con apprendimento per rinforzo per generare riformulazioni efficaci e fedeli dei dati di pre-addestramento. Nello specifico, progettiamo una ricompensa per la qualità e tre ricompense per la fedeltà, ottimizzando il modello linguistico riformulatore per convertire dati organici in riformulazioni di alta qualità mantenendone la semantica e la struttura principali. Nel nostro esperimento, addestriamo un riformulatore da 4B per riciclare 72B token campionati da DCLM-RefinedWeb. I risultati del pre-addestramento su modelli da 400M e 1.4B dimostrano che RePro fornisce un miglioramento relativo dell'accuratezza del 4.7%-14.0% rispetto alla baseline con soli dati organici su 22 task downstream. RePro supera anche ReWire, il metodo di riciclaggio web all'avanguardia che utilizza un riformulatore da 70B, così come la baseline con dati organici con un pool di dati 4 volte più grande. Esperimenti con diverse quantità di dati riciclati evidenziano che RePro migliora l'efficienza dei dati organici di 2-3 volte. Analisi individuali e distribuzionali confermano che RePro preserva più informazioni critiche e riflette fedelmente le caratteristiche dei dati organici rispetto ai metodi basati su prompt. Insieme, questi risultati mostrano che RePro fornisce un percorso efficiente e controllabile per sfruttare efficacemente il combustibile fossile del pre-addestramento degli LLM. Rendiamo disponibili il nostro codice, il riformulatore e i dati riciclati all'indirizzo https://github.com/cxcscmu/RePro.
I meccanismi di reazione organica sono le reazioni elementari graduali attraverso le quali i reagenti formano intermedi e prodotti, e sono fondamentali per comprendere la reattività chimica e progettare nuove molecole e reazioni. Sebbene i grandi modelli linguistici (LLM) abbiano mostrato promettenti capacità nel comprendere compiti chimici come la progettazione di sintesi, non è chiaro fino a che punto ciò rifletta una genuina capacità di ragionamento chimico, ovvero la capacità di generare intermedi validi, mantenere la coerenza chimica e seguire percorsi multi-step logicamente coerenti. Affrontiamo questo problema introducendo oMeBench, il primo benchmark su larga scala, curato da esperti, per il ragionamento sui meccanismi organici in chimica organica. Esso comprende oltre 10.000 passaggi meccanicistici annotati con intermedi, etichette di tipo e valutazioni di difficoltà. Inoltre, per valutare più precisamente le capacità degli LLM e consentire un punteggio dettagliato, proponiamo oMeS, un framework di valutazione dinamico che combina la logica a livello di passaggio e la similarità chimica. Analizziamo le prestazioni degli LLM all'avanguardia, e i nostri risultati mostrano che, sebbene i modelli attuali mostrino una promettente intuizione chimica, faticano nel ragionamento multi-step corretto e coerente. In particolare, troviamo che l'uso di strategie di prompting e il fine-tuning di un modello specializzato sul nostro dataset proposto aumentano le prestazioni del 50% rispetto al principale modello closed-source. Speriamo che oMeBench possa servire come una solida base per far progredire i sistemi di IA verso un genuino ragionamento chimico.
Sebbene i modelli di testo-immagine (T2I) siano in grado di sintetizzare immagini di alta qualità, le loro prestazioni si degradano significativamente quando vengono sollecitati con entità nuove o fuori distribuzione (OOD) a causa di limiti intrinseci nella conoscenza. Introduciamo World-To-Image, un nuovo framework che colma questa lacuna potenziando la generazione T2I con conoscenza del mondo guidata da agenti. Progettiamo un agente che ricerca dinamicamente sul web per recuperare immagini relative a concetti sconosciuti al modello di base. Queste informazioni vengono poi utilizzate per ottimizzare il prompt multimodale, indirizzando potenti backbone generative verso una sintesi accurata. In modo cruciale, la nostra valutazione va oltre le metriche tradizionali, utilizzando valutazioni moderne come LLMGrader e ImageReward per misurare la vera fedeltà semantica. I nostri esperimenti dimostrano che World-To-Image supera significativamente i metodi all'avanguardia sia nell'allineamento semantico che nell'estetica visiva, ottenendo un miglioramento dell'8,1% nell'accuratezza rispetto al prompt sul nostro benchmark curato NICE. Il nostro framework raggiunge questi risultati con alta efficienza in meno di tre iterazioni, aprendo la strada a sistemi T2I che possono riflettere meglio il mondo reale in continua evoluzione. Il nostro codice demo è disponibile qui https://github.com/mhson-kyle/World-To-Image.
I moderni agenti conversazionali come ChatGPT e Alexa+ si basano su politiche predefinite che specificano metadati, stili di risposta e regole per l'uso degli strumenti. Man mano che questi sistemi basati su LLM si espandono per supportare una vasta gamma di query aziendali e utente, tali politiche, spesso implementate come prompt in contesto, stanno diventando sempre più complesse e lunghe, rendendo difficile un'aderenza fedele e imponendo costi computazionali fissi elevati. Con l'ascesa degli agenti multimodali, le politiche che governano i comportamenti visivi e multimodali sono cruciali ma rimangono poco studiate. I precedenti lavori sulla compressione dei prompt si concentrano principalmente sull'accorciamento dei modelli di task e delle dimostrazioni, mentre gli studi esistenti sull'allineamento delle politiche si focalizzano solo su regole di sicurezza basate sul testo. Introduciamo la Multimodal Policy Internalization (MPI), un nuovo compito che internalizza politiche multimodali ad alta intensità di ragionamento nei parametri del modello, consentendo un migliore rispetto delle politiche senza includere la politica durante l'inferenza. MPI presenta sfide uniche in termini di dati e algoritmi. Costruiamo due dataset che coprono task decisionali e di utilizzo di strumenti sia sintetici che del mondo reale e proponiamo TriMPI, un framework di addestramento in tre fasi. TriMPI prima inietta la conoscenza delle politiche tramite un pretraining continuo, poi esegue un fine-tuning supervisionato e infine applica PolicyRollout, un'estensione del reinforcement learning in stile GRPO che arricchisce i rollout con risposte consapevoli delle politiche per un'esplorazione radicata. TriMPI ottiene notevoli miglioramenti in termini di accuratezza end-to-end, generalizzazione e robustezza alla dimenticanza. Come primo lavoro sull'internalizzazione delle politiche multimodali, forniamo dataset, ricette di addestramento e valutazioni complete per favorire future ricerche. Pagina del progetto: https://mikewangwzhl.github.io/TriMPI.
I modelli linguistici generali di grandi dimensioni (LLMs) eccellono nel ragionamento, ma quelli potenziati per la traduzione faticano nei compiti di ragionamento. Per affrontare questo problema, proponiamo una nuova metodologia di potenziamento per la traduzione che inizia con modelli di istruzione e applica un tuning selettivo a livello di layer solo su dati paralleli. Seguendo questa pipeline, introduciamo i modelli Qwen3-XPlus, che dimostrano miglioramenti significativi nelle prestazioni di traduzione sia per lingue ad alta che a bassa risorsa, raggiungendo punteggi di 15+ spBLEU e 40+ xComet in lingue a bassa risorsa, come lo swahili. È interessante notare che, addestrando solo con piccoli dataset paralleli, Qwen3-XPlus ottiene un miglioramento medio di oltre 1 punto su 7 task multilingue, mantenendo una competenza paragonabile al modello Qwen3 di istruzione su 15 popolari dataset di ragionamento. Questo lavoro offre un approccio promettente per il potenziamento multilingue, riducendo significativamente la complessità e migliorando l'accessibilità per una gamma più ampia di lingue. Il codice e il modello sono pubblicamente disponibili.
Al centro di Deep Research c'è il knowledge mining, il compito di estrarre informazioni strutturate da enormi quantità di testo non strutturato in risposta alle istruzioni dell'utente. I grandi modelli linguistici (LLM) eccellono nell'interpretare tali istruzioni, ma sono proibitivamente costosi da implementare su larga scala, mentre le pipeline tradizionali di classificatori ed estrattori rimangono efficienti ma fragili e incapaci di generalizzare a nuovi compiti. Introduciamo Falconer, un framework collaborativo che combina il ragionamento agentico degli LLM con modelli proxy leggeri per il knowledge mining scalabile. In Falconer, gli LLM agiscono come pianificatori, scomponendo le istruzioni dell'utente in pipeline eseguibili, e come annotatori, generando supervisione per addestrare piccoli proxy. Il framework unifica classificazione ed estrazione in due operazioni atomiche, get label e get span, consentendo a un singolo modello di seguire le istruzioni di sostituire più componenti specifici per ogni task. Per valutare la coerenza tra i modelli proxy incubati da Falconer e le annotazioni fornite da esseri umani e grandi modelli, costruiamo nuovi benchmark che coprono sia la pianificazione che l'esecuzione end-to-end. Gli esperimenti dimostrano che Falconer si avvicina molto all'accuratezza degli LLM all'avanguardia nel seguire le istruzioni, riducendo i costi di inferenza fino al 90% e accelerando il knowledge mining su larga scala di oltre 20 volte, offrendo una base efficiente e scalabile per Deep Research.
La generazione creativa consiste nella sintesi di campioni nuovi, sorprendenti e di valore che riflettono l'intento dell'utente ma non possono essere previsti in anticipo. Questo compito mira a estendere l'immaginazione umana, consentendo la scoperta di concetti visivi che esistono negli spazi inesplorati tra domini familiari. Mentre i modelli di diffusione testo-immagine eccellono nel rendere scene fotorealistiche che corrispondono fedelmente ai prompt dell'utente, faticano ancora a generare contenuti veramente innovativi. Gli approcci esistenti per migliorare la creatività generativa si basano sull'interpolazione di caratteristiche delle immagini, che limita l'esplorazione a categorie predefinite, o richiedono procedure dispendiose in termini di tempo come l'ottimizzazione degli embedding o il fine-tuning del modello. Proponiamo il VLM-Guided Adaptive Negative-Prompting, un metodo senza addestramento, applicabile durante l'inferenza, che promuove la generazione creativa di immagini preservando la validità dell'oggetto generato. Il nostro approccio utilizza un modello visione-linguaggio (VLM) che analizza gli output intermedi del processo di generazione e lo orienta in modo adattivo lontano da concetti visivi convenzionali, incoraggiando l'emergere di risultati nuovi e sorprendenti. Valutiamo la creatività attraverso sia la novità che la validità, utilizzando metriche statistiche nello spazio di embedding CLIP. Attraverso esperimenti estesi, dimostriamo guadagni consistenti in termini di novità creativa con un overhead computazionale trascurabile. Inoltre, a differenza dei metodi esistenti che generano principalmente oggetti singoli, il nostro approccio si estende a scenari complessi, come la generazione di insiemi coerenti di oggetti creativi e la preservazione della creatività all'interno di prompt compositivi elaborati. Il nostro metodo si integra perfettamente nelle pipeline di diffusione esistenti, offrendo una via pratica per produrre output creativi che vanno oltre i vincoli delle descrizioni testuali.
L'apprendimento in contesto consente ai modelli di grandi dimensioni di adattarsi a nuovi compiti partendo da poche dimostrazioni, ma ha mostrato un successo limitato nel design molecolare. Banche dati esistenti come ChEMBL contengono proprietà molecolari che coprono milioni di saggi biologici, tuttavia i dati etichettati per ciascuna proprietà rimangono scarsi. Per affrontare questa limitazione, introduciamo i modelli di diffusione condizionati da dimostrazioni (DemoDiff), che definiscono i contesti dei compiti utilizzando un piccolo insieme di esempi molecola-punteggio anziché descrizioni testuali. Queste dimostrazioni guidano un Transformer di denoising a generare molecole allineate con le proprietà target. Per un preaddestramento scalabile, sviluppiamo un nuovo tokenizzatore molecolare con Node Pair Encoding che rappresenta le molecole a livello di motivo, richiedendo 5,5 volte meno nodi. Curiamo un dataset contenente milioni di compiti contestuali provenienti da più fonti che coprono sia farmaci che materiali, e preaddestriamo su di esso un modello da 0,7 miliardi di parametri. Su 33 compiti di design in sei categorie, DemoDiff eguaglia o supera modelli linguistici 100-1000 volte più grandi e raggiunge una posizione media di 3,63 rispetto a 5,25-10,20 per approcci specifici del dominio. Questi risultati posizionano DemoDiff come un modello fondazionale molecolare per il design molecolare in contesto. Il nostro codice è disponibile all'indirizzo https://github.com/liugangcode/DemoDiff.
Negli ultimi anni, mentre i modelli MLLM basati su cloud come QwenVL, InternVL, GPT-4o, Gemini e Claude Sonnet hanno dimostrato prestazioni eccezionali con dimensioni di modello enormi che raggiungono centinaia di miliardi di parametri, superano significativamente i limiti di memoria, consumo energetico e capacità di calcolo dei dispositivi edge come i telefoni cellulari. Questo articolo introduce AndesVL, una suite di MLLM lato mobile con parametri che vanno da 0,6B a 4B, basati sull'LLM Qwen3 e su vari encoder visivi. Descriviamo in modo completo le architetture del modello, la pipeline di addestramento e i dati di addestramento di AndesVL, che raggiunge prestazioni di primo livello in un'ampia gamma di benchmark open-source, inclusi campi come la comprensione di immagini ricche di testo, il ragionamento e la matematica, la comprensione di più immagini, la VQA generale, la mitigazione delle allucinazioni, la comprensione multilingue e i task relativi alle GUI, rispetto ai modelli all'avanguardia di scala simile. Inoltre, introduciamo un approccio 1+N LoRA.
I paradigmi tipici di post-addestramento per i Modelli di Visione e Linguaggio su Grande Scala (LVLMs) includono il Fine-Tuning Supervisionato (SFT) e l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR). L'SFT sfrutta una guida esterna per iniettare nuove conoscenze, mentre l'RLVR utilizza un rinforzo interno per migliorare le capacità di ragionamento e le prestazioni complessive. Tuttavia, la nostra analisi rivela che l'SFT spesso porta a prestazioni sub-ottimali, mentre l'RLVR incontra difficoltà con compiti che superano la base di conoscenza interna del modello. Per affrontare queste limitazioni, proponiamo ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning), un paradigma di post-addestramento unificato che integra i punti di forza sia dell'SFT che dell'RLVR in un'unica fase. Analizziamo la derivazione degli obiettivi dell'SFT e dell'RLVR per stabilire l'obiettivo di ViSurf, fornendo una prospettiva unificata su questi due paradigmi. Il nucleo di ViSurf consiste nell'iniettare etichette di verità fondamentale (ground-truth) nei rollouts dell'RLVR, fornendo così una supervisione esterna e un rinforzo interno simultanei. Inoltre, introduciamo tre nuove strategie di controllo delle ricompense per stabilizzare e ottimizzare il processo di addestramento. Esperimenti estesi su diversi benchmark dimostrano l'efficacia di ViSurf, superando sia l'SFT individuale, l'RLVR, e l'approccio a due fasi SFT \textrightarrow RLVR. Un'analisi approfondida conferma questi risultati, validando la derivazione e i principi di progettazione di ViSurf.
L'editing video guidato da istruzioni è emerso come una direzione di ricerca in rapida evoluzione, offrendo nuove opportunità per la trasformazione intuitiva dei contenuti, ma ponendo anche sfide significative per una valutazione sistematica. Gli attuali benchmark per l'editing video non supportano adeguatamente la valutazione dell'editing video guidato da istruzioni e soffrono ulteriormente di una limitata diversità delle fonti, una copertura ristretta dei compiti e metriche di valutazione incomplete. Per affrontare queste limitazioni, introduciamo IVEBench, una suite di benchmark moderna specificamente progettata per la valutazione dell'editing video guidato da istruzioni. IVEBench comprende un database diversificato di 600 video sorgente di alta qualità, che coprono sette dimensioni semantiche e lunghezze video che vanno da 32 a 1.024 fotogrammi. Include inoltre 8 categorie di compiti di editing con 35 sottocategorie, i cui prompt sono generati e perfezionati attraverso modelli linguistici di grandi dimensioni e revisione esperta. In modo cruciale, IVEBench stabilisce un protocollo di valutazione tridimensionale che comprende qualità video, conformità alle istruzioni e fedeltà video, integrando sia metriche tradizionali che valutazioni basate su modelli linguistici multimodali di grandi dimensioni. Esperimenti estensivi dimostrano l'efficacia di IVEBench nel valutare i metodi più avanzati di editing video guidato da istruzioni, mostrando la sua capacità di fornire risultati di valutazione completi e allineati con il giudizio umano.
La segmentazione semantica accurata delle nuvole di punti ottenute tramite scansione laser terrestre (TLS) è limitata dai costosi processi di annotazione manuale. Proponiamo una pipeline semi-automatizzata e consapevole dell'incertezza che integra proiezione sferica, arricchimento delle caratteristiche, apprendimento ensemble e annotazione mirata per ridurre lo sforzo di etichettatura, mantenendo al contempo un'elevata accuratezza. Il nostro approccio proietta i punti 3D su una griglia sferica 2D, arricchisce i pixel con caratteristiche provenienti da più fonti e addestra un insieme di reti di segmentazione per produrre pseudo-etichette e mappe di incertezza, quest'ultime utilizzate per guidare l'annotazione delle regioni ambigue. Gli output 2D vengono riproiettati in 3D, producendo nuvole di punti densamente annotate supportate da una suite di visualizzazione a tre livelli (mappe delle caratteristiche 2D, nuvole di punti colorate 3D e sfere virtuali compatte) per una rapida triage e guida del revisore. Utilizzando questa pipeline, abbiamo creato Mangrove3D, un dataset di segmentazione semantica TLS per le foreste di mangrovie. Abbiamo inoltre valutato l'efficienza dei dati e l'importanza delle caratteristiche per rispondere a due domande chiave: (1) quanti dati annotati sono necessari e (2) quali caratteristiche sono più rilevanti. I risultati mostrano che le prestazioni si saturano dopo circa 12 scansioni annotate, le caratteristiche geometriche contribuiscono maggiormente e stack compatti di nove canali catturano quasi tutto il potere discriminativo, con l'Intersection over Union media (mIoU) che si stabilizza intorno a 0.76. Infine, confermiamo la generalizzazione della nostra strategia di arricchimento delle caratteristiche attraverso test cross-dataset su ForestSemantic e Semantic3D. Le nostre contribuzioni includono: (i) una pipeline robusta e consapevole dell'incertezza per l'annotazione TLS con strumenti di visualizzazione; (ii) il dataset Mangrove3D; e (iii) linee guida empiriche sull'efficienza dei dati e l'importanza delle caratteristiche, consentendo così una segmentazione scalabile e di alta qualità delle nuvole di punti TLS per il monitoraggio ecologico e oltre. Il dataset e gli script di elaborazione sono disponibili pubblicamente all'indirizzo https://fz-rit.github.io/through-the-lidars-eye/.
I miglioramenti nella costruzione dei modelli, comprese barriere di sicurezza rafforzate, consentono ai modelli linguistici di grandi dimensioni (LLM) di superare sempre più i controlli di sicurezza standard. Tuttavia, gli LLM a volte cadono nel rivelare comportamenti dannosi, come esprimere punti di vista razzisti, durante le conversazioni. Per analizzare ciò in modo sistematico, introduciamo CoBia, una suite di attacchi avversari leggeri che ci permettono di affinare l'ambito delle condizioni in cui gli LLM si allontanano da comportamenti normativi o etici nelle conversazioni. CoBia crea una conversazione costruita in cui il modello esprime un'affermazione pregiudiziale su un gruppo sociale. Valutiamo quindi se il modello può riprendersi dall'affermazione pregiudiziale fabbricata e rifiutare domande di follow-up pregiudiziali. Valutiamo 11 LLM open-source e proprietari per i loro output relativi a sei categorie socio-demografiche rilevanti per la sicurezza individuale e il trattamento equo, ovvero genere, razza, religione, nazionalità, orientamento sessuale e altri. La nostra valutazione si basa su metriche di bias consolidate basate su LLM e confrontiamo i risultati con i giudizi umani per delineare l'affidabilità e l'allineamento degli LLM. I risultati suggeriscono che conversazioni costruite intenzionalmente rivelano in modo affidabile l'amplificazione dei pregiudizi e che gli LLM spesso non riescono a rifiutare domande di follow-up pregiudiziali durante il dialogo. Questa forma di stress-test evidenzia pregiudizi profondamente radicati che possono emergere attraverso l'interazione. Codice e artefatti sono disponibili su https://github.com/nafisenik/CoBia.
I Modelli di Ragionamento di Grande Scala (LRM) eccellono nel ragionamento complesso, ma sono tradizionalmente valutati in contesti statici, "mondi congelati": si assume che le risposte del modello siano istantanee e che il contesto di una richiesta rimanga immutato durante la generazione della risposta. Sebbene questa ipotesi sia generalmente valida per compiti a breve termine, l'assunzione del "mondo congelato" crolla nei moderni compiti di ragionamento, come la programmazione assistita, dove i modelli possono impiegare ore per elaborare problemi e il codice può cambiare drasticamente dal momento in cui il modello inizia a ragionare fino alla produzione dell'output finale. In questo lavoro, mettiamo in discussione l'assunzione del mondo congelato e valutiamo la robustezza degli LRM in due scenari dinamici realistici: le interruzioni, che testano la qualità degli output parziali del modello con un budget limitato, e il contesto dinamico, che verifica l'adattamento del modello a cambiamenti in corso. Attraverso benchmark di matematica e programmazione che richiedono ragionamenti estesi, le valutazioni statiche sovrastimano costantemente la robustezza: anche gli LRM all'avanguardia, che raggiungono un'elevata accuratezza in contesti statici, possono fallire in modo imprevedibile quando interrotti o esposti a contesti mutevoli, con un calo delle prestazioni fino al 60% quando gli aggiornamenti vengono introdotti in fasi avanzate del processo di ragionamento. La nostra analisi rivela inoltre diverse nuove modalità di fallimento, tra cui la "fuga del ragionamento", dove i modelli condensano il ragionamento nella risposta finale quando interrotti; il "panico", dove sotto pressione temporale i modelli abbandonano completamente il ragionamento e restituiscono risposte errate; e l'"autodubbio", dove le prestazioni si degradano mentre si incorporano informazioni aggiornate.
In questo articolo, presentiamo il primo studio su larga scala che esplora se il codice JavaScript generato da Large Language Models (LLM) possa rivelare quale modello lo ha prodotto, consentendo un'attribuzione affidabile dell'autore e l'identificazione del modello. Con la rapida ascesa del codice generato dall'IA, l'attribuzione sta svolgendo un ruolo cruciale nel rilevare vulnerabilità, segnalare contenuti dannosi e garantire la responsabilità. Mentre il rilevamento IA-vs-umano di solito tratta l'IA come una singola categoria, dimostriamo che i singoli LLM lasciano firme stilistiche uniche, anche tra modelli appartenenti alla stessa famiglia o con dimensioni di parametri simili. A tal fine, introduciamo LLM-NodeJS, un dataset di 50.000 programmi back-end Node.js provenienti da 20 grandi modelli linguistici. Ciascuno ha quattro varianti trasformate, producendo 250.000 campioni unici di JavaScript e due rappresentazioni aggiuntive (JSIR e AST) per diverse applicazioni di ricerca. Utilizzando questo dataset, confrontiamo i tradizionali classificatori di machine learning con encoder Transformer fine-tuned e introduciamo CodeT5-JSA, un'architettura personalizzata derivata dal modello CodeT5 da 770M di parametri, con il decoder rimosso e una testa di classificazione modificata. Raggiunge un'accuratezza del 95,8% nell'attribuzione a cinque classi, del 94,6% su dieci classi e dell'88,5% su venti classi, superando altri modelli testati come BERT, CodeBERT e Longformer. Dimostriamo che i classificatori catturano regolarità stilistiche più profonde nel flusso di dati e nella struttura del programma, piuttosto che affidarsi a caratteristiche superficiali. Di conseguenza, l'attribuzione rimane efficace anche dopo l'offuscamento, la rimozione dei commenti e pesanti trasformazioni del codice. Per supportare la scienza aperta e la riproducibilità, rilasciamo il dataset LLM-NodeJS, gli script di addestramento su Google Colab e tutti i materiali correlati su GitHub: https://github.com/LLM-NodeJS-dataset.
La diagnosi di un'immagine a tutto vetrino è un processo interattivo e multi-stadio che coinvolge cambiamenti di ingrandimento e movimenti tra i campi. Sebbene i recenti modelli di base per la patologia siano robusti, mancano ancora sistemi agentici pratici che decidano quale campo esaminare successivamente, regolino l'ingrandimento e forniscano diagnosi spiegabili. L'ostacolo principale è rappresentato dai dati: una supervisione scalabile e clinicamente allineata del comportamento di osservazione degli esperti, che è tacito e basato sull'esperienza, non scritto nei libri di testo o online, e quindi assente dall'addestramento dei grandi modelli linguistici. Introduciamo l'AI Session Recorder, che lavora con i visualizzatori standard di WSI per registrare in modo non invasivo la navigazione di routine e convertire i log di visualizzazione in comandi comportamentali standardizzati (ispezionare o dare un'occhiata a ingrandimenti discreti) e bounding box. Una revisione leggera con l'uomo nel ciclo trasforma le motivazioni abbozzate dall'IA nel dataset Pathology-CoT, una forma di supervisione accoppiata "dove guardare" e "perché è importante" prodotta con un tempo di etichettatura circa sei volte inferiore. Utilizzando questi dati comportamentali, costruiamo Pathologist-o3, un agente a due stadi che prima propone regioni di interesse e poi esegue un ragionamento guidato dal comportamento. Nel rilevamento delle metastasi linfonodali gastrointestinali, ha raggiunto una precisione dell'84,5%, un richiamo del 100,0% e un'accuratezza del 75,4%, superando il modello OpenAI o3 all'avanguardia e generalizzando su diverse architetture. A nostra conoscenza, questo costituisce uno dei primi sistemi agentici basati sul comportamento in patologia. Trasformando i log di visualizzazione quotidiani in una supervisione scalabile e validata da esperti, il nostro framework rende pratica l'IA agentica in patologia e stabilisce un percorso verso un'IA clinica allineata all'uomo e aggiornabile.
I grandi modelli linguistici (LLM) possono rispondere correttamente alla domanda "Quando è nato Einstein?" ma falliscono nel fornire la stessa data quando scrivono della vita di Einstein, rivelando un'incongruenza fondamentale nel modo in cui i modelli accedono alla conoscenza fattuale attraverso diversi livelli di complessità dei compiti. Sebbene i modelli dimostrino un'accuratezza impressionante nei benchmark di risposta a domande fattuali, il divario di affidabilità tra query semplici e complesse rimane poco compreso, minando la loro affidabilità. In questo lavoro, introduciamo l'Allineamento Breve-Lungo per la Risposta a Domande Fattuali (SLAQ), un framework di valutazione controllato che confronta le risposte degli LLM alle stesse domande fattuali poste (a) in isolamento (breve) rispetto a (b) integrate in query complesse (lunghe). Analizzando 16 LLM su 600 query, riscontriamo un disallineamento sistematico delle risposte alle corrispondenti query brevi e lunghe. Scopriamo inoltre una perdita di accuratezza dipendente dalla posizione e effetti di momentum in cui risposte corrette o errate consecutive creano schemi auto-rinforzanti. Attraverso un'analisi meccanicistica, troviamo che i fatti allineati attivano parti interne del modello che si sovrappongono e che metriche basate sulla similarità meccanicistica possono prevedere l'allineamento delle risposte brevi-lunghe con un'accuratezza fino al 78%. Il nostro lavoro stabilisce la coerenza fattuale rispetto alla complessità della query come un aspetto importante dell'affidabilità degli LLM e mette in discussione le pratiche di valutazione attuali, che implicitamente assumono che una buona performance per query fattuali semplici implichi anche affidabilità in compiti di ricerca di conoscenza più complessi.
L'interpolazione video crea transizioni fluide e naturali tra due fotogrammi, rendendola uno strumento indispensabile per l'editing video e la sintesi di video di lunga durata. Le opere esistenti in questo ambito non sono in grado di generare movimenti ampi, complessi o intricati. In particolare, non riescono a soddisfare la versatilità delle intenzioni dell'utente e generalmente mancano di un controllo fine sui dettagli dei fotogrammi intermedi, portando a una disallineamento con la mente creativa. Per colmare queste lacune, introduciamo MultiCOIN, un framework di interpolazione video che consente controlli multi-modali, inclusi transizioni e stratificazioni di profondità, traiettorie di movimento, prompt testuali e regioni target per la localizzazione del movimento, raggiungendo un equilibrio tra flessibilità, facilità d'uso e precisione per l'interpolazione video granulare. Per ottenere ciò, adottiamo l'architettura Diffusion Transformer (DiT) come nostro modello generativo video, grazie alla sua comprovata capacità di generare video lunghi di alta qualità. Per garantire la compatibilità tra DiT e i nostri controlli multi-modali, mappiamo tutti i controlli di movimento in una rappresentazione comune basata su punti sparsi e user-friendly come input video/rumore. Inoltre, per rispettare la varietà di controlli che operano a diversi livelli di granularità e influenza, separiamo i controlli di contenuto e i controlli di movimento in due rami per codificare le caratteristiche necessarie prima di guidare il processo di denoising, ottenendo due generatori, uno per il movimento e l'altro per il contenuto. Infine, proponiamo una strategia di addestramento a stadi per garantire che il nostro modello apprenda i controlli multi-modali in modo fluido. Esperimenti qualitativi e quantitativi estesi dimostrano che i controlli multi-modali consentono una narrazione visiva più dinamica, personalizzabile e contestualmente accurata.