Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli agenti linguistici hanno dimostrato un potenziale notevole nella ricerca web e nel recupero delle informazioni. Tuttavia, questi agenti di ricerca presuppongono che le query degli utenti siano complete e non ambigue, un'ipotesi che si discosta dalla realtà in cui gli utenti iniziano con query incomplete che richiedono chiarimenti tramite interazione. Eppure la maggior parte degli agenti manca di meccanismi interattivi durante il processo di ricerca, e i benchmark esistenti non possono valutare questa capacità. Per colmare questa lacuna, introduciamo InteractComp, un benchmark progettato per valutare se gli agenti di ricerca riescano a riconoscere l'ambiguità delle query e interagire attivamente per risolverla durante la ricerca. Seguendo il principio di facile da verificare, interagire per disambiguare, costruiamo 210 questioni curate da esperti in 9 domini attraverso una metodologia target-distrattore che crea ambiguità genuine risolvibili solo tramite interazione. La valutazione di 17 modelli rivela un fallimento eclatante: il modello migliore raggiunge solo il 13,73% di accuratezza nonostante il 71,50% con contesto completo, rivelando una sovraconfidenza sistematica piuttosto che deficit di ragionamento. L'interazione forzata produce guadagni drammatici, dimostrando capacità latenti che le strategie attuali non riescono a coinvolgere. L'analisi longitudinale mostra capacità interattive stagnanti per oltre 15 mesi mentre le prestazioni di ricerca sono migliorate di sette volte, rivelando un punto cieco critico. Questa stagnazione, unita al feedback immediato intrinseco dei compiti di ricerca, rende InteractComp una risorsa preziosa sia per valutare che per addestrare le capacità interattive negli agenti di ricerca. Il codice è disponibile all'indirizzo https://github.com/FoundationAgents/InteractComp.
Presentiamo Tongyi DeepResearch, un modello linguistico di grandi dimensioni di tipo agente, specificamente progettato per compiti di ricerca approfondita di informazioni a lungo termine. Per incentivare un’agenzia di ricerca autonoma e approfondita, Tongyi DeepResearch è stato sviluppato attraverso un framework di training end-to-end che combina mid-training e post-training di tipo agente, consentendo ragionamenti scalabili e ricerca di informazioni su compiti complessi. Abbiamo progettato una pipeline di sintesi dei dati altamente scalabile, completamente automatica, che non si affida a costose annotazioni umane e supporta tutte le fasi di addestramento. Costruendo ambienti personalizzati per ogni fase, il nostro sistema garantisce interazioni stabili e coerenti durante l'intero processo. Tongyi DeepResearch, caratterizzato da 30,5 miliardi di parametri totali, con solo 3,3 miliardi attivati per token, raggiunge prestazioni all'avanguardia in una serie di benchmark per la ricerca approfondita di tipo agente, tra cui Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES e xbench-DeepSearch-2510. Rendiamo open-source il modello, il framework e le soluzioni complete per potenziare la comunità.
Gli agenti web basati su LLM mostrano un enorme potenziale nella ricerca di informazioni, ma la loro efficacia in compiti a lungo termine è limitata da un compromesso fondamentale nella gestione del contesto. I tradizionali agenti basati su ReAct soffrono di saturazione contestuale accumulando cronologie grezze e rumorose, mentre i metodi che riassumono rigidamente l'intera cronologia a ogni passo rischiano la perdita irreversibile di dettagli critici. Per affrontare questi problemi, introduciamo AgentFold, un nuovo paradigma di agente incentrato sulla gestione contestuale proattiva, ispirato al processo cognitivo umano del consolidamento retrospettivo. AgentFold tratta il proprio contesto come uno spazio di lavoro cognitivo dinamico da modellare attivamente, piuttosto che come un registro passivo da riempire. A ogni passo, apprende a eseguire un'operazione di "piegatura" che gestisce la sua traiettoria storica su scale multiple: può eseguire condensazioni granulari per preservare dettagli vitali e fini, o consolidamenti profondi per astrarre interi sotto-compiti multi-step. I risultati su benchmark prominenti sono notevoli: con una semplice messa a punto supervisionata (senza pre-addestramento continuo o RL), il nostro agente AgentFold-30B-A3B raggiunge il 36,2% su BrowseComp e il 47,3% su BrowseComp-ZH. Significativamente, queste prestazioni non solo superano o eguagliano modelli open-source di scala drasticamente maggiore, come DeepSeek-V3.1-671B-A37B, ma superano anche agenti proprietari all'avanguardia come o4-mini di OpenAI.
I recenti progressi nei Modelli Linguistici Multimodali (MLLM) hanno favorito rapidi sviluppi nei modelli Visione-Linguaggio-Azione (VLA) per la manipolazione robotica. Sebbene efficaci in molti scenari, gli approcci attuali si basano largamente su istruzioni esplicite, mentre nelle interazioni del mondo reale gli esseri umani raramente forniscono istruzioni dirette. Una collaborazione efficace richiede che i robot deducano proattivamente le intenzioni dell'utente. In questo lavoro, introduciamo le istruzioni contestuali cross-modali, un nuovo scenario in cui l'intenzione è derivata dal dialogo parlato, dai suoni ambientali e dagli indizi visivi piuttosto che da comandi espliciti. Per affrontare questo nuovo scenario, presentiamo RoboOmni, un framework Percettore-Pensatore-Parlatore-Esecutore basato su LLM omni-modali end-to-end che unifica il riconoscimento dell'intenzione, la conferma dell'interazione e l'esecuzione dell'azione. RoboOmni fonde spaziotemporalmente i segnali uditivi e visivi per un riconoscimento dell'intenzione robusto, supportando al contempo l'interazione vocale diretta. Per ovviare alla mancanza di dati di addestramento per il riconoscimento proattivo dell'intenzione nella manipolazione robotica, abbiamo creato OmniAction, comprendente 140k episodi, oltre 5k parlanti, 2.4k suoni di eventi, 640 ambienti e sei tipi di istruzioni contestuali. Esperimenti in ambienti simulati e reali dimostrano che RoboOmni supera i baseline basati su testo e ASR in termini di tasso di successo, velocità di inferenza, riconoscimento dell'intenzione e assistenza proattiva.
Presentiamo Game-TARS, un agente di gioco generalista addestrato con uno spazio d'azione unificato e scalabile ancorato agli input nativi tastiera-mouse allineati all'uso umano. A differenza degli approcci basati su API o GUI, questo paradigma consente un pre-addestramento continuo su larga scala attraverso domini eterogenei, inclusi sistemi operativi, web e giochi in simulazione. Game-TARS è stato pre-addestrato su oltre 500B di token con traiettorie diversificate e dati multimodali. Le tecniche chiave includono una perdita continua decadente per ridurre la confusione causale e una efficiente strategia di "Pensiero Sparso" che bilancia la profondità di ragionamento e il costo inferenziale. Gli esperimenti mostrano che Game-TARS raggiunge circa il doppio del tasso di successo rispetto al precedente modello state-of-the-art in compiti open-world su Minecraft, si avvicina alla generalità di esseri umani non esperti in giochi 3D web non visti, e supera GPT-5, Gemini-2.5-Pro e Claude-4-Sonnet in benchmark FPS. I risultati di scalabilità sul tempo di addestramento e di test confermano che lo spazio d'azione unificato sostiene miglioramenti quando scalato su dati cross-game e multimodali. I nostri risultati dimostrano che rappresentazioni d'azione semplici e scalabili, combinate con un pre-addestramento su larga scala, forniscono un percorso promettente verso agenti generalisti con ampie capacità di utilizzo del computer.
La generazione di video in spazio continuo ha compiuto rapidi progressi, mentre gli approcci discreti rimangono indietro a causa dell'accumulo di errori e dell'incoerenza nei contesti lunghi. In questo lavoro, rivisitiamo la modellazione generativa discreta e presentiamo Uniform discRete diffuSion with metric pAth (URSA), un framework semplice ma potente che colma il divario con gli approcci continui per la generazione scalabile di video. Il nucleo di URSA formula il compito di generazione video come un raffinamento globale iterativo di token spaziotemporali discreti. Integra due progetti chiave: un Percorso Metrico Linearizzato e un meccanismo di Scostamento Temporale Dipendente dalla Risoluzione. Questi design consentono a URSA di scalare efficientemente verso la sintesi di immagini ad alta risoluzione e la generazione di video di lunga durata, richiedendo significativamente meno passi di inferenza. Inoltre, introduciamo una strategia di fine-tuning temporale asincrona che unifica compiti versatili all'interno di un unico modello, inclusi l'interpolazione e la generazione da immagine a video. Esperimenti estesi su benchmark impegnativi per la generazione di video e immagini dimostrano che URSA supera costantemente i metodi discreti esistenti e raggiunge prestazioni comparabili ai metodi di diffusione continua all'avanguardia. Codice e modelli sono disponibili su https://github.com/baaivision/URSA.
I risultati della ricerca pubblicata sul fine-tuning supervisionato su larga scala per agenti di IA rimangono relativamente scarsi, poiché la raccolta di dati per l'addestramento di agenti presenta sfide uniche. In questo lavoro, sosteniamo che il collo di bottiglia non sia la mancanza di fonti di dati sottostanti, ma piuttosto il fatto che un'ampia varietà di dati sia frammentata tra formati, strumenti e interfacce eterogenei. A tal fine, introduciamo il protocollo per dati di agenti (ADP), un linguaggio di rappresentazione leggero che funge da "interlingua" tra dataset di agenti in formati diversi e pipeline di addestramento unificate a valle. La progettazione dell'ADP è abbastanza espressiva da catturare un'ampia varietà di compiti, inclusi l'uso di API/strumenti, la navigazione web, la programmazione, l'ingegneria del software e i flussi di lavoro agentici generali, pur rimanendo semplice da analizzare e su cui addestrare modelli senza ingegnerizzazione a livello di singolo dataset. Negli esperimenti, abbiamo unificato un'ampia raccolta di 13 dataset di addestramento per agenti esistenti nel formato ADP e abbiamo convertito i dati ADP standardizzati in formati pronti per l'addestramento per molteplici framework di agenti. Abbiamo eseguito il SFT su questi dati e abbiamo dimostrato un miglioramento medio delle prestazioni di circa il 20% rispetto ai corrispondenti modelli base, ottenendo prestazioni allo stato dell'arte o quasi-SOTA su benchmark standard di programmazione, navigazione, uso di strumenti e ricerca, senza alcuna ottimizzazione specifica per dominio. Tutto il codice e i dati sono rilasciati pubblicamente, nella speranza che l'ADP possa aiutare ad abbattere le barriere per un addestramento degli agenti standardizzato, scalabile e riproducibile.
I modelli visione-linguaggio-azione (VLA) esistenti operano nel mondo reale 3D ma sono tipicamente costruiti su encoder 2D, lasciando un divario nel ragionamento spaziale che ne limita la generalizzazione e l'adattabilità. Le recenti tecniche di integrazione 3D per i VLA richiedono sensori specializzati e si trasferiscono male tra le modalità, oppure iniettano segnali deboli privi di geometria che degradano l'allineamento visione-linguaggio. In questo lavoro, introduciamo FALCON (From Spatial to Action), un paradigma innovativo che inietta token spaziali 3D ricchi nell'azione. FALCON sfrutta modelli fondazionali spaziali per fornire forti prior geometriche partendo dal solo RGB e include un Modello Spaziale Embodied che può opzionalmente fondere dati di profondità o di posa per una fedeltà superiore quando disponibili, senza necessità di riaddestramento o modifiche architetturali. Per preservare il ragionamento linguistico, i token spaziali vengono elaborati da una Testa d'Azione Potenziata Spazialmente anziché essere concatenati nel backbone visione-linguaggio. Questi progetti consentono a FALCON di affrontare le limitazioni nella rappresentazione spaziale, nella trasferibilità delle modalità e nell'allineamento. In valutazioni complete su tre benchmark di simulazione e undici compiti del mondo reale, il nostro FALCON proposto raggiunge prestazioni allo stato dell'arte, supera costantemente baseline competitive e rimane robusto in condizioni di disordine, condizionamento spaziale e variazioni di scala e altezza degli oggetti.
Di recente, l'editing di immagini basato su modelli Diffusion-in-Transformer ha conosciuto uno sviluppo rapido. Tuttavia, i metodi di editing esistenti spesso mancano di un controllo efficace sul grado di modifica, limitando la loro capacità di ottenere risultati più personalizzati. Per affrontare questa limitazione, investigiamo il meccanismo di MM-Attention all'interno del modello DiT e osserviamo che i token Query e Key condividono un vettore di bias che dipende solo dal layer. Interpretiamo questo bias come rappresentante del comportamento di editing intrinseco del modello, mentre la differenza (delta) tra ciascun token e il suo corrispondente bias codifica i segnali di editing specifici del contenuto. Sulla base di questa intuizione, proponiamo il Group Relative Attention Guidance (GRAG), un metodo semplice ma efficace che rivaluta i valori delta di token diversi per modulare l'attenzione del modello sull'immagine di input rispetto all'istruzione di editing, consentendo un controllo continuo e granulare sull'intensità dell'editing senza alcuna ottimizzazione aggiuntiva. Esperimenti estensivi condotti su framework di editing di immagini esistenti dimostrano che GRAG può essere integrato con poche righe di codice (fino a quattro), migliorando costantemente la qualità dell'editing. Inoltre, rispetto alla comunemente usata Classifier-Free Guidance, GRAG raggiunge un controllo più fluido e preciso sul grado di modifica. Il nostro codice sarà rilasciato su https://github.com/little-misfit/GRAG-Image-Editing.
Il decoding speculativo accelera l'inferenza dei LLM utilizzando un piccolo modello draft per proporre più token che un modello target verifica in parallelo. Estendere questa idea ai batch è essenziale per il serving in produzione, ma introduce il problema dei tensori irregolari: le sequenze nello stesso batch accettano numeri diversi di token draft, rompendo l'allineamento a destra e corrompendo gli ID posizionali, le maschere di attenzione e lo stato della KV-cache. Dimostriamo che diverse implementazioni batch esistenti violano l'equivalenza dell'output – il requisito fondamentale per cui il decoding speculativo deve produrre sequenze di token identiche alla generazione autoregressiva standard. Queste violazioni si verificano proprio a causa di una gestione impropria del problema dei tensori irregolari. In risposta, noi (1) caratterizziamo i requisiti di sincronizzazione che garantiscono la correttezza, (2) presentiamo un decoding speculativo batch orientato alla correttezza, EQSPEC, che rivela come il riallineamento assorba il 40% dell'overhead, e (3) introduciamo EXSPEC, che mantiene un pool scorrevole di sequenze e forma dinamicamente gruppi di stessa lunghezza, per ridurre l'overhead di riallineamento preservando i miglioramenti di velocità speculativi per sequenza. Sul dataset SpecBench, attraverso le coppie target/draft Vicuna-7B/68M, Qwen3-8B/0.6B e GLM-4-9B/0.6B, il nostro approccio raggiunge un miglioramento di produttività fino a 3 volte con dimensione del batch 8 rispetto alla dimensione del batch 1, con un efficiente scaling fino alla dimensione del batch 8, mantenendo il 95% di equivalenza dell'output. Il nostro metodo non richiede kernel personalizzati e si integra agevolmente con gli stack di inferenza esistenti. Il nostro codice è disponibile su https://github.com/eBay/spec_dec.
Gli agenti di ricerca basati su LLM vengono sempre più addestrati su dati sintetici incentrati sulle entità per risolvere compiti complessi e ad alta intensità di conoscenza. Tuttavia, i metodi di addestramento prevalenti come l'ottimizzazione della politica relativa di gruppo (GRPO) scartano queste preziose informazioni sulle entità, basandosi invece su ricompense sparse e orientate al risultato. Questa limitazione critica impedisce loro di distinguere i campioni informativi di "near-miss" - quelli con un ragionamento sostanzialmente corretto ma una risposta finale errata - dai fallimenti completi, scartando così segnali di apprendimento preziosi. Noi affrontiamo questo problema sfruttando proprio le entità scartate durante l'addestramento. La nostra analisi empirica rivela una forte correlazione positiva tra il numero di entità ground-truth identificate durante il processo di ragionamento di un agente e l'accuratezza della risposta finale. Basandoci su questa intuizione, introduciamo l'ottimizzazione della politica relativa di gruppo consapevole delle entità (E-GRPO), un framework innovativo che formula una funzione di ricompensa densa e aware delle entità. E-GRPO assegna ricompense parziali ai campioni errati proporzionalmente al loro tasso di corrispondenza delle entità, consentendo al modello di apprendere efficacemente da questi "near-miss". Esperimenti su diversi benchmark di question-answering (QA) e ricerca approfondita mostrano che E-GRPO supera costantemente e significativamente la baseline GRPO. Inoltre, la nostra analisi rivela che E-GRPO non solo raggiunge un'accuratezza superiore, ma induce anche politiche di ragionamento più efficienti che richiedono un minor numero di chiamate a strumenti, dimostrando un approccio più efficace ed efficiente dal punto di vista campionario per l'allineamento degli agenti di ricerca.
L'addestramento di agenti basati su grandi modelli linguistici su compiti situati alla frontiera delle loro capacità è fondamentale per sbloccare un ragionamento avanzato. Introduciamo un approccio di sintesi dei dati ispirato alla teoria educativa della Zona di Sviluppo Prossimale (ZPD), che definisce questa frontiera come compiti che un LLM non può risolvere da solo ma può padroneggiare con una guida. Per operazionalizzare questo concetto, presentiamo AgentFrontier Engine, una pipeline automatizzata che sintetizza dati multidisciplinari di alta qualità situati precisamente all'interno della ZPD del modello. Questo motore supporta sia il pre-training continuo con dati ad alta intensità di conoscenza, sia il post-training mirato su compiti di ragionamento complesso. Dall' stesso framework deriviamo lo ZPD Exam, un benchmark dinamico e automatizzato progettato per valutare le capacità degli agenti su questi compiti di frontiera. Addestriamo il modello AgentFrontier-30B-A3B sui nostri dati sintetizzati, che ottiene risultati allo stato dell'arte su benchmark impegnativi come Humanity's Last Exam, superando persino alcuni agenti proprietari leader. Il nostro lavoro dimostra che un approccio alla sintesi dei dati guidato dalla ZPD offre un percorso scalabile ed efficace per costruire agenti LLM più capaci.
Con i progressi nelle capacità di ragionamento e decisione, gli agenti multimodali mostrano un forte potenziale negli scenari applicativi informatici. Le valutazioni passate si sono concentrate principalmente sulle abilità di interazione con interfacce grafiche (GUI), mentre le capacità di invocazione di strumenti, come quelle abilitate dal Model Context Protocol (MCP), sono state ampiamente trascurate. Confrontare agenti con invocazione di strumenti integrata con quelli valutati solo sull'interazione GUI è intrinsecamente iniquo. Presentiamo OSWorld-MCP, il primo benchmark completo ed equo per valutare le capacità di invocazione di strumenti, operazione GUI e decisione degli agenti per l'uso del computer in un ambiente reale. Progettiamo una innovativa pipeline automatizzata di generazione di codice per creare strumenti e li combiniamo con una selezione curata da strumenti esistenti. Una rigorosa validazione manuale produce 158 strumenti di alta qualità (che coprono 7 applicazioni comuni), ciascuno verificato per correttezza funzionale, applicabilità pratica e versatilità. Valutazioni estensive su agenti multimodali all'avanguardia condotte con OSWorld-MCP mostrano che gli strumenti MCP generalmente migliorano i tassi di successo dei task (ad esempio, dall'8.3% al 20.4% per OpenAI o3 a 15 step, dal 40.1% al 43.3% per Claude 4 Sonnet a 50 step), sottolineando l'importanza di valutare le capacità di invocazione degli strumenti. Tuttavia, anche i modelli più potenti presentano tassi di invocazione degli strumenti relativamente bassi, solo il 36.3%, indicando margini di miglioramento ed evidenziando la sfida posta dal benchmark. Misurando esplicitamente le abilità di utilizzo degli strumenti MCP, OSWorld-MCP approfondisce la comprensione degli agenti multimodali e stabilisce un nuovo standard per valutare le prestazioni in ambienti complessi e assistiti da strumenti. Il nostro codice, ambiente e dati sono pubblicamente disponibili su https://osworld-mcp.github.io.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente reso possibili agenti di programmazione in grado di generare, eseguire e revisionare codice per la visualizzazione. Tuttavia, i modelli esistenti falliscono spesso nei flussi di lavoro pratici a causa di una copertura linguistica limitata, un'esecuzione inaffidabile e una mancanza di meccanismi di correzione iterativa. Il progresso è stato limitato da dataset e benchmark ristretti che enfatizzano la generazione in un singolo turno e compiti in un unico linguaggio. Per affrontare queste sfide, introduciamo tre risorse complementari per far avanzare gli agenti di programmazione per la visualizzazione. VisCode-Multi-679K è un dataset supervisionato su larga scala contenente 679K campioni di visualizzazione validati ed eseguibili con dialoghi di correzione a più turni in 12 linguaggi di programmazione. VisPlotBench è un benchmark per la valutazione sistematica, che include compiti eseguibili, output renderizzati e protocolli sia per la generazione iniziale che per l'auto-debugging multi-round. Infine, presentiamo VisCoder2, una famiglia di modelli per la visualizzazione multi-linguaggio addestrati su VisCode-Multi-679K. Gli esperimenti mostrano che VisCoder2 supera significativamente i solidi benchmark open-source e si avvicina alle prestazioni di modelli proprietari come GPT-4.1, con ulteriori vantaggi derivanti dall'auto-debugging iterativo, raggiungendo un tasso di successo complessivo dell'82.4% nell'esecuzione alla scala 32B, in particolare nei linguaggi simbolici o dipendenti da compilatore.
Gli agenti basati su Large Language Model (LLM) sono emersi come un approccio rivoluzionario per la risoluzione di problemi aperti, in cui la ricerca di informazioni (Information Seeking - IS) rappresenta una capacità fondamentale che abilita il ragionamento autonomo e la presa di decisioni. Sebbene la ricerca precedente si sia concentrata principalmente sul miglioramento della profondità di recupero, osserviamo che gli attuali agenti IS spesso soffrono di una bassa efficienza di ricerca, che a sua volta limita le prestazioni complessive. Un fattore chiave alla base di questa inefficienza è la scarsa densità di entità target nei task di addestramento, che limita le opportunità per gli agenti di apprendere e generalizzare comportamenti di ricerca efficienti. Per affrontare queste sfide, proponiamo WebLeaper, un framework per costruire task IS ad alta copertura e generare traiettorie risolutive efficienti. Formuliamo l'IS come un problema di ragionamento ad albero, consentendo l'incorporazione di un insieme sostanzialmente più ampio di entità target in un contesto vincolato. Sfruttando tabelle di Wikipedia selezionate, proponiamo tre varianti per sintetizzare task IS - Basic, Union e Reverse-Union - per aumentare sistematicamente sia l'efficienza che l'efficacia dell'IS. Infine, selezioniamo le traiettorie di addestramento conservando solo quelle simultaneamente accurate ed efficienti, garantendo che il modello sia ottimizzato sia per la correttezza che per le prestazioni di ricerca. Esperimenti estensivi in contesti sia basilari che comprensivi, condotti su cinque benchmark IS (BrowserComp, GAIA, xbench-DeepSearch, WideSearch e Seal-0), dimostrano che il nostro metodo raggiunge costantemente miglioramenti sia in termini di efficacia che di efficienza rispetto a baseline solide.
Il pensiero parallelo amplia l'ampiezza esplorativa, integrando l'esplorazione profonda degli agenti di information-seeking (IS) per potenziare ulteriormente le capacità di problem-solving. Tuttavia, l'approccio parallelo convenziale incontra due sfide principali in questo contesto: l'inefficienza derivante dalla ripetuta esecuzione da zero e la difficoltà nell'integrare traiettorie di ragionamento a lungo termine durante la generazione della risposta, poiché la limitata capacità contestuale impedisce una piena considerazione del processo deduttivo. Per affrontare questi problemi, proponiamo ParallelMuse, un paradigma a due stadi progettato per agenti IS profondi. La prima fase, Functionality-Specified Partial Rollout, suddivide le sequenze generate in regioni funzionali ed esegue il riutilizzo e la diramazione dei percorsi guidati dall'incertezza per migliorare l'efficienza esplorativa. La seconda fase, Compressed Reasoning Aggregation, sfrutta la ridondanza del ragionamento per comprimere senza perdite le informazioni rilevanti per la derivazione della risposta e sintetizzare una risposta finale coerente. Esperimenti condotti su molteplici agenti open-source e benchmark dimostrano un miglioramento delle prestazioni fino al 62% con una riduzione del 10-30% nel consumo di token esplorativi.
While Multimodal Large Language Models (MLLMs) excel at visual understanding, they often struggle in complex scenarios that require visual planning and imagination. Inspired by how humans use sketching as a form of visual thinking to develop and communicate ideas, we introduce Latent Sketchpad, a framework that equips MLLMs with an internal visual scratchpad. The internal visual representations of MLLMs have traditionally been confined to perceptual understanding. We repurpose them to support generative visual thought without compromising reasoning ability. Building on frontier MLLMs, our approach integrates visual generation directly into their native autoregressive reasoning process. It allows the model to interleave textual reasoning with the generation of visual latents. These latents guide the internal thought process and can be translated into sketch images for interpretability. To realize this, we introduce two components: a Context-Aware Vision Head autoregressively produces visual representations, and a pretrained Sketch Decoder renders these into human-interpretable images. We evaluate the framework on our new dataset MazePlanning. Experiments across various MLLMs show that Latent Sketchpad delivers comparable or even superior reasoning performance to their backbone. It further generalizes across distinct frontier MLLMs, including Gemma3 and Qwen2.5-VL. By extending model's textual reasoning to visual thinking, our framework opens new opportunities for richer human-computer interaction and broader applications. More details and resources are available on our project page: https://latent-sketchpad.github.io/.
L'addestramento di modelli linguistici di critica per valutare e fornire feedback sugli output del modello è un approccio promettente per migliorare i LLM in compiti di ragionamento complesso. Tuttavia, gli approcci esistenti tipicamente dipendono da supervisori più potenti per annotare i dati di critica. Per affrontare questo problema, proponiamo Critique-RL, un approccio di RL online per sviluppare modelli linguistici di critica senza supervisione potenziata. Il nostro approccio opera su un paradigma a due giocatori: l'attore genera una risposta, il critico fornisce un feedback e l'attore perfeziona la risposta di conseguenza. Riveliamo innanzitutto che fare affidamento esclusivamente su segnali di reward indiretti dagli output dell'attore per l'ottimizzazione RL spesso porta a critici insoddisfacenti: mentre la loro utilità (cioè fornire feedback costruttivi) migliora, la discriminabilità (cioè determinare se una risposta è di alta qualità o meno) rimane scarsa, con conseguenti miglioramenti marginali delle prestazioni. Per superare questo limite, Critique-RL adotta una strategia di ottimizzazione in due fasi. Nella Fase I, rinforza la discriminabilità del critico con segnali di reward diretti basati su regole; nella Fase II, introduce reward indiretti basati sul perfezionamento dell'attore per migliorare l'utilità del critico, mantenendo al contempo la sua discriminabilità attraverso una regolarizzazione appropriata. Esperimenti estesi su vari compiti e modelli mostrano che Critique-RL apporta sostanziali miglioramenti prestazionali. Ad esempio, ottiene un guadagno del 9.02% su compiti in-dominio e del 5.70% su compiti out-of-domain per Qwen2.5-7B, evidenziandone il potenziale.
Nonostante i rapidi progressi nei Modelli Linguistici Multimodali di grandi dimensioni e nei Modelli Audio-Linguistici di grandi dimensioni, i benchmark audio esistenti testano prevalentemente aspetti semantici recuperabili dai testi delle didascalie, mascherando così i deficit nel ragionamento percettivo di tipo fine-granular. Noi formalizziamo l'intelligenza audio 4D, definita come la capacità di ragionare sulla dinamica del suono nel tempo e nello spazio 3D, e introduciamo STAR-Bench per misurarla. STAR-Bench combina un contesto di Percezione Acustica Fondamentale (sei attributi valutati secondo regimi assoluti e relativi) con un contesto di Ragionamento Spazio-Temporale Olistico che include il riordinamento di segmenti per processi continui e discreti, e compiti spaziali che spaziano dalla localizzazione statica, alle relazioni tra sorgenti multiple, fino alle traiettorie dinamiche. La nostra pipeline di creazione dei dati utilizza due metodi per garantire campioni di alta qualità. Per i compiti fondamentali, utilizziamo audio sintetizzato proceduralmente e generato tramite simulazioni fisiche. Per i dati olistici, seguiamo un processo in quattro fasi che include l'annotazione umana e una selezione finale basata sulle prestazioni umane. A differenza dei benchmark precedenti, in cui la risposta basata solo sulla didascalia riduce leggermente l'accuratezza, STAR-Bench induce cali di prestazione molto più ampi (-31.5% temporale, -35.2% spaziale), evidenziando la sua focalizzazione su indizi di difficile descrizione linguistica. La valutazione di 19 modelli rivela divari sostanziali rispetto agli esseri umani e una gerarchia delle capacità: i modelli closed-source sono limitati dalla percezione fine-granular, mentre i modelli open-source sono in ritardo su percezione, conoscenza e ragionamento. Il nostro STAR-Bench fornisce insight critici e un percorso chiaro per lo sviluppo di futuri modelli con una comprensione più robusta del mondo fisico.
Mixture-of-Experts (MoE) è emerso come un paradigma potente per scalare la capacità del modello preservando l'efficienza computazionale. Nonostante il suo notevole successo nei grandi modelli linguistici (LLM), i tentativi esistenti di applicare MoE ai Diffusion Transformer (DiT) hanno prodotto guadagni limitati. Attribuiamo questo divario a differenze fondamentali tra i token linguistici e quelli visivi. I token linguistici sono semanticamente densi con una variazione inter-token pronunciata, mentre i token visivi presentano ridondanza spaziale ed eterogeneità funzionale, ostacolando la specializzazione degli esperti nel MoE per la visione. A tal fine, presentiamo ProMoE, un framework MoE che presenta un router a due fasi con una guida di routing esplicita che promuove la specializzazione degli esperti. Nello specifico, questa guida incoraggia il router a suddividere i token immagine in insiemi condizionali e incondizionati tramite un routing condizionale in base ai loro ruoli funzionali, e a perfezionare l'assegnazione dei token immagine condizionali attraverso un routing prototipico con prototipi apprendibili basati sul contenuto semantico. Inoltre, l'allocazione degli esperti basata sulla similarità nello spazio latente, abilitata dal routing prototipico, offre un meccanismo naturale per incorporare una guida semantica esplicita, e validiamo che tale guida è cruciale per il MoE nella visione. Sulla base di ciò, proponiamo una funzione di perdita di contrasto del routing che migliora esplicitamente il processo di routing prototipico, promuovendo la coerenza intra-esperto e la diversità inter-esperto. Esperimenti estesi sul benchmark ImageNet dimostrano che ProMoE supera i metodi allo stato dell'arte sotto entrambi gli obiettivi di addestramento Rectified Flow e DDPM. Codice e modelli saranno resi pubblicamente disponibili.
La ricerca sulle leggi di scalabilità si è concentrata in modo preponderante sull'inglese, nonostante i modelli di IA più importanti servano esplicitamente miliardi di utenti internazionali. In questo lavoro, intraprendiamo il più vasto studio multilingue sulle leggi di scalabilità finora condotto, per un totale di 774 esperimenti di addestramento multilingue, che coprono modelli da 10 milioni a 8 miliardi di parametri, oltre 400 lingue per l'addestramento e 48 lingue per la valutazione. Introduciamo la Legge di Scalabilità del Trasferimento Adattivo (ATLAS) per il pre-addestramento sia monolingue che multilingue, che supera la generalizzazione fuori campione delle leggi di scalabilità esistenti spesso di più di 0.3 R². Le nostre analisi degli esperimenti gettano luce sulle dinamiche di apprendimento multilingue, le proprietà di trasferimento tra le lingue e la maledizione della multilinguità. In primo luogo, deriviamo una matrice di trasferimento cross-linguistico, misurando empiricamente i punteggi di beneficio reciproco tra 38x38=1444 coppie di lingue. In secondo luogo, deriviamo una legge di scalabilità agnostica rispetto alla lingua che rivela come scalare in modo ottimale le dimensioni del modello e i dati quando si aggiungono lingue senza sacrificare le prestazioni. In terzo luogo, identifichiamo i punti di crossover computazionali per decidere quando effettuare il pre-addestramento da zero rispetto al fine-tuning partendo da checkpoint multilingue. Ci auguriamo che questi risultati forniscano le fondamenta scientifiche per democratizzare le leggi di scalabilità tra le lingue e consentano ai professionisti di scalare efficientemente i modelli, andando oltre un'IA incentrata principalmente sull'inglese.
Ad oggi, esistono quasi zero benchmark di valutazione culturalmente specifici per i grandi modelli linguistici (LLM) che coprano un ampio numero di lingue e culture. In questo articolo, presentiamo Global PIQA, un benchmark partecipativo di ragionamento basato sul senso comune per oltre 100 lingue, costruito manualmente da 335 ricercatori di 65 paesi in tutto il mondo. Le 116 varietà linguistiche incluse in Global PIQA coprono cinque continenti, 14 famiglie linguistiche e 23 sistemi di scrittura. Nella partizione non parallela di Global PIQA, oltre il 50% degli esempi fa riferimento a cibi locali, usanze, tradizioni o altri elementi culturalmente specifici. Rileviamo che gli LLM allo stato dell'arte performano bene su Global PIQA in aggregato, ma mostrano prestazioni più deboli per le lingue a risorse limitate (con un divario di accuratezza fino al 37%, nonostante la scelta casuale sia al 50%). I modelli open source generalmente ottengono risultati peggiori rispetto ai modelli proprietari. Global PIQA evidenzia come, in molte lingue e culture, la conoscenza quotidiana rimanga un'area da migliorare, accanto a capacità più ampiamente discusse come il ragionamento complesso e la conoscenza specialistica. Oltre al suo utilizzo per la valutazione degli LLM, speriamo che Global PIQA offra uno spaccato della vasta diversità di culture in cui il linguaggio umano è radicato.
I sistemi di auto-miglioramento richiedono interazione con l'ambiente per un adattamento continuo. Introduciamo SPICE (Self-Play In Corpus Environments), un framework di apprendimento per rinforzo in cui un singolo modello agisce in due ruoli: uno Sfidante che estrae documenti da un ampio corpus per generare compiti di ragionamento diversificati, e un Ragionatore che li risolve. Attraverso dinamiche adversariali, lo Sfidante crea un curriculum automatico al confine delle capacità del Ragionatore, mentre l'ancoraggio al corpus fornisce il segnale esterno ricco e quasi inesauribile necessario per un miglioramento sostenuto. A differenza dei metodi di auto-gioco esistenti non ancorati che offrono benefici più limitati, SPICE ottiene guadagni consistenti su benchmark di ragionamento matematico (+8,9%) e generale (+9,8%) in molteplici famiglie di modelli. La nostra analisi rivela come l'ancoraggio documentale sia un ingrediente chiave in SPICE per generare continuamente obiettivi progressivamente più impegnativi e raggiungerli, consentendo un auto-miglioramento sostenuto.
La visualizzazione, una forma di imagery specifica del dominio ma ampiamente utilizzata, rappresenta un metodo efficace per trasformare dataset complessi in insight intuitivi, e il suo valore dipende dalla fedele rappresentazione dei dati, dalla chiara comunicazione e dal design estetico. Tuttavia, valutare la qualità delle visualizzazioni è complesso: a differenza delle immagini naturali, richiede una valutazione simultanea dell'accuratezza nella codifica dei dati, dell'espressività informativa e dell'estetica visiva. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano mostrato prestazioni promettenti nella valutazione estetica delle immagini naturali, non esiste ancora un benchmark sistematico per misurare le loro capacità nella valutazione delle visualizzazioni. Per affrontare questa lacuna, proponiamo VisJudge-Bench, il primo benchmark completo per valutare le prestazioni degli MLLM nell'analisi dell'estetica e della qualità delle visualizzazioni. Esso contiene 3.090 campioni annotati da esperti provenienti da scenari reali, coprendo visualizzazioni singole, multiple e dashboard attraverso 32 tipi di grafici. Test sistematici su questo benchmark rivelano che anche gli MLLM più avanzati (come GPT-5) mostrano ancora divari significativi rispetto ai giudizi degli esperti umani, con un Errore Assoluto Medio (MAE) di 0,551 e una correlazione con le valutazioni umane di appena 0,429. Per affrontare questo problema, proponiamo VisJudge, un modello specificamente progettato per la valutazione dell'estetica e della qualità delle visualizzazioni. I risultati sperimentali dimostrano che VisJudge riduce significativamente il divario con il giudizio umano, abbassando il MAE a 0,442 (una riduzione del 19,8%) e aumentando la coerenza con gli esperti umani a 0,681 (un miglioramento del 58,7%) rispetto a GPT-5. Il benchmark è disponibile all'indirizzo https://github.com/HKUSTDial/VisJudgeBench.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha fornito progressi impressionanti nel ragionamento matematico e multimodale, diventando un paradigma standard di post-addestramento per i modelli linguistici e visivo-linguistici contemporanei. Tuttavia, la metodologia RLVR introduce un rischio significativo di regressione delle capacità, in cui i modelli dimenticano abilità fondamentali dopo un addestramento prolungato senza l'impiego di strategie di regolarizzazione. Confermiamo empiricamente questa preoccupazione, osservando che i modelli di ragionamento open-source subiscono un degrado delle prestazioni su capacità fondamentali come la percezione e l'aderenza alla realtà. Sebbene l'imposizione di termini di regolarizzazione come la divergenza KL possa aiutare a prevenire la deviazione dal modello base, questi termini sono calcolati sul compito corrente, quindi non garantiscono la conservazione della conoscenza più ampia. Nel frattempo, il replay dell'esperienza comunemente utilizzato su domini eterogenei rende non banale decidere quanto focus di addestramento dovrebbe ricevere ciascun obiettivo. Per affrontare ciò, proponiamo RECAP, una strategia di replay con ripesatura dinamica degli obiettivi per la preservazione della conoscenza generale. Il nostro meccanismo di ripesatura si adatta in modo online utilizzando segnali a breve orizzonte di convergenza e instabilità, spostando l'attenzione del post-addestramento lontano dagli obiettivi saturi e verso quelli sottoperformanti o volatili. Il nostro metodo è end-to-end e immediatamente applicabile alle pipeline RLVR esistenti senza addestrare modelli aggiuntivi o pesanti ottimizzazioni. Esperimenti estesi su benchmark basati su Qwen2.5-VL-3B e Qwen2.5-VL-7B dimostrano l'efficacia del nostro metodo, che non solo preserva le capacità generali ma migliora anche il ragionamento consentendo compromessi più flessibili tra le ricompense interne al compito.
La generazione di immagini da testo (T2I) ad ultra-alta risoluzione (UHR) ha registrato progressi significativi. Tuttavia, rimangono due sfide principali: 1) l'assenza di un dataset T2I UHR su larga scala e di alta qualità, e 2) la mancanza di strategie di training specifiche per la sintesi di dettagli fine-granularità in scenari UHR. Per affrontare la prima sfida, introduciamo UltraHR-100K, un dataset di alta qualità composto da 100K immagini UHR con descrizioni dettagliate, che offre contenuti diversificati e una forte fedeltà visiva. Ogni immagine supera la risoluzione 3K ed è stata rigorosamente selezionata in base alla ricchezza dei dettagli, alla complessità del contenuto e alla qualità estetica. Per affrontare la seconda sfida, proponiamo un metodo di post-training consapevole delle frequenze che migliora la generazione di dettagli fini nei modelli di diffusione T2I. Nello specifico, progettiamo (i) un Campionamento dei Timestep Orientato ai Dettagli (DOTS) per concentrare l'apprendimento sui passi di denoising critici per i dettagli, e (ii) una Regolarizzazione Frequenziale a Ponderazione Soft (SWFR), che sfrutta la Trasformata Discreta di Fourier (DFT) per vincolare delicatamente le componenti in frequenza, incoraggiando la preservazione dei dettagli ad alta frequenza. Esperimenti estesi sui nostri benchmark proposti UltraHR-eval4K dimostrano che il nostro approccio migliora significativamente la qualità dei dettagli fine-granularità e la fedeltà complessiva della generazione di immagini UHR. Il codice è disponibile al link https://github.com/NJU-PCALab/UltraHR-100k.
Il ragionamento a catena del pensiero (CoT) è fondamentale per migliorare l'interpretabilità e l'affidabilità dei grandi modelli visione-linguaggio (LVLM). Tuttavia, gli attuali algoritmi di addestramento come SFT, PPO e GRPO potrebbero non generalizzare efficacemente su compiti di ragionamento non visti e dipendono fortemente da modelli di reward distorti. Per affrontare questa sfida, riformuliamo il ragionamento negli LVLM come inferenza a posteriori e proponiamo un algoritmo di addestramento scalabile basato sull'inferenza variazionale ammortizzata. Sfruttando algoritmi di apprendimento per rinforzo orientati alla diversità, introduciamo una nuova funzione di reward sparsa per segnali di apprendimento a livello di token che incoraggia CoT latenti diversificati e ad alta probabilità, superando i limiti del campionamento deterministico ed evitando la manipolazione del reward. Inoltre, implementiamo una strategia di scaling dell'inferenza bayesiana che sostituisce i costosi Best-of-N e Beam Search con una verosimiglianza marginale per classificare efficientemente le razionalità e le risposte ottimali. Dimostriamo empiricamente che il metodo proposto migliora gli LVLM allo stato dell'arte su sette benchmark di ragionamento, in termini di efficacia, generalizzazione e interpretabilità.
Man mano che i Grandi Modelli Linguisticici e Visivi (LVLM) vengono sempre più impiegati in ambiti come lo shopping, la salute e le notizie, sono esposti a contenuti persuasivi pervasivi. Una questione cruciale è comprendere come questi modelli funzionino in qualità di persuasi – come e perché possano essere influenzati da input multimodali persuasivi. Comprenderne sia la suscettibilità alla persuasione sia l'efficacia delle diverse strategie persuasive è fondamentale, poiché modelli eccessivamente persuasibili potrebbero adottare convinzioni fuorvianti, sovrascrivere le preferenze dell'utente o generare output non etici o non sicuri quando esposti a messaggi manipolativi. Introduciamo MMPersuade, un framework unificato per studiare sistematicamente le dinamiche della persuasione multimodale negli LVLM. MMPersuade contribuisce con (i) un dataset multimodale completo che abbina immagini e video a principi di persuasione consolidati in contesti commerciali, soggettivi/comportamentali e adversariali, e (ii) un framework di valutazione che quantifica sia l'efficacia persuasiva sia la suscettibilità del modello attraverso punteggi di accordo di terze parti e probabilità lessicali auto-stimate sulle cronologie delle conversazioni. Il nostro studio su sei principali LVLM in qualità di persuasi fornisce tre intuizioni chiave: (i) gli input multimodali aumentano sostanzialmente l'efficacia persuasiva – e la suscettibilità del modello – rispetto al solo testo, specialmente in scenari di disinformazione; (ii) preferenze pregresse dichiarate riducono la suscettibilità, eppure le informazioni multimodali mantengono il loro vantaggio persuasivo; e (iii) strategie diverse variano in efficacia a seconda dei contesti, con la reciprocità più potente in contesti commerciali e soggettivi, e la credibilità e la logica predominanti in contesti adversariali. Analizzando congiuntamente l'efficacia persuasiva e la suscettibilità, MMPersuade fornisce una base fondata per sviluppare modelli che siano robusti, coerenti con le preferenze e allineati eticamente quando interagiscono con contenuti multimodali persuasivi.
La chiamata di funzione (FC) consente ai grandi modelli linguistici (LLM) e agli agenti autonomi di interfacciarsi con strumenti esterni, un'abilità cruciale per risolvere problemi complessi del mondo reale. Man mano che questa capacità diventa sempre più centrale per i sistemi di IA avanzati, non si può sopravvalutare la necessità di dati di addestramento di alta qualità e multi-turn per svilupparla e affinarla. I metodi esistenti di sintesi dei dati, come il campionamento casuale dell'ambiente o il role-playing multi-agente, non sono sufficientemente potenti per generare dati di alta qualità in ambienti reali. Le sfide pratiche si presentano su tre fronti: addestramento mirato del modello, isolamento dell'architettura degli strumenti e dipendenza logica multi-turn. Per affrontare queste carenze strutturali, presentiamo FunReason-MT, un nuovo framework di sintesi dei dati per l'uso multi-turn di strumenti nel mondo reale. FunReason-MT risolve la barriera di complessità nei dati FC multi-turn impiegando 1) Interazioni Grafico-API Ambientale per raccogliere traiettorie varie e di alta qualità, 2) Sintesi Avanzata Tool-Query per semplificare la costruzione di query complesse, e 3) Catena Iterativa Guidata per la generazione sofisticata di CoT. Le valutazioni sulla Berkeley Function-Calling Leaderboard (BFCLv3) dimostrano la potenza del nostro framework: un modello da 4B costruito sui dati generati da FunReason-MT raggiunge prestazioni all'avanguardia tra i modelli di dimensioni comparabili, superando la maggior parte dei modelli closed-source. Ulteriori miglioramenti delle prestazioni su BFCLv4 confermano che FunReason-MT fornisce una fonte affidabile e robusta per l'apprendimento agentico.
I modelli generativi hanno compiuto progressi significativi nella sintesi di audio ad alta fedeltà a partire da brevi descrizioni testuali. Tuttavia, l'editing di audio esistente utilizzando il linguaggio naturale è rimasto in gran parte inesplorato. Gli approcci attuali richiedono la descrizione completa dell'audio modificato o sono limitati a istruzioni di modifica predefinite che mancano di flessibilità. In questo lavoro, introduciamo SAO-Instruct, un modello basato su Stable Audio Open in grado di modificare clip audio utilizzando qualsiasi istruzione in linguaggio naturale libera. Per addestrare il nostro modello, creiamo un dataset di triplette di editing audio (audio di input, istruzione di modifica, audio di output) utilizzando Prompt-to-Prompt, l'inversione DDPM e una pipeline di editing manuale. Sebbene parzialmente addestrato su dati sintetici, il nostro modello si generalizza bene a clip audio reali provenienti dal mondo reale e a istruzioni di modifica non viste. Dimostriamo che SAO-Instruct raggiunge prestazioni competitive su metriche oggettive e supera altri approcci di editing audio in uno studio d'ascolto soggettivo. Per incoraggiare la ricerca futura, rilasciamo il nostro codice e i pesi del modello.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato che il pre-addestramento su larga scala consente ai sistemi di adattarsi rapidamente a nuovi problemi con poca supervisione nel dominio linguistico. Questo successo, tuttavia, non si è tradotto con la stessa efficacia nel dominio visivo, dove i modelli, inclusi gli LLM, continuano a lottare con la comprensione composizionale, l'efficienza campionaria e la risoluzione di problemi di carattere generale. Investigiamo i Modelli di Diffusione su Video (Video Diffusion Models, VDM) come una direzione promettente per colmare questa lacuna. Il pre-addestramento su dati spaziotemporali conferisce a questi modelli forti bias induttivi per la struttura e la dinamica, che ipotizziamo possano supportare un'ampia adattabilità ai compiti. Per testare ciò, progettiamo una valutazione controllata in cui sia un LLM pre-addestrato che un VDM pre-addestrato sono equipaggiati con adattatori leggeri e sottoposti a compiti nelle loro modalità naturali. Attraverso benchmark che includono ARC-AGI, ConceptARC, giochi visivi, pianificazione di percorsi e automi cellulari, i VDM dimostrano un'efficienza dei dati superiore rispetto alle loro controparti linguistiche. Nel complesso, i nostri risultati indicano che il pre-addestramento su video offre bias induttivi che favoriscono il progresso verso modelli fondazionali visivi.
Gli agenti di intelligenza artificiale di frontiera mostrano un potenziale crescente come assistenti per la ricerca scientifica e potrebbero rivelarsi utili per flussi di lavoro di ricerca estesi e aperti. Tuttavia, per utilizzare gli agenti in ricerche innovative, dobbiamo prima valutarne la fedeltà e la correttezza di base. Per valutare gli agenti come assistenti di ricerca, introduciamo ReplicationBench, un framework di valutazione che verifica se gli agenti sono in grado di replicare interi articoli di ricerca tratti dalla letteratura astrofisica. L'astrofisica, dove la ricerca si basa fortemente su dati d'archivio e studi computazionali richiedendo poca sperimentazione nel mondo reale, rappresenta un banco di prova particolarmente utile per gli agenti IA nella ricerca scientifica. Suddividiamo ogni articolo in compiti che richiedono agli agenti di replicare i contributi fondamentali del documento, inclusi la configurazione sperimentale, le derivazioni, l'analisi dei dati e il codice sorgente. Ogni compito è sviluppato in collaborazione con gli autori originali dell'articolo e mira a un risultato scientifico chiave, consentendo una valutazione oggettiva sia della fedeltà (aderenza ai metodi originali) che della correttezza (accuratezza tecnica dei risultati). ReplicationBench è estremamente impegnativo per gli attuali modelli linguistici di frontiera: anche i modelli con le prestazioni migliori ottengono punteggi inferiori al 20%. Analizziamo le traiettorie di ReplicationBench in collaborazione con esperti di dominio e individuiamo un ricco e diversificato insieme di modalità di fallimento per gli agenti nella ricerca scientifica. ReplicationBench stabilisce il primo benchmark di compiti di ricerca astrofisica su scala articolare convalidati da esperti, rivela intuizioni sulle prestazioni degli agenti generalizzabili ad altri domini della scienza basata sui dati e fornisce un framework scalabile per misurare l'affidabilità degli agenti IA nella ricerca scientifica.
Comprendere gli oggetti a livello delle loro parti costitutive è fondamentale per progredire nella visione artificiale, nella computer grafica e nella robotica. Sebbene dataset come PartNet abbiano favorito progressi nella comprensione delle parti 3D, la loro dipendenza da geometrie non texturizzate e annotazioni basate su esperti ne limita la scalabilità e l'usabilità. Presentiamo PartNeXt, un dataset di nuova generazione che affronta queste lacune con oltre 23.000 modelli 3D di alta qualità e texturizzati, annotati con etichette di parti granulari e gerarchiche in 50 categorie. Valutiamo PartNeXt su due compiti: (1) segmentazione delle parti agnostica rispetto alla classe, dove i metodi all'avanguardia (ad esempio, PartField, SAMPart3D) faticano con parti granulari e a livello di foglia, e (2) question answering incentrato sulle parti 3D, un nuovo benchmark per i modelli linguistici 3D che rivela lacune significative nel grounding delle parti a vocabolario aperto. Inoltre, l'addestramento di Point-SAM su PartNeXt produce miglioramenti sostanziali rispetto a PartNet, sottolineando la qualità e la diversità superiori del dataset. Combinando annotazioni scalabili, etichette consapevoli della texture e valutazione multi-task, PartNeXt apre nuove strade per la ricerca nella comprensione strutturata del 3D.
Nell'attuale panorama dei dati in rapida espansione, l'estrazione di conoscenza da testi non strutturati è fondamentale per l'analisi in tempo reale, l'inferenza temporale e i framework di memoria dinamica. Tuttavia, la costruzione tradizionale di grafi della conoscenza (KG) statici trascura spesso la natura dinamica e sensibile al tempo dei dati del mondo reale, limitando l'adattabilità ai cambiamenti continui. Inoltre, i recenti approcci zero-shot o few-shot che evitano fine-tuning specifico per dominio o l'affidamento a ontologie predefinite spesso soffrono di instabilità tra esecuzioni multiple e copertura incompleta dei fatti chiave. Per affrontare queste sfide, introduciamo ATOM (AdapTive and OptiMized), un approccio few-shot e scalabile che costruisce e aggiorna continuamente Grafi della Conoscenza Temporali (TKG) a partire da testi non strutturati. ATOM suddivide i documenti in input in fatti minimi e autosufficienti ("atomici"), migliorando l'esaustività e la stabilità dell'estrazione. Successivamente, costruisce TKG atomici da questi fatti impiegando una modellazione a doppio tempo che distingue quando un'informazione è osservata da quando è valida. I TKG atomici risultanti vengono poi fusi in parallelo. Valutazioni empiriche dimostrano che ATOM raggiunge un'esaustività superiore di ~18%, una stabilità migliore del ~17% e una riduzione della latenza superiore al 90% rispetto ai metodi baseline, dimostrando un forte potenziale di scalabilità per la costruzione dinamica di TKG.
I modelli linguistici di grandi dimensioni (LLM) mostrano una preoccupante dualità, essendo capaci sia di una notevole generalizzazione che di una memorizzazione rigida e letterale dei loro dati di addestramento. Questa imprevedibilità mina la loro affidabilità in applicazioni ad alto rischio. In questo lavoro, proponiamo un quadro unificato per comprendere, identificare e controllare queste distinte modalità di ragionamento. In primo luogo, introduciamo un modello teorico basato sul principio del Collo di Bottiglia dell'Informazione (Information Bottleneck, IB), che formalizza la generalizzazione come l'apprendimento di una rappresentazione compressa e rilevante per il compito, e la memorizzazione come un fallimento della compressione. Basandoci su questa teoria, sviluppiamo lo "Dynamic Mode Steering" (DMS), un nuovo algoritmo per il tempo di inferenza che comprende due componenti: (1) una sonda lineare leggera e causalmente fondata che identifica l'affidamento istantaneo del modello sulla memorizzazione, e (2) un meccanismo di "dynamic activation steering" che spinge delicatamente il calcolo del modello verso circuiti di generalizzazione pre-identificati. Inquadriamo il DMS come una forma di decodifica auto-contrastiva e adattiva. Esperimenti su compiti di ragionamento e fedeltà fattuale dimostrano che il DMS migliora significativamente la coerenza logica e l'accuratezza fattuale, offrendo così un approccio principiato per migliorare l'affidabilità degli LLM.
L'allineamento delle rappresentazioni visione-linguaggio conferisce agli attuali Modelli Visione-Linguaggio (VLM) forti capacità di ragionamento multimodale. Tuttavia, l'interpretabilità del componente di allineamento rimane non indagata a causa della difficoltà nel mappare la semantica delle rappresentazioni multimodali in un insieme di concetti unificato. Per affrontare questo problema, proponiamo VL-SAE, un autoencoder sparso che codifica le rappresentazioni visione-linguaggio nelle sue attivazioni nascoste. Ogni neurone nel suo strato nascosto si correla a un concetto rappresentato da immagini e testi semanticamente simili, interpretando così queste rappresentazioni con un insieme di concetti unificato. Per stabilire la correlazione neurone-concetto, incoraggiamo durante l'addestramento auto-supervisionato rappresentazioni semanticamente simili ad esibire attivazioni neuronali consistenti. In primo luogo, per misurare la similarità semantica delle rappresentazioni multimodali, ne eseguiamo l'allineamento in forma esplicita basata sulla similarità del coseno. In secondo luogo, costruiamo il VL-SAE con un encoder basato sulla distanza e due decoder specifici per modalità per garantire la consistenza di attivazione di rappresentazioni semanticamente simili. Esperimenti su molteplici VLM (ad es., CLIP, LLaVA) dimostrano la capacità superiore di VL-SAE nell'interpretare e potenziare l'allineamento visione-linguaggio. Per l'interpretazione, l'allineamento tra le rappresentazioni visive e linguistiche può essere compreso confrontandone la semantica con i concetti. Per il potenziamento, l'allineamento può essere rafforzato allineando le rappresentazioni visione-linguaggio a livello concettuale, contribuendo a miglioramenti delle prestazioni in task downstream, inclusa la classificazione di immagini zero-shot e l'eliminazione di allucinazioni. I codici sono disponibili su https://github.com/ssfgunner/VL-SAE.
L'ottimizzazione topologica strutturale (TO) è fondamentale nella progettazione ingegneristica ma rimane computazionalmente intensiva a causa della fisica complessa e dei vincoli rigidi. I metodi di deep learning esistenti sono limitati a griglie quadrate fisse, poche condizioni al contorno predefinite e ottimizzazione a posteriori, impedendo un impiego generalizzato. Introduciamo Optimize Any Topology (OAT), un framework foundation-model che predice direttamente layout a minima compliance per rapporti d'aspetto, risoluzioni, frazioni volumetriche, carichi e vincoli arbitrari. OAT combina un autoencoder agnostico alla risoluzione e alla forma con un decoder a campo neurale implicito e un modello di diffusione latente condizionato addestrato su OpenTO, un nuovo corpus di 2,2 milioni di strutture ottimizzate che copre 2 milioni di configurazioni uniche di condizioni al contorno. Su quattro benchmark pubblici e due test impegnativi non visti in fase di addestramento, OAT riduce la compliance media fino al 90% rispetto ai migliori modelli precedenti e fornisce inferenze in meno di un secondo su una singola GPU per risoluzioni da 64x64 a 256x256 e rapporti d'aspetto fino a 10:1. Questi risultati stabiliscono OAT come framework generale, veloce e indipendente dalla risoluzione per l'ottimizzazione topologica consapevole della fisica e forniscono un dataset su larga scala per stimolare ulteriori ricerche sulla modellazione generativa per il design inverso. Codice e dati sono disponibili su https://github.com/ahnobari/OptimizeAnyTopology.
Recentemente, l'apprendimento per rinforzo basato su GRPO ha mostrato progressi notevoli nell'ottimizzazione dei modelli di flow-matching, migliorandone efficacemente l'allineamento con ricompense specifiche per il compito. In questi framework, l'aggiornamento della policy si basa sul clipping del rapporto di importanza per limitare gradienti positivi e negativi eccessivamente confidenti. Tuttavia, nella pratica si osserva uno spostamento sistematico nella distribuzione del rapporto di importanza: la sua media scende al di sotto di 1 e la sua varianza varia sostanzialmente tra i diversi timestep. Questa distribuzione spostata a sinistra e inconsistente impedisce ai campioni con vantaggio positivo di entrare nella regione di clipping, facendo fallire il meccanismo nel contenere gli aggiornamenti positivi sovraconfidenti. Di conseguenza, il modello di policy entra inevitabilmente in una fase di over-optimization implicita: mentre la ricompensa proxy continua ad aumentare, metriche essenziali come la qualità dell'immagine e l'allineamento con il prompt testuale si deteriorano bruscamente, rendendo infine la policy appresa impraticabile per un uso reale. Per affrontare questo problema, introduciamo GRPO-Guard, un potenziamento semplice ma efficace per i framework GRPO esistenti. Il nostro metodo incorpora una normalizzazione del rapporto, che ripristina un rapporto di importanza bilanciato e consistente tra i passi, garantendo che il clipping PPO limiti adeguatamente gli aggiornamenti dannosi lungo i timestep di denoising. In aggiunta, una strategia di riponderazione del gradiente equalizza i gradienti della policy sulle diverse condizioni di rumore, prevenendo aggiornamenti eccessivi da regioni specifiche di timestep. Insieme, questi elementi funzionano come un meccanismo di clipping regolato, stabilizzando l'ottimizzazione e mitigando sostanzialmente l'over-optimization implicita senza fare affidamento su una pesante regolarizzazione KL. Esperimenti estesi su molteplici backbone di diffusione (ad es. SD3.5M, Flux.1-dev) e su compiti proxy diversificati dimostrano che GRPO-Guard riduce significativamente l'over-optimizzazione mantenendo o persino migliorando la qualità della generazione.
Il ragionamento affidabile nei modelli visione-linguaggio (VLM) medici richiede non solo previsioni accurate, ma anche un allineamento trasparente tra le motivazioni testuali e l'evidenza visiva. Sebbene il prompting a catena del pensiero (CoT) abbia mostrato potenzialità nel task di risposta a domande visive (VQA) in ambito medico, non esisteva un dataset su larga scala di livello esperto che catturasse un ragionamento graduale con un preciso ancoraggio visivo. Introduciamo S-Chain, il primo dataset su larga scala composto da 12.000 immagini mediche annotate da esperti con bounding box e CoT visivo strutturato (SV-CoT), che collega esplicitamente le regioni visive ai passaggi del ragionamento. Il dataset supporta inoltre 16 lingue, per un totale di oltre 700.000 coppie VQA, garantendo un'ampia applicabilità multilingue. Utilizzando S-Chain, abbiamo valutato i VLM medici all'avanguardia (ExGra-Med, LLaVA-Med) e i VLM generici (Qwen2.5-VL, InternVL2.5), dimostrando che la supervisione SV-CoT migliora significativamente l'interpretabilità, la fedeltà dell'ancoraggio e la robustezza. Oltre al benchmarking, abbiamo studiato la sua sinergia con la generazione aumentata dal retrieval, rivelando come la conoscenza del dominio e l'ancoraggio visivo interagiscano durante il ragionamento autoregressivo. Infine, proponiamo un nuovo meccanismo che rafforza l'allineamento tra l'evidenza visiva e il ragionamento, migliorando sia l'affidabilità che l'efficienza. S-Chain stabilisce un nuovo benchmark per il ragionamento medico ancorato e apre la strada verso VLM medici più affidabili e spiegabili.
Presentiamo una valutazione completa della capacità dei modelli linguistici di grandi dimensioni (LLM) di elaborare un linguaggio culturalmente radicato, in particolare di comprendere e utilizzare pragmaticamente espressioni figurative che codificano conoscenze locali e sfumature culturali. Utilizzando il linguaggio figurativo come indicatore delle sfumature culturali e della conoscenza locale, progettiamo compiti di valutazione per la comprensione contestuale, l'uso pragmatico e l'interpretazione delle connotazioni in arabo e inglese. Valutiamo 22 LLM open-source e closed-source su modi di dire dell'arabo egiziano, proverbi arabi multidi dialettali e proverbi inglesi. I nostri risultati mostrano una gerarchia coerente: l'accuratezza media per i proverbi arabi è inferiore del 4,29% rispetto a quella per i proverbi inglesi, e le prestazioni per i modi di dire egiziani sono inferiori del 10,28% rispetto a quelle per i proverbi arabi. Per il compito di uso pragmatico, l'accuratezza diminuisce del 14,07% rispetto alla comprensione, sebbene la fornitura di frasi idiomatiche contestuali migliori l'accuratezza del 10,66%. I modelli mostrano difficoltà anche con il significato connotativo, raggiungendo al massimo un accordo dell'85,58% con annotatori umani su modi di dire con un accordo inter-annotatori del 100%. Questi risultati dimostrano che il linguaggio figurativo funziona come un efficace diagnostico per il ragionamento culturale: sebbene gli LLM siano spesso in grado di interpretare il significato figurativo, incontrano difficoltà nel suo utilizzo appropriato. Per supportare la ricerca futura, rendiamo pubblico Kinayat, il primo dataset di modi di dire dell'arabo egiziano progettato sia per la valutazione della comprensione figurativa che dell'uso pragmatico.
Gli embedding di testi brevettuali abilitano la ricerca di tecnologie preesistenti, l'analisi del panorama tecnologico e l'analisi brevettuale, ma i benchmark esistenti non catturano adeguatamente le sfide specifiche del dominio brevettuale. Introduciamo PatenTEB, un benchmark completo che comprende 15 task di retrieval, classificazione, parafrasi e clustering, con 2,06 milioni di esempi. PatenTEB utilizza suddivisioni stratificate per dominio, tecniche specifiche di hard negative mining e una copertura sistematica di scenari di matching asimmetrico frammento-documento assenti nei benchmark generici per embedding. Sviluppiamo la famiglia di modelli patembed attraverso addestramento multi-task, con dimensioni da 67M a 344M di parametri e lunghezze contestuali fino a 4096 token. La validazione esterna mostra una forte generalizzazione: patembed-base raggiunge lo stato dell'arte su MTEB BigPatentClustering.v2 (0,494 V-measure vs. 0,445 del precedente migliore), mentre patembed-large raggiunge 0,377 NDCG@100 su DAPFAM. Ablazioni sistematiche rivelano che l'addestramento multi-task migliora la generalizzazione esterna nonostante lievi costi sul benchmark, e che l'inizializzazione con pre-addestramento di dominio fornisce vantaggi consistenti tra le famiglie di task. Tutte le risorse saranno rese disponibili su https://github.com/iliass-y/patenteb. Parole chiave: retrieval brevettuale, embedding di frasi, apprendimento multi-task, retrieval asimmetrico, valutazione di benchmark, apprendimento contrastivo.