Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'etichetta "end-to-end" per gli LLM è un termine improprio. Nella pratica, questi modelli dipendono da un processo di decodifica non differenziabile che richiede una laboriosa regolazione manuale di iperparametri come temperatura e top-p. Questo articolo introduce AutoDeco, una nuova architettura che abilita una generazione veramente "end-to-end" apprendendo a controllare la propria strategia di decodifica. Potenziamo il transformer standard con teste leggere che, a ogni passo, predicono dinamicamente valori di temperatura e top-p specifici per il contesto, insieme ai logit del token successivo. Questo approccio trasforma la decodifica in un processo parametrico a livello di token, consentendo al modello di auto-regolare la propria strategia di campionamento all'interno di un unico passaggio in avanti. Attraverso esperimenti approfonditi su otto benchmark, dimostriamo che AutoDeco non solo supera significativamente le strategie di decodifica predefinite, ma raggiunge anche prestazioni paragonabili a una baseline ottimizzata in modo oracolare, derivata da un "hacking del test set" – un limite superiore pratico per qualsiasi metodo statico. Crucialmente, scopriamo un'abilità emergente per il controllo della decodifica basata su istruzioni: il modello impara a interpretare comandi in linguaggio naturale (ad esempio, "genera con bassa casualità") e regola la temperatura e il top-p previsti su base token-per-token, aprendo un nuovo paradigma per la decodifica degli LLM orientabile e interattiva.
Introduciamo Kimi Linear, un'architettura ibrida di attenzione lineare che, per la prima volta, supera l'attenzione completa in confronti equi attraverso vari scenari — inclusi regimi di scaling per contesti brevi, contesti lunghi e apprendimento per rinforzo (RL). Il suo nucleo è costituito da Kimi Delta Attention (KDA), un modulo di attenzione lineare espressivo che estende il Gated DeltaNet con un meccanismo di gating più granulare, consentendo un uso più efficace della memoria limitata delle RNN a stati finiti. Il nostro algoritmo chunkwise su misura raggiunge un'elevata efficienza hardware attraverso una variante specializzata delle matrici di transizione Diagonal-Plus-Low-Rank (DPLR), che riduce sostanzialmente il calcolo rispetto alla formulazione DPLR generale, rimanendo al contempo più coerente con la classica delta rule. Addestriamo preliminarmente un modello Kimi Linear con 3 miliardi di parametri attivati e 48 miliardi di parametri totali, basato su un ibrido stratificato di KDA e Multi-Head Latent Attention (MLA). I nostri esperimenti mostrano che, con una procedura di addestramento identica, Kimi Linear supera l'MLA completo con un margine considerevole in tutti i compiti valutati, riducendo contemporaneamente l'uso della cache KV fino al 75% e raggiungendo un throughput di decodifica fino a 6 volte superiore per un contesto di 1 milione di token. Questi risultati dimostrano che Kimi Linear può essere un sostituto diretto per le architetture di attenzione completa, offrendo prestazioni e efficienza superiori, anche in compiti con lunghezze di input e output maggiori. Per supportare ulteriori ricerche, rendiamo open-source le implementazioni del kernel KDA e di vLLM, e rilasciamo i checkpoint del modello pre-addestrato e ottimizzato per istruzioni.
Introduciamo Emu3.5, un modello mondiale multimodale su larga scala che predice nativamente lo stato successivo attraverso visione e linguaggio. Emu3.5 è pre-addestrato end-to-end con un obiettivo unificato di predizione del token successivo su un corpus di dati intervallati visione-linguaggio contenente oltre 10 trilioni di token, derivati principalmente da frame sequenziali e trascrizioni di video internet. Il modello accetta naturalmente input visione-linguaggio intervallati e genera output visione-linguaggio intervallati. Emu3.5 è ulteriormente post-addestrato con apprendimento per rinforzo su larga scala per potenziare il ragionamento e la generazione multimodale. Per migliorare l'efficienza inferenziale, proponiamo Discrete Diffusion Adaptation (DiDA), che converte la decodifica token-per-token in una predizione parallela bidirezionale, accelerando l'inferenza per immagine di circa 20x senza sacrificare le prestazioni. Emu3.5 mostra forti capacità multimodali native, inclusa la generazione visione-linguaggio a lungo termine, la generazione any-to-image (X2I) e la generazione di immagini complesse ricche di testo. Mostra anche abilità generalizzabili di modellazione mondiale, abilitando l'esplorazione mondiale spaziotemporalmente coerente e la manipolazione embodied in mondi aperti attraverso scenari e compiti diversificati. Per confronto, Emu3.5 raggiunge prestazioni comparabili a Gemini 2.5 Flash Image (Nano Banana) su compiti di generazione e editing di immagini e dimostra risultati superiori su una suite di compiti di generazione intervallata. Rendiamo Emu3.5 open-source su https://github.com/baaivision/Emu3.5 per supportare la ricerca della comunità.
ChatGPT Atlas di OpenAI introduce nuove capacità di interazione web, consentendo al modello di analizzare pagine web, elaborare le intenzioni dell'utente ed eseguire input di cursore e tastiera direttamente all'interno del browser. Sebbene la sua capacità per compiti di recupero informazioni sia stata dimostrata, le sue prestazioni in ambienti dinamici e interattivi rimangono meno esplorate. In questo studio, conduciamo una valutazione preliminare delle capacità di interazione web di Atlas utilizzando giochi basati su browser come scenari di test, tra cui T-Rex Runner di Google, Sudoku, Flappy Bird e Stein.world. Utilizziamo i punteggi di performance in-game come metriche quantitative per valutare le prestazioni tra diversi tipi di compiti. I nostri risultati mostrano che Atlas ottiene ottimi risultati in compiti di ragionamento logico come il Sudoku, completando i puzzle significativamente più velocemente rispetto ai benchmark umani, ma incontra notevoli difficoltà in giochi in tempo reale che richiedono tempismo preciso e controllo motorio, spesso non riuscendo a superare gli ostacoli iniziali. Questi risultati suggeriscono che, sebbene Atlas dimostri una elaborazione analitica capace, permangono limitazioni significative in ambienti web dinamici che richiedono interazione in tempo reale. Il sito web del nostro progetto è disponibile all'indirizzo https://atlas-game-eval.github.io.
I grandi modelli linguistici (LLM) spesso incontrano difficoltà con problemi che richiedono ragionamenti a più fasi. Per i modelli open-source di piccole dimensioni, l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) fallisce quando soluzioni corrette vengono campionate raramente anche dopo molti tentativi, mentre la Messa a Punto Supervisionata (SFT) tende a sovradattarsi alle lunghe dimostrazioni attraverso una rigida imitazione token-per-token. Per colmare questa lacuna, proponiamo l'Apprendimento per Rinforzo Supervisionato (SRL), un quadro metodologico che riformula la risoluzione dei problemi come la generazione di una sequenza di "azioni" logiche. SRL addestra il modello a generare un monologo di ragionamento interno prima di impegnarsi in ogni azione. Fornisce ricompense più graduali basate sulla similarità tra le azioni del modello e le azioni esperte estratte dal dataset SFT in modo graduale, passo dopo passo. Questa supervisione offre segnali di apprendimento più ricchi anche quando tutti i tentativi di soluzione sono errati, incoraggiando al contempo un ragionamento flessibile guidato dalle dimostrazioni esperte. Di conseguenza, SRL consente a modelli di piccole dimensioni di apprendere problemi complessi precedentemente non apprendibili con SFT o RLVR. Inoltre, inizializzare l'addestramento con SRL prima di affinare con RLVR produce le prestazioni complessive più elevate. Oltre ai benchmark di ragionamento, SRL si generalizza efficacemente a compiti di ingegneria del software agentico, stabilendosi come un quadro di addestramento robusto e versatile per LLM orientati al ragionamento.
Sebbene le rappresentazioni visive pre-addestrate abbiano fatto progredire significativamente l'apprendimento per imitazione, sono spesso indipendenti dal compito poiché rimangono congelate durante l'apprendimento della politica. In questo lavoro, esploriamo l'utilizzo di modelli di diffusione testo-immagine pre-addestrati per ottenere rappresentazioni visive adattive al compito per il controllo robotico, senza mettere a punto il modello stesso. Tuttavia, riscontriamo che applicare ingenuamente le condizioni testuali - una strategia di successo in altri ambiti visivi - produce guadagni minimi o addirittura negativi nei compiti di controllo. Attribuiamo ciò al divario di dominio tra i dati di addestramento del modello di diffusione e gli ambienti di controllo robotico, portandoci a sostenere l'uso di condizioni che considerino le specifiche informazioni visive dinamiche richieste per il controllo. A tal fine, proponiamo ORCA, che introduce prompt di compito apprendibili che si adattano all'ambiente di controllo e prompt visivi che catturano dettagli granulari e specifici per il fotogramma. Facilitando rappresentazioni adattive al compito con le nostre nuove condizioni, il nostro approccio raggiunge prestazioni all'avanguardia su varie benchmark di controllo robotico, superando significativamente i metodi precedenti.
La creazione di agenti in grado di generalizzare attraverso ambienti web, desktop e mobili rimane una sfida aperta, poiché i sistemi precedenti si basano su interfacce specifiche per ambiente che limitano lo sviluppo multipiattaforma. Introduciamo Surfer 2, un'architettura unificata che opera esclusivamente da osservazioni visive e raggiunge prestazioni all'avanguardia in tutti e tre gli ambienti. Surfer 2 integra una gestione gerarchica del contesto, una pianificazione ed esecuzione disaccoppiate e un'autoverifica con ripristino adattivo, consentendo un funzionamento affidabile su lunghi orizzonti di attività. Il nostro sistema raggiunge un'accuratezza del 97,1% su WebVoyager, del 69,6% su WebArena, del 60,1% su OSWorld e dell'87,1% su AndroidWorld, superando tutti i sistemi precedenti senza una messa a punto specifica per attività. Con tentativi multipli, Surfer 2 supera le prestazioni umane su tutti i benchmark. Questi risultati dimostrano che un'orchestrazione sistematica amplifica le capacità dei modelli di base e abilita il controllo informatico generico attraverso la sola interazione visiva, richiedendo al contempo un modello linguistico visivo di prossima generazione per raggiungere un'efficienza di costo Pareto-ottimale.
I recenti modelli di generazione video sono in grado di produrre video ad alta fedeltà e coerenza temporale, suggerendo che possano codificare una sostanziale conoscenza del mondo. Oltre alla sintesi realistica, essi mostrano anche comportamenti emergenti indicativi di percezione visiva, modellazione e manipolazione. Tuttavia, rimane una domanda importante: i modelli video sono pronti per fungere da ragionatori zero-shot in scenari complessi di ragionamento visivo? In questo lavoro, conduciamo uno studio empirico per indagare esaustivamente questa questione, concentrandoci sul leader di mercato Veo-3. Valutiamo il suo comportamento di ragionamento lungo 12 dimensioni, inclusa logica spaziale, geometrica, fisica, temporale ed embodied, caratterizzando sistematicamente sia i suoi punti di forza che le modalità di fallimento. Per standardizzare lo studio, organizziamo i dati di valutazione in MME-CoF, un benchmark compatto che consente una valutazione approfondita e completa del ragionamento a Catena di Frame (CoF). I nostri risultati rivelano che, sebbene gli attuali modelli video dimostrino pattern di ragionamento promettenti sulla coerenza spaziale a breve orizzonte, il grounding granulare e le dinamiche localmente consistenti, essi rimangono limitati nel ragionamento causale a lungo termine, nei vincoli geometrici rigorosi e nella logica astratta. Nel complesso, non sono ancora affidabili come ragionatori zero-shot autonomi, ma mostrano segnali incoraggianti come motori visivi complementari affiancati a modelli di ragionamento dedicati. Pagina del progetto: https://video-cof.github.io
Presentiamo AMO-Bench, un benchmark avanzato per il ragionamento matematico con problemi di livello Olimpico o addirittura superiore, comprendente 50 problemi creati da esseri umani. I benchmark esistenti hanno ampiamente utilizzato competizioni matematiche di livello scolastico superiore per valutare le capacità di ragionamento matematico dei grandi modelli linguistici (LLM). Tuttavia, molte competizioni matematiche esistenti stanno diventando meno efficaci per valutare gli LLM di fascia alta a causa della saturazione delle prestazioni (ad esempio, AIME24/25). Per affrontare questo problema, AMO-Bench introduce sfide più rigorose assicurando che tutti i 50 problemi siano (1) convalidati incrociatamente da esperti per soddisfare almeno gli standard di difficoltà delle Olimpiadi Internazionali della Matematica (IMO), e (2) problemi interamente originali per prevenire possibili dispersioni di prestazioni dovute alla memorizzazione dei dati. Inoltre, ogni problema in AMO-Bench richiede solo una risposta finale piuttosto che una dimostrazione, consentendo una valutazione automatica e robusta. I risultati sperimentali su 26 LLM con AMO-Bench mostrano che anche il modello con le migliori prestazioni raggiunge solo il 52,4% di accuratezza su AMO-Bench, con la maggior parte degli LLM che ottiene un punteggio inferiore al 40%. Oltre a queste scarse prestazioni, la nostra ulteriore analisi rivela una promettente tendenza di scaling con l'aumento della potenza di calcolo al momento del test su AMO-Bench. Questi risultati evidenziano il margine di miglioramento significativo per il ragionamento matematico negli LLM attuali. Rilasciamo AMO-Bench per facilitare ulteriori ricerche per far avanzare le capacità di ragionamento dei modelli linguistici.
Prevediamo una nuova era dell'IA, denominata organizzazione agentica, in cui gli agenti risolvono problemi complessi collaborando e operando in modo concorrente, consentendo risultati che superano l'intelligenza individuale. Per realizzare questa visione, introduciamo il pensiero asincrono (AsyncThink) come nuovo paradigma di ragionamento con i grandi modelli linguistici, che organizza il processo di pensiero interno in strutture eseguibili concorrentemente. Nello specifico, proponiamo un protocollo di pensiero in cui un organizzatore assegna dinamicamente sotto-query ai lavoratori, fonde le conoscenze intermedie e produce soluzioni coerenti. Ancora più importante, la struttura di pensiero in questo protocollo può essere ulteriormente ottimizzata attraverso l'apprendimento per rinforzo. Gli esperimenti dimostrano che AsyncThink raggiunge una latenza inferiore del 28% rispetto al pensiero parallelo, migliorando al contempo l'accuratezza nel ragionamento matematico. Inoltre, AsyncThink generalizza le sue capacità apprese di pensiero asincrono, affrontando efficacemente compiti non visti senza ulteriore addestramento.
Nonostante i recenti progressi nella generazione di moto umano 3D (MoGen) sui benchmark standard, i modelli esistenti affrontano ancora un collo di bottiglia fondamentale nella loro capacità di generalizzazione. Al contrario, campi generativi adiacenti, in particolare la generazione video (ViGen), hanno dimostrato una notevole generalizzazione nella modellazione dei comportamenti umani, evidenziando intuizioni trasferibili che il MoGen può sfruttare. Motivati da questa osservazione, presentiamo un framework completo che trasferisce sistematicamente la conoscenza dalla ViGen alla MoGen attraverso tre pilastri chiave: dati, modellazione e valutazione. In primo luogo, introduciamo ViMoGen-228K, un dataset su larga scala comprendente 228.000 campioni di moto di alta qualità che integra dati ottici MoCap ad alta fedeltà con movimenti semanticamente annotati da video web e campioni sintetizzati generati da modelli ViGen all'avanguardia. Il dataset include sia coppie testo-moto che triplette testo-video-moto, espandendo sostanzialmente la diversità semantica. In secondo luogo, proponiamo ViMoGen, un diffusion transformer basato sul flow matching che unisce i priori dei dati MoCap e dei modelli ViGen attraverso un condizionamento multimodale gated. Per migliorare l'efficienza, sviluppiamo ulteriormente ViMoGen-light, una variante distillata che elimina le dipendenze dalla generazione video preservando una forte generalizzazione. Infine, presentiamo MBench, un benchmark gerarchico progettato per una valutazione granulare su qualità del movimento, fedeltà alla descrizione testuale e capacità di generalizzazione. Esperimenti estensivi mostrano che il nostro framework supera significativamente gli approcci esistenti sia nelle valutazioni automatiche che umane. Il codice, i dati e il benchmark saranno resi pubblicamente disponibili.
Esistono due metodi prevalenti per costruire scene 3D: la generazione procedurale e il "sollevamento" 2D (2D lifting). Tra questi, il 2D lifting basato su panorami è emerso come una tecnica promettente, che sfrutta potenti prior generative 2D per produrre ambienti 3D immersivi, realistici e diversificati. In questo lavoro, facciamo progredire questa tecnica per generare scene 3D pronte per la grafica, adatte per il rendering fisicamente basato (PBR), la riluminazione e la simulazione. La nostra intuizione chiave è riutilizzare modelli generativi 2D per la percezione panoramica di geometria, texture e materiali PBR. A differenza degli approcci di 2D lifting esistenti che enfatizzano la generazione dell'aspetto e ignorano la percezione delle proprietà intrinseche, noi presentiamo OmniX, un framework versatile e unificato. Basato su una struttura adattatrice cross-modale leggera ed efficiente, OmniX riutilizza le prior generative 2D per un'ampia gamma di compiti di visione panoramica, inclusi percezione, generazione e completamento panoramico. Inoltre, abbiamo costruito un ampio dataset sintetico di panorami che contiene panorami multimodali di alta qualità provenienti da varie scene indoor e outdoor. Esperimenti estensivi dimostrano l'efficacia del nostro modello nella percezione visiva panoramica e nella generazione di scene 3D pronte per la grafica, aprendo nuove possibilità per la generazione immersiva e fisicamente realistica di mondi virtuali.
I modelli generativi testo-immagine attuali vengono addestrati su grandi dataset non curati per abilitare capacità di generazione diversificate. Tuttavia, questo approccio non si allinea bene con le preferenze degli utenti. Recentemente, sono stati sviluppati modelli di reward specificamente progettati per eseguire una selezione post-hoc delle immagini generate e allinearle a una ricompensa, tipicamente la preferenza dell'utente. Questo scarto di dati informativi, unito all'ottimizzazione per una singola ricompensa, tende a danneggiare la diversità, la fedeltà semantica e l'efficienza. Invece di questa post-elaborazione, proponiamo di condizionare il modello su più modelli di reward durante l'addestramento, permettendo al modello di apprendere direttamente le preferenze degli utenti. Dimostriamo che ciò non solo migliora drasticamente la qualità visiva delle immagini generate, ma accelera significativamente anche l'addestramento. Il nostro metodo proposto, chiamato MIRO, raggiunge prestazioni all'avanguardia sul benchmark compositivo GenEval e sui punteggi di preferenza utente (PickAScore, ImageReward, HPSv2).
I dispositivi indossabili come gli occhiali intelligenti stanno trasformando il modo in cui le persone interagiscono con l'ambiente circostante, consentendo agli utenti di ricercare informazioni relative alle entità nel loro campo visivo. La Generazione Aumentata tramite Recupero Multimodale (Multi-Modal Retrieval-Augmented Generation, MM-RAG) svolge un ruolo chiave nel supportare tali interrogativi, eppure non esiste ancora un benchmark completo per questo compito, specialmente per quanto riguarda gli scenari di dispositivi indossabili. Per colmare questa lacuna, presentiamo CRAG-MM - un benchmark RAG completo per conversazioni multimodali e multi-turno. CRAG-MM contiene un insieme diversificato di 6.5K triplette (immagine, domanda, risposta) e 2K conversazioni multi-turno basate sul visivo attraverso 13 domini, includendo 6.2K immagini egocentriche progettate per simulare acquisizioni da dispositivi indossabili. Abbiamo costruito le domande con cura per riflettere scenari e sfide del mondo reale, includendo cinque tipi di problematiche legate alla qualità dell'immagine, sei tipi di domanda, varia popolarità delle entità, diversa dinamicità dell'informazione e differenti turni di conversazione. Progettiamo tre compiti: aumento da singola fonte, aumento da più fonti e conversazioni multi-turno - ciascuno associato a un corpus di recupero dedicato e API sia per il recupero da Knowledge Graph basato su immagini che per il recupero da pagine web. La nostra valutazione mostra che gli approcci RAG diretti raggiungono solo il 32% e il 43% di veridicità rispettivamente su CRAG-MM per QA a singolo turno e multi-turno, mentre le soluzioni industriali allo stato dell'arte hanno una qualità simile (32%/45%), sottolineando un ampio margine di miglioramento. Il benchmark ha ospitato la KDD Cup 2025, attirando circa 1K partecipanti e 5K submission, con le soluzioni vincitrici che hanno migliorato le performance di base del 28%, evidenziando il suo precoce impatto nel far avanzare il campo.
Le cartelle cliniche elettroniche (EHR) contengono informazioni ricche ma complesse, e la loro analisi automatizzata è fondamentale per il processo decisionale clinico. Nonostante i recenti progressi dei grandi modelli linguistici (LLM) nei flussi di lavoro clinici, la loro capacità di analizzare le EHR rimane limitata a causa della copertura ristretta dei compiti e della mancanza di capacità di ragionamento orientate alle EHR. Questo articolo mira a colmare questa lacuna; in particolare, presentiamo EHR-Ins, un ampio dataset di istruzioni per il ragionamento su EHR, comprendente 300k casi di ragionamento di alta qualità e 4M casi non di ragionamento relativi a 42 distinti compiti sulle EHR. La sua innovazione principale è un framework guidato da un thinking-graph che consente di generare dati di ragionamento di alta qualità su larga scala. Su questa base, sviluppiamo EHR-R1, una serie di LLM potenziati per il ragionamento con fino a 72B di parametri, specificamente progettati per l'analisi delle EHR. Attraverso un paradigma di addestramento multi-stadio, comprendente adattamento al dominio, potenziamento del ragionamento e apprendimento per rinforzo, EHR-R1 acquisisce sistematicamente conoscenza del dominio e capacità di ragionamento diversificate, consentendo un'analisi delle EHR accurata e robusta. Infine, introduciamo EHR-Bench, un nuovo benchmark curato a partire da MIMIC-IV, che copre 42 compiti, per valutare in modo completo il ragionamento e la predizione negli scenari EHR. Negli esperimenti, dimostriamo che il risultante EHR-R1 supera costantemente gli LLM commerciali e open-source all'avanguardia (inclusi DeepSeek-V3 e GPT-4o), superando GPT-4o di oltre 30 punti su MIMIC-Bench e raggiungendo un AUROC zero-shot del 10% più alto su EHRSHOT. Nel complesso, EHR-Ins, EHR-R1 ed EHR-Bench hanno fatto avanzare significativamente lo sviluppo verso un'analisi delle EHR più affidabile e clinicamente rilevante.
L'IA documentale ha compiuto rapidi progressi e sta attirando un'attenzione crescente. Tuttavia, mentre la maggior parte degli sforzi si è concentrata sull'analisi del layout dei documenti (DLA), la sua controparte generativa, la generazione del layout dei documenti, rimane poco esplorata. Un ostacolo principale risiede nella scarsità di layout diversificati: gli articoli accademici con strutture di tipo Manhattan dominano gli studi esistenti, mentre generi del mondo reale come giornali e riviste rimangono gravemente sottorappresentati. Per colmare questa lacuna, abbiamo curato OmniLayout-1M, il primo dataset su larga scala (un milione di esempi) di layout documentali diversificati, che copre sei tipi comuni di documento e comprende layout contemporanei raccolti da molteplici fonti. Inoltre, poiché i metodi esistenti faticano in domini complessi e spesso non riescono a disporre sequenze lunghe in modo coerente, introduciamo OmniLayout-LLM, un modello da 0.5B con un paradigma di apprendimento a due stadi progettato su principio Coarse-to-Fine: 1) apprendere principi di layout universali da OmniLayout-1M con definizioni di categoria grossolane, e 2) trasferire la conoscenza a un dominio specifico con annotazioni granulari. Esperimenti estensivi dimostrano che il nostro approccio raggiunge prestazioni robuste su molteplici domini nel dataset M⁶Doc, superando sostanzialmente sia gli esistenti esperti di generazione di layout che diversi recenti LLM generici. Il nostro codice, modelli e dataset saranno rilasciati pubblicamente.
Man mano che gli agenti LLM avanzano, mediano sempre più decisioni economiche, dalla scoperta di prodotti alle transazioni, per conto degli utenti. Tali applicazioni promettono benefici ma sollevano anche molti interrogativi sulla responsabilità degli agenti e sul valore per gli utenti. Affrontare queste questioni richiede la comprensione di come gli agenti si comportano in condizioni di mercato realistiche. Tuttavia, la ricerca precedente ha valutato per lo più gli agenti in contesti vincolati, come marketplace a compito singolo (ad esempio, negoziazione) o interazioni strutturate a due agenti. I mercati del mondo reale sono fondamentalmente diversi: richiedono agli agenti di gestire attività economiche diversificate e di coordinarsi all'interno di ecosistemi ampi e dinamici dove più agenti con comportamenti opachi possono impegnarsi in dialoghi aperti. Per colmare questa lacuna, investigiamo marketplace agentici bilaterali in cui agenti Assistente rappresentano i consumatori e agenti Servizio rappresentano aziende concorrenti. Per studiare queste interazioni in sicurezza, sviluppiamo Magentic-Marketplace, un ambiente simulato in cui gli Assistenti e i Servizi possono operare. Questo ambiente ci permette di studiare le dinamiche di mercato chiave: l'utilità raggiunta dagli agenti, i bias comportamentali, la vulnerabilità alla manipolazione e come i meccanismi di ricerca influenzano i risultati del mercato. I nostri esperimenti mostrano che i modelli all'avanguardia possono avvicinarsi all'ottimo sociale, ma solo in condizioni di ricerca ideali. Le prestazioni si degradano nettamente con la scala e tutti i modelli mostrano un forte bias per la prima proposta, creando vantaggi di 10-30 volte per la velocità di risposta rispetto alla qualità. Questi risultati rivelano come i comportamenti emergono in diverse condizioni di mercato, fornendo indicazioni per la progettazione di marketplace agentici equi ed efficienti.
La generazione 3D basata su parti presenta un grande potenziale per varie applicazioni. I precedenti generatori di parti che rappresentano i componenti mediante token impliciti di tipo vector-set spesso soffrono di dettagli geometrici insufficienti. Un altro filone di ricerca adotta una rappresentazione voxel esplicita, ma condivide una griglia voxel globale tra tutte le parti; ciò spesso causa la rappresentazione di parti piccole con un numero troppo esiguo di voxel, portando a una qualità degradata. In questo articolo proponiamo FullPart, un framework innovativo che combina entrambi i paradigmi implicito ed esplicito. Il metodo deriva dapprima il layout dei bounding box attraverso un processo di diffusione implicito di vector-set di box, un compito che la diffusione implicita gestisce efficacemente poiché i token di box contengono pochi dettagli geometrici. Successivamente, genera parti dettagliate, ciascuna all'interno della propria griglia voxel a risoluzione completa. Invece di condividere uno spazio globale a bassa risoluzione, ogni parte nel nostro metodo - anche quelle piccole - viene generata a piena risoluzione, consentendo la sintesi di dettagli intricati. Introduciamo inoltre una strategia di codifica center-point per affrontare il problema di disallineamento nello scambio di informazioni tra parti di dimensioni reali diverse, mantenendo così la coerenza globale. Inoltre, per ovviare alla scarsità di dati parti affidabili, presentiamo PartVerse-XL, il più grande dataset 3D di parti annotate manualmente con 40K oggetti e 320K parti. Esperimenti approfonditi dimostrano che FullPart raggiunge risultati all'avanguardia nella generazione di parti 3D. Rilasceremo tutto il codice, i dati e il modello a beneficio della ricerca futura nella generazione di parti 3D.
I Large Multimodal Models (LMM) stanno diventando sempre più capaci di rispondere a domande mediche che richiedono un ragionamento congiunto su immagini e testo, eppure l'addestramento di sistemi generali di VQA (Visual Question Answering) medico è ostacolato dalla mancanza di corpora ampi, di alta qualità e di uso aperto. Presentiamo MedVLSynther, un framework generatore-verifica guidato da rubriche che sintetizza elementi di VQA a scelta multipla di alta qualità direttamente dalla letteratura biomedica aperta, basandosi su figure, didascalie e riferimenti testuali. Il generatore produce domande auto-consistenti e opzioni parallele e mutualmente esclusive secondo uno schema JSON verificabile automaticamente; un verificatore multi-stadio applica controlli essenziali (auto-consistenza, singola risposta corretta, validità clinica, coerenza immagine-testo), assegna punteggi positivi granulari e penalizza le modalità di errore comuni prima dell'accettazione. L'applicazione di questa pipeline a PubMed Central produce MedSynVQA: 13.087 domande verificate su 14.803 immagini che coprono 13 modalità di imaging e 28 regioni anatomiche. L'addestramento di LMM a peso aperto con apprendimento per rinforzo, utilizzando ricompense verificabili, migliora l'accuratezza su sei benchmark di VQA medico, raggiungendo medie di 55,85 (3B) e 58,15 (7B), con punte fino a 77,57 su VQA-RAD e 67,76 su PathVQA, superando LMM medici robusti. Le ablazioni verificano che sia la generazione che la verifica sono necessarie e che più dati verificati aiutano costantemente, mentre un'analisi mirata della contaminazione non rileva dispersioni dai set di valutazione. Operando interamente su letteratura aperta e modelli a peso aperto, MedVLSynther offre un percorso verificabile, riproducibile e che preserva la privacy per dati di addestramento scalabili per il VQA medico.
Le IA hanno compiuto rapidi progressi nei benchmark di ricerca su conoscenza e ragionamento, ma rimane poco chiaro come questi progressi si traducano in valore economico e automazione. Per misurare ciò, introduciamo il Remote Labor Index (RLI), un benchmark ampio e multisettoriale che comprende progetti reali di valore economico, progettato per valutare le prestazioni end-to-end degli agenti in contesti pratici. Gli agenti di IA ottengono prestazioni prossime al minimo sull'RLI, con l'agente più performante che raggiunge un tasso di automazione del 2,5%. Questi risultati contribuiscono a fondare le discussioni sull'automazione IA su evidenze empiriche, stabilendo una base comune per monitorare gli impatti dell'IA e consentendo alle parti interessate di navigare proattivamente l'automazione del lavoro guidata dall'IA.
Questo lavoro indaga se i modelli linguistici di piccola scala possano trarre vantaggio dall'instruction tuning. Confrontiamo dataset di instruction tuning per conversazione e question-answering, applicati secondo un curriculum sia fuso che sequenziale, utilizzando modelli decoder-only con 100 e 140 milioni di parametri. La valutazione copre sia scenari di fine-tuning (SuperGLUE) che zero-shot (BLiMP, EWoK, WUGs, entity tracking e correlazione psicolinguistica). I risultati mostrano che l'instruction tuning produce piccoli ma consistenti miglioramenti negli scenari di fine-tuning, con curricula sequenziali che superano i dati fusi; tuttavia, i miglioramenti non si trasferiscono in modo coerente ai task zero-shot, suggerendo un compromesso tra un'adattamento focalizzato sull'interazione e un'ampia generalizzazione linguistica. Questi risultati evidenziano sia il potenziale che i limiti dell'adattamento di strategie di apprendimento ispirate all'uomo a modelli linguistici a risorse limitate, e indicano approcci ibridi basati su curriculum per migliorare la generalizzazione sotto vincoli di addestramento ecologici.
Gli attuali modelli linguistici di grandi dimensioni (LLM) per l'uso di strumenti vengono addestrati su dataset statici, consentendo loro di interagire con strumenti esterni e compiere ragionamenti multi-step integrati con strumenti, producendo così traiettorie di chiamate agli strumenti. Tuttavia, questi modelli imitano la risoluzione di una query secondo una routine generica di chiamate agli strumenti, fallendo quindi nell'esplorare soluzioni alternative e dimostrando prestazioni limitate in un ambiente dinamico ed evoluto di chiamate agli strumenti. In questo lavoro proponiamo PORTool, un metodo di apprendimento per rinforzo (RL) che incentiva un LLM per l'uso di strumenti a esplorare varie traiettorie che portano alla risposta corretta. Nello specifico, il metodo inizia generando multiple rollout per una data query, alcune delle quali condividono i primi passi di chiamata agli strumenti, formando così una struttura ad albero. Successivamente, assegniamo ricompense a ogni passo, basate sulla sua capacità di produrre una risposta corretta e effettuare chiamate agli strumenti con successo. Un passo condiviso da diverse traiettorie riceve la stessa ricompensa, mentre passi diversi sotto lo stesso ramo ricevono ricompense diverse. Infine, queste ricompense step-wise vengono utilizzate per calcolare vantaggi relativi ai rami, combinati con vantaggi relativi alle traiettorie, per addestrare l'LLM all'uso degli strumenti. Gli esperimenti utilizzano 17 strumenti per affrontare query utente, coprendo sia argomenti time-sensitive che time-invariant. Condurremo studi di ablazione per giustificare sistematicamente la necessità e la robustezza progettuale delle ricompense step-wise. Inoltre, confronteremo PORTool con altri approcci di addestramento, dimostrando significativi miglioramenti nell'accuratezza finale e nel numero di passi di chiamata agli strumenti.
I Large Language Model (LLM) offrono prestazioni all'avanguardia nei compiti di comprensione e generazione del linguaggio naturale. Tuttavia, l'implementazione di modelli commerciali leader per compiti specializzati, come l'e-commerce, è spesso ostacolata dagli elevati costi computazionali, dalla latenza e dalle spese operative. Questo articolo indaga la fattibilità di modelli open-weight più piccoli come alternativa efficiente in termini di risorse. Presentiamo una metodologia per ottimizzare un modello Llama 3.2 da un miliardo di parametri per il riconoscimento dell'intento nell'e-commerce multilingue. Il modello è stato messo a punto (fine-tuning) utilizzando Quantized Low-Rank Adaptation (QLoRA) su un dataset generato sinteticamente progettato per simulare query utente del mondo reale. Successivamente, abbiamo applicato tecniche di quantizzazione post-addestramento, creando versioni ottimizzate per GPU (GPTQ) e per CPU (GGUF). I nostri risultati dimostrano che il modello specializzato da 1B raggiunge il 99% di accuratezza, eguagliando le prestazioni del modello GPT-4.1 significativamente più grande. Un'analisi dettagliata delle prestazioni ha rivelato compromessi critici e dipendenti dall'hardware: mentre la quantizzazione a 4-bit GPTQ ha ridotto l'utilizzo della VRAM del 41%, ha paradossalmente rallentato l'inferenza dell'82% su un'architettura GPU più vecchia (NVIDIA T4) a causa dell'overhead di dequantizzazione. Al contrario, i formati GGUF su CPU hanno ottenuto un incremento di velocità fino a 18x nella velocità di inferenza e una riduzione di oltre il 90% nel consumo di RAM rispetto al baseline FP16. Concludiamo che i modelli open-weight piccoli e adeguatamente ottimizzati non sono solo un'alternativa fattibile, ma più adatta per applicazioni dominio-specifiche, offrendo un'accuratezza allo stato dell'arte a una frazione del costo computazionale.
L'automiglioramento è emerso come paradigma principale per potenziare le capacità di ragionamento dei grandi modelli visione-linguaggio (LVLM), dove i modelli esplorano e apprendono iterativamente da traiettorie di successo. Tuttavia, identifichiamo un problema critico durante questo processo: il modello eccelle nel generare traiettorie di alta qualità per query semplici (dati di testa) ma fatica con quelle più complesse (dati di coda). Ciò porta a un'ottimizzazione squilibrata che spinge il modello a privilegiare abilità di ragionamento semplici, ostacolando la sua capacità di affrontare compiti di ragionamento più complessi. Nel corso delle iterazioni, questo squilibrio diventa progressivamente più marcato – una dinamica che definiamo "effetto Matthew" – che alla fine impedisce ulteriori miglioramenti del modello e porta a colli di bottiglia prestazionali. Per contrastare questa sfida, introduciamo quattro strategie efficienti da due prospettive: rimodellamento della distribuzione e ricampionamento delle traiettorie, per raggiungere un riequilibrio testa-coda durante il processo di esplorazione-apprendimento dell'automiglioramento. Esperimenti estesi sui modelli Qwen2-VL-7B-Instruct e InternVL2.5-4B in compiti di ragionamento visivo dimostrano che i nostri metodi migliorano costantemente le capacità di ragionamento visivo, superando l'automiglioramento base di 3,86 punti in media.
I grandi modelli linguistici hanno dimostrato notevoli capacità di ragionamento in un'ampia gamma di compiti di linguaggio naturale. Tuttavia, progressi paragonabili nella scoperta scientifica sono più limitati, poiché la comprensione di fenomeni fisici complessi richiede rappresentazioni multifaccettate che vanno ben oltre il solo linguaggio. Un esempio emblematico è la progettazione di materiali funzionali come le MOF, fondamentali per applicazioni di impatto come la cattura del carbonio e lo stoccaggio dell'idrogeno. Esplorare il loro vasto e intricato spazio di progettazione attraverso rappresentazioni basate sul linguaggio interpretabili dai LLM è impegnativo a causa dei numerosi possibili arrangiamenti atomici tridimensionali e delle rigide regole reticolari della geometria e topologia di coordinazione. Nonostante i promettenti risultati iniziali nella scoperta assistita da LLM per sistemi di materiali più semplici, la progettazione di MOF rimane fortemente dipendente dall'esperienza umana tacita, raramente codificata nella sola informazione testuale. Per superare questa barriera, introduciamo L2M3OF, il primo LLM multimodale per le MOF. L2M3OF integra l'apprendimento di rappresentazioni cristalline con la comprensione del linguaggio per elaborare congiuntamente le modalità strutturali, testuali e di conoscenza. L2M3OF utilizza un codificatore di cristalli pre-addestrato con un livello di proiezione leggero per comprimere le informazioni strutturali in uno spazio di token, consentendo un allineamento efficiente con le istruzioni linguistiche. Per facilitare l'addestramento e la valutazione, abbiamo curato un database struttura-proprietà-conoscenza di materiali cristallini e confrontato L2M3OF con LLM closed-source all'avanguardia come GPT-5, Gemini-2.5-Pro e DeepSeek-R1. Gli esperimenti mostrano che L2M3OF supera i principali LLM closed-source basati su testo nelle attività di previsione delle proprietà e generazione di conoscenza, nonostante utilizzi un numero di parametri molto inferiore. Questi risultati evidenziano l'importanza degli approcci multimodali per la comprensione dei materiali porosi e stabiliscono L2M3OF come base per i sistemi di IA di prossima generazione nella scoperta di materiali.
La progettazione di strutture proteiche enzimatiche con funzionalità specifiche per substrato rappresenta una sfida cruciale nell'ingegneria proteica computazionale. I modelli generativi attuali eccellono nella progettazione proteica ma presentano limitazioni riguardo ai dati di legame, al controllo specifico per substrato e alla flessibilità per la generazione de novo di strutture enzimatiche. Per affrontare questo problema, introduciamo EnzyBind, un dataset contenente 11.100 coppie enzima-substrato validate sperimentalmente, appositamente curato da PDBbind. Su questa base, proponiamo EnzyControl, un metodo che consente il controllo funzionale e specifico per substrato nella generazione di strutture enzimatiche. Il nostro approccio genera strutture enzimatiche condizionate da siti catalitici annotati con MSA e dai loro corrispondenti substrati, estratti automaticamente da dati curati di coppie enzima-substrato. Il cuore di EnzyControl è EnzyAdapter, un componente modulare leggero integrato in un modello preaddestrato di scaffolding di motivi, permettendogli di diventare consapevole del substrato. Un paradigma di addestramento in due fasi affina ulteriormente la capacità del modello di generare strutture enzimatiche accurate e funzionali. Gli esperimenti dimostrano che il nostro EnzyControl raggiunge le migliori prestazioni secondo metriche strutturali e funzionali sui benchmark EnzyBind ed EnzyBench, con miglioramenti particolarmente significativi del 13% nella progettabilità e del 13% nell'efficienza catalitica rispetto ai modelli baseline. Il codice è rilasciato all'indirizzo https://github.com/Vecteur-libre/EnzyControl.
I recenti progressi nell'elaborazione del linguaggio parlato hanno portato a sostanziali avanzamenti in compiti fonetici come il riconoscimento automatico del parlato (ASR), il riconoscimento di fonemi (PR), la conversione grafema-fonema (G2P) e la conversione fonema-grafema (P2G). Nonostante la loro somiglianza concettuale, questi compiti sono stati largamente studiati in isolamento, ciascuno basandosi su architetture e dataset specifici. In questo articolo, introduciamo POWSM (Phonetic Open Whisper-style Speech Model), il primo framework unificato in grado di eseguire congiuntamente molteplici compiti relativi ai fonemi. POWSM consente una conversione senza soluzione di continuità tra audio, testo (grafemi) e fonemi, aprendo nuove possibilità per l'elaborazione del parlato universale e a risorse limitate. Il nostro modello supera o eguaglia modelli PR specializzati di dimensioni simili (Wav2Vec2Phoneme e ZIPA) supportando contemporaneamente G2P, P2G e ASR. I nostri dati di addestramento, il codice e i modelli sono rilasciati per promuovere la scienza aperta.
Sfruttando dati web su larga scala e pubblicamente accessibili, come immagini street view e satellitari, la rilevazione socioeconomica urbana riveste un'importanza cruciale per il raggiungimento degli obiettivi di sviluppo sostenibile globale. Con l'emergere dei Large Vision-Language Models (LVLM), sono sorte nuove opportunità per affrontare questo compito trattandolo come un problema di percezione e comprensione multimodale. Tuttavia, studi recenti rivelano che gli LVLM continuano a mostrare difficoltà nel produrre previsioni socioeconomiche accurate e interpretabili a partire da dati visivi. Per superare queste limitazioni e massimizzare il potenziale degli LVLM, introduciamo CityRiSE, un framework innovativo per il Ragionamento sullo Status SocioEconomico urbano negli LVLM tramite puro reinforcement learning (RL). Attraverso dati multimodali accuratamente selezionati e un design di reward verificabile, il nostro approccio guida l'LVLM a concentrarsi su indizi visivi semanticamente significativi, abilitando un ragionamento strutturato e orientato agli obiettivi per previsioni socioeconomiche generaliste. Gli esperimenti dimostrano che CityRiSE, con il suo processo di ragionamento emergente, supera significativamente i baseline esistenti, migliorando sia l'accuratezza predittiva che la generalizzazione in diversi contesti urbani, in particolare per previsioni su città e indicatori non visti durante l'addestramento. Questo lavoro evidenzia le potenzialità della combinazione di RL e LVLM per una rilevazione socioeconomica urbana interpretabile e generalista.
I grafici svolgono un ruolo importante nella visualizzazione, nel ragionamento, nell'analisi dei dati e nello scambio di idee tra esseri umani. Tuttavia, i modelli visione-linguaggio (VLM) esistenti mostrano ancora una percezione imprecisa dei dettagli e faticano a estrarre strutture granulari dai grafici. Tali limitazioni nella comprensione dei grafici ne ostacolano anche la capacità di confrontare più grafici e di ragionare su di essi. In questo articolo, introduciamo un nuovo "ChartAlign Benchmark (ChartAB)" per fornire una valutazione completa dei VLM nei compiti di comprensione dei grafici, ovvero l'estrazione di dati tabellari, la localizzazione di elementi visivi e il riconoscimento di vari attributi da grafici di diversi tipi e complessità. Progettiamo un template JSON per facilitare il calcolo di metriche di valutazione specificamente studiate per ogni compito di comprensione. Incorporando un innovativo workflow inferenziale a due stadi, il benchmark può inoltre valutare la capacità dei VLM di allineare e confrontare elementi/attributi tra due grafici. La nostra analisi delle valutazioni su diversi VLM recenti rivela nuove intuizioni sui loro bias percettivi, punti deboli, robustezza e allucinazioni nella comprensione dei grafici. Questi risultati evidenziano le discrepanze granulari tra i VLM nei compiti di comprensione dei grafici e indicano specifiche abilità che necessitano di essere potenziate nei modelli attuali.