HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

29 papers found

La fine della decodifica manuale: verso modelli linguistici veramente end-to-end
The End of Manual Decoding: Towards Truly End-to-End Language Models

Oct 30

ByZhichao Wang, Dongyang Ma, Xinting Huang, Deng Cai, Tian Lan, Jiahao Xu, Haitao Mi, Xiaoying Tang, Yan Wang

114

L'etichetta "end-to-end" per gli LLM è un termine improprio. Nella pratica, questi modelli dipendono da un processo di decodifica non differenziabile che richiede una laboriosa regolazione manuale di iperparametri come temperatura e top-p. Questo articolo introduce AutoDeco, una nuova architettura che abilita una generazione veramente "end-to-end" apprendendo a controllare la propria strategia di decodifica. Potenziamo il transformer standard con teste leggere che, a ogni passo, predicono dinamicamente valori di temperatura e top-p specifici per il contesto, insieme ai logit del token successivo. Questo approccio trasforma la decodifica in un processo parametrico a livello di token, consentendo al modello di auto-regolare la propria strategia di campionamento all'interno di un unico passaggio in avanti. Attraverso esperimenti approfonditi su otto benchmark, dimostriamo che AutoDeco non solo supera significativamente le strategie di decodifica predefinite, ma raggiunge anche prestazioni paragonabili a una baseline ottimizzata in modo oracolare, derivata da un "hacking del test set" – un limite superiore pratico per qualsiasi metodo statico. Crucialmente, scopriamo un'abilità emergente per il controllo della decodifica basata su istruzioni: il modello impara a interpretare comandi in linguaggio naturale (ad esempio, "genera con bassa casualità") e regola la temperatura e il top-p previsti su base token-per-token, aprendo un nuovo paradigma per la decodifica degli LLM orientabile e interattiva.

Kimi Linear: un'architettura di attenzione espressiva ed efficiente
Kimi Linear: An Expressive, Efficient Attention Architecture

Oct 30

ByKimi Team, Yu Zhang, Zongyu Lin, Xingcheng Yao, Jiaxi Hu, Fanqing Meng, Chengyin Liu, Xin Men, Songlin Yang, Zhiyuan Li, Wentao Li, Enzhe Lu, Weizhou Liu, Yanru Chen, Weixin Xu, Longhui Yu, Yejie Wang, Yu Fan, Longguang Zhong, Enming Yuan, Dehao Zhang, Yizhi Zhang, T. Y. Liu, Haiming Wang, Shengjun Fang, Weiran He, Shaowei Liu, Yiwei Li, Jianlin Su, Jiezhong Qiu, Bo Pang, Junjie Yan, Zhejun Jiang, Weixiao Huang, Bohong Yin, Jiacheng You, Chu Wei, Zhengtao Wang, Chao Hong, Yutian Chen, Guanduo Chen, Yucheng Wang, Huabin Zheng, Feng Wang, Yibo Liu, Mengnan Dong, Zheng Zhang, Siyuan Pan, Wenhao Wu, Yuhao Wu, Longyu Guan, Jiawen Tao, Guohong Fu, Xinran Xu, Yuzhi Wang, Guokun Lai, Yuxin Wu, Xinyu Zhou, Zhilin Yang, Yulun Du

113

Introduciamo Kimi Linear, un'architettura ibrida di attenzione lineare che, per la prima volta, supera l'attenzione completa in confronti equi attraverso vari scenari — inclusi regimi di scaling per contesti brevi, contesti lunghi e apprendimento per rinforzo (RL). Il suo nucleo è costituito da Kimi Delta Attention (KDA), un modulo di attenzione lineare espressivo che estende il Gated DeltaNet con un meccanismo di gating più granulare, consentendo un uso più efficace della memoria limitata delle RNN a stati finiti. Il nostro algoritmo chunkwise su misura raggiunge un'elevata efficienza hardware attraverso una variante specializzata delle matrici di transizione Diagonal-Plus-Low-Rank (DPLR), che riduce sostanzialmente il calcolo rispetto alla formulazione DPLR generale, rimanendo al contempo più coerente con la classica delta rule. Addestriamo preliminarmente un modello Kimi Linear con 3 miliardi di parametri attivati e 48 miliardi di parametri totali, basato su un ibrido stratificato di KDA e Multi-Head Latent Attention (MLA). I nostri esperimenti mostrano che, con una procedura di addestramento identica, Kimi Linear supera l'MLA completo con un margine considerevole in tutti i compiti valutati, riducendo contemporaneamente l'uso della cache KV fino al 75% e raggiungendo un throughput di decodifica fino a 6 volte superiore per un contesto di 1 milione di token. Questi risultati dimostrano che Kimi Linear può essere un sostituto diretto per le architetture di attenzione completa, offrendo prestazioni e efficienza superiori, anche in compiti con lunghezze di input e output maggiori. Per supportare ulteriori ricerche, rendiamo open-source le implementazioni del kernel KDA e di vLLM, e rilasciamo i checkpoint del modello pre-addestrato e ottimizzato per istruzioni.

Emu3.5: I modelli multimodali nativi sono apprendisti del mondo
Emu3.5: Native Multimodal Models are World Learners

Oct 30

ByYufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang

104

Introduciamo Emu3.5, un modello mondiale multimodale su larga scala che predice nativamente lo stato successivo attraverso visione e linguaggio. Emu3.5 è pre-addestrato end-to-end con un obiettivo unificato di predizione del token successivo su un corpus di dati intervallati visione-linguaggio contenente oltre 10 trilioni di token, derivati principalmente da frame sequenziali e trascrizioni di video internet. Il modello accetta naturalmente input visione-linguaggio intervallati e genera output visione-linguaggio intervallati. Emu3.5 è ulteriormente post-addestrato con apprendimento per rinforzo su larga scala per potenziare il ragionamento e la generazione multimodale. Per migliorare l'efficienza inferenziale, proponiamo Discrete Diffusion Adaptation (DiDA), che converte la decodifica token-per-token in una predizione parallela bidirezionale, accelerando l'inferenza per immagine di circa 20x senza sacrificare le prestazioni. Emu3.5 mostra forti capacità multimodali native, inclusa la generazione visione-linguaggio a lungo termine, la generazione any-to-image (X2I) e la generazione di immagini complesse ricche di testo. Mostra anche abilità generalizzabili di modellazione mondiale, abilitando l'esplorazione mondiale spaziotemporalmente coerente e la manipolazione embodied in mondi aperti attraverso scenari e compiti diversificati. Per confronto, Emu3.5 raggiunge prestazioni comparabili a Gemini 2.5 Flash Image (Nano Banana) su compiti di generazione e editing di immagini e dimostra risultati superiori su una suite di compiti di generazione intervallata. Rendiamo Emu3.5 open-source su https://github.com/baaivision/Emu3.5 per supportare la ricerca della comunità.

L'Agente può Conquistare il Web? Esplorando le Frontiere dell'Agente ChatGPT Atlas nei Giochi Web
Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games

Oct 30

ByJingran Zhang, Ning Li, Justin Cui

ChatGPT Atlas di OpenAI introduce nuove capacità di interazione web, consentendo al modello di analizzare pagine web, elaborare le intenzioni dell'utente ed eseguire input di cursore e tastiera direttamente all'interno del browser. Sebbene la sua capacità per compiti di recupero informazioni sia stata dimostrata, le sue prestazioni in ambienti dinamici e interattivi rimangono meno esplorate. In questo studio, conduciamo una valutazione preliminare delle capacità di interazione web di Atlas utilizzando giochi basati su browser come scenari di test, tra cui T-Rex Runner di Google, Sudoku, Flappy Bird e Stein.world. Utilizziamo i punteggi di performance in-game come metriche quantitative per valutare le prestazioni tra diversi tipi di compiti. I nostri risultati mostrano che Atlas ottiene ottimi risultati in compiti di ragionamento logico come il Sudoku, completando i puzzle significativamente più velocemente rispetto ai benchmark umani, ma incontra notevoli difficoltà in giochi in tempo reale che richiedono tempismo preciso e controllo motorio, spesso non riuscendo a superare gli ostacoli iniziali. Questi risultati suggeriscono che, sebbene Atlas dimostri una elaborazione analitica capace, permangono limitazioni significative in ambienti web dinamici che richiedono interazione in tempo reale. Il sito web del nostro progetto è disponibile all'indirizzo https://atlas-game-eval.github.io.

Apprendimento per Rinforzo Supervisionato: Dalle Traiettorie Esperte al Ragionamento Passo-Passo
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Oct 29

ByYihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee

I grandi modelli linguistici (LLM) spesso incontrano difficoltà con problemi che richiedono ragionamenti a più fasi. Per i modelli open-source di piccole dimensioni, l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) fallisce quando soluzioni corrette vengono campionate raramente anche dopo molti tentativi, mentre la Messa a Punto Supervisionata (SFT) tende a sovradattarsi alle lunghe dimostrazioni attraverso una rigida imitazione token-per-token. Per colmare questa lacuna, proponiamo l'Apprendimento per Rinforzo Supervisionato (SRL), un quadro metodologico che riformula la risoluzione dei problemi come la generazione di una sequenza di "azioni" logiche. SRL addestra il modello a generare un monologo di ragionamento interno prima di impegnarsi in ogni azione. Fornisce ricompense più graduali basate sulla similarità tra le azioni del modello e le azioni esperte estratte dal dataset SFT in modo graduale, passo dopo passo. Questa supervisione offre segnali di apprendimento più ricchi anche quando tutti i tentativi di soluzione sono errati, incoraggiando al contempo un ragionamento flessibile guidato dalle dimostrazioni esperte. Di conseguenza, SRL consente a modelli di piccole dimensioni di apprendere problemi complessi precedentemente non apprendibili con SFT o RLVR. Inoltre, inizializzare l'addestramento con SRL prima di affinare con RLVR produce le prestazioni complessive più elevate. Oltre ai benchmark di ragionamento, SRL si generalizza efficacemente a compiti di ingegneria del software agentico, stabilendosi come un quadro di addestramento robusto e versatile per LLM orientati al ragionamento.

Esplorazione delle condizioni per i modelli di diffusione nel controllo robotico
Exploring Conditions for Diffusion models in Robotic Control

Oct 17

ByHeeseong Shin, Byeongho Heo, Dongyoon Han, Seungryong Kim, Taekyung Kim

Sebbene le rappresentazioni visive pre-addestrate abbiano fatto progredire significativamente l'apprendimento per imitazione, sono spesso indipendenti dal compito poiché rimangono congelate durante l'apprendimento della politica. In questo lavoro, esploriamo l'utilizzo di modelli di diffusione testo-immagine pre-addestrati per ottenere rappresentazioni visive adattive al compito per il controllo robotico, senza mettere a punto il modello stesso. Tuttavia, riscontriamo che applicare ingenuamente le condizioni testuali - una strategia di successo in altri ambiti visivi - produce guadagni minimi o addirittura negativi nei compiti di controllo. Attribuiamo ciò al divario di dominio tra i dati di addestramento del modello di diffusione e gli ambienti di controllo robotico, portandoci a sostenere l'uso di condizioni che considerino le specifiche informazioni visive dinamiche richieste per il controllo. A tal fine, proponiamo ORCA, che introduce prompt di compito apprendibili che si adattano all'ambiente di controllo e prompt visivi che catturano dettagli granulari e specifici per il fotogramma. Facilitando rappresentazioni adattive al compito con le nostre nuove condizioni, il nostro approccio raggiunge prestazioni all'avanguardia su varie benchmark di controllo robotico, superando significativamente i metodi precedenti.

Surfer 2: La Nuova Generazione di Agenti per l'Utilizzo del Computer Multipiattaforma
Surfer 2: The Next Generation of Cross-Platform Computer Use Agents

Oct 22

ByMathieu Andreux, Märt Bakler, Yanael Barbier, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Nathan Bout, Matthias Brunel, Aleix Cambray, Pierre-Louis Cedoz, Antoine Chassang, Gautier Cloix, Ethan Connelly, Alexandra Constantinou, Ramzi De Coster, Hubert de la Jonquiere, Aurélien Delfosse, Maxime Delpit, Alexis Deprez, Augustin Derupti, Mathieu Diaz, Shannon D'Souza, Julie Dujardin, Abai Edmund, Michael Eickenberg, Armand Fatalot, Wissem Felissi, Isaac Herring, Xavier Koegler, Erwan Le Jumeau de Kergaradec, Aurélien Lac, Maxime Langevin, Corentin Lauverjat, Antonio Loison, Avshalom Manevich, Axel Moyal, Axel Nguyen Kerbel, Marinela Parovic, Julien Revelle, Guillaume Richard, Mats Richter, Ronan Riochet, María Santos, Romain Savidan, Laurent Sifre, Maxime Theillard, Marc Thibault, Ivan Valentini, Tony Wu, Laura Yie, Kai Yuan, Jevgenij Zubovskij

La creazione di agenti in grado di generalizzare attraverso ambienti web, desktop e mobili rimane una sfida aperta, poiché i sistemi precedenti si basano su interfacce specifiche per ambiente che limitano lo sviluppo multipiattaforma. Introduciamo Surfer 2, un'architettura unificata che opera esclusivamente da osservazioni visive e raggiunge prestazioni all'avanguardia in tutti e tre gli ambienti. Surfer 2 integra una gestione gerarchica del contesto, una pianificazione ed esecuzione disaccoppiate e un'autoverifica con ripristino adattivo, consentendo un funzionamento affidabile su lunghi orizzonti di attività. Il nostro sistema raggiunge un'accuratezza del 97,1% su WebVoyager, del 69,6% su WebArena, del 60,1% su OSWorld e dell'87,1% su AndroidWorld, superando tutti i sistemi precedenti senza una messa a punto specifica per attività. Con tentativi multipli, Surfer 2 supera le prestazioni umane su tutti i benchmark. Questi risultati dimostrano che un'orchestrazione sistematica amplifica le capacità dei modelli di base e abilita il controllo informatico generico attraverso la sola interazione visiva, richiedendo al contempo un modello linguistico visivo di prossima generazione per raggiungere un'efficienza di costo Pareto-ottimale.

I modelli video sono pronti come ragionatori zero-shot? Uno studio empirico con il benchmark MME-CoF
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

Oct 30

ByZiyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng

I recenti modelli di generazione video sono in grado di produrre video ad alta fedeltà e coerenza temporale, suggerendo che possano codificare una sostanziale conoscenza del mondo. Oltre alla sintesi realistica, essi mostrano anche comportamenti emergenti indicativi di percezione visiva, modellazione e manipolazione. Tuttavia, rimane una domanda importante: i modelli video sono pronti per fungere da ragionatori zero-shot in scenari complessi di ragionamento visivo? In questo lavoro, conduciamo uno studio empirico per indagare esaustivamente questa questione, concentrandoci sul leader di mercato Veo-3. Valutiamo il suo comportamento di ragionamento lungo 12 dimensioni, inclusa logica spaziale, geometrica, fisica, temporale ed embodied, caratterizzando sistematicamente sia i suoi punti di forza che le modalità di fallimento. Per standardizzare lo studio, organizziamo i dati di valutazione in MME-CoF, un benchmark compatto che consente una valutazione approfondita e completa del ragionamento a Catena di Frame (CoF). I nostri risultati rivelano che, sebbene gli attuali modelli video dimostrino pattern di ragionamento promettenti sulla coerenza spaziale a breve orizzonte, il grounding granulare e le dinamiche localmente consistenti, essi rimangono limitati nel ragionamento causale a lungo termine, nei vincoli geometrici rigorosi e nella logica astratta. Nel complesso, non sono ancora affidabili come ragionatori zero-shot autonomi, ma mostrano segnali incoraggianti come motori visivi complementari affiancati a modelli di ragionamento dedicati. Pagina del progetto: https://video-cof.github.io

AMO-Bench: I grandi modelli linguistici continuano a mostrare difficoltà nelle competizioni matematiche di livello scolastico superiore
AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

Oct 30

ByShengnan An, Xunliang Cai, Xuezhi Cao, Xiaoyu Li, Yehao Lin, Junlin Liu, Xinxuan Lv, Dan Ma, Xuanlin Wang, Ziwen Wang, Shuang Zhou

Presentiamo AMO-Bench, un benchmark avanzato per il ragionamento matematico con problemi di livello Olimpico o addirittura superiore, comprendente 50 problemi creati da esseri umani. I benchmark esistenti hanno ampiamente utilizzato competizioni matematiche di livello scolastico superiore per valutare le capacità di ragionamento matematico dei grandi modelli linguistici (LLM). Tuttavia, molte competizioni matematiche esistenti stanno diventando meno efficaci per valutare gli LLM di fascia alta a causa della saturazione delle prestazioni (ad esempio, AIME24/25). Per affrontare questo problema, AMO-Bench introduce sfide più rigorose assicurando che tutti i 50 problemi siano (1) convalidati incrociatamente da esperti per soddisfare almeno gli standard di difficoltà delle Olimpiadi Internazionali della Matematica (IMO), e (2) problemi interamente originali per prevenire possibili dispersioni di prestazioni dovute alla memorizzazione dei dati. Inoltre, ogni problema in AMO-Bench richiede solo una risposta finale piuttosto che una dimostrazione, consentendo una valutazione automatica e robusta. I risultati sperimentali su 26 LLM con AMO-Bench mostrano che anche il modello con le migliori prestazioni raggiunge solo il 52,4% di accuratezza su AMO-Bench, con la maggior parte degli LLM che ottiene un punteggio inferiore al 40%. Oltre a queste scarse prestazioni, la nostra ulteriore analisi rivela una promettente tendenza di scaling con l'aumento della potenza di calcolo al momento del test su AMO-Bench. Questi risultati evidenziano il margine di miglioramento significativo per il ragionamento matematico negli LLM attuali. Rilasciamo AMO-Bench per facilitare ulteriori ricerche per far avanzare le capacità di ragionamento dei modelli linguistici.

L'Era dell'Organizzazione Agente: Imparare a Organizzare con i Modelli Linguistici
The Era of Agentic Organization: Learning to Organize with Language Models

Oct 30

ByZewen Chi, Li Dong, Qingxiu Dong, Yaru Hao, Xun Wu, Shaohan Huang, Furu Wei

Prevediamo una nuova era dell'IA, denominata organizzazione agentica, in cui gli agenti risolvono problemi complessi collaborando e operando in modo concorrente, consentendo risultati che superano l'intelligenza individuale. Per realizzare questa visione, introduciamo il pensiero asincrono (AsyncThink) come nuovo paradigma di ragionamento con i grandi modelli linguistici, che organizza il processo di pensiero interno in strutture eseguibili concorrentemente. Nello specifico, proponiamo un protocollo di pensiero in cui un organizzatore assegna dinamicamente sotto-query ai lavoratori, fonde le conoscenze intermedie e produce soluzioni coerenti. Ancora più importante, la struttura di pensiero in questo protocollo può essere ulteriormente ottimizzata attraverso l'apprendimento per rinforzo. Gli esperimenti dimostrano che AsyncThink raggiunge una latenza inferiore del 28% rispetto al pensiero parallelo, migliorando al contempo l'accuratezza nel ragionamento matematico. Inoltre, AsyncThink generalizza le sue capacità apprese di pensiero asincrono, affrontando efficacemente compiti non visti senza ulteriore addestramento.

La ricerca di una generazione del movimento generalizzabile: Dati, Modello e Valutazione
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

Oct 30

ByJing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu

Nonostante i recenti progressi nella generazione di moto umano 3D (MoGen) sui benchmark standard, i modelli esistenti affrontano ancora un collo di bottiglia fondamentale nella loro capacità di generalizzazione. Al contrario, campi generativi adiacenti, in particolare la generazione video (ViGen), hanno dimostrato una notevole generalizzazione nella modellazione dei comportamenti umani, evidenziando intuizioni trasferibili che il MoGen può sfruttare. Motivati da questa osservazione, presentiamo un framework completo che trasferisce sistematicamente la conoscenza dalla ViGen alla MoGen attraverso tre pilastri chiave: dati, modellazione e valutazione. In primo luogo, introduciamo ViMoGen-228K, un dataset su larga scala comprendente 228.000 campioni di moto di alta qualità che integra dati ottici MoCap ad alta fedeltà con movimenti semanticamente annotati da video web e campioni sintetizzati generati da modelli ViGen all'avanguardia. Il dataset include sia coppie testo-moto che triplette testo-video-moto, espandendo sostanzialmente la diversità semantica. In secondo luogo, proponiamo ViMoGen, un diffusion transformer basato sul flow matching che unisce i priori dei dati MoCap e dei modelli ViGen attraverso un condizionamento multimodale gated. Per migliorare l'efficienza, sviluppiamo ulteriormente ViMoGen-light, una variante distillata che elimina le dipendenze dalla generazione video preservando una forte generalizzazione. Infine, presentiamo MBench, un benchmark gerarchico progettato per una valutazione granulare su qualità del movimento, fedeltà alla descrizione testuale e capacità di generalizzazione. Esperimenti estensivi mostrano che il nostro framework supera significativamente gli approcci esistenti sia nelle valutazioni automatiche che umane. Il codice, i dati e il benchmark saranno resi pubblicamente disponibili.

OmniX: Dalla generazione e percezione panoramica unificata a scene 3D pronte per la grafica
OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes

Oct 30

ByYukun Huang, Jiwen Yu, Yanning Zhou, Jianan Wang, Xintao Wang, Pengfei Wan, Xihui Liu

Esistono due metodi prevalenti per costruire scene 3D: la generazione procedurale e il "sollevamento" 2D (2D lifting). Tra questi, il 2D lifting basato su panorami è emerso come una tecnica promettente, che sfrutta potenti prior generative 2D per produrre ambienti 3D immersivi, realistici e diversificati. In questo lavoro, facciamo progredire questa tecnica per generare scene 3D pronte per la grafica, adatte per il rendering fisicamente basato (PBR), la riluminazione e la simulazione. La nostra intuizione chiave è riutilizzare modelli generativi 2D per la percezione panoramica di geometria, texture e materiali PBR. A differenza degli approcci di 2D lifting esistenti che enfatizzano la generazione dell'aspetto e ignorano la percezione delle proprietà intrinseche, noi presentiamo OmniX, un framework versatile e unificato. Basato su una struttura adattatrice cross-modale leggera ed efficiente, OmniX riutilizza le prior generative 2D per un'ampia gamma di compiti di visione panoramica, inclusi percezione, generazione e completamento panoramico. Inoltre, abbiamo costruito un ampio dataset sintetico di panorami che contiene panorami multimodali di alta qualità provenienti da varie scene indoor e outdoor. Esperimenti estensivi dimostrano l'efficacia del nostro modello nella percezione visiva panoramica e nella generazione di scene 3D pronte per la grafica, aprendo nuove possibilità per la generazione immersiva e fisicamente realistica di mondi virtuali.

MIRO: L'addestramento preliminare condizionato a ricompense multiple migliora qualità ed efficienza nella generazione di immagini da testo
MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

Oct 29

ByNicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard

I modelli generativi testo-immagine attuali vengono addestrati su grandi dataset non curati per abilitare capacità di generazione diversificate. Tuttavia, questo approccio non si allinea bene con le preferenze degli utenti. Recentemente, sono stati sviluppati modelli di reward specificamente progettati per eseguire una selezione post-hoc delle immagini generate e allinearle a una ricompensa, tipicamente la preferenza dell'utente. Questo scarto di dati informativi, unito all'ottimizzazione per una singola ricompensa, tende a danneggiare la diversità, la fedeltà semantica e l'efficienza. Invece di questa post-elaborazione, proponiamo di condizionare il modello su più modelli di reward durante l'addestramento, permettendo al modello di apprendere direttamente le preferenze degli utenti. Dimostriamo che ciò non solo migliora drasticamente la qualità visiva delle immagini generate, ma accelera significativamente anche l'addestramento. Il nostro metodo proposto, chiamato MIRO, raggiunge prestazioni all'avanguardia sul benchmark compositivo GenEval e sui punteggi di preferenza utente (PickAScore, ImageReward, HPSv2).

CRAG-MM: Benchmark Multimodale e Multi-turn per RAG Completo
CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

Oct 30

ByJiaqi Wang, Xiao Yang, Kai Sun, Parth Suresh, Sanat Sharma, Adam Czyzewski, Derek Andersen, Surya Appini, Arkav Banerjee, Sajal Choudhary, Shervin Ghasemlou, Ziqiang Guan, Akil Iyer, Haidar Khan, Lingkun Kong, Roy Luo, Tiffany Ma, Zhen Qiao, David Tran, Wenfang Xu, Skyler Yeatman, Chen Zhou, Gunveer Gujral, Yinglong Xia, Shane Moon, Nicolas Scheffer, Nirav Shah, Eun Chang, Yue Liu, Florian Metze, Tammy Stark, Zhaleh Feizollahi, Andrea Jessee, Mangesh Pujari, Ahmed Aly, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Wen-tau Yih, Xin Luna Dong

I dispositivi indossabili come gli occhiali intelligenti stanno trasformando il modo in cui le persone interagiscono con l'ambiente circostante, consentendo agli utenti di ricercare informazioni relative alle entità nel loro campo visivo. La Generazione Aumentata tramite Recupero Multimodale (Multi-Modal Retrieval-Augmented Generation, MM-RAG) svolge un ruolo chiave nel supportare tali interrogativi, eppure non esiste ancora un benchmark completo per questo compito, specialmente per quanto riguarda gli scenari di dispositivi indossabili. Per colmare questa lacuna, presentiamo CRAG-MM - un benchmark RAG completo per conversazioni multimodali e multi-turno. CRAG-MM contiene un insieme diversificato di 6.5K triplette (immagine, domanda, risposta) e 2K conversazioni multi-turno basate sul visivo attraverso 13 domini, includendo 6.2K immagini egocentriche progettate per simulare acquisizioni da dispositivi indossabili. Abbiamo costruito le domande con cura per riflettere scenari e sfide del mondo reale, includendo cinque tipi di problematiche legate alla qualità dell'immagine, sei tipi di domanda, varia popolarità delle entità, diversa dinamicità dell'informazione e differenti turni di conversazione. Progettiamo tre compiti: aumento da singola fonte, aumento da più fonti e conversazioni multi-turno - ciascuno associato a un corpus di recupero dedicato e API sia per il recupero da Knowledge Graph basato su immagini che per il recupero da pagine web. La nostra valutazione mostra che gli approcci RAG diretti raggiungono solo il 32% e il 43% di veridicità rispettivamente su CRAG-MM per QA a singolo turno e multi-turno, mentre le soluzioni industriali allo stato dell'arte hanno una qualità simile (32%/45%), sottolineando un ampio margine di miglioramento. Il benchmark ha ospitato la KDD Cup 2025, attirando circa 1K partecipanti e 5K submission, con le soluzioni vincitrici che hanno migliorato le performance di base del 28%, evidenziando il suo precoce impatto nel far avanzare il campo.

EHR-R1: un modello linguistico fondamentale potenziato per il ragionamento nell'analisi delle cartelle cliniche elettroniche
EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

Oct 29

ByYusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie

Le cartelle cliniche elettroniche (EHR) contengono informazioni ricche ma complesse, e la loro analisi automatizzata è fondamentale per il processo decisionale clinico. Nonostante i recenti progressi dei grandi modelli linguistici (LLM) nei flussi di lavoro clinici, la loro capacità di analizzare le EHR rimane limitata a causa della copertura ristretta dei compiti e della mancanza di capacità di ragionamento orientate alle EHR. Questo articolo mira a colmare questa lacuna; in particolare, presentiamo EHR-Ins, un ampio dataset di istruzioni per il ragionamento su EHR, comprendente 300k casi di ragionamento di alta qualità e 4M casi non di ragionamento relativi a 42 distinti compiti sulle EHR. La sua innovazione principale è un framework guidato da un thinking-graph che consente di generare dati di ragionamento di alta qualità su larga scala. Su questa base, sviluppiamo EHR-R1, una serie di LLM potenziati per il ragionamento con fino a 72B di parametri, specificamente progettati per l'analisi delle EHR. Attraverso un paradigma di addestramento multi-stadio, comprendente adattamento al dominio, potenziamento del ragionamento e apprendimento per rinforzo, EHR-R1 acquisisce sistematicamente conoscenza del dominio e capacità di ragionamento diversificate, consentendo un'analisi delle EHR accurata e robusta. Infine, introduciamo EHR-Bench, un nuovo benchmark curato a partire da MIMIC-IV, che copre 42 compiti, per valutare in modo completo il ragionamento e la predizione negli scenari EHR. Negli esperimenti, dimostriamo che il risultante EHR-R1 supera costantemente gli LLM commerciali e open-source all'avanguardia (inclusi DeepSeek-V3 e GPT-4o), superando GPT-4o di oltre 30 punti su MIMIC-Bench e raggiungendo un AUROC zero-shot del 10% più alto su EHRSHOT. Nel complesso, EHR-Ins, EHR-R1 ed EHR-Bench hanno fatto avanzare significativamente lo sviluppo verso un'analisi delle EHR più affidabile e clinicamente rilevante.

OmniLayout: Abilitare l'apprendimento da grossolano a fine con LLM per la generazione universale del layout di documenti
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

Oct 30

ByHengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He

L'IA documentale ha compiuto rapidi progressi e sta attirando un'attenzione crescente. Tuttavia, mentre la maggior parte degli sforzi si è concentrata sull'analisi del layout dei documenti (DLA), la sua controparte generativa, la generazione del layout dei documenti, rimane poco esplorata. Un ostacolo principale risiede nella scarsità di layout diversificati: gli articoli accademici con strutture di tipo Manhattan dominano gli studi esistenti, mentre generi del mondo reale come giornali e riviste rimangono gravemente sottorappresentati. Per colmare questa lacuna, abbiamo curato OmniLayout-1M, il primo dataset su larga scala (un milione di esempi) di layout documentali diversificati, che copre sei tipi comuni di documento e comprende layout contemporanei raccolti da molteplici fonti. Inoltre, poiché i metodi esistenti faticano in domini complessi e spesso non riescono a disporre sequenze lunghe in modo coerente, introduciamo OmniLayout-LLM, un modello da 0.5B con un paradigma di apprendimento a due stadi progettato su principio Coarse-to-Fine: 1) apprendere principi di layout universali da OmniLayout-1M con definizioni di categoria grossolane, e 2) trasferire la conoscenza a un dominio specifico con annotazioni granulari. Esperimenti estensivi dimostrano che il nostro approccio raggiunge prestazioni robuste su molteplici domini nel dataset M⁶Doc, superando sostanzialmente sia gli esistenti esperti di generazione di layout che diversi recenti LLM generici. Il nostro codice, modelli e dataset saranno rilasciati pubblicamente.

Magentic Marketplace: un ambiente open-source per lo studio dei mercati agentici
Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets

Oct 27

ByGagan Bansal, Wenyue Hua, Zezhou Huang, Adam Fourney, Amanda Swearngin, Will Epperson, Tyler Payne, Jake M. Hofman, Brendan Lucier, Chinmay Singh, Markus Mobius, Akshay Nambi, Archana Yadav, Kevin Gao, David M. Rothschild, Aleksandrs Slivkins, Daniel G. Goldstein, Hussein Mozannar, Nicole Immorlica, Maya Murad, Matthew Vogel, Subbarao Kambhampati, Eric Horvitz, Saleema Amershi

Man mano che gli agenti LLM avanzano, mediano sempre più decisioni economiche, dalla scoperta di prodotti alle transazioni, per conto degli utenti. Tali applicazioni promettono benefici ma sollevano anche molti interrogativi sulla responsabilità degli agenti e sul valore per gli utenti. Affrontare queste questioni richiede la comprensione di come gli agenti si comportano in condizioni di mercato realistiche. Tuttavia, la ricerca precedente ha valutato per lo più gli agenti in contesti vincolati, come marketplace a compito singolo (ad esempio, negoziazione) o interazioni strutturate a due agenti. I mercati del mondo reale sono fondamentalmente diversi: richiedono agli agenti di gestire attività economiche diversificate e di coordinarsi all'interno di ecosistemi ampi e dinamici dove più agenti con comportamenti opachi possono impegnarsi in dialoghi aperti. Per colmare questa lacuna, investigiamo marketplace agentici bilaterali in cui agenti Assistente rappresentano i consumatori e agenti Servizio rappresentano aziende concorrenti. Per studiare queste interazioni in sicurezza, sviluppiamo Magentic-Marketplace, un ambiente simulato in cui gli Assistenti e i Servizi possono operare. Questo ambiente ci permette di studiare le dinamiche di mercato chiave: l'utilità raggiunta dagli agenti, i bias comportamentali, la vulnerabilità alla manipolazione e come i meccanismi di ricerca influenzano i risultati del mercato. I nostri esperimenti mostrano che i modelli all'avanguardia possono avvicinarsi all'ottimo sociale, ma solo in condizioni di ricerca ideali. Le prestazioni si degradano nettamente con la scala e tutti i modelli mostrano un forte bias per la prima proposta, creando vantaggi di 10-30 volte per la velocità di risposta rispetto alla qualità. Questi risultati rivelano come i comportamenti emergono in diverse condizioni di mercato, fornendo indicazioni per la progettazione di marketplace agentici equi ed efficienti.

FullPart: Generazione di ogni Parte 3D a Risoluzione Completa
FullPart: Generating each 3D Part at Full Resolution

Oct 30

ByLihe Ding, Shaocong Dong, Yaokun Li, Chenjian Gao, Xiao Chen, Rui Han, Yihao Kuang, Hong Zhang, Bo Huang, Zhanpeng Huang, Zibin Wang, Dan Xu, Tianfan Xue

La generazione 3D basata su parti presenta un grande potenziale per varie applicazioni. I precedenti generatori di parti che rappresentano i componenti mediante token impliciti di tipo vector-set spesso soffrono di dettagli geometrici insufficienti. Un altro filone di ricerca adotta una rappresentazione voxel esplicita, ma condivide una griglia voxel globale tra tutte le parti; ciò spesso causa la rappresentazione di parti piccole con un numero troppo esiguo di voxel, portando a una qualità degradata. In questo articolo proponiamo FullPart, un framework innovativo che combina entrambi i paradigmi implicito ed esplicito. Il metodo deriva dapprima il layout dei bounding box attraverso un processo di diffusione implicito di vector-set di box, un compito che la diffusione implicita gestisce efficacemente poiché i token di box contengono pochi dettagli geometrici. Successivamente, genera parti dettagliate, ciascuna all'interno della propria griglia voxel a risoluzione completa. Invece di condividere uno spazio globale a bassa risoluzione, ogni parte nel nostro metodo - anche quelle piccole - viene generata a piena risoluzione, consentendo la sintesi di dettagli intricati. Introduciamo inoltre una strategia di codifica center-point per affrontare il problema di disallineamento nello scambio di informazioni tra parti di dimensioni reali diverse, mantenendo così la coerenza globale. Inoltre, per ovviare alla scarsità di dati parti affidabili, presentiamo PartVerse-XL, il più grande dataset 3D di parti annotate manualmente con 40K oggetti e 320K parti. Esperimenti approfonditi dimostrano che FullPart raggiunge risultati all'avanguardia nella generazione di parti 3D. Rilasceremo tutto il codice, i dati e il modello a beneficio della ricerca futura nella generazione di parti 3D.

MedVLSynther: Sintesi di Domande e Risposte Visive di Alta Qualità da Documenti Medici con LMM Generatore-Verificatore
MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

Oct 29

ByXiaoke Huang, Ningsen Wang, Hui Liu, Xianfeng Tang, Yuyin Zhou

I Large Multimodal Models (LMM) stanno diventando sempre più capaci di rispondere a domande mediche che richiedono un ragionamento congiunto su immagini e testo, eppure l'addestramento di sistemi generali di VQA (Visual Question Answering) medico è ostacolato dalla mancanza di corpora ampi, di alta qualità e di uso aperto. Presentiamo MedVLSynther, un framework generatore-verifica guidato da rubriche che sintetizza elementi di VQA a scelta multipla di alta qualità direttamente dalla letteratura biomedica aperta, basandosi su figure, didascalie e riferimenti testuali. Il generatore produce domande auto-consistenti e opzioni parallele e mutualmente esclusive secondo uno schema JSON verificabile automaticamente; un verificatore multi-stadio applica controlli essenziali (auto-consistenza, singola risposta corretta, validità clinica, coerenza immagine-testo), assegna punteggi positivi granulari e penalizza le modalità di errore comuni prima dell'accettazione. L'applicazione di questa pipeline a PubMed Central produce MedSynVQA: 13.087 domande verificate su 14.803 immagini che coprono 13 modalità di imaging e 28 regioni anatomiche. L'addestramento di LMM a peso aperto con apprendimento per rinforzo, utilizzando ricompense verificabili, migliora l'accuratezza su sei benchmark di VQA medico, raggiungendo medie di 55,85 (3B) e 58,15 (7B), con punte fino a 77,57 su VQA-RAD e 67,76 su PathVQA, superando LMM medici robusti. Le ablazioni verificano che sia la generazione che la verifica sono necessarie e che più dati verificati aiutano costantemente, mentre un'analisi mirata della contaminazione non rileva dispersioni dai set di valutazione. Operando interamente su letteratura aperta e modelli a peso aperto, MedVLSynther offre un percorso verificabile, riproducibile e che preserva la privacy per dati di addestramento scalabili per il VQA medico.

Indice del Lavoro Remoto: Misurare l'Automazione IA del Lavoro a Distanza
Remote Labor Index: Measuring AI Automation of Remote Work

Oct 30

ByMantas Mazeika, Alice Gatti, Cristina Menghini, Udari Madhushani Sehwag, Shivam Singhal, Yury Orlovskiy, Steven Basart, Manasi Sharma, Denis Peskoff, Elaine Lau, Jaehyuk Lim, Lachlan Carroll, Alice Blair, Vinaya Sivakumar, Sumana Basu, Brad Kenstler, Yuntao Ma, Julian Michael, Xiaoke Li, Oliver Ingebretsen, Aditya Mehta, Jean Mottola, John Teichmann, Kevin Yu, Zaina Shaik, Adam Khoja, Richard Ren, Jason Hausenloy, Long Phan, Ye Htet, Ankit Aich, Tahseen Rabbani, Vivswan Shah, Andriy Novykov, Felix Binder, Kirill Chugunov, Luis Ramirez, Matias Geralnik, Hernán Mesura, Dean Lee, Ed-Yeremai Hernandez Cardona, Annette Diamond, Summer Yue, Alexandr Wang, Bing Liu, Ernesto Hernandez, Dan Hendrycks

Le IA hanno compiuto rapidi progressi nei benchmark di ricerca su conoscenza e ragionamento, ma rimane poco chiaro come questi progressi si traducano in valore economico e automazione. Per misurare ciò, introduciamo il Remote Labor Index (RLI), un benchmark ampio e multisettoriale che comprende progetti reali di valore economico, progettato per valutare le prestazioni end-to-end degli agenti in contesti pratici. Gli agenti di IA ottengono prestazioni prossime al minimo sull'RLI, con l'agente più performante che raggiunge un tasso di automazione del 2,5%. Questi risultati contribuiscono a fondare le discussioni sull'automazione IA su evidenze empiriche, stabilendo una base comune per monitorare gli impatti dell'IA e consentendo alle parti interessate di navigare proattivamente l'automazione del lavoro guidata dall'IA.

CLASS-IT: Addestramento su Istruzioni su Piccola Scala Allineato alla Conversazione e alla Lezione per BabyLMs
CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs

Oct 29

ByLuca Capone, Alessandro Bondielli, Alessandro Lenci

Questo lavoro indaga se i modelli linguistici di piccola scala possano trarre vantaggio dall'instruction tuning. Confrontiamo dataset di instruction tuning per conversazione e question-answering, applicati secondo un curriculum sia fuso che sequenziale, utilizzando modelli decoder-only con 100 e 140 milioni di parametri. La valutazione copre sia scenari di fine-tuning (SuperGLUE) che zero-shot (BLiMP, EWoK, WUGs, entity tracking e correlazione psicolinguistica). I risultati mostrano che l'instruction tuning produce piccoli ma consistenti miglioramenti negli scenari di fine-tuning, con curricula sequenziali che superano i dati fusi; tuttavia, i miglioramenti non si trasferiscono in modo coerente ai task zero-shot, suggerendo un compromesso tra un'adattamento focalizzato sull'interazione e un'ampia generalizzazione linguistica. Questi risultati evidenziano sia il potenziale che i limiti dell'adattamento di strategie di apprendimento ispirate all'uomo a modelli linguistici a risorse limitate, e indicano approcci ibridi basati su curriculum per migliorare la generalizzazione sotto vincoli di addestramento ecologici.

PORTool: Addestramento di LLM per l'Uso di Strumenti con Albero Premiato
PORTool: Tool-Use LLM Training with Rewarded Tree

Oct 29

ByFeijie Wu, Weiwu Zhu, Yuxiang Zhang, Soumya Chatterjee, Jiarong Zhu, Fan Mo, Rodin Luo, Jing Gao

Gli attuali modelli linguistici di grandi dimensioni (LLM) per l'uso di strumenti vengono addestrati su dataset statici, consentendo loro di interagire con strumenti esterni e compiere ragionamenti multi-step integrati con strumenti, producendo così traiettorie di chiamate agli strumenti. Tuttavia, questi modelli imitano la risoluzione di una query secondo una routine generica di chiamate agli strumenti, fallendo quindi nell'esplorare soluzioni alternative e dimostrando prestazioni limitate in un ambiente dinamico ed evoluto di chiamate agli strumenti. In questo lavoro proponiamo PORTool, un metodo di apprendimento per rinforzo (RL) che incentiva un LLM per l'uso di strumenti a esplorare varie traiettorie che portano alla risposta corretta. Nello specifico, il metodo inizia generando multiple rollout per una data query, alcune delle quali condividono i primi passi di chiamata agli strumenti, formando così una struttura ad albero. Successivamente, assegniamo ricompense a ogni passo, basate sulla sua capacità di produrre una risposta corretta e effettuare chiamate agli strumenti con successo. Un passo condiviso da diverse traiettorie riceve la stessa ricompensa, mentre passi diversi sotto lo stesso ramo ricevono ricompense diverse. Infine, queste ricompense step-wise vengono utilizzate per calcolare vantaggi relativi ai rami, combinati con vantaggi relativi alle traiettorie, per addestrare l'LLM all'uso degli strumenti. Gli esperimenti utilizzano 17 strumenti per affrontare query utente, coprendo sia argomenti time-sensitive che time-invariant. Condurremo studi di ablazione per giustificare sistematicamente la necessità e la robustezza progettuale delle ricompense step-wise. Inoltre, confronteremo PORTool con altri approcci di addestramento, dimostrando significativi miglioramenti nell'accuratezza finale e nel numero di passi di chiamata agli strumenti.

Compromessi Prestazionali nell'Ottimizzazione di Piccoli Modelli Linguistici per l'E-Commerce
Performance Trade-offs of Optimizing Small Language Models for E-Commerce

Oct 24

ByJosip Tomo Licardo, Nikola Tankovic

I Large Language Model (LLM) offrono prestazioni all'avanguardia nei compiti di comprensione e generazione del linguaggio naturale. Tuttavia, l'implementazione di modelli commerciali leader per compiti specializzati, come l'e-commerce, è spesso ostacolata dagli elevati costi computazionali, dalla latenza e dalle spese operative. Questo articolo indaga la fattibilità di modelli open-weight più piccoli come alternativa efficiente in termini di risorse. Presentiamo una metodologia per ottimizzare un modello Llama 3.2 da un miliardo di parametri per il riconoscimento dell'intento nell'e-commerce multilingue. Il modello è stato messo a punto (fine-tuning) utilizzando Quantized Low-Rank Adaptation (QLoRA) su un dataset generato sinteticamente progettato per simulare query utente del mondo reale. Successivamente, abbiamo applicato tecniche di quantizzazione post-addestramento, creando versioni ottimizzate per GPU (GPTQ) e per CPU (GGUF). I nostri risultati dimostrano che il modello specializzato da 1B raggiunge il 99% di accuratezza, eguagliando le prestazioni del modello GPT-4.1 significativamente più grande. Un'analisi dettagliata delle prestazioni ha rivelato compromessi critici e dipendenti dall'hardware: mentre la quantizzazione a 4-bit GPTQ ha ridotto l'utilizzo della VRAM del 41%, ha paradossalmente rallentato l'inferenza dell'82% su un'architettura GPU più vecchia (NVIDIA T4) a causa dell'overhead di dequantizzazione. Al contrario, i formati GGUF su CPU hanno ottenuto un incremento di velocità fino a 18x nella velocità di inferenza e una riduzione di oltre il 90% nel consumo di RAM rispetto al baseline FP16. Concludiamo che i modelli open-weight piccoli e adeguatamente ottimizzati non sono solo un'alternativa fattibile, ma più adatta per applicazioni dominio-specifiche, offrendo un'accuratezza allo stato dell'arte a una frazione del costo computazionale.

Contrastare l'Effetto Matteo nell'Auto-Miglioramento dei LVLM attraverso il riequilibrio Testa-Coda
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

Oct 30

ByXin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang

L'automiglioramento è emerso come paradigma principale per potenziare le capacità di ragionamento dei grandi modelli visione-linguaggio (LVLM), dove i modelli esplorano e apprendono iterativamente da traiettorie di successo. Tuttavia, identifichiamo un problema critico durante questo processo: il modello eccelle nel generare traiettorie di alta qualità per query semplici (dati di testa) ma fatica con quelle più complesse (dati di coda). Ciò porta a un'ottimizzazione squilibrata che spinge il modello a privilegiare abilità di ragionamento semplici, ostacolando la sua capacità di affrontare compiti di ragionamento più complessi. Nel corso delle iterazioni, questo squilibrio diventa progressivamente più marcato – una dinamica che definiamo "effetto Matthew" – che alla fine impedisce ulteriori miglioramenti del modello e porta a colli di bottiglia prestazionali. Per contrastare questa sfida, introduciamo quattro strategie efficienti da due prospettive: rimodellamento della distribuzione e ricampionamento delle traiettorie, per raggiungere un riequilibrio testa-coda durante il processo di esplorazione-apprendimento dell'automiglioramento. Esperimenti estesi sui modelli Qwen2-VL-7B-Instruct e InternVL2.5-4B in compiti di ragionamento visivo dimostrano che i nostri metodi migliorano costantemente le capacità di ragionamento visivo, superando l'automiglioramento base di 3,86 punti in media.

L^2M^3OF: Un Modello Multimodale di Grande Linguaggio per i Framework Metallorganici
L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks

Oct 23

ByJiyu Cui, Fang Wu, Haokai Zhao, Minggao Feng, Xenophon Evangelopoulos, Andrew I. Cooper, Yejin Choi

I grandi modelli linguistici hanno dimostrato notevoli capacità di ragionamento in un'ampia gamma di compiti di linguaggio naturale. Tuttavia, progressi paragonabili nella scoperta scientifica sono più limitati, poiché la comprensione di fenomeni fisici complessi richiede rappresentazioni multifaccettate che vanno ben oltre il solo linguaggio. Un esempio emblematico è la progettazione di materiali funzionali come le MOF, fondamentali per applicazioni di impatto come la cattura del carbonio e lo stoccaggio dell'idrogeno. Esplorare il loro vasto e intricato spazio di progettazione attraverso rappresentazioni basate sul linguaggio interpretabili dai LLM è impegnativo a causa dei numerosi possibili arrangiamenti atomici tridimensionali e delle rigide regole reticolari della geometria e topologia di coordinazione. Nonostante i promettenti risultati iniziali nella scoperta assistita da LLM per sistemi di materiali più semplici, la progettazione di MOF rimane fortemente dipendente dall'esperienza umana tacita, raramente codificata nella sola informazione testuale. Per superare questa barriera, introduciamo L2M3OF, il primo LLM multimodale per le MOF. L2M3OF integra l'apprendimento di rappresentazioni cristalline con la comprensione del linguaggio per elaborare congiuntamente le modalità strutturali, testuali e di conoscenza. L2M3OF utilizza un codificatore di cristalli pre-addestrato con un livello di proiezione leggero per comprimere le informazioni strutturali in uno spazio di token, consentendo un allineamento efficiente con le istruzioni linguistiche. Per facilitare l'addestramento e la valutazione, abbiamo curato un database struttura-proprietà-conoscenza di materiali cristallini e confrontato L2M3OF con LLM closed-source all'avanguardia come GPT-5, Gemini-2.5-Pro e DeepSeek-R1. Gli esperimenti mostrano che L2M3OF supera i principali LLM closed-source basati su testo nelle attività di previsione delle proprietà e generazione di conoscenza, nonostante utilizzi un numero di parametri molto inferiore. Questi risultati evidenziano l'importanza degli approcci multimodali per la comprensione dei materiali porosi e stabiliscono L2M3OF come base per i sistemi di IA di prossima generazione nella scoperta di materiali.

EnzyControl: Aggiunta di controllo funzionale e specifico per il substrato nella generazione dello scheletro enzimatico
EnzyControl: Adding Functional and Substrate-Specific Control for Enzyme Backbone Generation

Oct 29

ByChao Song, Zhiyuan Liu, Han Huang, Liang Wang, Qiong Wang, Jianyu Shi, Hui Yu, Yihang Zhou, Yang Zhang

La progettazione di strutture proteiche enzimatiche con funzionalità specifiche per substrato rappresenta una sfida cruciale nell'ingegneria proteica computazionale. I modelli generativi attuali eccellono nella progettazione proteica ma presentano limitazioni riguardo ai dati di legame, al controllo specifico per substrato e alla flessibilità per la generazione de novo di strutture enzimatiche. Per affrontare questo problema, introduciamo EnzyBind, un dataset contenente 11.100 coppie enzima-substrato validate sperimentalmente, appositamente curato da PDBbind. Su questa base, proponiamo EnzyControl, un metodo che consente il controllo funzionale e specifico per substrato nella generazione di strutture enzimatiche. Il nostro approccio genera strutture enzimatiche condizionate da siti catalitici annotati con MSA e dai loro corrispondenti substrati, estratti automaticamente da dati curati di coppie enzima-substrato. Il cuore di EnzyControl è EnzyAdapter, un componente modulare leggero integrato in un modello preaddestrato di scaffolding di motivi, permettendogli di diventare consapevole del substrato. Un paradigma di addestramento in due fasi affina ulteriormente la capacità del modello di generare strutture enzimatiche accurate e funzionali. Gli esperimenti dimostrano che il nostro EnzyControl raggiunge le migliori prestazioni secondo metriche strutturali e funzionali sui benchmark EnzyBind ed EnzyBench, con miglioramenti particolarmente significativi del 13% nella progettabilità e del 13% nell'efficienza catalitica rispetto ai modelli baseline. Il codice è rilasciato all'indirizzo https://github.com/Vecteur-libre/EnzyControl.

POWSM: un modello fonetico di base vocale in stile whisper aperto
POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

Oct 28

ByChin-Jou Li, Kalvin Chang, Shikhar Bharadwaj, Eunjung Yeo, Kwanghee Choi, Jian Zhu, David Mortensen, Shinji Watanabe

I recenti progressi nell'elaborazione del linguaggio parlato hanno portato a sostanziali avanzamenti in compiti fonetici come il riconoscimento automatico del parlato (ASR), il riconoscimento di fonemi (PR), la conversione grafema-fonema (G2P) e la conversione fonema-grafema (P2G). Nonostante la loro somiglianza concettuale, questi compiti sono stati largamente studiati in isolamento, ciascuno basandosi su architetture e dataset specifici. In questo articolo, introduciamo POWSM (Phonetic Open Whisper-style Speech Model), il primo framework unificato in grado di eseguire congiuntamente molteplici compiti relativi ai fonemi. POWSM consente una conversione senza soluzione di continuità tra audio, testo (grafemi) e fonemi, aprendo nuove possibilità per l'elaborazione del parlato universale e a risorse limitate. Il nostro modello supera o eguaglia modelli PR specializzati di dimensioni simili (Wav2Vec2Phoneme e ZIPA) supportando contemporaneamente G2P, P2G e ASR. I nostri dati di addestramento, il codice e i modelli sono rilasciati per promuovere la scienza aperta.

CityRiSE: Ragionamento sullo Status Socio-Economico Urbano nei Modelli Visione-Linguaggio tramite Apprendimento per Rinforzo
CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

Oct 25

ByTianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui

Sfruttando dati web su larga scala e pubblicamente accessibili, come immagini street view e satellitari, la rilevazione socioeconomica urbana riveste un'importanza cruciale per il raggiungimento degli obiettivi di sviluppo sostenibile globale. Con l'emergere dei Large Vision-Language Models (LVLM), sono sorte nuove opportunità per affrontare questo compito trattandolo come un problema di percezione e comprensione multimodale. Tuttavia, studi recenti rivelano che gli LVLM continuano a mostrare difficoltà nel produrre previsioni socioeconomiche accurate e interpretabili a partire da dati visivi. Per superare queste limitazioni e massimizzare il potenziale degli LVLM, introduciamo CityRiSE, un framework innovativo per il Ragionamento sullo Status SocioEconomico urbano negli LVLM tramite puro reinforcement learning (RL). Attraverso dati multimodali accuratamente selezionati e un design di reward verificabile, il nostro approccio guida l'LVLM a concentrarsi su indizi visivi semanticamente significativi, abilitando un ragionamento strutturato e orientato agli obiettivi per previsioni socioeconomiche generaliste. Gli esperimenti dimostrano che CityRiSE, con il suo processo di ragionamento emergente, supera significativamente i baseline esistenti, migliorando sia l'accuratezza predittiva che la generalizzazione in diversi contesti urbani, in particolare per previsioni su città e indicatori non visti durante l'addestramento. Questo lavoro evidenzia le potenzialità della combinazione di RL e LVLM per una rilevazione socioeconomica urbana interpretabile e generalista.

ChartAB: Un Benchmark per il Grounding di Grafici e l'Allineamento Denso
ChartAB: A Benchmark for Chart Grounding & Dense Alignment

Oct 30

ByAniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou

I grafici svolgono un ruolo importante nella visualizzazione, nel ragionamento, nell'analisi dei dati e nello scambio di idee tra esseri umani. Tuttavia, i modelli visione-linguaggio (VLM) esistenti mostrano ancora una percezione imprecisa dei dettagli e faticano a estrarre strutture granulari dai grafici. Tali limitazioni nella comprensione dei grafici ne ostacolano anche la capacità di confrontare più grafici e di ragionare su di essi. In questo articolo, introduciamo un nuovo "ChartAlign Benchmark (ChartAB)" per fornire una valutazione completa dei VLM nei compiti di comprensione dei grafici, ovvero l'estrazione di dati tabellari, la localizzazione di elementi visivi e il riconoscimento di vari attributi da grafici di diversi tipi e complessità. Progettiamo un template JSON per facilitare il calcolo di metriche di valutazione specificamente studiate per ogni compito di comprensione. Incorporando un innovativo workflow inferenziale a due stadi, il benchmark può inoltre valutare la capacità dei VLM di allineare e confrontare elementi/attributi tra due grafici. La nostra analisi delle valutazioni su diversi VLM recenti rivela nuove intuizioni sui loro bias percettivi, punti deboli, robustezza e allucinazioni nella comprensione dei grafici. Questi risultati evidenziano le discrepanze granulari tra i VLM nei compiti di comprensione dei grafici e indicano specifiche abilità che necessitano di essere potenziate nei modelli attuali.