Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Rapporto Tecnico di Seed1.5-VL
Seed1.5-VL Technical Report

May 11, 2025

Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song

1494

Presentiamo Seed1.5-VL, un modello fondazionale visione-linguaggio progettato per avanzare la comprensione e il ragionamento multimodale a scopo generale. Seed1.5-VL è composto da un encoder visivo da 532 milioni di parametri e da un modello linguistico Mixture-of-Experts (MoE) da 20 miliardi di parametri attivi. Nonostante la sua architettura relativamente compatta, offre prestazioni solide su un'ampia gamma di benchmark pubblici VLM e suite di valutazione interne, raggiungendo lo stato dell'arte su 38 dei 60 benchmark pubblici. Inoltre, in compiti centrati sull'agente come il controllo delle GUI e il gameplay, Seed1.5-VL supera i principali sistemi multimodali, inclusi OpenAI CUA e Claude 3.7. Oltre alla comprensione visiva e video, dimostra anche forti capacità di ragionamento, rendendolo particolarmente efficace per sfide di ragionamento multimodale come i puzzle visivi. Crediamo che queste capacità potenzieranno applicazioni più ampie in diversi compiti. In questo report, forniamo principalmente una revisione completa delle nostre esperienze nella costruzione di Seed1.5-VL attraverso il design del modello, la costruzione dei dati e l'addestramento in varie fasi, sperando che questo report possa ispirare ulteriori ricerche. Seed1.5-VL è ora accessibile all'indirizzo https://www.volcengine.com/ (ID modello Volcano Engine: doubao-1-5-thinking-vision-pro-250428).

MiMo: Sbloccare il Potenziale di Ragionamento dei Modelli Linguistici - Dal Pretraining al Posttraining
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12, 2025

Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

816

Presentiamo MiMo-7B, un modello linguistico di grandi dimensioni nato per compiti di ragionamento, con ottimizzazione sia nella fase di pre-training che di post-training. Durante il pre-training, abbiamo migliorato la pipeline di pre-elaborazione dei dati e adottato una strategia di miscelazione dei dati in tre fasi per potenziare le capacità di ragionamento del modello di base. MiMo-7B-Base è stato pre-addestrato su 25 trilioni di token, con l'obiettivo aggiuntivo di Multi-Token Prediction per migliorare le prestazioni e accelerare la velocità di inferenza. Durante il post-training, abbiamo curato un dataset di 130K problemi verificabili di matematica e programmazione per l'apprendimento per rinforzo, integrando uno schema di ricompensa basato sulla difficoltà del test per alleviare i problemi di ricompensa sparsa e impiegando un campionamento strategico dei dati per stabilizzare l'addestramento. Valutazioni estensive dimostrano che MiMo-7B-Base possiede un potenziale di ragionamento eccezionale, superando persino modelli molto più grandi da 32B. Il modello finale ottimizzato con RL, MiMo-7B-RL, raggiunge prestazioni superiori in compiti di matematica, codice e ragionamento generale, superando le prestazioni di OpenAI o1-mini. I checkpoint del modello sono disponibili su https://github.com/xiaomimimo/MiMo.

Step1X-3D: Verso la Generazione di Asset 3D Testurizzati ad Alta Fedeltà e Controllabile
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12, 2025

Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

613

Mentre l'intelligenza artificiale generativa ha compiuto progressi significativi nei domini di testo, immagini, audio e video, la generazione 3D rimane relativamente sottosviluppata a causa di sfide fondamentali come la scarsità di dati, limitazioni algoritmiche e frammentazione dell'ecosistema. A tal fine, presentiamo Step1X-3D, un framework aperto che affronta queste sfide attraverso: (1) una pipeline rigorosa di curatela dei dati che elabora oltre 5 milioni di asset per creare un dataset di 2 milioni di elementi di alta qualità con proprietà geometriche e testurali standardizzate; (2) un'architettura 3D-native a due stadi che combina un generatore di geometria ibrido VAE-DiT con un modulo di sintesi testurale basato su diffusione; e (3) il rilascio completo open-source di modelli, codice di addestramento e moduli di adattamento. Per la generazione della geometria, il componente ibrido VAE-DiT produce rappresentazioni TSDF utilizzando una codifica latente basata su perceiver con campionamento dei bordi netti per preservare i dettagli. Il modulo di sintesi testurale basato su diffusione garantisce quindi la coerenza tra le viste attraverso il condizionamento geometrico e la sincronizzazione nello spazio latente. I risultati dei benchmark dimostrano prestazioni all'avanguardia che superano i metodi open-source esistenti, raggiungendo anche una qualità competitiva con soluzioni proprietarie. In particolare, il framework colma in modo unico i paradigmi di generazione 2D e 3D supportando il trasferimento diretto di tecniche di controllo 2D (ad esempio, LoRA) alla sintesi 3D. Avanzando simultaneamente la qualità dei dati, la fedeltà algoritmica e la riproducibilità, Step1X-3D mira a stabilire nuovi standard per la ricerca aperta nella generazione controllata di asset 3D.

Apprendimento dai pari nei modelli di ragionamento
Learning from Peers in Reasoning Models

May 12, 2025

Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang

464

I Large Reasoning Models (LRM) hanno la capacità di autocorreggersi anche quando commettono errori nei loro percorsi di ragionamento. Tuttavia, il nostro studio rivela che quando il processo di ragionamento inizia con un inizio breve ma di scarsa qualità, diventa difficile per il modello recuperare. Definiamo questo fenomeno come la "Trappola della Dominanza del Prefisso". Ispirati da risultati psicologici che dimostrano come l'interazione tra pari possa promuovere l'autocorrezione senza influire negativamente sugli individui già accurati, proponiamo **Learning from Peers** (LeaP) per affrontare questo fenomeno. Nello specifico, a intervalli regolari, ogni percorso di ragionamento riassume il proprio ragionamento intermedio e lo condivide con gli altri attraverso un meccanismo di routing, consentendo ai percorsi di incorporare le intuizioni dei pari durante l'inferenza. Tuttavia, osserviamo che i modelli più piccoli a volte non riescono a seguire efficacemente le istruzioni di riassunto e riflessione. Per risolvere questo problema, li ottimizziamo nella nostra serie di modelli **LeaP-T**. Gli esperimenti su AIME 2024, AIME 2025, AIMO 2025 e GPQA Diamond dimostrano che LeaP apporta miglioramenti sostanziali. Ad esempio, QwQ-32B con LeaP ottiene quasi 5 punti assoluti in più rispetto alla baseline in media e supera DeepSeek-R1-671B su tre benchmark matematici con un guadagno medio di 3,3 punti. In particolare, il nostro modello ottimizzato LeaP-T-7B eguaglia le prestazioni di DeepSeek-R1-Distill-Qwen-14B su AIME 2024. Un'analisi approfondita rivela la robusta correzione degli errori di LeaP grazie a intuizioni tempestive dei pari, mostrando una forte tolleranza agli errori e una gestione efficace della variabilità della difficoltà dei task. LeaP rappresenta una pietra miliare, consentendo ai LRM di collaborare durante il ragionamento. Il nostro codice, dataset e modelli sono disponibili su https://learning-from-peers.github.io/.

Modelli Generativi Continui Unificati
Unified Continuous Generative Models

May 12, 2025

Peng Sun, Yi Jiang, Tao Lin

443

I recenti progressi nei modelli generativi continui, inclusi approcci multi-step come la diffusione e il flow-matching (che tipicamente richiedono 8-1000 passaggi di campionamento) e metodi few-step come i consistency models (tipicamente 1-8 passaggi), hanno dimostrato prestazioni generative impressionanti. Tuttavia, il lavoro esistente spesso tratta questi approcci come paradigmi distinti, risultando in metodologie di addestramento e campionamento separate. Introduciamo un framework unificato per l'addestramento, il campionamento e l'analisi di questi modelli. La nostra implementazione, il Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), raggiunge prestazioni all'avanguardia (SOTA). Ad esempio, su ImageNet 256x256 utilizzando un transformer di diffusione da 675M, UCGM-T addestra un modello multi-step che raggiunge 1.30 FID in 20 passaggi e un modello few-step che raggiunge 1.42 FID in soli 2 passaggi. Inoltre, applicando UCGM-S a un modello pre-addestrato (precedentemente 1.26 FID a 250 passaggi) si migliora la performance a 1.06 FID in soli 40 passaggi. Il codice è disponibile su: https://github.com/LINs-lab/UCGM.

DanceGRPO: Sfruttare GRPO per la generazione visiva
DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025

Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo

313

I recenti progressi nei modelli generativi, in particolare i modelli di diffusione e i flussi rettificati, hanno rivoluzionato la creazione di contenuti visivi, ma allineare gli output dei modelli alle preferenze umane rimane una sfida cruciale. I metodi esistenti basati sull'apprendimento per rinforzo (RL) per la generazione visiva affrontano limitazioni critiche: incompatibilità con i moderni paradigmi di campionamento basati su equazioni differenziali ordinarie (ODE), instabilità nell'addestramento su larga scala e mancanza di validazione per la generazione video. Questo articolo introduce DanceGRPO, il primo framework unificato per adattare l'ottimizzazione delle politiche relative ai gruppi (GRPO) ai paradigmi di generazione visiva, sfruttando un unico algoritmo RL attraverso due paradigmi generativi (modelli di diffusione e flussi rettificati), tre task (da testo a immagine, da testo a video, da immagine a video), quattro modelli di base (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) e cinque modelli di reward (estetica di immagini/video, allineamento testo-immagine, qualità del movimento video e reward binario). A nostra conoscenza, DanceGRPO è il primo framework unificato basato su RL in grado di adattarsi senza soluzione di continuità a diversi paradigmi generativi, task, modelli di base e modelli di reward. DanceGRPO dimostra miglioramenti consistenti e sostanziali, superando i baseline fino al 181% su benchmark come HPS-v2.1, CLIP Score, VideoAlign e GenEval. In particolare, DanceGRPO non solo può stabilizzare l'ottimizzazione delle politiche per la generazione video complessa, ma consente anche alla politica generativa di catturare meglio le traiettorie di denoising per il ridimensionamento dell'inferenza Best-of-N e di apprendere da feedback binari sparsi. I nostri risultati stabiliscono DanceGRPO come una soluzione robusta e versatile per scalare i task di Reinforcement Learning from Human Feedback (RLHF) nella generazione visiva, offrendo nuove intuizioni sull'armonizzazione dell'apprendimento per rinforzo e della sintesi visiva. Il codice verrà rilasciato.

Skywork-VL Reward: Un Modello di Ricompensa Efficace per la Comprensione e il Ragionamento Multimodale
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025

Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou

303

Proponiamo Skywork-VL Reward, un modello di reward multimodale che fornisce segnali di reward sia per compiti di comprensione che di ragionamento multimodale. Il nostro approccio tecnico comprende due componenti chiave: in primo luogo, costruiamo un dataset di preferenze multimodali su larga scala che copre un'ampia gamma di compiti e scenari, con risposte raccolte sia da modelli standard di visione e linguaggio (VLMs) che da ragionatori VLM avanzati. In secondo luogo, progettiamo un'architettura di reward model basata su Qwen2.5-VL-7B-Instruct, integrando una testa di reward e applicando una messa a punto multi-stadio utilizzando la perdita di ranking su coppie di dati di preferenza. Le valutazioni sperimentali dimostrano che Skywork-VL Reward raggiunge risultati all'avanguardia su VL-RewardBench multimodale e mostra prestazioni competitive sul benchmark RewardBench esclusivamente testuale. Inoltre, i dati di preferenza costruiti basandosi su Skywork-VL Reward si rivelano altamente efficaci per l'addestramento di Mixed Preference Optimization (MPO), portando a significativi miglioramenti nelle capacità di ragionamento multimodale. I nostri risultati sottolineano Skywork-VL Reward come un progresso significativo verso modelli di reward affidabili e di uso generale per l'allineamento multimodale. Il nostro modello è stato rilasciato pubblicamente per promuovere trasparenza e riproducibilità.

REFINE-AF: Un Framework Agnostico ai Compiti per Allineare Modelli Linguistici tramite Istruzioni Autogenerate utilizzando l'Apprendimento per Rinforzo da Feedback Automatico
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025

Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

306

I modelli linguistici di grandi dimensioni basati su istruzioni (LLM) si sono dimostrati efficaci in numerosi compiti di elaborazione del linguaggio naturale (NLP) in contesti few-shot o zero-shot. Tuttavia, la creazione di dati di istruzioni annotati manualmente è un processo dispendioso in termini di tempo, costoso e spesso limitato in quantità e diversità di compiti. Ricerche precedenti hanno cercato di affrontare questa sfida proponendo framework in grado di generare istruzioni in modo semi-automatico e indipendente dal compito, direttamente dal modello stesso. Molti di questi sforzi si sono basati su modelli di grandi dimensioni accessibili solo tramite API, come GPT-3.5 (175B), che sono costosi e soggetti a limitazioni nel numero di query. Questo articolo esplora le prestazioni di tre LLM open-source di piccole dimensioni, come LLaMA 2-7B, LLaMA 2-13B e Mistral 7B, utilizzando un framework semi-automatico, riducendo così l'intervento umano, lo sforzo e i costi necessari per generare un dataset di istruzioni per il fine-tuning degli LLM. Inoltre, dimostriamo che l'integrazione di un algoritmo di addestramento basato sull'apprendimento per rinforzo (RL) in questo framework basato su LLM porta a ulteriori miglioramenti. La nostra valutazione del dataset rivela che questi framework basati su RL ottengono miglioramenti significativi nel 63-66% dei compiti rispetto agli approcci precedenti.

AttentionInfluence: Adozione dell'Influenza delle Teste di Attenzione per la Selezione dei Dati di Pretraining da Debole a Forte
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12, 2025

Kai Hua, Steven Wu, Ge Zhang, Ke Shen

272

Recentemente, c'è stato un crescente interesse nel raccogliere dati di pre-addestramento ad alta intensità di ragionamento per migliorare la capacità di ragionamento complesso dei modelli linguistici di grandi dimensioni (LLM). Gli approcci precedenti si basano tipicamente su classificatori supervisionati per identificare tali dati, il che richiede etichettature da parte di esseri umani o LLM, introducendo spesso bias specifici del dominio. Poiché le testine di attenzione sono cruciali per il ragionamento in contesto, proponiamo AttentionInfluence, un metodo semplice ma efficace, privo di supervisione e senza segnali di addestramento. Il nostro approccio consente a un piccolo modello linguistico pre-addestrato di agire come un forte selezionatore di dati attraverso una semplice operazione di mascheramento delle testine di attenzione. Nello specifico, identifichiamo le testine di recupero e calcoliamo la differenza di perdita quando queste testine vengono mascherate. Applichiamo AttentionInfluence a un modello denso da 1,3 miliardi di parametri per condurre la selezione dei dati sul corpus SmolLM di 241 miliardi di token, e mescoliamo il corpus SmolLM con il sottoinsieme selezionato composto da 73 miliardi di token per pre-addestrare un modello denso da 7 miliardi di parametri utilizzando 1 trilione di token di addestramento e una pianificazione del tasso di apprendimento WSD. I nostri risultati sperimentali dimostrano miglioramenti sostanziali, che vanno da 1,4pp a 3,5pp, su diversi benchmark ad alta intensità di conoscenza e ragionamento (ad esempio, MMLU, MMLU-Pro, AGIEval-en, GSM8K e HumanEval). Ciò dimostra una proprietà efficace di scalabilità da debole a forte, con modelli piccoli che migliorano le prestazioni finali di modelli più grandi, offrendo un percorso promettente e scalabile per la selezione di dati centrata sul ragionamento.

Dinamiche di Apprendimento nel Pre-Addestramento Continuo per Modelli Linguistici di Grande Scala
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12, 2025

Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng

194

Il Continual Pre-Training (CPT) è diventato un metodo popolare ed efficace per applicare modelli di base robusti a specifici task downstream. In questo lavoro, esploriamo le dinamiche di apprendimento durante il processo di CPT per i modelli linguistici di grandi dimensioni. Ci concentriamo in particolare su come le prestazioni generali e quelle specifiche del dominio evolvono a ogni passo di addestramento, con le prestazioni del dominio misurate tramite le perdite di validazione. Abbiamo osservato che la curva di perdita del CPT caratterizza fondamentalmente la transizione da una curva a un'altra curva nascosta, e potrebbe essere descritta scomponendo gli effetti dello spostamento della distribuzione e dell'annealing del tasso di apprendimento. Deriviamo una legge di scalabilità del CPT che combina i due fattori, consentendo di prevedere la perdita in qualsiasi passo di addestramento (continuo) e attraverso diverse pianificazioni del tasso di apprendimento (LRS) nel CPT. La nostra formulazione offre una comprensione completa di diversi fattori critici nel CPT, tra cui il potenziale di perdita, il picco del tasso di apprendimento, i passi di addestramento, il rapporto di replay, ecc. Inoltre, il nostro approccio può essere adattato per personalizzare gli iperparametri di addestramento in base a diversi obiettivi di CPT, come bilanciare le prestazioni generali e quelle specifiche del dominio. Esperimenti estensivi dimostrano che la nostra legge di scalabilità è valida su vari dataset di CPT e iperparametri di addestramento.

WebGen-Bench: Valutazione dei Modelli Linguistici di Grandi Dimensioni nella Generazione di Siti Web Interattivi e Funzionali da Zero
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6, 2025

Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li

172

Gli agenti basati su LLM hanno dimostrato un grande potenziale nella generazione e gestione di codice all'interno di codebase complessi. In questo articolo, introduciamo WebGen-Bench, un nuovo benchmark progettato per misurare la capacità di un agente basato su LLM di creare codebase di siti web multi-file da zero. Esso contiene istruzioni diversificate per la generazione di siti web, create attraverso lo sforzo combinato di annotatori umani e GPT-4o. Queste istruzioni coprono tre categorie principali e tredici sottocategorie, comprendendo quasi tutti i tipi importanti di applicazioni web. Per valutare la qualità dei siti web generati, utilizziamo GPT-4o per generare casi di test mirati a ciascuna funzionalità descritta nelle istruzioni, e poi li filtriamo, modifichiamo e organizziamo manualmente per garantire l'accuratezza, ottenendo 647 casi di test. Ogni caso di test specifica un'operazione da eseguire sul sito web e il risultato atteso dopo l'operazione. Per automatizzare i test e migliorare la riproducibilità, impieghiamo un potente agente di navigazione web per eseguire i test sui siti web generati e determinare se le risposte osservate corrispondono ai risultati attesi. Valutiamo tre framework di agenti di codice ad alte prestazioni, Bolt.diy, OpenHands e Aider, utilizzando più LLM proprietari e open-source come motori. La combinazione con le migliori prestazioni, Bolt.diy alimentato da DeepSeek-R1, raggiunge solo il 27,8\% di accuratezza sui casi di test, evidenziando la natura impegnativa del nostro benchmark. Inoltre, costruiamo WebGen-Instruct, un set di allenamento composto da 6.667 istruzioni per la generazione di siti web. L'allenamento di Qwen2.5-Coder-32B-Instruct sulle traiettorie di Bolt.diy generate da un sottoinsieme di questo set di allenamento raggiunge un'accuratezza del 38,2\%, superando le prestazioni del miglior modello proprietario.

INTELLECT-2: Un Modello di Ragionamento Addestrato Tramite Apprendimento per Rinforzo Decentralizzato a Livello Globale
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025

Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann

142

Presentiamo INTELLECT-2, il primo addestramento globale distribuito di un modello linguistico da 32 miliardi di parametri basato su apprendimento per rinforzo (RL). A differenza dei tradizionali sforzi di addestramento centralizzati, INTELLECT-2 allena un modello di ragionamento utilizzando un RL completamente asincrono attraverso uno sciame dinamico ed eterogeneo di contributori di calcolo senza autorizzazione. Per abilitare un ciclo di addestramento con questa infrastruttura unica, abbiamo costruito da zero vari componenti: introduciamo PRIME-RL, il nostro framework di addestramento progettato specificamente per l'apprendimento per rinforzo asincrono distribuito, basato su componenti innovativi come TOPLOC, che verifica le sequenze di azioni provenienti da lavoratori di inferenza non attendibili, e SHARDCAST, che trasmette in modo efficiente i pesi delle politiche dai nodi di addestramento ai lavoratori di inferenza. Oltre ai componenti infrastrutturali, proponiamo modifiche alla ricetta standard di addestramento GRPO e tecniche di filtraggio dei dati che sono state cruciali per raggiungere la stabilità dell'addestramento e garantire che il nostro modello apprendesse con successo il suo obiettivo di addestramento, migliorando così QwQ-32B, il modello di ragionamento all'avanguardia nella gamma dei 32 miliardi di parametri. Rendiamo open-source INTELLECT-2 insieme a tutto il nostro codice e dati, con la speranza di incoraggiare e abilitare ulteriori ricerche aperte nel campo dell'addestramento decentralizzato.

Generazione Autoregressiva Visiva Continua tramite Massimizzazione del Punteggio
Continuous Visual Autoregressive Generation via Score Maximization

May 12, 2025

Chenze Shao, Fandong Meng, Jie Zhou

122

La saggezza convenzionale suggerisce che i modelli autoregressivi siano utilizzati per elaborare dati discreti. Quando applicati a modalità continue come i dati visivi, il Visual AutoRegressive modeling (VAR) ricorre tipicamente ad approcci basati sulla quantizzazione per trasformare i dati in uno spazio discreto, il che può introdurre una significativa perdita di informazioni. Per affrontare questo problema, introduciamo un framework Continuous VAR che consente la generazione autoregressiva visiva diretta senza quantizzazione vettoriale. Il fondamento teorico sottostante è costituito dalle regole di punteggio strettamente proprie, che forniscono potenti strumenti statistici in grado di valutare quanto bene un modello generativo approssimi la distribuzione reale. All'interno di questo framework, tutto ciò di cui abbiamo bisogno è selezionare uno score strettamente proprio e impostarlo come obiettivo di addestramento da ottimizzare. Esploriamo principalmente una classe di obiettivi di addestramento basati sull'energy score, che è privo di verosimiglianza e quindi supera la difficoltà di fare previsioni probabilistiche nello spazio continuo. Precedenti sforzi sulla generazione autoregressiva continua, come GIVT e la perdita di diffusione, possono anche essere derivati dal nostro framework utilizzando altri score strettamente propri. Codice sorgente: https://github.com/shaochenze/EAR.

Ragionamento Sinergico Conoscenza Interna-Esterna Rinforzata per un Agente di Ricerca Adattivo Efficiente
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12, 2025

Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu

112

La generazione potenziata dal recupero (RAG) è una strategia comune per ridurre le allucinazioni nei Modelli Linguistici di Grande Dimensione (LLM). Sebbene l'apprendimento per rinforzo (RL) possa consentire ai LLM di agire come agenti di ricerca attivando le capacità di recupero, quelli esistenti spesso sottoutilizzano la loro conoscenza interna. Ciò può portare a recuperi ridondanti, potenziali conflitti dannosi di conoscenza e un aumento della latenza di inferenza. Per affrontare queste limitazioni, è urgente la necessità di un agente di ricerca efficiente e adattivo in grado di discernere il momento ottimale per il recupero e di integrare sinergicamente la conoscenza parametrica (interna) e quella recuperata (esterna). Questo articolo introduce l'agente di ragionamento sinergico con conoscenza interna-esterna rinforzata (IKEA), che potrebbe identificare il proprio confine di conoscenza e dare priorità all'utilizzo della conoscenza interna, ricorrendo alla ricerca esterna solo quando la conoscenza interna è ritenuta insufficiente. Ciò è ottenuto utilizzando una nuova funzione di ricompensa consapevole del confine di conoscenza e un dataset di addestramento consapevole del confine di conoscenza. Questi sono progettati per un RL orientato alla sinergia tra conoscenza interna ed esterna, incentivando il modello a fornire risposte accurate, minimizzare i recuperi non necessari e incoraggiare ricerche esterne appropriate quando la propria conoscenza è carente. Le valutazioni su più compiti di ragionamento basati sulla conoscenza dimostrano che IKEA supera significativamente i metodi di base, riduce notevolmente la frequenza di recupero e mostra robuste capacità di generalizzazione.

MonetGPT: Risolvere enigmi potenzia le capacità di ritocco delle immagini nei MLLM
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025

Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra

112

Il ritocco è un compito essenziale nella post-elaborazione delle fotografie raw. L'editing generativo, guidato da testo o tratti, fornisce un nuovo strumento accessibile agli utenti ma può facilmente alterare l'identità degli oggetti originali in modi inaccettabili e imprevedibili. Al contrario, sebbene le modifiche procedurali tradizionali, comunemente supportate da strumenti di fotoritocco (ad esempio, Gimp, Lightroom), siano conservative, sono ancora preferite dai professionisti. Sfortunatamente, il ritocco di qualità professionale coinvolge molte operazioni individuali di editing procedurale che sono difficili da pianificare per la maggior parte dei principianti. In questo articolo, ci chiediamo se un modello linguistico multimodale di grandi dimensioni (MLLM) possa essere addestrato a criticare fotografie raw, suggerire rimedi adeguati e infine realizzarli con un determinato set di operazioni procedurali pre-autorizzate. Dimostriamo che gli MLLM possono prima essere resi consapevoli delle operazioni di elaborazione delle immagini sottostanti, addestrandoli a risolvere puzzle visivi appositamente progettati. Successivamente, un MLLM consapevole delle operazioni può sia pianificare che proporre sequenze di editing. Per facilitare l'addestramento, dato un set di foto modificate da esperti, sintetizziamo un dataset di ragionamento manipolando proceduralmente le modifiche degli esperti e quindi ancorando un LLM preaddestrato sugli aggiustamenti visivi, per sintetizzare il ragionamento per il fine-tuning. Le operazioni di ritocco proposte sono, per costruzione, comprensibili dagli utenti, preservano i dettagli e la risoluzione degli oggetti, e possono essere eventualmente sovrascritte. Valutiamo il nostro setup su una varietà di esempi di test e mostriamo vantaggi, in termini di spiegabilità e preservazione dell'identità, rispetto alle alternative generative e procedurali esistenti. Codice, dati, modelli e risultati supplementari possono essere trovati sul nostro sito del progetto all'indirizzo https://monetgpt.github.io.

Posizione: Le competizioni di IA forniscono lo standard di riferimento per il rigore empirico nella valutazione della GenAI
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1, 2025

D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating

In questo position paper, osserviamo che la valutazione empirica nell'ambito dell'Intelligenza Artificiale Generativa (GenAI) si trova in un momento critico, poiché le strategie tradizionali di valutazione e benchmarking del Machine Learning (ML) sono insufficienti per soddisfare le esigenze di valutazione dei moderni modelli e sistemi GenAI. Ciò è dovuto a molteplici ragioni, tra cui il fatto che questi modelli hanno tipicamente spazi di input e output quasi illimitati, spesso non dispongono di un ground truth ben definito e manifestano forti cicli di feedback e dipendenza predittiva basati sul contesto delle precedenti uscite del modello. Oltre a queste problematiche cruciali, sosteniamo che i problemi di {\em leakage} (perdita di dati) e {\em contaminazione} siano in realtà le questioni più importanti e difficili da affrontare nelle valutazioni GenAI. È interessante notare che il campo delle Competizioni di IA ha sviluppato misure e pratiche efficaci per contrastare il leakage, con l'obiettivo di prevenire comportamenti scorretti da parte di partecipanti disonesti in un contesto competitivo. Questo rende le Competizioni di IA una risorsa particolarmente preziosa (ma sottoutilizzata). È giunto il momento per il settore di considerare le Competizioni di IA come lo standard di riferimento per il rigore empirico nella valutazione GenAI, e di sfruttare e valorizzare i loro risultati in modo adeguato.

UMoE: Unificazione dell'Attenzione e della FFN con Esperti Condivisi
UMoE: Unifying Attention and FFN with Shared Experts

May 12, 2025

Yuanhang Yang, Chaozheng Wang, Jing Li

Le architetture Sparse Mixture of Experts (MoE) si sono affermate come un approccio promettente per scalare i modelli Transformer. Mentre i lavori iniziali integravano principalmente MoE nei livelli di rete feed-forward (FFN), studi recenti hanno esplorato l'estensione del paradigma MoE ai livelli di attenzione per migliorare le prestazioni del modello. Tuttavia, gli attuali livelli MoE basati sull'attenzione richiedono implementazioni specializzate e dimostrano prestazioni subottimali rispetto alle loro controparti basate su FFN. In questo articolo, miriamo a unificare i design MoE nei livelli di attenzione e FFN introducendo una nuova riformulazione del meccanismo di attenzione, rivelando una struttura sottostante simile a FFN all'interno dei moduli di attenzione. La nostra architettura proposta, UMoE, raggiunge prestazioni superiori attraverso livelli MoE basati sull'attenzione, consentendo al contempo una condivisione efficiente dei parametri tra i componenti FFN e di attenzione.

DynamicRAG: Sfruttare gli output dei modelli linguistici di grandi dimensioni come feedback per il reranking dinamico nella generazione aumentata dal recupero delle informazioni
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

May 12, 2025

Jiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han

I sistemi di generazione aumentata con recupero (RAG) combinano modelli linguistici di grandi dimensioni (LLM) con il recupero di conoscenze esterne, rendendoli altamente efficaci per compiti ad alta intensità di conoscenza. Un componente cruciale ma spesso poco esplorato di questi sistemi è il riordinatore, che affina i documenti recuperati per migliorare la qualità e la spiegabilità della generazione. La sfida di selezionare il numero ottimale di documenti (k) rimane irrisolta: troppo pochi possono omettere informazioni critiche, mentre troppi introducono rumore e inefficienze. Sebbene studi recenti abbiano esplorato riordinatori basati su LLM, sfruttano principalmente la conoscenza interna del modello e trascurano i ricchi segnali di supervisione che gli LLM possono fornire, come l'utilizzo della qualità della risposta come feedback per ottimizzare le decisioni di riordinamento. In questo articolo, proponiamo DynamicRAG, un nuovo framework RAG in cui il riordinatore regola dinamicamente sia l'ordine che il numero di documenti recuperati in base alla query. Modelliamo il riordinatore come un agente ottimizzato attraverso l'apprendimento per rinforzo (RL), utilizzando ricompense derivate dalla qualità dell'output dell'LLM. Su sette dataset ad alta intensità di conoscenza, DynamicRAG dimostra prestazioni superiori, raggiungendo risultati all'avanguardia. Il modello, i dati e il codice sono disponibili all'indirizzo https://github.com/GasolSun36/DynamicRAG.

LLAMAPIE: Assistente Conversazionale Proattivo per Auricolari
LLAMAPIE: Proactive In-Ear Conversation Assistants

May 7, 2025

Tuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota

Presentiamo LlamaPIE, il primo assistente proattivo in tempo reale progettato per migliorare le conversazioni umane attraverso una guida discreta e concisa, erogata tramite dispositivi indossabili. A differenza dei tradizionali modelli linguistici che richiedono un'invocazione esplicita da parte dell'utente, questo assistente opera in background, anticipando le esigenze dell'utente senza interrompere le conversazioni. Affrontiamo diverse sfide, tra cui determinare quando rispondere, formulare risposte concise che arricchiscano le conversazioni, sfruttare la conoscenza dell'utente per un'assistenza contestuale e il processamento in tempo reale direttamente sul dispositivo. Per raggiungere questo obiettivo, costruiamo un dataset di dialogo semi-sintetico e proponiamo una pipeline a due modelli: un modello più piccolo che decide quando rispondere e un modello più grande che genera la risposta. Valutiamo il nostro approccio su dataset del mondo reale, dimostrando la sua efficacia nel fornire un'assistenza utile e non invadente. Studi con utenti condotti con il nostro assistente, implementato su hardware Apple Silicon M2, mostrano una forte preferenza per l'assistente proattivo rispetto sia a una baseline senza assistenza che a un modello reattivo, evidenziando il potenziale di LlamaPIE nel migliorare le conversazioni in tempo reale.

H^{3}DP: Politica di Diffusione a Tripla Gerarchia per l'Apprendimento Visuomotorio
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12, 2025

Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu

L'apprendimento di politiche visuomotorie ha registrato progressi significativi nella manipolazione robotica, con approcci recenti che si basano principalmente su modelli generativi per modellare la distribuzione delle azioni. Tuttavia, questi metodi spesso trascurano il fondamentale accoppiamento tra percezione visiva e previsione delle azioni. In questo lavoro, introduciamo la Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), un nuovo framework di apprendimento visuomotorio che incorpora esplicitamente strutture gerarchiche per rafforzare l'integrazione tra caratteristiche visive e generazione di azioni. H^{3}DP contiene 3 livelli di gerarchia: (1) stratificazione degli input consapevole della profondità che organizza le osservazioni RGB-D in base alle informazioni di profondità; (2) rappresentazioni visive multi-scala che codificano caratteristiche semantiche a diversi livelli di granularità; e (3) un processo di diffusione condizionato gerarchicamente che allinea la generazione di azioni da grossolane a fini con le corrispondenti caratteristiche visive. Esperimenti estensivi dimostrano che H^{3}DP produce un miglioramento relativo medio del +27,5% rispetto ai baseline su 44 task di simulazione e raggiunge prestazioni superiori in 4 impegnativi task di manipolazione bimanuale nel mondo reale. Pagina del progetto: https://lyy-iiis.github.io/h3dp/.

La Prevenzione dell'Overflow Migliora i Modelli Linguistici Ricorrenti a Lungo Contesto
Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12, 2025

Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes

Una tendenza recente nei LLM è lo sviluppo di modelli ricorrenti sub-quadratici che migliorano l'efficienza nell'elaborazione di contesti lunghi. Investigiamo i principali modelli di grandi dimensioni per contesti lunghi, concentrandoci su come la loro memoria ricorrente di dimensione fissa influisca sulle prestazioni. I nostri esperimenti rivelano che, anche quando questi modelli vengono addestrati per contesti estesi, l'uso di contesti lunghi rimane sottoutilizzato. Nello specifico, dimostriamo che una procedura di inferenza basata su chunk, che identifica ed elabora solo la porzione più rilevante dell'input, può mitigare i fallimenti della memoria ricorrente ed essere efficace per molte attività a contesto lungo: su LongBench, il nostro metodo migliora le prestazioni complessive di Falcon3-Mamba-Inst-7B del 14%, Falcon-Mamba-Inst-7B del 28%, RecurrentGemma-IT-9B del 50% e RWKV6-Finch-7B del 51%. Sorprendentemente, questo approccio semplice porta anche a risultati all'avanguardia nel complesso benchmark LongBench v2, mostrando prestazioni competitive con Transformer di dimensioni equivalenti. Inoltre, i nostri risultati sollevano interrogativi sul fatto che i modelli ricorrenti sfruttino veramente le dipendenze a lungo raggio, poiché la nostra strategia a singolo chunk offre prestazioni migliori, anche in attività che presumibilmente richiedono relazioni cross-contesto.

Attribuzione Documentale: Analisi delle Relazioni di Citazione mediante Modelli Linguistici di Grande Scala
Document Attribution: Examining Citation Relationships using Large Language Models

May 9, 2025

Vipula Rawte, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka

Man mano che i Modelli Linguistici di Grande Dimensione (LLM) vengono sempre più applicati a compiti basati su documenti - come la sintesi di documenti, il question answering e l'estrazione di informazioni - dove i requisiti degli utenti si concentrano sul recupero di informazioni da documenti forniti piuttosto che sulla conoscenza parametrica del modello, garantire l'affidabilità e l'interpretabilità di questi sistemi è diventata una preoccupazione critica. Un approccio centrale per affrontare questa sfida è l'attribuzione, che consiste nel rintracciare gli output generati fino ai documenti sorgente. Tuttavia, poiché gli LLM possono produrre risposte inaccurate o imprecise, è cruciale valutare l'affidabilità di queste citazioni. Per affrontare questo problema, il nostro lavoro propone due tecniche. (1) Un approccio zero-shot che inquadra l'attribuzione come un semplice compito di implicazione testuale. Il nostro metodo che utilizza flan-ul2 dimostra un miglioramento dello 0,27% e del 2,4% rispetto alla migliore baseline degli insiemi ID e OOD di AttributionBench, rispettivamente. (2) Esploriamo inoltre il ruolo del meccanismo di attenzione nel migliorare il processo di attribuzione. Utilizzando un LLM più piccolo, flan-t5-small, i punteggi F1 superano la baseline in quasi tutti i livelli, ad eccezione del livello 4 e dei livelli da 8 a 11.

Apprendimento Profondo Assistito dalla Fisica e Informato dalla Topologia per la Previsione Meteorologica
Physics-Assisted and Topology-Informed Deep Learning for Weather Prediction

May 8, 2025

Jiaqi Zheng, Qing Ling, Yerong Feng

Sebbene i modelli di deep learning abbiano dimostrato un potenziale notevole nella previsione meteorologica, la maggior parte di essi trascura sia la fisica dell'evoluzione meteorologica sottostante che la topologia della superficie terrestre. Alla luce di questi svantaggi, abbiamo sviluppato PASSAT, un nuovo modello di deep learning assistito dalla fisica e informato dalla topologia per la previsione meteorologica. PASSAT attribuisce l'evoluzione meteorologica a due fattori chiave: (i) il processo di avvezione che può essere caratterizzato dall'equazione di avvezione e dalle equazioni di Navier-Stokes; (ii) l'interazione Terra-atmosfera che è difficile sia da modellare che da calcolare. PASSAT tiene inoltre in considerazione la topologia della superficie terrestre, anziché trattarla semplicemente come un piano. Con queste considerazioni, PASSAT risolve numericamente l'equazione di avvezione e le equazioni di Navier-Stokes sulla varietà sferica, utilizza una rete neurale grafica sferica per catturare l'interazione Terra-atmosfera e genera i campi di velocità iniziali, cruciali per risolvere l'equazione di avvezione, dalla stessa rete neurale grafica sferica. Nel dataset ERA5 a risoluzione di 5.625^circ, PASSAT supera sia i modelli di previsione meteorologica basati su deep learning all'avanguardia che il modello operativo di previsione numerica del tempo IFS T42. Il codice e i checkpoint sono disponibili all'indirizzo https://github.com/Yumenomae/PASSAT_5p625.

Flusso Discreto Guidato da Multi-Obiettivo per la Progettazione Controllata di Sequenze Biologiche
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11, 2025

Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee

La progettazione di sequenze biologiche che soddisfino criteri funzionali e biofisici multipli, spesso in conflitto tra loro, rimane una sfida centrale nell'ingegneria delle biomolecole. Sebbene i modelli di discrete flow matching abbiano recentemente dimostrato potenzialità per un campionamento efficiente in spazi di sequenze ad alta dimensionalità, gli approcci esistenti affrontano solo obiettivi singoli o richiedono embedding continui che possono distorcere le distribuzioni discrete. Presentiamo il Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), un framework generale per orientare qualsiasi generatore pre-addestrato di discrete flow matching verso compromessi Pareto-efficienti su più obiettivi scalari. Ad ogni passo di campionamento, MOG-DFM calcola un punteggio ibrido rank-direzionale per le transizioni candidate e applica un filtro iperconico adattivo per garantire una progressione multi-obiettivo coerente. Abbiamo inoltre addestrato due modelli di discrete flow matching incondizionati, PepDFM per la generazione diversificata di peptidi e EnhancerDFM per la generazione di DNA enhancer funzionale, come modelli di base per MOG-DFM. Dimostriamo l'efficacia di MOG-DFM nella generazione di leganti peptidici ottimizzati su cinque proprietà (emolisi, anti-fouling, solubilità, emivita e affinità di legame), e nella progettazione di sequenze di DNA con classi specifiche di enhancer e forme di DNA. In sintesi, MOG-DFM si conferma uno strumento potente per la progettazione di sequenze biomolecolari guidata da più proprietà.

Rapporto Tecnico di Seed1.5-VL
Seed1.5-VL Technical Report

May 11, 2025

1494