Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Seed1.5-VL, un modello fondazionale visione-linguaggio progettato per avanzare la comprensione e il ragionamento multimodale a scopo generale. Seed1.5-VL è composto da un encoder visivo da 532 milioni di parametri e da un modello linguistico Mixture-of-Experts (MoE) da 20 miliardi di parametri attivi. Nonostante la sua architettura relativamente compatta, offre prestazioni solide su un'ampia gamma di benchmark pubblici VLM e suite di valutazione interne, raggiungendo lo stato dell'arte su 38 dei 60 benchmark pubblici. Inoltre, in compiti centrati sull'agente come il controllo delle GUI e il gameplay, Seed1.5-VL supera i principali sistemi multimodali, inclusi OpenAI CUA e Claude 3.7. Oltre alla comprensione visiva e video, dimostra anche forti capacità di ragionamento, rendendolo particolarmente efficace per sfide di ragionamento multimodale come i puzzle visivi. Crediamo che queste capacità potenzieranno applicazioni più ampie in diversi compiti. In questo report, forniamo principalmente una revisione completa delle nostre esperienze nella costruzione di Seed1.5-VL attraverso il design del modello, la costruzione dei dati e l'addestramento in varie fasi, sperando che questo report possa ispirare ulteriori ricerche. Seed1.5-VL è ora accessibile all'indirizzo https://www.volcengine.com/ (ID modello Volcano Engine: doubao-1-5-thinking-vision-pro-250428).
Presentiamo MiMo-7B, un modello linguistico di grandi dimensioni nato per compiti di ragionamento, con ottimizzazione sia nella fase di pre-training che di post-training. Durante il pre-training, abbiamo migliorato la pipeline di pre-elaborazione dei dati e adottato una strategia di miscelazione dei dati in tre fasi per potenziare le capacità di ragionamento del modello di base. MiMo-7B-Base è stato pre-addestrato su 25 trilioni di token, con l'obiettivo aggiuntivo di Multi-Token Prediction per migliorare le prestazioni e accelerare la velocità di inferenza. Durante il post-training, abbiamo curato un dataset di 130K problemi verificabili di matematica e programmazione per l'apprendimento per rinforzo, integrando uno schema di ricompensa basato sulla difficoltà del test per alleviare i problemi di ricompensa sparsa e impiegando un campionamento strategico dei dati per stabilizzare l'addestramento. Valutazioni estensive dimostrano che MiMo-7B-Base possiede un potenziale di ragionamento eccezionale, superando persino modelli molto più grandi da 32B. Il modello finale ottimizzato con RL, MiMo-7B-RL, raggiunge prestazioni superiori in compiti di matematica, codice e ragionamento generale, superando le prestazioni di OpenAI o1-mini. I checkpoint del modello sono disponibili su https://github.com/xiaomimimo/MiMo.
Mentre l'intelligenza artificiale generativa ha compiuto progressi significativi nei domini di testo, immagini, audio e video, la generazione 3D rimane relativamente sottosviluppata a causa di sfide fondamentali come la scarsità di dati, limitazioni algoritmiche e frammentazione dell'ecosistema. A tal fine, presentiamo Step1X-3D, un framework aperto che affronta queste sfide attraverso: (1) una pipeline rigorosa di curatela dei dati che elabora oltre 5 milioni di asset per creare un dataset di 2 milioni di elementi di alta qualità con proprietà geometriche e testurali standardizzate; (2) un'architettura 3D-native a due stadi che combina un generatore di geometria ibrido VAE-DiT con un modulo di sintesi testurale basato su diffusione; e (3) il rilascio completo open-source di modelli, codice di addestramento e moduli di adattamento. Per la generazione della geometria, il componente ibrido VAE-DiT produce rappresentazioni TSDF utilizzando una codifica latente basata su perceiver con campionamento dei bordi netti per preservare i dettagli. Il modulo di sintesi testurale basato su diffusione garantisce quindi la coerenza tra le viste attraverso il condizionamento geometrico e la sincronizzazione nello spazio latente. I risultati dei benchmark dimostrano prestazioni all'avanguardia che superano i metodi open-source esistenti, raggiungendo anche una qualità competitiva con soluzioni proprietarie. In particolare, il framework colma in modo unico i paradigmi di generazione 2D e 3D supportando il trasferimento diretto di tecniche di controllo 2D (ad esempio, LoRA) alla sintesi 3D. Avanzando simultaneamente la qualità dei dati, la fedeltà algoritmica e la riproducibilità, Step1X-3D mira a stabilire nuovi standard per la ricerca aperta nella generazione controllata di asset 3D.
I Large Reasoning Models (LRM) hanno la capacità di autocorreggersi anche quando commettono errori nei loro percorsi di ragionamento. Tuttavia, il nostro studio rivela che quando il processo di ragionamento inizia con un inizio breve ma di scarsa qualità, diventa difficile per il modello recuperare. Definiamo questo fenomeno come la "Trappola della Dominanza del Prefisso". Ispirati da risultati psicologici che dimostrano come l'interazione tra pari possa promuovere l'autocorrezione senza influire negativamente sugli individui già accurati, proponiamo **Learning from Peers** (LeaP) per affrontare questo fenomeno. Nello specifico, a intervalli regolari, ogni percorso di ragionamento riassume il proprio ragionamento intermedio e lo condivide con gli altri attraverso un meccanismo di routing, consentendo ai percorsi di incorporare le intuizioni dei pari durante l'inferenza. Tuttavia, osserviamo che i modelli più piccoli a volte non riescono a seguire efficacemente le istruzioni di riassunto e riflessione. Per risolvere questo problema, li ottimizziamo nella nostra serie di modelli **LeaP-T**. Gli esperimenti su AIME 2024, AIME 2025, AIMO 2025 e GPQA Diamond dimostrano che LeaP apporta miglioramenti sostanziali. Ad esempio, QwQ-32B con LeaP ottiene quasi 5 punti assoluti in più rispetto alla baseline in media e supera DeepSeek-R1-671B su tre benchmark matematici con un guadagno medio di 3,3 punti. In particolare, il nostro modello ottimizzato LeaP-T-7B eguaglia le prestazioni di DeepSeek-R1-Distill-Qwen-14B su AIME 2024. Un'analisi approfondita rivela la robusta correzione degli errori di LeaP grazie a intuizioni tempestive dei pari, mostrando una forte tolleranza agli errori e una gestione efficace della variabilità della difficoltà dei task. LeaP rappresenta una pietra miliare, consentendo ai LRM di collaborare durante il ragionamento. Il nostro codice, dataset e modelli sono disponibili su https://learning-from-peers.github.io/.
I recenti progressi nei modelli generativi continui, inclusi approcci multi-step come la diffusione e il flow-matching (che tipicamente richiedono 8-1000 passaggi di campionamento) e metodi few-step come i consistency models (tipicamente 1-8 passaggi), hanno dimostrato prestazioni generative impressionanti. Tuttavia, il lavoro esistente spesso tratta questi approcci come paradigmi distinti, risultando in metodologie di addestramento e campionamento separate. Introduciamo un framework unificato per l'addestramento, il campionamento e l'analisi di questi modelli. La nostra implementazione, il Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), raggiunge prestazioni all'avanguardia (SOTA). Ad esempio, su ImageNet 256x256 utilizzando un transformer di diffusione da 675M, UCGM-T addestra un modello multi-step che raggiunge 1.30 FID in 20 passaggi e un modello few-step che raggiunge 1.42 FID in soli 2 passaggi. Inoltre, applicando UCGM-S a un modello pre-addestrato (precedentemente 1.26 FID a 250 passaggi) si migliora la performance a 1.06 FID in soli 40 passaggi. Il codice è disponibile su: https://github.com/LINs-lab/UCGM.
I recenti progressi nei modelli generativi, in particolare i modelli di diffusione e i flussi rettificati, hanno rivoluzionato la creazione di contenuti visivi, ma allineare gli output dei modelli alle preferenze umane rimane una sfida cruciale. I metodi esistenti basati sull'apprendimento per rinforzo (RL) per la generazione visiva affrontano limitazioni critiche: incompatibilità con i moderni paradigmi di campionamento basati su equazioni differenziali ordinarie (ODE), instabilità nell'addestramento su larga scala e mancanza di validazione per la generazione video. Questo articolo introduce DanceGRPO, il primo framework unificato per adattare l'ottimizzazione delle politiche relative ai gruppi (GRPO) ai paradigmi di generazione visiva, sfruttando un unico algoritmo RL attraverso due paradigmi generativi (modelli di diffusione e flussi rettificati), tre task (da testo a immagine, da testo a video, da immagine a video), quattro modelli di base (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) e cinque modelli di reward (estetica di immagini/video, allineamento testo-immagine, qualità del movimento video e reward binario). A nostra conoscenza, DanceGRPO è il primo framework unificato basato su RL in grado di adattarsi senza soluzione di continuità a diversi paradigmi generativi, task, modelli di base e modelli di reward. DanceGRPO dimostra miglioramenti consistenti e sostanziali, superando i baseline fino al 181% su benchmark come HPS-v2.1, CLIP Score, VideoAlign e GenEval. In particolare, DanceGRPO non solo può stabilizzare l'ottimizzazione delle politiche per la generazione video complessa, ma consente anche alla politica generativa di catturare meglio le traiettorie di denoising per il ridimensionamento dell'inferenza Best-of-N e di apprendere da feedback binari sparsi. I nostri risultati stabiliscono DanceGRPO come una soluzione robusta e versatile per scalare i task di Reinforcement Learning from Human Feedback (RLHF) nella generazione visiva, offrendo nuove intuizioni sull'armonizzazione dell'apprendimento per rinforzo e della sintesi visiva. Il codice verrà rilasciato.
Proponiamo Skywork-VL Reward, un modello di reward multimodale che fornisce segnali di reward sia per compiti di comprensione che di ragionamento multimodale. Il nostro approccio tecnico comprende due componenti chiave: in primo luogo, costruiamo un dataset di preferenze multimodali su larga scala che copre un'ampia gamma di compiti e scenari, con risposte raccolte sia da modelli standard di visione e linguaggio (VLMs) che da ragionatori VLM avanzati. In secondo luogo, progettiamo un'architettura di reward model basata su Qwen2.5-VL-7B-Instruct, integrando una testa di reward e applicando una messa a punto multi-stadio utilizzando la perdita di ranking su coppie di dati di preferenza. Le valutazioni sperimentali dimostrano che Skywork-VL Reward raggiunge risultati all'avanguardia su VL-RewardBench multimodale e mostra prestazioni competitive sul benchmark RewardBench esclusivamente testuale. Inoltre, i dati di preferenza costruiti basandosi su Skywork-VL Reward si rivelano altamente efficaci per l'addestramento di Mixed Preference Optimization (MPO), portando a significativi miglioramenti nelle capacità di ragionamento multimodale. I nostri risultati sottolineano Skywork-VL Reward come un progresso significativo verso modelli di reward affidabili e di uso generale per l'allineamento multimodale. Il nostro modello è stato rilasciato pubblicamente per promuovere trasparenza e riproducibilità.
I modelli linguistici di grandi dimensioni basati su istruzioni (LLM) si sono dimostrati efficaci in numerosi compiti di elaborazione del linguaggio naturale (NLP) in contesti few-shot o zero-shot. Tuttavia, la creazione di dati di istruzioni annotati manualmente è un processo dispendioso in termini di tempo, costoso e spesso limitato in quantità e diversità di compiti. Ricerche precedenti hanno cercato di affrontare questa sfida proponendo framework in grado di generare istruzioni in modo semi-automatico e indipendente dal compito, direttamente dal modello stesso. Molti di questi sforzi si sono basati su modelli di grandi dimensioni accessibili solo tramite API, come GPT-3.5 (175B), che sono costosi e soggetti a limitazioni nel numero di query. Questo articolo esplora le prestazioni di tre LLM open-source di piccole dimensioni, come LLaMA 2-7B, LLaMA 2-13B e Mistral 7B, utilizzando un framework semi-automatico, riducendo così l'intervento umano, lo sforzo e i costi necessari per generare un dataset di istruzioni per il fine-tuning degli LLM. Inoltre, dimostriamo che l'integrazione di un algoritmo di addestramento basato sull'apprendimento per rinforzo (RL) in questo framework basato su LLM porta a ulteriori miglioramenti. La nostra valutazione del dataset rivela che questi framework basati su RL ottengono miglioramenti significativi nel 63-66% dei compiti rispetto agli approcci precedenti.
Recentemente, c'è stato un crescente interesse nel raccogliere dati di pre-addestramento ad alta intensità di ragionamento per migliorare la capacità di ragionamento complesso dei modelli linguistici di grandi dimensioni (LLM). Gli approcci precedenti si basano tipicamente su classificatori supervisionati per identificare tali dati, il che richiede etichettature da parte di esseri umani o LLM, introducendo spesso bias specifici del dominio. Poiché le testine di attenzione sono cruciali per il ragionamento in contesto, proponiamo AttentionInfluence, un metodo semplice ma efficace, privo di supervisione e senza segnali di addestramento. Il nostro approccio consente a un piccolo modello linguistico pre-addestrato di agire come un forte selezionatore di dati attraverso una semplice operazione di mascheramento delle testine di attenzione. Nello specifico, identifichiamo le testine di recupero e calcoliamo la differenza di perdita quando queste testine vengono mascherate. Applichiamo AttentionInfluence a un modello denso da 1,3 miliardi di parametri per condurre la selezione dei dati sul corpus SmolLM di 241 miliardi di token, e mescoliamo il corpus SmolLM con il sottoinsieme selezionato composto da 73 miliardi di token per pre-addestrare un modello denso da 7 miliardi di parametri utilizzando 1 trilione di token di addestramento e una pianificazione del tasso di apprendimento WSD. I nostri risultati sperimentali dimostrano miglioramenti sostanziali, che vanno da 1,4pp a 3,5pp, su diversi benchmark ad alta intensità di conoscenza e ragionamento (ad esempio, MMLU, MMLU-Pro, AGIEval-en, GSM8K e HumanEval). Ciò dimostra una proprietà efficace di scalabilità da debole a forte, con modelli piccoli che migliorano le prestazioni finali di modelli più grandi, offrendo un percorso promettente e scalabile per la selezione di dati centrata sul ragionamento.
Il Continual Pre-Training (CPT) è diventato un metodo popolare ed efficace per applicare modelli di base robusti a specifici task downstream. In questo lavoro, esploriamo le dinamiche di apprendimento durante il processo di CPT per i modelli linguistici di grandi dimensioni. Ci concentriamo in particolare su come le prestazioni generali e quelle specifiche del dominio evolvono a ogni passo di addestramento, con le prestazioni del dominio misurate tramite le perdite di validazione. Abbiamo osservato che la curva di perdita del CPT caratterizza fondamentalmente la transizione da una curva a un'altra curva nascosta, e potrebbe essere descritta scomponendo gli effetti dello spostamento della distribuzione e dell'annealing del tasso di apprendimento. Deriviamo una legge di scalabilità del CPT che combina i due fattori, consentendo di prevedere la perdita in qualsiasi passo di addestramento (continuo) e attraverso diverse pianificazioni del tasso di apprendimento (LRS) nel CPT. La nostra formulazione offre una comprensione completa di diversi fattori critici nel CPT, tra cui il potenziale di perdita, il picco del tasso di apprendimento, i passi di addestramento, il rapporto di replay, ecc. Inoltre, il nostro approccio può essere adattato per personalizzare gli iperparametri di addestramento in base a diversi obiettivi di CPT, come bilanciare le prestazioni generali e quelle specifiche del dominio. Esperimenti estensivi dimostrano che la nostra legge di scalabilità è valida su vari dataset di CPT e iperparametri di addestramento.
Gli agenti basati su LLM hanno dimostrato un grande potenziale nella generazione e gestione di codice all'interno di codebase complessi. In questo articolo, introduciamo WebGen-Bench, un nuovo benchmark progettato per misurare la capacità di un agente basato su LLM di creare codebase di siti web multi-file da zero. Esso contiene istruzioni diversificate per la generazione di siti web, create attraverso lo sforzo combinato di annotatori umani e GPT-4o. Queste istruzioni coprono tre categorie principali e tredici sottocategorie, comprendendo quasi tutti i tipi importanti di applicazioni web. Per valutare la qualità dei siti web generati, utilizziamo GPT-4o per generare casi di test mirati a ciascuna funzionalità descritta nelle istruzioni, e poi li filtriamo, modifichiamo e organizziamo manualmente per garantire l'accuratezza, ottenendo 647 casi di test. Ogni caso di test specifica un'operazione da eseguire sul sito web e il risultato atteso dopo l'operazione. Per automatizzare i test e migliorare la riproducibilità, impieghiamo un potente agente di navigazione web per eseguire i test sui siti web generati e determinare se le risposte osservate corrispondono ai risultati attesi. Valutiamo tre framework di agenti di codice ad alte prestazioni, Bolt.diy, OpenHands e Aider, utilizzando più LLM proprietari e open-source come motori. La combinazione con le migliori prestazioni, Bolt.diy alimentato da DeepSeek-R1, raggiunge solo il 27,8\% di accuratezza sui casi di test, evidenziando la natura impegnativa del nostro benchmark. Inoltre, costruiamo WebGen-Instruct, un set di allenamento composto da 6.667 istruzioni per la generazione di siti web. L'allenamento di Qwen2.5-Coder-32B-Instruct sulle traiettorie di Bolt.diy generate da un sottoinsieme di questo set di allenamento raggiunge un'accuratezza del 38,2\%, superando le prestazioni del miglior modello proprietario.
Presentiamo INTELLECT-2, il primo addestramento globale distribuito di un modello linguistico da 32 miliardi di parametri basato su apprendimento per rinforzo (RL). A differenza dei tradizionali sforzi di addestramento centralizzati, INTELLECT-2 allena un modello di ragionamento utilizzando un RL completamente asincrono attraverso uno sciame dinamico ed eterogeneo di contributori di calcolo senza autorizzazione. Per abilitare un ciclo di addestramento con questa infrastruttura unica, abbiamo costruito da zero vari componenti: introduciamo PRIME-RL, il nostro framework di addestramento progettato specificamente per l'apprendimento per rinforzo asincrono distribuito, basato su componenti innovativi come TOPLOC, che verifica le sequenze di azioni provenienti da lavoratori di inferenza non attendibili, e SHARDCAST, che trasmette in modo efficiente i pesi delle politiche dai nodi di addestramento ai lavoratori di inferenza. Oltre ai componenti infrastrutturali, proponiamo modifiche alla ricetta standard di addestramento GRPO e tecniche di filtraggio dei dati che sono state cruciali per raggiungere la stabilità dell'addestramento e garantire che il nostro modello apprendesse con successo il suo obiettivo di addestramento, migliorando così QwQ-32B, il modello di ragionamento all'avanguardia nella gamma dei 32 miliardi di parametri. Rendiamo open-source INTELLECT-2 insieme a tutto il nostro codice e dati, con la speranza di incoraggiare e abilitare ulteriori ricerche aperte nel campo dell'addestramento decentralizzato.
La saggezza convenzionale suggerisce che i modelli autoregressivi siano utilizzati per elaborare dati discreti. Quando applicati a modalità continue come i dati visivi, il Visual AutoRegressive modeling (VAR) ricorre tipicamente ad approcci basati sulla quantizzazione per trasformare i dati in uno spazio discreto, il che può introdurre una significativa perdita di informazioni. Per affrontare questo problema, introduciamo un framework Continuous VAR che consente la generazione autoregressiva visiva diretta senza quantizzazione vettoriale. Il fondamento teorico sottostante è costituito dalle regole di punteggio strettamente proprie, che forniscono potenti strumenti statistici in grado di valutare quanto bene un modello generativo approssimi la distribuzione reale. All'interno di questo framework, tutto ciò di cui abbiamo bisogno è selezionare uno score strettamente proprio e impostarlo come obiettivo di addestramento da ottimizzare. Esploriamo principalmente una classe di obiettivi di addestramento basati sull'energy score, che è privo di verosimiglianza e quindi supera la difficoltà di fare previsioni probabilistiche nello spazio continuo. Precedenti sforzi sulla generazione autoregressiva continua, come GIVT e la perdita di diffusione, possono anche essere derivati dal nostro framework utilizzando altri score strettamente propri. Codice sorgente: https://github.com/shaochenze/EAR.
La generazione potenziata dal recupero (RAG) è una strategia comune per ridurre le allucinazioni nei Modelli Linguistici di Grande Dimensione (LLM). Sebbene l'apprendimento per rinforzo (RL) possa consentire ai LLM di agire come agenti di ricerca attivando le capacità di recupero, quelli esistenti spesso sottoutilizzano la loro conoscenza interna. Ciò può portare a recuperi ridondanti, potenziali conflitti dannosi di conoscenza e un aumento della latenza di inferenza. Per affrontare queste limitazioni, è urgente la necessità di un agente di ricerca efficiente e adattivo in grado di discernere il momento ottimale per il recupero e di integrare sinergicamente la conoscenza parametrica (interna) e quella recuperata (esterna). Questo articolo introduce l'agente di ragionamento sinergico con conoscenza interna-esterna rinforzata (IKEA), che potrebbe identificare il proprio confine di conoscenza e dare priorità all'utilizzo della conoscenza interna, ricorrendo alla ricerca esterna solo quando la conoscenza interna è ritenuta insufficiente. Ciò è ottenuto utilizzando una nuova funzione di ricompensa consapevole del confine di conoscenza e un dataset di addestramento consapevole del confine di conoscenza. Questi sono progettati per un RL orientato alla sinergia tra conoscenza interna ed esterna, incentivando il modello a fornire risposte accurate, minimizzare i recuperi non necessari e incoraggiare ricerche esterne appropriate quando la propria conoscenza è carente. Le valutazioni su più compiti di ragionamento basati sulla conoscenza dimostrano che IKEA supera significativamente i metodi di base, riduce notevolmente la frequenza di recupero e mostra robuste capacità di generalizzazione.
Il ritocco è un compito essenziale nella post-elaborazione delle fotografie raw. L'editing generativo, guidato da testo o tratti, fornisce un nuovo strumento accessibile agli utenti ma può facilmente alterare l'identità degli oggetti originali in modi inaccettabili e imprevedibili. Al contrario, sebbene le modifiche procedurali tradizionali, comunemente supportate da strumenti di fotoritocco (ad esempio, Gimp, Lightroom), siano conservative, sono ancora preferite dai professionisti. Sfortunatamente, il ritocco di qualità professionale coinvolge molte operazioni individuali di editing procedurale che sono difficili da pianificare per la maggior parte dei principianti. In questo articolo, ci chiediamo se un modello linguistico multimodale di grandi dimensioni (MLLM) possa essere addestrato a criticare fotografie raw, suggerire rimedi adeguati e infine realizzarli con un determinato set di operazioni procedurali pre-autorizzate. Dimostriamo che gli MLLM possono prima essere resi consapevoli delle operazioni di elaborazione delle immagini sottostanti, addestrandoli a risolvere puzzle visivi appositamente progettati. Successivamente, un MLLM consapevole delle operazioni può sia pianificare che proporre sequenze di editing. Per facilitare l'addestramento, dato un set di foto modificate da esperti, sintetizziamo un dataset di ragionamento manipolando proceduralmente le modifiche degli esperti e quindi ancorando un LLM preaddestrato sugli aggiustamenti visivi, per sintetizzare il ragionamento per il fine-tuning. Le operazioni di ritocco proposte sono, per costruzione, comprensibili dagli utenti, preservano i dettagli e la risoluzione degli oggetti, e possono essere eventualmente sovrascritte. Valutiamo il nostro setup su una varietà di esempi di test e mostriamo vantaggi, in termini di spiegabilità e preservazione dell'identità, rispetto alle alternative generative e procedurali esistenti. Codice, dati, modelli e risultati supplementari possono essere trovati sul nostro sito del progetto all'indirizzo https://monetgpt.github.io.
In questo position paper, osserviamo che la valutazione empirica nell'ambito dell'Intelligenza Artificiale Generativa (GenAI) si trova in un momento critico, poiché le strategie tradizionali di valutazione e benchmarking del Machine Learning (ML) sono insufficienti per soddisfare le esigenze di valutazione dei moderni modelli e sistemi GenAI. Ciò è dovuto a molteplici ragioni, tra cui il fatto che questi modelli hanno tipicamente spazi di input e output quasi illimitati, spesso non dispongono di un ground truth ben definito e manifestano forti cicli di feedback e dipendenza predittiva basati sul contesto delle precedenti uscite del modello. Oltre a queste problematiche cruciali, sosteniamo che i problemi di {\em leakage} (perdita di dati) e {\em contaminazione} siano in realtà le questioni più importanti e difficili da affrontare nelle valutazioni GenAI. È interessante notare che il campo delle Competizioni di IA ha sviluppato misure e pratiche efficaci per contrastare il leakage, con l'obiettivo di prevenire comportamenti scorretti da parte di partecipanti disonesti in un contesto competitivo. Questo rende le Competizioni di IA una risorsa particolarmente preziosa (ma sottoutilizzata). È giunto il momento per il settore di considerare le Competizioni di IA come lo standard di riferimento per il rigore empirico nella valutazione GenAI, e di sfruttare e valorizzare i loro risultati in modo adeguato.
Le architetture Sparse Mixture of Experts (MoE) si sono affermate come un approccio promettente per scalare i modelli Transformer. Mentre i lavori iniziali integravano principalmente MoE nei livelli di rete feed-forward (FFN), studi recenti hanno esplorato l'estensione del paradigma MoE ai livelli di attenzione per migliorare le prestazioni del modello. Tuttavia, gli attuali livelli MoE basati sull'attenzione richiedono implementazioni specializzate e dimostrano prestazioni subottimali rispetto alle loro controparti basate su FFN. In questo articolo, miriamo a unificare i design MoE nei livelli di attenzione e FFN introducendo una nuova riformulazione del meccanismo di attenzione, rivelando una struttura sottostante simile a FFN all'interno dei moduli di attenzione. La nostra architettura proposta, UMoE, raggiunge prestazioni superiori attraverso livelli MoE basati sull'attenzione, consentendo al contempo una condivisione efficiente dei parametri tra i componenti FFN e di attenzione.
I sistemi di generazione aumentata con recupero (RAG) combinano modelli linguistici di grandi dimensioni (LLM) con il recupero di conoscenze esterne, rendendoli altamente efficaci per compiti ad alta intensità di conoscenza. Un componente cruciale ma spesso poco esplorato di questi sistemi è il riordinatore, che affina i documenti recuperati per migliorare la qualità e la spiegabilità della generazione. La sfida di selezionare il numero ottimale di documenti (k) rimane irrisolta: troppo pochi possono omettere informazioni critiche, mentre troppi introducono rumore e inefficienze. Sebbene studi recenti abbiano esplorato riordinatori basati su LLM, sfruttano principalmente la conoscenza interna del modello e trascurano i ricchi segnali di supervisione che gli LLM possono fornire, come l'utilizzo della qualità della risposta come feedback per ottimizzare le decisioni di riordinamento. In questo articolo, proponiamo DynamicRAG, un nuovo framework RAG in cui il riordinatore regola dinamicamente sia l'ordine che il numero di documenti recuperati in base alla query. Modelliamo il riordinatore come un agente ottimizzato attraverso l'apprendimento per rinforzo (RL), utilizzando ricompense derivate dalla qualità dell'output dell'LLM. Su sette dataset ad alta intensità di conoscenza, DynamicRAG dimostra prestazioni superiori, raggiungendo risultati all'avanguardia. Il modello, i dati e il codice sono disponibili all'indirizzo https://github.com/GasolSun36/DynamicRAG.
Presentiamo LlamaPIE, il primo assistente proattivo in tempo reale progettato per migliorare le conversazioni umane attraverso una guida discreta e concisa, erogata tramite dispositivi indossabili. A differenza dei tradizionali modelli linguistici che richiedono un'invocazione esplicita da parte dell'utente, questo assistente opera in background, anticipando le esigenze dell'utente senza interrompere le conversazioni. Affrontiamo diverse sfide, tra cui determinare quando rispondere, formulare risposte concise che arricchiscano le conversazioni, sfruttare la conoscenza dell'utente per un'assistenza contestuale e il processamento in tempo reale direttamente sul dispositivo. Per raggiungere questo obiettivo, costruiamo un dataset di dialogo semi-sintetico e proponiamo una pipeline a due modelli: un modello più piccolo che decide quando rispondere e un modello più grande che genera la risposta. Valutiamo il nostro approccio su dataset del mondo reale, dimostrando la sua efficacia nel fornire un'assistenza utile e non invadente. Studi con utenti condotti con il nostro assistente, implementato su hardware Apple Silicon M2, mostrano una forte preferenza per l'assistente proattivo rispetto sia a una baseline senza assistenza che a un modello reattivo, evidenziando il potenziale di LlamaPIE nel migliorare le conversazioni in tempo reale.
L'apprendimento di politiche visuomotorie ha registrato progressi significativi nella manipolazione robotica, con approcci recenti che si basano principalmente su modelli generativi per modellare la distribuzione delle azioni. Tuttavia, questi metodi spesso trascurano il fondamentale accoppiamento tra percezione visiva e previsione delle azioni. In questo lavoro, introduciamo la Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), un nuovo framework di apprendimento visuomotorio che incorpora esplicitamente strutture gerarchiche per rafforzare l'integrazione tra caratteristiche visive e generazione di azioni. H^{3}DP contiene 3 livelli di gerarchia: (1) stratificazione degli input consapevole della profondità che organizza le osservazioni RGB-D in base alle informazioni di profondità; (2) rappresentazioni visive multi-scala che codificano caratteristiche semantiche a diversi livelli di granularità; e (3) un processo di diffusione condizionato gerarchicamente che allinea la generazione di azioni da grossolane a fini con le corrispondenti caratteristiche visive. Esperimenti estensivi dimostrano che H^{3}DP produce un miglioramento relativo medio del +27,5% rispetto ai baseline su 44 task di simulazione e raggiunge prestazioni superiori in 4 impegnativi task di manipolazione bimanuale nel mondo reale. Pagina del progetto: https://lyy-iiis.github.io/h3dp/.
Una tendenza recente nei LLM è lo sviluppo di modelli ricorrenti sub-quadratici che migliorano l'efficienza nell'elaborazione di contesti lunghi. Investigiamo i principali modelli di grandi dimensioni per contesti lunghi, concentrandoci su come la loro memoria ricorrente di dimensione fissa influisca sulle prestazioni. I nostri esperimenti rivelano che, anche quando questi modelli vengono addestrati per contesti estesi, l'uso di contesti lunghi rimane sottoutilizzato. Nello specifico, dimostriamo che una procedura di inferenza basata su chunk, che identifica ed elabora solo la porzione più rilevante dell'input, può mitigare i fallimenti della memoria ricorrente ed essere efficace per molte attività a contesto lungo: su LongBench, il nostro metodo migliora le prestazioni complessive di Falcon3-Mamba-Inst-7B del 14%, Falcon-Mamba-Inst-7B del 28%, RecurrentGemma-IT-9B del 50% e RWKV6-Finch-7B del 51%. Sorprendentemente, questo approccio semplice porta anche a risultati all'avanguardia nel complesso benchmark LongBench v2, mostrando prestazioni competitive con Transformer di dimensioni equivalenti. Inoltre, i nostri risultati sollevano interrogativi sul fatto che i modelli ricorrenti sfruttino veramente le dipendenze a lungo raggio, poiché la nostra strategia a singolo chunk offre prestazioni migliori, anche in attività che presumibilmente richiedono relazioni cross-contesto.
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) vengono sempre più applicati a compiti basati su documenti - come la sintesi di documenti, il question answering e l'estrazione di informazioni - dove i requisiti degli utenti si concentrano sul recupero di informazioni da documenti forniti piuttosto che sulla conoscenza parametrica del modello, garantire l'affidabilità e l'interpretabilità di questi sistemi è diventata una preoccupazione critica. Un approccio centrale per affrontare questa sfida è l'attribuzione, che consiste nel rintracciare gli output generati fino ai documenti sorgente. Tuttavia, poiché gli LLM possono produrre risposte inaccurate o imprecise, è cruciale valutare l'affidabilità di queste citazioni. Per affrontare questo problema, il nostro lavoro propone due tecniche. (1) Un approccio zero-shot che inquadra l'attribuzione come un semplice compito di implicazione testuale. Il nostro metodo che utilizza flan-ul2 dimostra un miglioramento dello 0,27% e del 2,4% rispetto alla migliore baseline degli insiemi ID e OOD di AttributionBench, rispettivamente. (2) Esploriamo inoltre il ruolo del meccanismo di attenzione nel migliorare il processo di attribuzione. Utilizzando un LLM più piccolo, flan-t5-small, i punteggi F1 superano la baseline in quasi tutti i livelli, ad eccezione del livello 4 e dei livelli da 8 a 11.
Sebbene i modelli di deep learning abbiano dimostrato un potenziale notevole nella previsione meteorologica, la maggior parte di essi trascura sia la fisica dell'evoluzione meteorologica sottostante che la topologia della superficie terrestre. Alla luce di questi svantaggi, abbiamo sviluppato PASSAT, un nuovo modello di deep learning assistito dalla fisica e informato dalla topologia per la previsione meteorologica. PASSAT attribuisce l'evoluzione meteorologica a due fattori chiave: (i) il processo di avvezione che può essere caratterizzato dall'equazione di avvezione e dalle equazioni di Navier-Stokes; (ii) l'interazione Terra-atmosfera che è difficile sia da modellare che da calcolare. PASSAT tiene inoltre in considerazione la topologia della superficie terrestre, anziché trattarla semplicemente come un piano. Con queste considerazioni, PASSAT risolve numericamente l'equazione di avvezione e le equazioni di Navier-Stokes sulla varietà sferica, utilizza una rete neurale grafica sferica per catturare l'interazione Terra-atmosfera e genera i campi di velocità iniziali, cruciali per risolvere l'equazione di avvezione, dalla stessa rete neurale grafica sferica. Nel dataset ERA5 a risoluzione di 5.625^circ, PASSAT supera sia i modelli di previsione meteorologica basati su deep learning all'avanguardia che il modello operativo di previsione numerica del tempo IFS T42. Il codice e i checkpoint sono disponibili all'indirizzo https://github.com/Yumenomae/PASSAT_5p625.
La progettazione di sequenze biologiche che soddisfino criteri funzionali e biofisici multipli, spesso in conflitto tra loro, rimane una sfida centrale nell'ingegneria delle biomolecole. Sebbene i modelli di discrete flow matching abbiano recentemente dimostrato potenzialità per un campionamento efficiente in spazi di sequenze ad alta dimensionalità, gli approcci esistenti affrontano solo obiettivi singoli o richiedono embedding continui che possono distorcere le distribuzioni discrete. Presentiamo il Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), un framework generale per orientare qualsiasi generatore pre-addestrato di discrete flow matching verso compromessi Pareto-efficienti su più obiettivi scalari. Ad ogni passo di campionamento, MOG-DFM calcola un punteggio ibrido rank-direzionale per le transizioni candidate e applica un filtro iperconico adattivo per garantire una progressione multi-obiettivo coerente. Abbiamo inoltre addestrato due modelli di discrete flow matching incondizionati, PepDFM per la generazione diversificata di peptidi e EnhancerDFM per la generazione di DNA enhancer funzionale, come modelli di base per MOG-DFM. Dimostriamo l'efficacia di MOG-DFM nella generazione di leganti peptidici ottimizzati su cinque proprietà (emolisi, anti-fouling, solubilità, emivita e affinità di legame), e nella progettazione di sequenze di DNA con classi specifiche di enhancer e forme di DNA. In sintesi, MOG-DFM si conferma uno strumento potente per la progettazione di sequenze biomolecolari guidata da più proprietà.