Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le straordinarie capacità zero-shot dei Large Language Models (LLM) hanno spinto l'elaborazione del linguaggio naturale da modelli specifici per singoli compiti a modelli di base unificati e generalisti. Questa trasformazione è emersa da semplici principi: modelli generativi di grandi dimensioni addestrati su dati su scala web. Curiosamente, gli stessi principi si applicano ai moderni modelli generativi per video. È possibile che i modelli video siano su una traiettoria verso una comprensione visiva generica, simile a come i LLM hanno sviluppato una comprensione linguistica generica? Dimostriamo che Veo 3 è in grado di risolvere un'ampia varietà di compiti per cui non è stato esplicitamente addestrato: segmentazione di oggetti, rilevamento di bordi, modifica di immagini, comprensione di proprietà fisiche, riconoscimento delle affordance degli oggetti, simulazione dell'uso di strumenti e altro ancora. Queste capacità di percepire, modellare e manipolare il mondo visivo abilitano forme iniziali di ragionamento visivo, come la risoluzione di labirinti e la comprensione della simmetria. Le capacità zero-shot emergenti di Veo indicano che i modelli video sono sulla strada per diventare modelli di base unificati e generalisti per la visione.
I metodi di Catena di Pensiero Implicita (CoT) rappresentano un'alternativa promettente ed efficiente in termini di token rispetto al ragionamento CoT esplicito nei Modelli Linguistici di Grande Scala (LLMs), ma un persistente divario prestazionale ha limitato l'applicazione della CoT implicita. Identifichiamo un problema centrale di instabilità latente scalando il budget computazionale degli approcci CoT impliciti: all'aumentare del numero di token di ragionamento implicito per migliorare le prestazioni, il processo di addestramento spesso diventa instabile e collassa. La nostra analisi rivela che questa instabilità deriva dalla tendenza delle rappresentazioni latenti a diventare omogenee e a perdere la loro diversità semantica, un fallimento causato da una supervisione insufficiente a livello di passaggio negli attuali approcci CoT impliciti. Per affrontare questo problema, proponiamo SIM-CoT, un modulo di addestramento plug-and-play che introduce una supervisione a livello di passaggio per stabilizzare e arricchire lo spazio di ragionamento latente. Nello specifico, SIM-CoT utilizza un decoder ausiliario durante l'addestramento per allineare ogni token implicito al corrispondente passo di ragionamento esplicito, garantendo che gli stati latenti catturino informazioni distinte e significative. Il decoder ausiliario proposto viene rimosso durante l'inferenza, preservando l'efficienza computazionale dei metodi CoT impliciti senza alcun sovraccarico aggiuntivo. Inoltre, il decoder ausiliario offre interpretabilità del ragionamento implicito proiettando ogni token latente su un vocabolario di ragionamento esplicito, consentendo la visualizzazione per passaggio dei ruoli semantici e la diagnosi. SIM-CoT migliora significativamente sia l'accuratezza in dominio che la stabilità fuori dominio di vari metodi CoT impliciti, aumentando le baseline come Coconut di +8,2% su GPT-2 e CODI di +3,0% su LLaMA-3.1 8B. Dimostrando una forte scalabilità, SIM-CoT supera anche la baseline CoT esplicita su GPT-2 del 2,1% con un'efficienza di token 2,3 volte maggiore, riducendo sostanzialmente il divario prestazionale su modelli più grandi come LLaMA-3.1 8B.
Presentiamo EmbeddingGemma, un nuovo modello leggero e aperto per l'incorporamento del testo, basato sulla famiglia di modelli linguistici Gemma 3. La nostra innovativa ricetta di addestramento cattura strategicamente la conoscenza da modelli più grandi attraverso l'inizializzazione encoder-decoder e la distillazione geometrica degli embedding. Miglioriamo la robustezza e l'espressività del modello con un regolarizzatore a dispersione e garantiamo la generalizzabilità unendo checkpoint da miscele ottimizzate e variate. Valutato sul Massive Text Embedding Benchmark (MTEB) in ambiti multilingue, inglese e di codice, EmbeddingGemma (300M) raggiunge risultati all'avanguardia. In particolare, supera i precedenti modelli di punta, sia proprietari che aperti, con meno di 500M parametri, e offre prestazioni paragonabili a modelli di dimensioni doppie, garantendo un rapporto prestazioni-costo eccezionale. Notevolmente, questo vantaggio persiste quando si quantizzano i pesi del modello o si troncano gli output degli embedding. Ciò rende EmbeddingGemma particolarmente adatto per casi d'uso a bassa latenza e alto throughput, come applicazioni su dispositivo. Forniamo studi di ablazione che esplorano le nostre scelte progettuali chiave. Rilasciamo EmbeddingGemma alla comunità per promuovere ulteriori ricerche.
In questo articolo, presentiamo un metodo basato sull'ottimizzazione delle politiche relative ai gruppi (Group Relative Policy Optimization, GRPO) per l'addestramento di modelli linguistici di grandi dimensioni con consapevolezza del parlato (Speech-Aware Large Language Models, SALLMs) su compiti di comprensione del parlato in formato aperto, come il rispondere a domande parlate e la traduzione automatica del parlato. I SALLMs si sono dimostrati altamente efficaci per i compiti di comprensione del parlato. Il GRPO ha recentemente guadagnato popolarità per la sua efficienza nell'addestramento di LLMs, e lavori precedenti ne hanno esplorato l'applicazione ai SALLMs, principalmente in compiti a scelta multipla. Basandoci su questo, ci concentriamo su compiti in formato aperto che riflettono meglio le capacità generative dei modelli. Il nostro approccio sfrutta il GRPO con il BLEU come segnale di ricompensa per ottimizzare i SALLMs, e dimostriamo empiricamente che supera il fine-tuning supervisionato standard (SFT) su diverse metriche chiave. Infine, esploriamo il potenziale di incorporare campioni off-policy all'interno del GRPO per questi compiti, evidenziando percorsi per ulteriori miglioramenti e ricerche future.
I recenti progressi nei modelli di base evidenziano una chiara tendenza verso l'unificazione e il ridimensionamento, mostrando capacità emergenti in diversi domini. Mentre la generazione e la modifica di immagini sono passate rapidamente da framework specifici per singoli compiti a framework unificati, la generazione e la modifica di video rimangono frammentate a causa di limitazioni architetturali e scarsità di dati. In questo lavoro, introduciamo EditVerse, un framework unificato per la generazione e la modifica di immagini e video all'interno di un singolo modello. Rappresentando tutte le modalità, ovvero testo, immagine e video, come una sequenza unificata di token, EditVerse sfrutta l'auto-attenzione per ottenere un apprendimento contestuale robusto, un trasferimento di conoscenza cross-modale naturale e una gestione flessibile di input e output con risoluzioni e durate arbitrarie. Per affrontare la mancanza di dati di addestramento per la modifica video, progettiamo una pipeline di dati scalabile che cura 232K campioni di modifica video e li combina con dataset su larga scala di immagini e video per un addestramento congiunto. Inoltre, presentiamo EditVerseBench, il primo benchmark per la modifica video basata su istruzioni che copre compiti e risoluzioni diverse. Esperimenti estesi e studi sugli utenti dimostrano che EditVerse raggiunge prestazioni all'avanguardia, superando i modelli open-source e commerciali esistenti, mostrando al contempo capacità emergenti di modifica e generazione attraverso le modalità.
Le tecniche all'avanguardia dell'Intelligenza Artificiale (AI) continuano a ridefinire la nostra visione del mondo. Ad esempio, applicazioni basate su Modelli Linguistici di Grande Scala (LLM) come ChatGPT hanno dimostrato la capacità di generare conversazioni simili a quelle umane su un'ampia gamma di argomenti. Grazie alle prestazioni impressionanti in una varietà di compiti legati al linguaggio (ad esempio, risposte a domande aperte, traduzione e riassunto di documenti), è possibile immaginare gli impatti di vasta portata che gli LLM possono avere con applicazioni più ampie nel mondo reale (ad esempio, servizio clienti, educazione e accessibilità, e scoperta scientifica). Ispirati dal loro successo, questo articolo offrirà una panoramica degli LLM più avanzati e della loro integrazione in una vasta gamma di discipline accademiche, tra cui: (1) arti, lettere e diritto (ad esempio, storia, filosofia, scienze politiche, arti e architettura, diritto), (2) economia e business (ad esempio, finanza, economia, contabilità, marketing), e (3) scienza e ingegneria (ad esempio, matematica, fisica e ingegneria meccanica, chimica e ingegneria chimica, scienze della vita e bioingegneria, scienze della terra e ingegneria civile, informatica e ingegneria elettrica). Integrando umanità e tecnologia, in questo articolo esploreremo come gli LLM stanno plasmando la ricerca e la pratica in questi campi, discutendo anche le principali limitazioni, le sfide aperte e le direzioni future nell'era dell'AI generativa. La revisione di come gli LLM sono coinvolti in diverse discipline, insieme a osservazioni e intuizioni chiave, può aiutare ricercatori e professionisti interessati a sfruttare gli LLM per far progredire il loro lavoro in diverse applicazioni del mondo reale.
I modelli esistenti per la generazione di video eccellono nella produzione di video fotorealistici a partire da testo o immagini, ma spesso mancano di plausibilità fisica e controllabilità 3D. Per superare queste limitazioni, introduciamo PhysCtrl, un nuovo framework per la generazione di video da immagini basata sulla fisica, con parametri fisici e controllo delle forze. Al suo centro c'è una rete generativa di fisica che apprende la distribuzione delle dinamiche fisiche attraverso quattro materiali (elastico, sabbia, plastilina e rigido) mediante un modello di diffusione condizionato su parametri fisici e forze applicate. Rappresentiamo le dinamiche fisiche come traiettorie di punti 3D e addestriamo il modello su un ampio dataset sintetico di 550K animazioni generate da simulatori fisici. Potenziamo il modello di diffusione con un nuovo blocco di attenzione spaziotemporale che emula le interazioni tra particelle e incorpora vincoli basati sulla fisica durante l'addestramento per garantire la plausibilità fisica. Gli esperimenti dimostrano che PhysCtrl genera traiettorie di movimento realistiche e basate sulla fisica che, quando utilizzate per guidare modelli di generazione video da immagini, producono video ad alta fedeltà e controllabili, superando i metodi esistenti sia nella qualità visiva che nella plausibilità fisica. Pagina del progetto: https://cwchenwang.github.io/physctrl
Proponiamo Lavida-O, un modello unificato di diffusione mascherata (Masked Diffusion Model, MDM) per la comprensione e la generazione multimodale. A differenza degli attuali MDM multimodali come MMaDa e Muddit, che supportano solo semplici task di comprensione a livello di immagine e la generazione di immagini a bassa risoluzione, Lavida-O presenta un unico framework che abilita la comprensione a livello di immagine, il grounding di oggetti, l'editing di immagini e la sintesi di immagini ad alta risoluzione (1024px) da testo. Lavida-O incorpora una nuova architettura Elastic Mixture-of-Transformers (Elastic-MoT) che combina un ramo di generazione leggero con un ramo di comprensione più ampio, supportato da compressione di token, condizionamento testuale universale e campionamento stratificato per una generazione efficiente e di alta qualità. Lavida-O integra inoltre pianificazione e auto-riflessione iterativa nei task di generazione e editing di immagini, migliorando in modo fluido la qualità della generazione grazie alle sue capacità di comprensione. Lavida-O raggiunge prestazioni all'avanguardia su un'ampia gamma di benchmark, tra cui il grounding di oggetti RefCOCO, la generazione di immagini da testo GenEval e l'editing di immagini ImgEdit, superando i modelli autoregressivi esistenti e i modelli di diffusione continua come Qwen2.5-VL e FluxKontext-dev, offrendo al contempo un notevole aumento di velocità durante l'inferenza. Questi progressi stabiliscono Lavida-O come un nuovo paradigma per il ragionamento e la generazione multimodale scalabile.
I modelli di folding proteico hanno ottenuto risultati rivoluzionari tipicamente attraverso una combinazione di integrazione di conoscenze di dominio nei blocchi architetturali e nelle pipeline di addestramento. Tuttavia, dato il successo dei modelli generativi in problemi diversi ma correlati, è naturale chiedersi se questi progetti architetturali siano una condizione necessaria per costruire modelli performanti. In questo articolo, introduciamo SimpleFold, il primo modello di folding proteico basato su flow-matching che utilizza esclusivamente blocchi transformer generici. I modelli di folding proteico impiegano tipicamente moduli computazionalmente costosi che coinvolgono aggiornamenti triangolari, rappresentazioni esplicite di coppie o molteplici obiettivi di addestramento curati per questo specifico dominio. Al contrario, SimpleFold utilizza blocchi transformer standard con livelli adattativi ed è addestrato tramite un obiettivo generativo di flow-matching con un termine strutturale aggiuntivo. Scaliamo SimpleFold a 3 miliardi di parametri e lo addestriamo su circa 9 milioni di strutture proteiche distillate insieme a dati sperimentali PDB. Su benchmark standard di folding, SimpleFold-3B raggiunge prestazioni competitive rispetto ai migliori modelli di riferimento; inoltre, SimpleFold dimostra una forte performance nella previsione in ensemble, che è tipicamente difficile per i modelli addestrati tramite obiettivi di ricostruzione deterministica. Grazie alla sua architettura generica, SimpleFold mostra efficienza nel deployment e nell'inferenza su hardware di livello consumer. SimpleFold mette in discussione la dipendenza da progetti architetturali complessi e specifici per il dominio nel folding proteico, aprendo uno spazio di progettazione alternativo per i progressi futuri.
I modelli linguistici di grandi dimensioni (LLM) open-source si stanno sempre più specializzando per dominio (ad esempio, matematica, codice, ragionamento generale), incentivando lo sviluppo di sistemi che sfruttano i punti di forza complementari tra i modelli. Gli approcci multi-LLM precedenti si basano su (i) l'indirizzamento di una query a uno o pochi esperti con generazione indipendente, (ii) l'aggregazione degli output di ciascun modello tramite scambi multi-turn costosi, o (iii) la fusione dei pesi in un unico modello, tipicamente richiedendo omogeneità architetturale. Introduciamo Mixture of Thoughts (MoT), un metodo semplice per la collaborazione a livello latente tra esperti eterogenei sotto uno schema di routing globale. Per ogni query, un router leggero seleziona i top-K esperti e designa un esperto primario; strati di interazione uniformemente posizionati proiettano gli stati nascosti in uno spazio latente condiviso, dove l'esperto primario esegue cross-attention sui suoi pari attivi (selezionati). Gli esperti pre-addestrati rimangono congelati; solo il router e i leggeri strati di interazione vengono addestrati con un nuovo obiettivo di addestramento congiunto che migliora sia la selezione degli esperti che la collaborazione inter-esperti. Su cinque benchmark in-distribuzione (ID) e tre out-of-distribuzione (OOD), MoT supera lo stato dell'arte basato su routing e aggregazione, Avengers, rispettivamente di +0,38% e +2,92%. Inoltre, MoT supera significativamente il singolo modello con le migliori prestazioni. Raggiunge questo risultato con inferenza a passaggio singolo, runtime comparabile ai baseline di routing e nessuno degli overhead dell'aggregazione iterativa. MoT offre un semplice meccanismo nello spazio latente per combinare LLM eterogenei, un passo pratico verso una più ampia collaborazione multi-LLM. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/jacobfa/mot.
I recenti progressi nei modelli Large Vision-Language (LVLM) hanno stimolato avanzamenti significativi nel compito di analisi dei documenti. Rispetto ai metodi tradizionali basati su pipeline, i paradigmi end-to-end hanno dimostrato la loro eccellenza nella conversione di immagini PDF in output strutturati attraverso l'integrazione di Optical Character Recognition (OCR), riconoscimento di tabelle, riconoscimento di formule matematiche e così via. Tuttavia, l'assenza di fasi analitiche esplicite per i layout dei documenti e gli ordini di lettura limita la capacità degli LVLM di gestire tipi di documenti complessi come giornali a più colonne o poster. Per affrontare questa limitazione, proponiamo in questo report Logics-Parsing: un modello end-to-end basato su LVLM potenziato con apprendimento per rinforzo. Il nostro modello incorpora meccanismi di ricompensa accuratamente progettati per ottimizzare l'analisi di layout complessi e l'inferenza dell'ordine di lettura. Inoltre, ampliamo la versatilità del modello incorporando tipi di dati diversi come formule chimiche e caratteri cinesi scritti a mano nel fine-tuning supervisionato. Infine, per consentire una valutazione rigorosa del nostro approccio, introduciamo LogicsParsingBench, un set curato di 1.078 immagini PDF a livello di pagina che coprono nove categorie principali e oltre venti sottocategorie, che verrà rilasciato in seguito. Esperimenti completi condotti su LogicsParsingBench hanno validato l'efficacia e le prestazioni State-of-the-art (SOTA) del nostro modello proposto in diversi scenari di analisi documentale. Pagina del progetto: https://github.com/alibaba/Logics-Parsing
I grandi modelli linguistici (LLM) sono sempre più integrati nei processi di sviluppo del software. La capacità di generare codice e inviare pull request con un intervento umano minimo, attraverso l'uso di agenti AI autonomi, è destinata a diventare una pratica standard. Tuttavia, si sa poco sull'utilità pratica di queste pull request e sulla misura in cui i loro contributi vengono accettati in progetti reali. In questo articolo, studiamo empiricamente 567 pull request (PR) generate utilizzando Claude Code, uno strumento di codifica agentico, in 157 progetti open-source diversi. La nostra analisi rivela che gli sviluppatori tendono a fare affidamento sugli agenti per attività come refactoring, documentazione e testing. I risultati indicano che l'83,8% di queste PR assistite da agenti viene accettato e integrato dai maintainer dei progetti, con il 54,9% delle PR integrate senza ulteriori modifiche. Il restante 45,1% richiede cambiamenti aggiuntivi e beneficia di revisioni umane, specialmente per correzioni di bug, documentazione e aderenza agli standard specifici del progetto. Questi risultati suggeriscono che, sebbene le PR assistite da agenti siano largamente accettabili, traggono comunque vantaggio dalla supervisione e dal perfezionamento umano.
Presentiamo una libreria Python open-source per la simulazione di instabilità bidimensionali incomprimibili di Kelvin-Helmholtz in flussi di taglio stratificati. Il risolutore utilizza un metodo di proiezione a passi frazionari con soluzione spettrale di Poisson tramite Trasformata Seno Rapida, raggiungendo un'accuratezza spaziale del secondo ordine. L'implementazione sfrutta NumPy, SciPy e la compilazione JIT di Numba per un calcolo efficiente. Quattro casi di test canonici esplorano numeri di Reynolds compresi tra 1000 e 5000 e numeri di Richardson tra 0,1 e 0,3: strato di taglio classico, configurazione a doppio strato di taglio, flusso rotante e turbolenza forzata. L'analisi statistica utilizzando l'entropia di Shannon e indici di complessità rivela che gli strati di taglio doppi raggiungono tassi di miscelazione 2,8 volte superiori rispetto alla turbolenza forzata nonostante numeri di Reynolds più bassi. Il risolutore opera efficientemente su hardware desktop standard, con simulazioni su griglie 384x192 che si completano in circa 31 minuti. I risultati dimostrano che l'efficienza di miscelazione dipende dai percorsi di generazione delle instabilità piuttosto che dalle sole misure di intensità, mettendo in discussione le parametrizzazioni basate sul numero di Richardson e suggerendo miglioramenti per la rappresentazione su scala sub-griglia nei modelli climatici.
La classificazione accurata dei prodotti secondo il Sistema Armonizzato delle Tariffe Doganali (HTS) rappresenta un collo di bottiglia critico nel commercio globale, ma ha ricevuto scarsa attenzione da parte della comunità di machine learning. Una classificazione errata può bloccare completamente le spedizioni, con i principali operatori postali che sospendono le consegne negli Stati Uniti a causa di documentazione doganale incompleta. Introduciamo il primo benchmark per la classificazione dei codici HTS, derivato dal sistema di ricerca online delle decisioni doganali statunitensi (CROSS). Valutando i principali modelli di linguaggio di grandi dimensioni (LLM), abbiamo riscontrato che il nostro modello Atlas ottimizzato (LLaMA-3.3-70B) raggiunge il 40% di classificazioni corrette a 10 cifre e il 57,5% di classificazioni corrette a 6 cifre, con miglioramenti rispettivamente di 15 e 27,5 punti rispetto a GPT-5-Thinking e Gemini-2.5-Pro-Thinking. Oltre alla precisione, Atlas è circa cinque volte più economico di GPT-5-Thinking e otto volte più economico di Gemini-2.5-Pro-Thinking, e può essere ospitato in autonomia per garantire la privacy dei dati nei flussi di lavoro ad alto rischio nel commercio e nella conformità. Sebbene Atlas stabilisca una solida base di riferimento, il benchmark rimane estremamente impegnativo, con solo il 40% di accuratezza a 10 cifre. Rilasciando sia il dataset che il modello, miriamo a posizionare la classificazione HTS come un nuovo compito di riferimento per la comunità e invitiamo futuri lavori nel campo del recupero delle informazioni, del ragionamento e dell'allineamento.