Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo il nostro primo modello generativo riflessivo MetaStone-S1, che raggiunge le prestazioni di OpenAI o3 attraverso il modello di ricompensa del processo auto-supervisionato (SPRM). Condividendo la rete backbone e utilizzando testine specifiche per il compito rispettivamente per la previsione del token successivo e la valutazione del processo, SPRM integra con successo il modello di policy e il modello di ricompensa del processo (PRM) in un'interfaccia unificata senza annotazioni aggiuntive del processo, riducendo oltre il 99% dei parametri PRM per un ragionamento efficiente. Dotato di SPRM, MetaStone-S1 è naturalmente adatto per il ridimensionamento al momento del test (TTS), e forniamo tre modalità di sforzo di ragionamento (basso, medio e alto), basate sulla lunghezza controllabile del pensiero. Inoltre, stabiliamo empiricamente una legge di ridimensionamento che rivela la relazione tra il calcolo totale del pensiero e le prestazioni TTS. Gli esperimenti dimostrano che il nostro MetaStone-S1 raggiunge prestazioni comparabili alla serie OpenAI-o3-mini con una dimensione di soli 32B parametri. Per supportare la comunità di ricerca, abbiamo reso open-source MetaStone-S1 all'indirizzo https://github.com/MetaStone-AI/MetaStone-S1.
Presentiamo NeuralOS, un framework neurale che simula le interfacce grafiche (GUI) dei sistemi operativi prevedendo direttamente i fotogrammi dello schermo in risposta a input utente come movimenti del mouse, clic ed eventi da tastiera. NeuralOS combina una rete neurale ricorrente (RNN), che tiene traccia dello stato del computer, con un renderer neurale basato su diffusione che genera immagini dello schermo. Il modello è addestrato su un ampio dataset di registrazioni di Ubuntu XFCE, che includono sia interazioni generate casualmente sia interazioni realistiche prodotte da agenti AI. Gli esperimenti dimostrano che NeuralOS è in grado di renderizzare sequenze GUI realistiche, catturare accuratamente le interazioni del mouse e prevedere in modo affidabile transizioni di stato come l'avvio di applicazioni. Sebbene modellare con precisione interazioni dettagliate da tastiera rimanga una sfida, NeuralOS rappresenta un passo verso la creazione di interfacce neurali generative e completamente adattive per i futuri sistemi di interazione uomo-computer.
La straordinaria capacità di ragionamento dei grandi modelli linguistici (LLMs) deriva da comportamenti cognitivi che emergono attraverso il rinforzo con ricompense verificabili. Questo lavoro indaga come trasferire questo principio ai Modelli Linguistici Multimodali (MLLMs) per sbloccare un ragionamento visivo avanzato. Introduciamo un paradigma in due fasi basato su Qwen2.5-VL-7B: un massiccio fine-tuning linguistico in cold-start, seguito da un apprendimento per rinforzo (RL) multimodale che copre quasi 1.000 passi, superando in scala tutti i precedenti sforzi open-source. Questo lavoro pionieristico rivela tre intuizioni fondamentali: 1) Il trasferimento di comportamento emerge sorprendentemente presto nel cold-start grazie all'immaginazione mentale linguistica. 2) Il cold-start memorizza ampiamente i comportamenti visivi, mentre il RL discerna e amplifichi in modo critico i modelli efficaci. 3) Il trasferimento favorisce strategicamente comportamenti ad alta utilità come la riflessione visiva. Il nostro modello risultante, Open-Vision-Reasoner (OVR), raggiunge prestazioni all'avanguardia su una serie di benchmark di ragionamento, inclusi il 95,3% su MATH500, il 51,8% su MathVision e il 54,6% su MathVerse. Rilasciamo il nostro modello, i dati e le dinamiche di addestramento per catalizzare lo sviluppo di ragionatori multimodali più capaci e allineati nei comportamenti.
In questo rapporto, presentiamo la famiglia di modelli Gemini 2.X: Gemini 2.5 Pro e Gemini 2.5 Flash, insieme ai nostri precedenti modelli Gemini 2.0 Flash e Flash-Lite. Gemini 2.5 Pro è il nostro modello più avanzato fino ad oggi, raggiungendo prestazioni all'avanguardia (SoTA) nei benchmark di codifica e ragionamento. Oltre alle sue incredibili capacità di codifica e ragionamento, Gemini 2.5 Pro è un modello pensante che eccelle nella comprensione multimodale ed è ora in grado di elaborare fino a 3 ore di contenuti video. La sua combinazione unica di contesto lungo, capacità multimodali e di ragionamento può essere sfruttata per sbloccare nuovi flussi di lavoro agentici. Gemini 2.5 Flash offre eccellenti capacità di ragionamento con una frazione dei requisiti computazionali e di latenza, mentre Gemini 2.0 Flash e Flash-Lite forniscono alte prestazioni con bassa latenza e costi ridotti. Nel complesso, la generazione di modelli Gemini 2.X copre l'intera frontiera di Pareto tra capacità del modello e costo, consentendo agli utenti di esplorare i limiti di ciò che è possibile con la risoluzione di problemi complessi di tipo agentico.
Sfruttando le potenti rappresentazioni dei modelli di base pre-addestrati per la visione -- tradizionalmente utilizzati per la comprensione visiva -- esploriamo una nuova direzione: costruire un tokenizer di immagini direttamente su tali modelli, un'area ampiamente inesplorata. Nello specifico, utilizziamo un modello di base per la visione congelato come encoder del nostro tokenizer. Per migliorarne l'efficacia, introduciamo due componenti chiave: (1) un framework di quantizzazione adattiva alle regioni che riduce la ridondanza nelle caratteristiche pre-addestrate su griglie 2D regolari, e (2) un obiettivo di ricostruzione semantica che allinea gli output del tokenizer con le rappresentazioni del modello di base per preservare la fedeltà semantica. Basandoci su questi progetti, il nostro tokenizer di immagini proposto, VFMTok, ottiene miglioramenti sostanziali nella ricostruzione e nella qualità di generazione delle immagini, migliorando anche l'efficienza dei token. Inoltre, potenzia la generazione autoregressiva (AR) -- raggiungendo un gFID di 2.07 sui benchmark di ImageNet, accelerando la convergenza del modello di tre volte e consentendo una sintesi condizionata alla classe ad alta fedeltà senza la necessità di una guida senza classificatore (CFG). Il codice verrà rilasciato pubblicamente a beneficio della comunità.
Questo articolo propone un approccio di rendering neurale che rappresenta una scena come "token di campo luminoso compressi (CLiFTs)", mantenendo ricche informazioni sull'aspetto e sulla geometria della scena. CLiFT consente un rendering efficiente dal punto di vista computazionale attraverso token compressi, pur essendo in grado di modificare il numero di token per rappresentare una scena o renderizzare una nuova vista con una singola rete addestrata. Nello specifico, dato un insieme di immagini, un encoder multi-vista tokenizza le immagini insieme alle pose della telecamera. Il K-means nello spazio latente seleziona un insieme ridotto di raggi come centroidi dei cluster utilizzando i token. Il "condensatore" multi-vista comprime le informazioni di tutti i token nei token centroidali per costruire i CLiFTs. Al momento del test, data una vista target e un budget computazionale (ovvero il numero di CLiFTs), il sistema raccoglie il numero specificato di token vicini e sintetizza una nuova vista utilizzando un renderer adattivo dal punto di vista computazionale. Esperimenti estensivi sui dataset RealEstate10K e DL3DV convalidano quantitativamente e qualitativamente il nostro approccio, ottenendo una significativa riduzione dei dati con una qualità di rendering comparabile e il punteggio complessivo di rendering più alto, offrendo al contempo compromessi tra dimensione dei dati, qualità di rendering e velocità di rendering.
Proponiamo il cache steering, un metodo leggero per il controllo implicito di modelli linguistici attraverso un intervento one-shot applicato direttamente alla cache chiave-valore. Per validarne l'efficacia, applichiamo il cache steering per indurre il ragionamento a catena di pensiero in piccoli modelli linguistici. Il nostro approccio sfrutta tracce di ragionamento generate da GPT-4o per costruire vettori di controllo che spostano il comportamento del modello verso un ragionamento più esplicito e multi-step, senza necessità di fine-tuning o modifiche al prompt. Valutazioni sperimentali su diversi benchmark di ragionamento dimostrano che il cache steering migliora sia la struttura qualitativa del ragionamento del modello che le prestazioni quantitative nei compiti. Rispetto alle precedenti tecniche di controllo delle attivazioni che richiedono interventi continui, il nostro cache steering one-shot offre vantaggi sostanziali in termini di stabilità degli iperparametri, efficienza in fase di inferenza e facilità di integrazione, rendendolo una soluzione più robusta e pratica per la generazione controllata.
I modelli generativi di ricompensa (noti anche come LLM-as-judges), che utilizzano modelli linguistici di grandi dimensioni (LLM) per valutare la qualità delle risposte, sono sempre più adottati nell'apprendimento per rinforzo con ricompense verificabili (RLVR). Sono spesso preferiti rispetto a metriche rigide basate su regole, specialmente per compiti di ragionamento complesso che coinvolgono output in forma libera. In questo paradigma, un LLM viene tipicamente sollecitato a confrontare una risposta candidata con un riferimento di verità e ad assegnare una ricompensa binaria che indica la correttezza. Nonostante l'apparente semplicità di questo compito di confronto, scopriamo che i modelli generativi di ricompensa mostrano vulnerabilità sorprendenti a manipolazioni superficiali: simboli non alfabetici (ad esempio, ":" o ".") o frasi introduttive di ragionamento come "Processo di pensiero:" e "Risolviamo questo problema passo dopo passo" possono spesso portare a ricompense false positive. Dimostriamo che questa debolezza è diffusa tra LLM, dataset e formati di prompt, rappresentando una seria minaccia per i paradigmi algoritmici fondamentali che si basano su modelli generativi di ricompensa, come il campionamento di rifiuto, l'ottimizzazione delle preferenze e RLVR. Per mitigare questo problema, introduciamo una strategia di aumento dei dati semplice ma efficace e addestriamo un nuovo modello generativo di ricompensa con una robustezza sostanzialmente migliorata. Le nostre scoperte evidenziano la necessità urgente di metodi di valutazione basati su LLM più affidabili. Rilasciamo il nostro modello di ricompensa robusto e di dominio generale insieme ai suoi dati di addestramento sintetici su https://huggingface.co/sarosavo/Master-RM e https://huggingface.co/datasets/sarosavo/Master-RM.
I modelli linguistici autoregressivi su larga scala (LLM) hanno unificato un'ampia gamma di compiti linguistici, ispirando i primi sforzi nella generazione autoregressiva di video. Gli attuali generatori di video autoregressivi divergono dalle architetture standard degli LLM, dipendono da encoder di testo esterni ingombranti o comportano una latenza proibitiva a causa del decoding del token successivo. In questo articolo, introduciamo Lumos-1, un generatore di video autoregressivo che mantiene l'architettura LLM con modifiche architetturali minime. Per iniettare correlazioni spazio-temporali negli LLM, identifichiamo l'efficacia dell'incorporazione di 3D RoPE e diagnostichiamo i suoi intervalli di spettro di frequenza squilibrati. Pertanto, proponiamo MM-RoPE, uno schema RoPE che preserva il RoPE testuale originale fornendo spettri di frequenza completi e posizioni 3D scalate per modellare dati spazio-temporali multimodali. Inoltre, Lumos-1 ricorre a una strategia di dipendenza dei token che rispetta la bidirezionalità intra-frame e la causalità temporale inter-frame. Basandoci su questa strategia di dipendenza, identifichiamo il problema dello squilibrio della perdita per frame causato dalla ridondanza delle informazioni spaziali e lo risolviamo proponendo l'Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduce il mascheramento temporale dei tubi durante l'addestramento con una politica di mascheramento compatibile al momento dell'inferenza per evitare il degrado della qualità. Utilizzando tecniche di addestramento efficienti in termini di memoria, pre-addestriamo Lumos-1 su soli 48 GPU, ottenendo prestazioni comparabili a EMU3 su GenEval, COSMOS-Video2World su VBench-I2V e OpenSoraPlan su VBench-T2V. Codice e modelli sono disponibili su https://github.com/alibaba-damo-academy/Lumos.
L'editing tradizionale delle immagini si basa tipicamente su prompt manuali, rendendolo laborioso e inaccessibile per individui con limitato controllo motorio o abilità linguistiche. Sfruttando i recenti progressi nelle interfacce cervello-computer (BCI) e nei modelli generativi, proponiamo LoongX, un approccio hands-free per l'editing delle immagini guidato da segnali neurofisiologici multimodali. LoongX utilizza modelli di diffusione all'avanguardia addestrati su un dataset completo di 23.928 coppie di editing di immagini, ciascuna associata a segnali sincronizzati di elettroencefalografia (EEG), spettroscopia nel vicino infrarosso funzionale (fNIRS), fotopletismografia (PPG) e movimenti della testa che catturano l'intento dell'utente. Per affrontare efficacemente l'eterogeneità di questi segnali, LoongX integra due moduli chiave. Il modulo cross-scale state space (CS3) codifica caratteristiche informative specifiche per ciascuna modalità. Il modulo dynamic gated fusion (DGF) aggrega ulteriormente queste caratteristiche in uno spazio latente unificato, che viene poi allineato con la semantica dell'editing tramite fine-tuning su un transformer di diffusione (DiT). Inoltre, pre-addestriamo gli encoder utilizzando l'apprendimento contrastivo per allineare gli stati cognitivi con le intenzioni semantiche derivate dal linguaggio naturale incorporato. Esperimenti estensivi dimostrano che LoongX raggiunge prestazioni comparabili ai metodi guidati da testo (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) e li supera quando i segnali neurali sono combinati con il parlato (CLIP-T: 0.2588 vs. 0.2549). Questi risultati evidenziano il potenziale dei modelli generativi guidati da segnali neurali nel rendere l'editing delle immagini accessibile e intuitivo, aprendo nuove direzioni per le tecnologie creative guidate dalla cognizione. Dataset e codice verranno rilasciati per supportare lavori futuri e favorire il progresso in questo settore emergente.
I recenti progressi nella generazione 3D hanno segnato una transizione dagli approcci di rendering 2D multi-vista a framework di diffusione latente nativi 3D che sfruttano prior geometriche nei dati di riferimento. Nonostante i progressi, persistono tre limitazioni chiave: (1) Le rappresentazioni a singolo latente non riescono a catturare geometrie complesse multi-parte, causando un degrado dei dettagli; (2) La codifica latente olistica trascura l'indipendenza e le interrelazioni delle parti, cruciali per il design compositivo; (3) I meccanismi di condizionamento globale mancano di controllabilità fine-granulare. Ispirati dai flussi di lavoro umani nel design 3D, proponiamo CoPart - un framework di diffusione consapevole delle parti che scompone oggetti 3D in latenti contestuali delle parti per una generazione multi-parte coerente. Questo paradigma offre tre vantaggi: i) Riduce la complessità di codifica attraverso la scomposizione delle parti; ii) Consente una modellazione esplicita delle relazioni tra le parti; iii) Supporta il condizionamento a livello di parte. Abbiamo inoltre sviluppato una strategia di guida reciproca per affinare modelli di diffusione pre-addestrati per il denoising congiunto dei latenti delle parti, garantendo sia coerenza geometrica che prior dei modelli di base. Per abilitare l'addestramento su larga scala, abbiamo costruito Partverse - un nuovo dataset 3D di parti derivato da Objaverse attraverso segmentazione automatica delle mesh e annotazioni verificate da esseri umani. Esperimenti estensivi dimostrano le capacità superiori di CoPart nell'editing a livello di parte, nella generazione di oggetti articolati e nella composizione di scene con una controllabilità senza precedenti.
Presentiamo Audio Flamingo 3 (AF3), un modello linguistico-auditivo di grandi dimensioni completamente open e all'avanguardia (SOTA) che avanza il ragionamento e la comprensione attraverso il parlato, i suoni e la musica. AF3 introduce: (i) AF-Whisper, un codificatore audio unificato addestrato utilizzando una nuova strategia per l'apprendimento congiunto di rappresentazioni attraverso tutte e tre le modalità di parlato, suoni e musica; (ii) un pensiero flessibile e su richiesta, che consente al modello di eseguire ragionamenti a catena prima di rispondere; (iii) chat multi-turn e multi-audio; (iv) comprensione e ragionamento su audio lunghi (incluso il parlato) fino a 10 minuti; e (v) interazione voce-voce. Per abilitare queste capacità, proponiamo diversi dataset di addestramento su larga scala curati con nuove strategie, tra cui AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat, e addestriamo AF3 con una nuova strategia di addestramento basata su un curriculum a cinque fasi. Addestrato esclusivamente su dati audio open-source, AF3 raggiunge nuovi risultati SOTA su oltre 20+ benchmark di comprensione e ragionamento su audio (lunghi), superando sia modelli open-weight che closed-source addestrati su dataset molto più grandi.
Per alleviare il carico computazionale dei grandi modelli linguistici (LLM), le architetture con sparsità delle attivazioni, rappresentate dalla miscela di esperti (MoE), hanno attirato un'attenzione crescente. Tuttavia, il routing non differenziabile e inflessibile del MoE standard compromette le prestazioni del modello. Inoltre, sebbene ogni token attivi solo pochi parametri, queste architetture a attivazione sparsa mostrano una bassa sparsità a livello di blocco, indicando che l'unione di più token consecutivi attiva una grande proporzione di parametri. Tale schema di sparsità è poco adatto per l'accelerazione in condizioni di risorse limitate (ad esempio, dispositivi lato utente) e incompatibile con le principali tecniche di accelerazione (ad esempio, il decoding speculativo). Per affrontare queste sfide, introduciamo una nuova architettura MoE, BlockFFN, insieme a tecniche efficienti di addestramento e distribuzione. Nello specifico, utilizziamo un router che integra l'attivazione ReLU e RMSNorm per un routing differenziabile e flessibile. Successivamente, per promuovere sia la sparsità a livello di token (TLS) che a livello di blocco (CLS), vengono progettati obiettivi di addestramento consapevoli della CLS, rendendo BlockFFN più adatto all'accelerazione. Infine, implementiamo kernel di accelerazione efficienti, combinando per la prima volta la sparsità delle attivazioni e il decoding speculativo. I risultati sperimentali dimostrano la prestazione superiore di BlockFFN rispetto ad altre baseline MoE, raggiungendo oltre l'80% di TLS e il 70% di CLS a 8 token. I nostri kernel ottengono un'accelerazione fino a 3,67 volte rispetto ai modelli densi su dispositivi reali lato utente. Tutti i codici e i checkpoint sono disponibili pubblicamente (https://github.com/thunlp/BlockFFN).
I modelli di base si fondano sull'idea che la previsione di sequenze possa rivelare una comprensione più profonda del dominio, in modo simile a come le previsioni di Keplero sul moto planetario portarono in seguito alla scoperta della meccanica newtoniana. Tuttavia, valutare se questi modelli catturino veramente una struttura più profonda rimane una sfida. Sviluppiamo una tecnica per valutare i modelli di base che esamina come si adattano a dataset sintetici generati da un ipotetico modello del mondo. La nostra tecnica misura se il bias induttivo del modello di base sia allineato con il modello del mondo, e per questo la definiamo una sonda del bias induttivo. In diversi domini, scopriamo che i modelli di base possono eccellere nei loro compiti di addestramento, ma non sviluppano bias induttivi verso il modello del mondo sottostante quando vengono adattati a nuovi compiti. In particolare, osserviamo che i modelli di base addestrati su traiettorie orbitali falliscono sistematicamente nell'applicare la meccanica newtoniana quando adattati a nuovi compiti di fisica. Un'analisi più approfondita rivela che questi modelli si comportano come se sviluppassero euristiche specifiche per il compito che non riescono a generalizzare.
Nonostante le impressionanti capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) nei compiti di visione e linguaggio, essi sono inclini a fenomeni di allucinazione in scenari reali. Questo articolo indaga il fenomeno dell'allucinazione negli MLLMs dal punto di vista del conflitto di modalità. A differenza dei lavori esistenti che si concentrano sui conflitti tra le risposte del modello e gli input, noi studiamo i conflitti intrinseci negli input provenienti da diverse modalità che mettono gli MLLMs in un dilemma e portano direttamente alle allucinazioni. Definiamo formalmente il conflitto di modalità e costruiamo un dataset chiamato Multimodal Modality Conflict (MMMC) per simulare questo fenomeno nei compiti di visione e linguaggio. Vengono proposti tre metodi basati sull'ingegneria dei prompt, il fine-tuning supervisionato e l'apprendimento per rinforzo per alleviare l'allucinazione causata dal conflitto di modalità. Sono condotti esperimenti estensivi sul dataset MMMC per analizzare i pregi e i difetti di questi metodi. I nostri risultati mostrano che il metodo di apprendimento per rinforzo ottiene le migliori prestazioni nel mitigare l'allucinazione sotto conflitto di modalità, mentre il metodo di fine-tuning supervisionato mostra prestazioni promettenti e stabili. Il nostro lavoro getta luce sul conflitto di modalità non notato che porta alle allucinazioni e fornisce ulteriori approfondimenti sulla robustezza degli MLLMs.
Il rilevamento di punti chiave, fondamentale per la percezione moderna delle macchine, affronta sfide nell'apprendimento con pochi esempi, specialmente quando i dati di origine provenienti dalla stessa distribuzione della query non sono disponibili. Questa lacuna viene colta sfruttando gli schizzi, una forma popolare di espressione umana, che forniscono un'alternativa priva di dati di origine. Tuttavia, emergono difficoltà nel padroneggiare gli embedding cross-modali e nel gestire gli stili di schizzo specifici dell'utente. Il nostro framework proposto supera questi ostacoli con una configurazione prototipica, combinata con un localizzatore basato su griglia e un adattamento di dominio prototipico. Dimostriamo inoltre il successo nella convergenza con pochi esempi su nuovi punti chiave e classi attraverso esperimenti estesi.
La compressione dei modelli offre una promettente strada per ridurre i costi e l'inaccessibilità dei grandi modelli pre-addestrati, senza compromettere significativamente le loro prestazioni impressionanti. I grandi modelli Transformer, inclusi i grandi modelli linguistici (LLM), spesso contengono ridondanze computazionali, che possono rappresentare un obiettivo per nuovi metodi di compressione dei modelli. In questo lavoro, ci concentriamo specificamente sulle ridondanze a livello di neuroni negli strati del modello, combinando gruppi di neuroni simili in un numero inferiore di neuroni. Inquadriamo questa riduzione della larghezza come un problema di Trasporto Ottimale Discreto e proponiamo DOTResize, un nuovo metodo di compressione per Transformer che utilizza la teoria del trasporto ottimale per trasformare e comprimere i pesi del modello. Per garantire l'applicabilità all'interno dell'architettura Transformer, motiviamo e incorporiamo la regolarizzazione entropica e la fattorizzazione di matrice nelle mappe di trasporto prodotte dal nostro metodo. A differenza degli approcci basati sul pruning, che scartano i neuroni in base a misure di importanza, DOTResize riproietta l'intera larghezza dei neuroni, consentendo la conservazione e la ridistribuzione del segnale utile attraverso lo strato ridotto. I risultati empirici mostrano che, rispetto a tecniche semplici o all'avanguardia di pruning della larghezza dei neuroni, DOTResize può superare questi metodi in diverse famiglie e dimensioni di LLM, ottenendo al contempo riduzioni misurabili dei costi computazionali nel mondo reale.