Articoli di ricerca IA selezionati quotidianamente con traduzioni
La modifica fine delle espressioni facciali è stata a lungo limitata dalla sovrapposizione semantica intrinseca. Per affrontare questo problema, abbiamo costruito il dataset FFE (Flex Facial Expression) con annotazioni affettive continue e abbiamo istituito FFE-Bench per valutare la confusione strutturale, l'accuratezza della modifica, la controllabilità lineare e il compromesso tra modifica dell'espressione e preservazione dell'identità. Proponiamo PixelSmile, un framework basato su modelli di diffusione che separa la semantica delle espressioni attraverso un addestramento congiunto completamente simmetrico. PixelSmile combina la supervisione dell'intensità con l'apprendimento contrastivo per produrre espressioni più marcate e distinguibili, raggiungendo un controllo lineare preciso e stabile dell'espressione attraverso l'interpolazione latente testuale. Esperimenti estensivi dimostrano che PixelSmile ottiene una superiore separazione semantica e una robusta preservazione dell'identità, confermandone l'efficacia per la modifica continua, controllabile e fine delle espressioni, supportando naturalmente la fusione fluida delle espressioni.
Presentiamo Intern-S1-Pro, il primo modello fondazionale scientifico multimodale da mille miliardi di parametri. Scalando a questa dimensione senza precedenti, il modello offre un potenziamento completo sia in ambito generale che scientifico. Oltre a capacità di ragionamento e comprensione immagine-testo più solide, la sua intelligenza è potenziata da capacità avanzate di agente. Contemporaneamente, la sua competenza scientifica è stata notevolmente ampliata per padroneggiare oltre 100 compiti specializzati in campi scientifici critici, tra cui chimica, scienza dei materiali, scienze della vita e scienze della terra. Il raggiungimento di questa scala massiccia è reso possibile dal robusto supporto infrastrutturale di XTuner e LMDeploy, che facilita un addestramento altamente efficiente per Rinforzo (RL) a livello del trilione di parametri, garantendo al contempo una rigorosa coerenza di precisione tra addestramento e inferenza. Integrando perfettamente questi progressi, Intern-S1-Pro consolida ulteriormente la fusione tra intelligenza generale e specializzata, operando come uno Specializzabile Generalista, dimostrando la sua posizione al vertice dei modelli open-source per le capacità generali, superando al contempo i modelli proprietari nella profondità dei compiti scientifici specializzati.
In questo articolo, sveliamo il potenziale nascosto dei Diffusion Transformer (DiT) per migliorare significativamente le attività generative. Attraverso un'analisi approfondita del processo di rimozione del rumore, dimostriamo che l'introduzione di un singolo parametro di scalatura appreso può migliorare notevolmente le prestazioni dei blocchi DiT. Sulla base di questa intuizione, proponiamo Calibri, un approccio efficiente in termini di parametri che calibra in modo ottimale i componenti dei DiT per elevare la qualità generativa. Calibri inquadra la calibrazione dei DiT come un problema di ottimizzazione di reward a scatola chiusa, che viene risolto efficientemente utilizzando un algoritmo evolutivo e modificando solo circa 100 parametri. I risultati sperimentali rivelano che, nonostante il suo design leggero, Calibri migliora costantemente le prestazioni su vari modelli text-to-image. È degno di nota come Calibri riduca anche i passi di inferenza necessari per la generazione di immagini, mantenendo al contempo output di alta qualità.
La ripristino delle immagini soggette a degradazioni del mondo reale è fondamentale per attività downstream come la guida autonoma e il rilevamento di oggetti. Tuttavia, i modelli di ripristino esistenti sono spesso limitati dalla scala e dalla distribuzione dei loro dati di addestramento, con conseguente scarsa generalizzazione agli scenari reali. Recentemente, i modelli di editing di immagini su larga scala hanno dimostrato una forte capacità di generalizzazione nelle attività di ripristino, in particolare per modelli closed-source come Nano Banana Pro, che possono ripristinare le immagini preservandone la coerenza. Tuttavia, il raggiungimento di tali prestazioni con questi modelli universali di grandi dimensioni richiede ingenti costi computazionali e di dati. Per affrontare questo problema, abbiamo costruito un dataset su larga scala che copre nove tipi comuni di degradazione del mondo reale e addestrato un modello open-source all'avanguardia per ridurre il divario con le alternative closed-source. Inoltre, introduciamo RealIR-Bench, che contiene 464 immagini degradate del mondo reale e metriche di valutazione personalizzate incentrate sulla rimozione delle degradazioni e sulla preservazione della coerenza. Esperimenti estensivi dimostrano che il nostro modello si classifica al primo posto tra i metodi open-source, raggiungendo prestazioni all'avanguardia.
Introduciamo Voxtral TTS, un modello di sintesi vocale multilingue ed espressivo che genera un parlato naturale a partire da soli 3 secondi di audio di riferimento. Voxtral TTS adotta un'architettura ibrida che combina la generazione autoregressiva di token semantici del parlato con il flow-matching per i token acustici. Questi token sono codificati e decodificati con Voxtral Codec, un tokenizzatore vocale addestrato da zero con uno schema di quantizzazione ibrido VQ-FSQ. In valutazioni umane condotte da parlanti nativi, Voxtral TTS è preferito per il cloning vocale multilingue grazie alla sua naturalezza ed espressività, raggiungendo un tasso di preferenza del 68,4% rispetto a ElevenLabs Flash v2.5. Rilasciamo i pesi del modello con licenza CC BY-NC.
La memoria a lungo termine è una pietra miliare dell'intelligenza umana. Consentire all'IA di elaborare informazioni su scala di una vita rimane un obiettivo di lunga data nel campo. A causa dei vincoli delle architetture di piena attenzione, la lunghezza effettiva del contesto dei grandi modelli linguistici (LLM) è tipicamente limitata a 1 milione di token. Gli approcci esistenti, come l'attenzione lineare ibrida, stati di memoria a dimensione fissa (ad esempio, RNN), e metodi di memorizzazione esterna come RAG o sistemi ad agente, tentano di estendere questo limite. Tuttavia, essi spesso soffrono di una grave degradazione della precisione e di una latenza in rapido aumento con la crescita del contesto, di un'incapacità di modificare dinamicamente il contenuto della memoria, o di una mancanza di ottimizzazione end-to-end. Questi colli di bottiglia ostacolano scenari complessi come la summarizzazione di grandi corpus, i Digital Twins e il ragionamento di agenti su lunga storia, limitando al contempo la capacità di memoria e rallentando l'inferenza. Presentiamo Memory Sparse Attention (MSA), un framework di modelli di memoria addestrabile end-to-end, efficiente e massicciamente scalabile. Attraverso innovazioni fondamentali che includono l'attenzione sparsa scalabile e il RoPE document-wise, MSA raggiunge una complessità lineare sia nell'addestramento che nell'inferenza, mantenendo un'eccezionale stabilità e mostrando un degrado inferiore al 9% quando si scala da 16K a 100M di token. Inoltre, la compressione della cache KV, combinata con Memory Parallel, consente l'inferenza su 100 milioni di token su 2 GPU A800. Proponiamo anche Memory Interleaving per facilitare ragionamenti multi-hop complessi su segmenti di memoria sparsi. MSA supera significativamente gli LLM all'avanguardia, i sistemi RAG più avanzati e i principali agenti di memoria nei benchmark di contesto lungo. Questi risultati dimostrano che, disaccoppiando la capacità di memoria dal ragionamento, MSA fornisce una base scalabile per dotare i modelli generici di una memoria intrinseca su scala di vita.
La generazione di immagini condizionata da riferimenti visivi multipli è fondamentale per applicazioni nel mondo reale come la composizione multi-soggetto, l'illustrazione narrativa e la sintesi di nuove visuali, eppure i modelli attuali soffrono di un grave degrado delle prestazioni all'aumentare del numero di riferimenti in input. Identifichiamo la causa principale in un collo di bottiglia fondamentale nei dati: i dataset esistenti sono dominati da coppie con uno o pochi riferimenti e mancano della supervisione strutturata a lungo contesto necessaria per apprendere dense dipendenze inter-riferimento. Per affrontare questo problema, introduciamo MacroData, un dataset su larga scala di 400.000 campioni, ciascuno contenente fino a 10 immagini di riferimento, organizzato sistematicamente lungo quattro dimensioni complementari – Personalizzazione, Illustrazione, Ragionamento spaziale e Dinamiche temporali – per fornire una copertura completa dello spazio di generazione multi-riferimento. Riconoscendo la concomitante assenza di protocolli di valutazione standardizzati, proponiamo ulteriormente MacroBench, un benchmark di 4.000 campioni che valuta la coerenza generativa attraverso dimensioni di compito graduate e scale di input. Esperimenti estensivi mostrano che il fine-tuning su MacroData produce miglioramenti sostanziali nella generazione multi-riferimento, e studi di ablazione rivelano ulteriormente benefici sinergici dell'addestramento congiunto cross-task e strategie efficaci per gestire la complessità del contesto lungo. Il dataset e il benchmark saranno rilasciati pubblicamente.
Lo sviluppo software è iterativo, eppure i benchmark di programmazione agentica valutano in modo schiacciante soluzioni one-shot rispetto a specifiche complete. Il codice può superare la suite di test ma diventare progressivamente più difficile da estendere. I recenti benchmark iterativi tentano di colmare questa lacuna, ma vincolano troppo strettamente le decisioni di progettazione dell'agente per misurare fedelmente come la qualità del codice modelli le estensioni future. Introduciamo SlopCodeBench, un benchmark language-agnostic che comprende 20 problemi e 93 checkpoint, in cui gli agenti estendono ripetutamente le proprie soluzioni precedenti sotto specifiche in evoluzione che forzano decisioni architetturali senza prescrivere la struttura interna. Tracciamo due segnali di qualità a livello di traiettoria: la verbosità, la frazione di codice ridondante o duplicato, e l'erosione strutturale, la quota di complessità concentrata in funzioni ad alta complessità. Nessun agente risolve alcun problema end-to-end tra 11 modelli; il tasso di risoluzione più alto per checkpoint è del 17,2%. La qualità si degrada costantemente: l'erosione aumenta nell'80% delle traiettorie e la verbosità nell'89,8%. Confrontato con 48 repository Python open-source, il codice degli agenti è 2,2 volte più verboso e marcatamente più eroso. Monitorando 20 di questi repository nel tempo, si osserva che il codice umano rimane stabile, mentre il codice degli agenti si deteriora a ogni iterazione. Uno studio di intervento sui prompt mostra che la qualità iniziale può essere migliorata, ma ciò non arresta il degrado. Questi risultati dimostrano che i benchmark basati sul tasso di superamento sottostimano sistematicamente la robustezza all'estensione e che gli agenti attuali mancano della disciplina progettuale richiesta dallo sviluppo software iterativo.
Il controllo della generazione video e audio richiede modalità diversificate, dalla profondità e posa alle traiettorie della telecamera e trasformazioni audio, ma gli approcci esistenti addestrano un unico modello monolitico per un insieme fisso di controlli o introducono costose modifiche architetturali per ogni nuova modalità. Presentiamo AVControl, un framework leggero ed estendibile basato su LTX-2, un modello base audiovisivo congiunto, in cui ogni modalità di controllo viene addestrata come un LoRA separato su una tela parallela che fornisce il segnale di riferimento come token aggiuntivi negli strati di attenzione, senza richiedere modifiche architetturali oltre agli adattatori LoRA stessi. Dimostriamo che estendere semplicemente i metodi in-context basati su immagine al video fallisce per il controllo strutturale, e che il nostro approccio a tela parallela risolve questo problema. Sul VACE Benchmark, superiamo tutte le baseline valutate per la generazione guidata da profondità e posa, inpaintng e outpainting, e mostriamo risultati competitivi sul controllo della telecamera e benchmark audiovisivi. Il nostro framework supporta un insieme diversificato di modalità addestrate indipendentemente: controlli allineati spazialmente come profondità, posa e bordi, traiettoria della telecamera con parametri intrinseci, controllo sparso del movimento, editing video e, a nostra conoscenza, i primi controlli audiovisivi modulari per un modello di generazione congiunto. Il nostro metodo è efficiente sia in termini computazionali che di dati: ogni modalità richiede solo un piccolo dataset e converge in poche centinaia o migliaia di passi di addestramento, una frazione del budget delle alternative monolitiche. Rilasciamo pubblicamente il nostro codice e i checkpoint LoRA addestrati.
I formati Scalable Vector Graphics (SVG) sono essenziali per l'illustrazione tecnica e il design digitale, offrendo un'indipendenza dalla risoluzione di precisione e un'editabilità semantica flessibile. Tuttavia, nella pratica, i file vettoriali originali vengono spesso persi o risultano inaccessibili, lasciando disponibili solo versioni rasterizzate "piatte" (ad esempio, PNG o JPEG) che sono difficili da modificare o ridimensionare. Ricostruire manualmente queste figure è un processo proibitivamente laborioso, che richiede competenze specializzate per recuperare l'intento geometrico originale. Per colmare questa lacuna, proponiamo VFIG, una famiglia di Vision-Language Models addestrati per la conversione da figura a SVG complessa e ad alta fedeltà. Sebbene questo compito sia intrinsecamente basato sui dati, i dataset esistenti sono generalmente di piccole dimensioni e privi della complessità dei diagrammi professionali. Affrontiamo questo problema introducendo VFIG-DATA, un dataset su larga scala composto da 66.000 coppie figura-SVG di alta qualità, selezionate da un mix vario di figure tratte da articoli reali e diagrammi generati proceduralmente. Riconoscendo che gli SVG sono composti da primitive ricorrenti e strutture locali gerarchiche, introduciamo un curriculum di addestramento dal grossolano al fine che inizia con un fine-tuning supervisionato (SFT) per apprendere le primitive atomiche e passa a una raffinazione con apprendimento per rinforzo (RL) per ottimizzare la fedeltà globale del diagramma, la coerenza del layout e i casi limite topologici. Infine, introduciamo VFIG-BENCH, una suite di valutazione completa con metriche innovative progettate per misurare l'integrità strutturale di figure complesse. VFIG raggiunge prestazioni all'avanguardia tra i modelli open-source e si comporta in modo analogo a GPT-5.2, ottenendo un punteggio VLM-Judge di 0.829 su VFIG-BENCH.
I metodi esistenti di 3D Gaussian Splatting feed-forward prevedono primitive allineate ai pixel, portando a una crescita quadratica del numero di primitive all'aumentare della risoluzione. Questo limita fondamentalmente la loro scalabilità, rendendo intrattabile la sintesi ad alta risoluzione, come il 4K. Introduciamo LGTM (Less Gaussians, Texture More), un framework feed-forward che supera questa barriera di scalabilità della risoluzione. Prevedendo primitive Gaussianhe compatte accoppiate a texture per primitiva, LGTM disaccoppia la complessità geometrica dalla risoluzione di rendering. Questo approccio consente una sintesi di nuove viste ad alta fedeltà in 4K senza ottimizzazione per scena, una capacità finora irraggiungibile per i metodi feed-forward, utilizzando al contempo un numero significativamente inferiore di primitive Gaussianhe. Pagina del progetto: https://yxlao.github.io/lgtm/
L'allineamento delle rappresentazioni (REPA) è emerso come un metodo semplice per accelerare l'addestramento dei Diffusion Transformer nello spazio latente. Allo stesso tempo, i diffusion transformer nello spazio dei pixel, come i Just Image Transformer (JiT), hanno attirato crescente attenzione poiché rimuovono la dipendenza da un tokenizer preaddestrato, evitando così il collo di bottiglia ricostruttivo della diffusione latente. Questo articolo dimostra che il REPA può fallire con i JiT. Il REPA produce un FID peggiore per JiT con il procedere dell'addestramento e collassa la diversità su sottoinsiemi di immagini fortemente raggruppati nello spazio delle rappresentazioni del codificatore semantico preaddestrato su ImageNet. Riconduciamo il fallimento a un'asimmetria informativa: la rimozione del rumore avviene nell'alto spazio dimensionale dell'immagine, mentre il target semantico è fortemente compresso, rendendo la regressione diretta un obiettivo di scorciatoia. Proponiamo PixelREPA, che trasforma il target di allineamento e vincola l'allineamento con un Adapter a Trasformatore Mascherato che combina un adapter a trasformatore superficiale con un mascheramento parziale dei token. PixelREPA migliora sia la convergenza dell'addestramento che la qualità finale. PixelREPA riduce l'FID da 3.66 a 3.17 per JiT-B/16 e migliora l'Inception Score (IS) da 275.1 a 284.6 su ImageNet 256x256, raggiungendo al contempo una convergenza >2 volte più veloce. Infine, PixelREPA-H/16 raggiunge FID=1.81 e IS=317.2. Il nostro codice è disponibile all'indirizzo https://github.com/kaist-cvml/PixelREPA.
I Vision Foundation Model (VFM) sono diventati la pietra angolare della visione artificiale moderna, offrendo rappresentazioni robuste per una vasta gamma di compiti. Sebbene i recenti progressi consentano a questi modelli di gestire dimensioni di input variabili durante l'addestramento, l'inferenza è tipicamente limitata a una singola scala fissa. Questo paradigma prevalente a scala singola trascura una proprietà fondamentale della percezione visiva: risoluzioni diverse offrono bias induttivi complementari, per cui le viste a bassa risoluzione eccellono nel riconoscimento semantico globale, mentre le viste ad alta risoluzione sono essenziali per una raffinatura fine-grana. In questo lavoro, proponiamo la Multi-Resolution Fusion (MuRF), una strategia semplice ma universalmente efficace per sfruttare questa sinergia al momento dell'inferenza. Invece di affidarsi a una singola vista, MuRF costruisce una rappresentazione unificata elaborando un'immagine a più risoluzioni attraverso un VFM congelato e fondendo le caratteristiche risultanti. L'universalità di MuRF è il suo attributo più convincente. Non è legata a un'architettura specifica, fungendo piuttosto da miglioramento fondamentale, privo di addestramento, per la rappresentazione visiva. Convalidiamo empiricamente ciò applicando MuRF a un ampio spettro di compiti critici di visione artificiale attraverso molteplici famiglie distinte di VFM, principalmente DINOv2, ma dimostrando anche una generalizzazione di successo a modelli contrastivi come SigLIP.
Gli agenti LLM potenziati con memoria mantengono banchi di memoria esterni per supportare interazioni a lungo termine, tuttavia la maggior parte dei sistemi esistenti tratta costruzione, recupero e utilizzo come subroutine isolate. Ciò crea due sfide accoppiate: cecità strategica nel percorso in avanti del ciclo di memoria, dove costruzione e recupero sono guidati da euristiche locali anziché da ragionamenti strategici espliciti, e supervisione rada e ritardata nel percorso all'indietro, dove i fallimenti a valle raramente si traducono in riparazioni dirette del banco di memoria. Per affrontare queste sfide, proponiamo MemMA, un framework multi-agente plug-and-play che coordina il ciclo di memoria lungo entrambi i percorsi. Nel percorso in avanti, un Meta-Pensatore produce linee guida strutturate che orientano un Gestore della Memoria durante la costruzione e dirigono un Motore di Interrogazione durante il recupero iterativo. Nel percorso all'indietro, MemMA introduce una costruzione di memoria auto-evolutiva in situ, che sintetizza coppie di domande-risposte di prova, verifica la memoria corrente e converte i fallimenti in azioni di riparazione prima che la memoria sia finalizzata. Esperimenti estensivi su LoCoMo mostrano che MemMA supera costantemente i baseline esistenti su molteplici backbone LLM e migliora tre diversi backend di archiviazione in modalità plug-and-play. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/ventr1c/memma.
Questo articolo presenta FinMCP-Bench, un nuovo benchmark per valutare i grandi modelli linguistici (LLM) nella risoluzione di problemi finanziari reali attraverso l'invocazione di strumenti basata su protocolli contestuali di modelli finanziari. FinMCP-Bench contiene 613 campioni che coprono 10 scenari principali e 33 sottoscenari, caratterizzati sia da query utente reali che sintetiche per garantire diversità e autenticità. Incorpora 65 protocolli MCP finanziari reali e tre tipologie di campioni (strumento singoli, strumenti multipli e conversazioni multi-turno), consentendo la valutazione dei modelli su diversi livelli di complessità dei compiti. Utilizzando questo benchmark, valutiamo sistematicamente una serie di LLM mainstream e proponiamo metriche che misurano esplicitamente l'accuratezza nell'invocazione degli strumenti e le capacità di ragionamento. FinMCP-Bench fornisce un banco di prova standardizzato, pratico e stimolante per far progredire la ricerca sugli agenti LLM finanziari.
Gli Agentic Variation Operators (AVO) costituiscono una nuova famiglia di operatori di variazione evolutiva che sostituiscono le euristiche fisse di mutazione, crossover e progettazione manuale della ricerca evolutiva classica con agenti di codifica autonomi. Invece di limitare un modello linguistico alla generazione di candidati all'interno di una pipeline predeterminata, AVO istanzia la variazione come un ciclo agente auto-diretto in grado di consultare il lignaggio corrente, una base di conoscenze dominio-specifica e il feedback di esecuzione per proporre, riparare, criticare e verificare modifiche all'implementazione. Valutiamo AVO sull'attenzione, uno dei target di kernel più aggressivamente ottimizzati nell'IA, su GPU NVIDIA Blackwell (B200). Dopo 7 giorni di evoluzione autonoma continua sulla multi-head attention, AVO scopre kernel che superano cuDNN fino al 3,5% e FlashAttention-4 fino al 10,5% nelle configurazioni testate. Le ottimizzazioni scoperte si trasferiscono facilmente alla grouped-query attention, richiedendo solo 30 minuti di adattamento autonomo aggiuntivo e producendo guadagni fino al 7,0% su cuDNN e al 9,3% su FlashAttention-4. Nel complesso, questi risultati dimostrano che gli operatori di variazione agentici vanno oltre le precedenti pipeline evolutive con LLM-in-the-loop, elevando l'agente da generatore di candidati a operatore di variazione, e possono scoprire ottimizzazioni micro-architetturali critiche per le prestazioni che producono kernel superiori alle implementazioni di attenzione state-of-the-art ingegnerizzate da esperti sull'hardware GPU più avanzato di oggi.
I modelli visione-linguaggio-azione hanno rivoluzionato la guida autonoma integrando il linguaggio nel processo decisionale. Tuttavia, la maggior parte delle pipeline esistenti utilizza la modalità linguistica solo per descrizioni della scena o ragionamenti, mancando della flessibilità necessaria per seguire istruzioni diversificate dell'utente per una guida personalizzata. Per affrontare questa limitazione, abbiamo inizialmente costruito un dataset su larga scala (InstructScene) contenente circa 100.000 scene annotate con istruzioni di guida diversificate e le relative traiettorie. Successivamente proponiamo Vega, un modello unificato Visione-Linguaggio-Mondo-Azione, per la generazione e pianificazione basata su istruzioni. Adottiamo il paradigma autoregressivo per elaborare gli input visivi (visione) e le istruzioni linguistiche (linguaggio), e il paradigma diffusion per generare previsioni future (modellazione del mondo) e traiettorie (azione). Implementiamo un'attenzione congiunta per abilitare le interazioni tra le modalità e utilizziamo strati di proiezione individuali per le diverse modalità per ottenere maggiori capacità. Esperimenti estensivi dimostrano che il nostro metodo non solo raggiunge prestazioni di pianificazione superiori, ma mostra anche forti capacità di seguire le istruzioni, aprendo la strada a sistemi di guida più intelligenti e personalizzati.
La distillazione on-policy (OPD) è interessante per il post-addestramento di grandi modelli linguistici (LLM) perché valuta il feedback del docente sui rollout generati dallo studente, anziché su tracce fisse del docente. Tuttavia, in contesti a lungo orizzonte, la variante comune basata sul token campionato è fragile: riduce l'adattamento della distribuzione a un segnale a singolo token e diventa progressivamente inaffidabile man mano che i rollout si allontanano dai prefissi che il docente visita comunemente. Rivediamo l'OPD dal punto di vista dell'estimatore e dell'implementazione. Teoricamente, l'OPD a livello di token è distorto rispetto alla KL inversa a livello di sequenza, ma ha un limite di varianza nel caso peggiore molto più stretto; il nostro studio giocattolo mostra empiricamente lo stesso compromesso, con un accoppiamento più forte della ricompensa futura che produce una maggiore varianza del gradiente e un apprendimento meno stabile. Empiricamente, identifichiamo tre modalità di fallimento dell'OPD a token campionato: un segnale a singolo token sbilanciato, una guida inaffidabile del docente sui prefissi generati dallo studente e distorsioni causate da mismatch del tokenizer o dei token speciali. Affrontiamo questi problemi con l'adattamento del supporto locale top-K del docente, implementato come KL inversa troncata con campionamento dei rollout top-p e mascheramento dei token speciali. In contesti di ragionamento matematico a singolo compito e di addestramento multi-compito (agente+matematica), questo obiettivo produce un'ottimizzazione più stabile e prestazioni migliori a valle rispetto all'OPD a token campionato.
I modelli linguistici a diffusione a blocchi offrono una prospettiva promettente per una generazione più veloce di quella autoregressiva, combinando la decodifica autoregressiva a blocchi con la denoisin parallela all'interno del blocco. Tuttavia, nel regime a pochi passi necessario per un'accelerazione pratica, la decodifica standard basata su soglia di confidenza risulta spesso fragile: soglie aggressive compromettono la qualità, mentre soglie conservative richiedono passi di denoising non necessari. Gli approcci esistenti che affrontano questo problema richiedono o un addestramento aggiuntivo o comportano un costo computazionale supplementare al momento del test. Presentiamo S2D2, un framework di decodifica auto-speculativa, che non richiede addestramento, per modelli linguistici a diffusione a blocchi. La nostra osservazione chiave è che un modello a diffusione a blocchi diventa autoregressivo quando la dimensione del blocco viene ridotta a uno, permettendo allo stesso modello preaddestrato di fungere sia da "bozzettista" (drafter) che da verificatore. S2D2 inserisce un passo di verifica speculativa nella decodifica standard a diffusione a blocchi e utilizza politiche di instradamento leggere per decidere quando la verifica vale il suo costo. Ciò produce una traiettoria di decodifica ibrida in cui la diffusione propone token in parallelo, mentre la modalità autoregressiva funge da critico a livello di sequenza locale. Attraverso tre famiglie principali di modelli a diffusione a blocchi, S2D2 migliora costantemente il compromesso precisione-velocità rispetto a solidi baseline con soglia di confidenza. Su SDAR, osserviamo un'accelerazione fino a 4,7 volte rispetto alla decodifica autoregressiva e fino a 1,57 volte rispetto a un baseline dinamico di decodifica ottimizzato, migliorando al contempo la precisione fino a 4,5 punti. Su LLaDA2.1-Mini, S2D2 rimane complementare alla correzione automatica integrata, incluso un setting conservativo in cui è 4,4 volte più veloce del baseline statico con una precisione leggermente superiore.
Data una domanda, un modello linguistico (LM) codifica implicitamente una distribuzione sulle possibili risposte. Nella pratica, le procedure di post-addestramento per i LM spesso collassano questa distribuzione su una singola modalità dominante. Sebbene ciò non sia generalmente un problema per valutazioni di tipo benchmark che presuppongono una risposta corretta, molti compiti del mondo reale coinvolgono intrinsecamente molteplici risposte valide o un'incertezza irriducibile. Esempi includono la diagnosi medica, risposte a domande ambigue e contesti con informazioni incomplete. In questi casi, desidereremmo che i LM generino multiple ipotesi plausibili, idealmente con stime di confidenza per ciascuna, e senza un campionamento ripetuto computazionalmente intensivo per generare risposte non modali. Questo articolo descrive un approccio di apprendimento per rinforzo multi-risposta per addestrare i LM a eseguire ragionamenti distribuzionali su più risposte durante l'inferenza. Modifichiamo l'obiettivo dell'RL per consentire ai modelli di generare esplicitamente più risposte candidate in un unico passaggio in avanti, internalizzando aspetti della ricerca al momento dell'inferenza all'interno del processo generativo del modello. In benchmark di question-answering, diagnostica medica e programmazione, osserviamo punteggi migliorati di diversità, copertura e calibrazione a livello di insieme rispetto a baseline addestrate per singola risposta. I modelli addestrati con il nostro approccio richiedono meno token per generare più risposte rispetto agli approcci concorrenti. Sui compiti di programmazione, sono anche sostanzialmente più accurati. Questi risultati posizionano l'RL multi-risposta come un'alternativa principiata e computazionalmente efficiente alle procedure di scaling al momento dell'inferenza come il best-of-k. Il codice e ulteriori informazioni sono disponibili all'indirizzo https://multi-answer-rl.github.io/.
La comprensione delle specie animali da dati multimodali rappresenta una sfida emergente all'intersezione tra visione artificiale ed ecologia. Sebbene recenti modelli biologici, come BioCLIP, abbiano dimostrato una forte allineamento tra immagini e informazioni tassonomiche testuali per l'identificazione delle specie, l'integrazione della modalità audio rimane un problema aperto. Proponiamo BioVITA, un nuovo framework di allineamento visivo-testuale-acustico per applicazioni biologiche. BioVITA comprende (i) un dataset di addestramento, (ii) un modello di rappresentazione e (iii) un benchmark per il retrieval. In primo luogo, abbiamo costruito un dataset di addestramento su larga scala comprendente 1,3 milioni di clip audio e 2,3 milioni di immagini, che coprono 14.133 specie annotate con 34 etichette di tratti ecologici. In secondo luogo, basandoci su BioCLIP2, introduciamo un framework di addestramento a due stadi per allineare efficacemente le rappresentazioni audio con quelle visive e testuali. In terzo luogo, sviluppiamo un benchmark di retrieval cross-modale che copre tutte le possibili direzioni di retrieval tra le tre modalità (ad esempio, da immagine ad audio, da audio a testo, da testo a immagine e le relative direzioni inverse), con tre livelli tassonomici: Famiglia, Genere e Specie. Esperimenti estensivi dimostrano che il nostro modello apprende uno spazio di rappresentazione unificato che cattura la semantica a livello di specie andando oltre la tassonomia, facendo progredire la comprensione multimodale della biodiversità. La pagina del progetto è disponibile all'indirizzo: https://dahlian00.github.io/BioVITA_Page/
La valutazione degli appunti scritti a mano degli studenti è fondamentale per un feedback educativo personalizzato, ma presenta sfide uniche a causa della varietà della grafia, dei layout complessi e degli approcci risolutivi eterogenei. L'NLP educativo esistente si concentra principalmente sulle risposte testuali e trascura la complessità e multimodalità intrinseche degli appunti manoscritti autentici. Gli attuali modelli linguistici multimodali (MLLM) eccellono nel ragionamento visivo, ma tipicamente adottano una "prospettiva dell'esaminando", privilegiando la generazione di risposte corrette piuttosto che la diagnosi degli errori degli studenti. Per colmare queste lacune, introduciamo ScratchMath, un nuovo benchmark specificamente progettato per spiegare e classificare gli errori negli appunti di matematica scritti a mano in contesti reali. Il nostro dataset comprende 1.720 campioni matematici di studenti cinesi di scuola primaria e secondaria, e supporta due compiti chiave: Spiegazione della Causa dell'Errore (ECE) e Classificazione della Causa dell'Errore (ECC), con sette tipi di errore definiti. Il dataset è meticolosamente annotato attraverso rigorosi approcci collaborativi uomo-macchina che coinvolgono più fasi di etichettatura, revisione e verifica da parte di esperti. Valutiamo sistematicamente 16 MLLM leader su ScratchMath, rivelando divari prestazionali significativi rispetto agli esperti umani, specialmente nel riconoscimento visivo e nel ragionamento logico. I modelli proprietari superano notevolmente quelli open-source, con i modelli di ragionamento di grandi dimensioni che mostrano un forte potenziale per la spiegazione degli errori. Tutti i dati e i framework di valutazione sono pubblicamente disponibili per facilitare ulteriori ricerche.
Dimostriamo un dispositivo semiconduttore completamente allo stato solido, basato su perovskite ad alogenuro metallico epitassiale monocristallina, che consente il controllo reversibile della fotoluminescenza della perovskite mediante una tensione di gate. Fondamentalmente distinto dai diodi elettroluminescenti, un tale transistor ad effetto di campo a fotoluminescenza utilizza il campo elettrico di gate per modulare elettrostaticamente la densità interfacciale di cariche mobili, influenzando così i canali di ricombinazione radiativa e non radiativa dei fotoportatori. La variazione della tensione di gate in tali transistor modifica efficientemente la velocità di ricombinazione interfacciale non radiativa e modula l'intensità della fotoluminescenza dal 65 al 98 percento (a seconda della temperatura). In condizioni di gate favorevoli, è possibile ottenere una quasi completa eliminazione delle perdite non radiative. Questa funzionalità, unita alla forte assorbimento ed emissione nel visibile, resa possibile dall'elevato coefficiente di assorbimento, nonché dallo spessore controllabile e dalla morfologia macroscopicamente omogenea dei film epitassiali di perovskite, porta ad alte efficienze quantiche di fotoluminescenza esterna realizzate in dispositivi a film sottile di grande area. Tali commutatori optoelettronici ad alta efficienza, scalabili e elettrostaticamente regolabili ampliano le potenziali applicazioni delle perovskite ad alogenuro metallico nella fotonica e nell'optoelettronica.
Per i robot che operano in ambienti dinamici, l'apprendimento di rappresentazioni visive dello stato a partire da osservazioni video in streaming è essenziale per il processo decisionale sequenziale. Recenti metodi di apprendimento auto-supervisionato hanno dimostrato una forte trasferibilità tra diversi compiti visivi, ma non affrontano esplicitamente cosa una buona rappresentazione visiva dello stato debba codificare. Sosteniamo che gli stati visivi efficaci debbano catturare il "cosa-dove", codificando congiuntamente le identità semantiche degli elementi della scena e le loro posizioni spaziali, consentendo il rilevamento affidabile di dinamiche sottili tra le osservazioni. A tal fine, proponiamo CroBo, un framework per l'apprendimento di rappresentazioni visive dello stato basato su un obiettivo di ricostruzione globale-locale. Dato un'osservazione di riferimento compressa in un token di collo di bottiglia compatto, CroBo impara a ricostruire patch pesantemente mascherate in un ritaglio locale di destinazione a partire da indizi visibili sparsi, utilizzando il token di collo di bottiglia globale come contesto. Questo obiettivo di apprendimento incoraggia il token di collo di bottiglia a codificare una rappresentazione granulare delle entità semantiche dell'intera scena, incluse identità, posizioni spaziali e configurazioni. Di conseguenza, gli stati visivi appresi rivelano come gli elementi della scena si muovono e interagiscono nel tempo, supportando il processo decisionale sequenziale. Valutiamo CroBo su diversi benchmark per l'apprendimento di policy robotiche basate sulla visione, dove raggiunge prestazioni all'avanguardia. Analisi di ricostruzione ed esperimenti sulla "perceptual straightness" mostrano ulteriormente che le rappresentazioni apprese preservano la composizione della scena a livello di pixel e codificano il "cosa-si-muove-dove" tra le osservazioni. Pagina del progetto disponibile all'indirizzo: https://seokminlee-chris.github.io/CroBo-ProjectPage.
Il prompting a catena di pensiero (CoT) è stato esteso ai grandi modelli audio-linguistici (LALM) per sollecitare il ragionamento, ma migliorarne l'efficacia senza addestramento rimane una sfida. Studiamo lo steering del modello al momento dell'inferenza come approccio senza training per potenziare il ragionamento dei LALM. Introduciamo tre strategie che utilizzano fonti informative diverse e le valutiamo su quattro LALM e quattro benchmark. I risultati mostrano miglioramenti generali dell'accuratezza fino al 4,4% rispetto al prompting CoT. In particolare, identifichiamo un trasferimento cross-modale in cui vettori di steering derivati da pochi campioni testuali guidano efficacemente il ragionamento basato sul parlato, dimostrando un'elevata efficienza dei dati. Esaminiamo inoltre la sensibilità agli iperparametri per comprendere la robustezza di questi approcci. I nostri risultati posizionano lo steering del modello come una direzione pratica per rafforzare il ragionamento dei LALM.
La previsione immediata delle precipitazioni è fondamentale per la mitigazione dei disastri e la sicurezza aeronautica. Tuttavia, i modelli basati esclusivamente sui radar soffrono spesso della mancanza di un contesto atmosferico su larga scala, portando a un degrado delle prestazioni per previsioni a più lungo termine. Sebbene l'integrazione di variabili meteorologiche previste da modelli meteorologici fondazionali offra una potenziale soluzione, le architetture esistenti non riescono a conciliare le profonde eterogeneità rappresentative tra le immagini radar e i dati meteorologici. Per colmare questa lacuna, proponiamo PW-FouCast, un innovativo framework di fusione nel dominio della frequenza che utilizza le previsioni di Pangu-Weather come prior spettrali all'interno di un'architettura basata su Fourier. La nostra architettura introduce tre innovazioni chiave: (i) una Modulazione di Frequenza Guidata da Pangu-Weather per allineare magnitudini e fasi spettrali con i prior meteorologici; (ii) una Memoria di Frequenza per correggere le discrepanze di fase e preservare l'evoluzione temporale; e (iii) un'Attenzione di Frequenza Invertita per ricostruire i dettagli ad alta frequenza tipicamente persi nel filtraggio spettrale. Esperimenti estensivi sui benchmark SEVIR e MeteoNet dimostrano che PW-FouCast raggiunge prestazioni all'avanguardia, estendendo efficacemente l'orizzonte previsivo affidabile mantenendo al contempo la fedeltà strutturale. Il nostro codice è disponibile all'indirizzo https://github.com/Onemissed/PW-FouCast.
In questo rapporto presentiamo la serie IQuest-Coder-V1 (7B/14B/40B/40B-Loop), una nuova famiglia di grandi modelli linguistici per il codice. Andando oltre le rappresentazioni di codice statiche, proponiamo il paradigma di addestramento multi-stadio code-flow, che cattura l'evoluzione dinamica della logica software attraverso diverse fasi della pipeline. I nostri modelli sono sviluppati tramite una pipeline evolutiva, a partire dalla pre-training iniziale composto da dati di fatti di codice, repository e completamento. Successivamente, implementiamo una fase di mid-training specializzata che integra traiettorie di ragionamento e agentività in contesto a 32k e su scala repository in contesto a 128k per forgiare solide fondamenta logiche. I modelli vengono poi finalizzati con un post-training di capacità di codifica specializzate, suddiviso in due percorsi specialistici: il percorso thinking (che utilizza RL guidato dal ragionamento) e il percorso instruct (ottimizzato per l'assistenza generica). IQuest-Coder-V1 raggiunge prestazioni all'avanguardia tra i modelli competitivi nelle dimensioni critiche dell'intelligenza del codice: ingegneria del software agentiva, programmazione competitiva e uso complesso di strumenti. Per affrontare i vincoli di deployment, la variante IQuest-Coder-V1-Loop introduce un meccanismo ricorrente progettato per ottimizzare il compromesso tra capacità del modello e impronta computazionale, offrendo un percorso architetturalmente potenziato per il bilanciamento efficacia-efficienza. Riteniamo che il rilascio della serie IQuest-Coder-V1, inclusa la completa catena white-box dei checkpoint dalle basi di pre-training ai modelli finali thinking e instruction, avanzerà la ricerca nell'intelligenza autonoma del codice e nei sistemi agentivi del mondo reale.
I Vision Foundation Model (VFM) pre-addestrati su larga scala consentono a un singolo encoder congelato di servire simultaneamente molteplici task downstream. I recenti modelli encoder-only basati su VFM per la segmentazione di immagini e video, come EoMT e VidEoMT, raggiungono un'accuratezza competitiva con una latenza notevolmente bassa; tuttavia, richiedono il fine-tuning dell'encoder, sacrificando la condivisione multi-task dell'encoder che rende i VFM praticamente attraenti per il deployment su larga scala. Per conciliare la semplicità e la velocità dell'approccio encoder-only con le caratteristiche congelate dei VFM, proponiamo il Plain Mask Decoder (PMD), un decoder per la segmentazione veloce basato su Transformer che opera su feature VFM congelate. Il modello risultante, il Plain Mask Transformer (PMT), preserva la semplicità architetturale e la bassa latenza dei design encoder-only mantenendo inalterata e condivisibile la rappresentazione dell'encoder. Il design si applica perfettamente sia alla segmentazione di immagini che di video, ereditando la generalità del framework encoder-only. Su benchmark standard di segmentazione di immagini, PMT eguaglia lo stato dell'arte per encoder congelati mentre è fino a ~3 volte più veloce. Per la segmentazione video, performa addirittura alla pari con metodi completamente sottoposti a fine-tuning, pur essendo fino a 8 volte più veloce dei modelli all'avanguardia con encoder congelato. Codice: https://github.com/tue-mps/pmt.
Introduciamo WAFT-Stereo, un metodo semplice ed efficace basato sulla deformazione per la corrispondenza stereo. WAFT-Stereo dimostra che i volumi di costo, un design comune in molti metodi all'avanguardia, non sono necessari per ottenere prestazioni elevate e possono essere sostituiti dalla deformazione con efficienza migliorata. WAFT-Stereo si classifica al primo posto sui benchmark pubblici ETH3D, KITTI e Middlebury, riducendo l'errore zero-shot dell'81% sul benchmark ETH3D, risultando al contempo 1,8-6,7 volte più veloce rispetto a metodi competitivi. Codice e pesi del modello sono disponibili su https://github.com/princeton-vl/WAFT-Stereo.