Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Kling-Omni, un framework generativo generalista progettato per sintetizzare video ad alta fedeltà direttamente da input multimodali di linguaggio visivo. Adottando una prospettiva end-to-end, Kling-Omni colma la separazione funzionale tra i diversi compiti di generazione, editing e ragionamento intelligente di video, integrandoli in un sistema olistico. A differenza degli approcci a pipeline disgiunte, Kling-Omni supporta un'ampia gamma di input utente, incluse istruzioni testuali, immagini di riferimento e contesti video, elaborandoli in una rappresentazione multimodale unificata per offrire una creazione di contenuti video di qualità cinematografica e altamente intelligente. Per supportare queste capacità, abbiamo costruito un sistema dati completo che funge da fondamento per la creazione video multimodale. Il framework è ulteriormente potenziato da strategie efficienti di pre-addestramento su larga scala e ottimizzazioni infrastrutturali per l'inferenza. Valutazioni complete rivelano che Kling-Omni dimostra capacità eccezionali nella generazione in contesto, nell'editing basato sul ragionamento e nel seguire istruzioni multimodali. Andando oltre uno strumento di creazione di contenuti, riteniamo che Kling-Omni rappresenti un progresso cruciale verso simulatori del mondo multimodali in grado di percepire, ragionare, generare e interagire con mondi dinamici e complessi.
I sistemi di IA agentici all'avanguardia sono costruiti su modelli di base che possono essere adattati per pianificare, ragionare e interagire con strumenti esterni al fine di svolgere compiti sempre più complessi e specializzati. Man mano che questi sistemi aumentano in capacità e portata, l'adattamento diventa un meccanismo centrale per migliorare prestazioni, affidabilità e generalizzazione. In questo articolo, unifichiamo il panorama della ricerca in rapida espansione in un quadro sistematico che abbraccia sia gli adattamenti dell'agente che quelli degli strumenti. Li scomponiamo ulteriormente in forme di adattamento dell'agente segnalate dall'esecuzione degli strumenti e segnalate dall'output dell'agente, nonché in forme di adattamento degli strumenti indipendenti dall'agente e supervisionate dall'agente. Dimostriamo che questo quadro aiuta a chiarire lo spazio di progettazione delle strategie di adattamento nell'IA agentica, rende espliciti i loro compromessi e fornisce una guida pratica per selezionare o passare da una strategia all'altra durante la progettazione del sistema. Successivamente, esaminiamo gli approcci rappresentativi in ogni categoria, analizziamo i loro punti di forza e limiti, ed evidenziamo le principali sfide aperte e le future opportunità. Nel complesso, questo articolo mira a offrire una base concettuale e una roadmap pratica per ricercatori e professionisti che cercano di costruire sistemi di IA agentici più capaci, efficienti e affidabili.
Questo articolo presenta LLaDA2.0 — una tupla di modelli linguistici di grandi dimensioni a diffusione discreta (dLLM) che scala fino a 100 miliardi di parametri totali attraverso una conversione sistematica da modelli auto-regressivi (AR) — stabilendo un nuovo paradigma per lo sviluppo su scala di frontiera. Invece di un costoso addestramento da zero, LLaDA2.0 mantiene i principi di ereditarietà della conoscenza, adattamento progressivo e progettazione orientata all'efficienza, convertendo in modo fluido un modello AR pre-addestrato in un dLLM con un nuovo schema di addestramento in 3 fasi basato su WSD a livello di blocco: aumento progressivo della dimensione del blocco nella diffusione a blocchi (fase di riscaldamento), diffusione su larga scala dell'intera sequenza (fase stabile) e ritorno a una diffusione a blocchi di dimensioni compatte (fase di decadimento). Insieme all'allineamento post-addestramento con SFT e DPO, otteniamo LLaDA2.0-mini (16B) e LLaDA2.0-flash (100B), due varianti regolate su istruzioni a miscela di esperti (MoE) ottimizzate per la distribuzione pratica. Preservando i vantaggi del decoding parallelo, questi modelli offrono prestazioni ed efficienza superiori su scala di frontiera. Entrambi i modelli sono stati resi open-source.
Ispirati dal successo del pretraining generativo nel linguaggio naturale, ci chiediamo se gli stessi principi possano produrre efficaci modelli di apprendimento visivo auto-supervisionato. Invece di addestrare modelli per produrre feature da utilizzare in fasi successive, li addestriamo a generare embedding per eseguire direttamente compiti predittivi. Questo lavoro esplora tale transizione dall'apprendimento di rappresentazioni all'apprendimento di modelli. Nello specifico, i modelli apprendono a predire gli embedding futuri di patch condizionati a quelli passati, utilizzando mascheramento causale e stop gradient, approccio che definiamo Autoregressione Predittiva del Prossimo Embedding (NEPA). Dimostriamo che un semplice Transformer addestrato su ImageNet-1k con la predizione del prossimo embedding come unico obiettivo di apprendimento risulta efficace - senza ricostruzione di pixel, token discreti, loss contrastiva o teste task-specific. Questa formulazione mantiene semplicità architetturale e scalabilità, senza richiedere complessità progettuali aggiuntive. NEPA ottiene risultati solidi across task, raggiungendo accuratezza top-1 dell'83.8% e 85.3% su ImageNet-1K rispettivamente con backbone ViT-B e ViT-L dopo fine-tuning, e trasferendosi efficacemente alla segmentazione semantica su ADE20K. Riteniamo che il pretraining generativo da embedding fornisca un'alternativa semplice, scalabile e potenzialmente modality-agnostic per l'apprendimento auto-supervisionato visivo.
La rapida diffusione dei display stereoscopici, inclusi i visori per la realtà virtuale e i cinema 3D, ha portato a una crescente domanda di contenuti video stereo di alta qualità. Tuttavia, la produzione di video 3D rimane costosa e complessa, mentre la conversione automatica da monoculare a stereo è ostacolata dalle limitazioni della pipeline multi-stadio "Depth-Warp-Inpaint" (DWI). Questo paradigma soffre di propagazione degli errori, ambiguità nella profondità e inconsistenza del formato tra le configurazioni stereo parallele e convergenti. Per affrontare queste sfide, presentiamo UniStereo, il primo dataset unificato su larga scala per la conversione di video stereo, che copre entrambi i formati stereo per consentire un benchmarking equo e un addestramento robusto dei modelli. Basandoci su questo dataset, proponiamo StereoPilot, un modello feed-forward efficiente che sintetizza direttamente la vista target senza fare affidamento su mappe di profondità esplicite o su campionamenti iterativi di diffusione. Dotato di un commutatore di dominio apprendibile e di una loss di consistenza ciclica, StereoPilot si adatta in modo fluido a diversi formati stereo e raggiunge una consistenza migliorata. Esperimenti estensivi dimostrano che StereoPilot supera significativamente i metodi allo stato dell'arte sia nella fedeltà visiva che nell'efficienza computazionale. Pagina del progetto: https://hit-perfect.github.io/StereoPilot/.
I recenti progressi nella generazione video hanno aperto la strada a una generazione audiovisiva unificata. In questo lavoro, presentiamo Seedance 1.5 pro, un modello fondamentale progettato specificamente per la generazione nativa e congiunta di audio e video. Sfruttando un'architettura Dual-branch Diffusion Transformer, il modello integra un modulo congiunto cross-modale con una pipeline dati multi-stadio specializzata, raggiungendo un'eccezionale sincronizzazione audiovisiva e una qualità di generazione superiore. Per garantirne l'utilità pratica, implementiamo meticolose ottimizzazioni post-addestramento, tra cui Fine-Tuning Supervisionato (SFT) su dataset di alta qualità e Apprendimento per Rinforzo da Feedback Umano (RLHF) con modelli di ricompensa multidimensionali. Inoltre, introduciamo un framework di accelerazione che aumenta la velocità di inferenza di oltre 10 volte. Seedance 1.5 pro si distingue per il preciso lip-sync multilingue e dialettale, il controllo dinamico della camera cinematografica e una maggiore coerenza narrativa, posizionandosi come un motore robusto per la creazione di contenuti di livello professionale. Seedance 1.5 pro è ora accessibile su Volcano Engine all'indirizzo https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.
Il controllo della profondità di campo è essenziale in fotografia, ma ottenere la messa a fuoco perfetta richiede spesso diversi tentativi o attrezzature speciali. La rifocalizzazione su singola immagine rimane difficile. Essa implica il recupero di contenuti nitidi e la creazione di un bokeh realistico. I metodi attuali presentano notevoli inconvenienti: richiedono input a fuoco su tutto il campo, dipendono da dati sintetici di simulatori e offrono un controllo limitato sull'apertura. Introduciamo la Rifocalizzazione Generativa, un processo in due fasi che utilizza DeblurNet per recuperare immagini a fuoco totale da vari input e BokehNet per creare un bokeh controllabile. La nostra innovazione principale è l'addestramento semi-supervisionato. Questo metodo combina dati accoppiati sintetici con immagini reali di bokeh non accoppiate, utilizzando i metadati EXIF per catturare caratteristiche ottiche reali che vanno oltre ciò che i simulatori possono fornire. I nostri esperimenti dimostrano prestazioni eccellenti nei benchmark di deblurring da defocus, sintesi del bokeh e rifocalizzazione. Inoltre, la nostra Rifocalizzazione Generativa consente regolazioni guidate da testo e forme personalizzate dell'apertura.
In questo lavoro, presentiamo un modello foundation per la stima metrica della profondità panoramica che generalizza su diverse distanze della scena. Esploriamo un paradigma di "dati nel ciclo" dal punto di vista sia della costruzione dei dati che del design del framework. Raccogliamo un dataset su larga scala combinando dataset pubblici, dati sintetici di alta qualità dal nostro simulatore UE5 e modelli text-to-image, e immagini panoramiche reali dal web. Per ridurre i divari di dominio tra dati indoor/outdoor e sintetici/reali, introduciamo una pipeline di creazione di pseudo-etichette in tre fasi per generare ground truth affidabile per immagini non etichettate. Per il modello, adottiamo DINOv3-Large come backbone per la sua forte generalizzazione pre-addestrata, e introduciamo una testa plug-and-play per la maschera della distanza, un'ottimizzazione centrata sulla nitidezza e un'ottimizzazione centrata sulla geometria per migliorare la robustezza alle distanze variabili e imporre la coerenza geometrica tra le viste. Esperimenti su molteplici benchmark (ad esempio, Stanford2D3D, Matterport3D e Deep360) dimostrano prestazioni solide e generalizzazione zero-shot, con previsioni metriche particolarmente robuste e stabili in diverse scene del mondo reale. La pagina del progetto può essere trovata all'indirizzo: https://insta360-research-team.github.io/DAP_website/ {https://insta360-research-team.github.io/DAP\_website/}
I modelli di diffusione in-context consentono agli utenti di modificare le immagini con notevole facilità e realismo. Tuttavia, questa stessa potenza solleva serie preoccupazioni in materia di privacy: le immagini personali possono essere facilmente manipolate per impersonare identità, diffondere disinformazione o altri usi malevoli, tutto senza il consenso del proprietario. Sebbene lavori precedenti abbiano esplorato perturbazioni in input per proteggere dall'uso improprio nella generazione personalizzata di immagini da testo, la robustezza dei moderni modelli su larga scala basati su DiT in-context rimane in gran parte non esaminata. In questo articolo, proponiamo DeContext, un nuovo metodo per salvaguardare le immagini di input da modifiche in-context non autorizzate. La nostra intuizione chiave è che le informazioni contestuali dall'immagine sorgente si propagano all'output principalmente attraverso gli strati di attenzione multimodale. Iniettando piccole perturbazioni mirate che indeboliscono questi percorsi di cross-attenzione, DeContext interrompe questo flusso, disaccoppiando efficacemente il collegamento tra input e output. Questa semplice difesa è sia efficiente che robusta. Dimostriamo inoltre che i primi passi di denoising e specifici blocchi del transformer dominano la propagazione del contesto, il che ci permette di concentrare le perturbazioni dove sono più efficaci. Esperimenti su Flux Kontext e Step1X-Edit mostrano che DeContext blocca costantemente le modifiche indesiderate delle immagini preservando la qualità visiva. Questi risultati evidenziano l'efficacia delle perturbazioni basate sull'attenzione come potente difesa contro la manipolazione delle immagini.
I modelli di diffusione latente (LDM) raggiungono performance all'avanguardia nella sintesi di immagini, tuttavia il loro obiettivo di denoising in stile ricostruttivo fornisce una supervisione semantica solo indiretta: la semantica di alto livello emerge lentamente, richiedendo addestramenti più lunghi e limitando la qualità del campione. Lavori recenti iniettano semantica da Modelli Fondazionali Visivi (VFM) esternamente tramite allineamento delle rappresentazioni o internamente modellando congiuntamente solo una porzione ristretta di feature VFM all'interno del processo di diffusione, sfruttando in modo insufficiente la ricca, non lineare e multi-livello semantica spaziale disponibile. Introduciamo REGLUE (Representation Entanglement with Global-Local Unified Encoding), un framework unificato di diffusione latente che modella congiuntamente (i) i latenti immagine del VAE, (ii) una semantica VFM locale compatta (a livello di patch) e (iii) un token globale [CLS] (a livello di immagine) all'interno di un singolo backbone SiT. Un compressore semantico convoluzionale leggero aggrega in modo non lineare feature VFM multi-livello in una rappresentazione a bassa dimensionalità e strutturata spazialmente, che viene intrecciata con i latenti VAE nel processo di diffusione. Una loss di allineamento esterno regolarizza ulteriormente le rappresentazioni interne verso target VFM congelati. Su ImageNet 256x256, REGLUE migliora consistentemente l'FID e accelera la convergenza rispetto ai baseline SiT-B/2 e SiT-XL/2, nonché rispetto a REPA, ReDi e REG. Esperimenti estensivi mostrano che (a) la semantica spaziale dei VFM è cruciale, (b) la compressione non lineare è la chiave per sbloccarne il pieno beneficio, e (c) i token globali e l'allineamento esterno agiscono come potenziamenti complementari e leggeri all'interno del nostro framework di modellazione congiunta globale-locale-latente. Il codice è disponibile all'indirizzo https://github.com/giorgospets/reglue .
I recenti progressi nei modelli generativi Text-to-Image (T2I), come Imagen, Stable Diffusion e FLUX, hanno portato a miglioramenti notevoli nella qualità visiva. Tuttavia, le loro prestazioni sono fondamentalmente limitate dalla qualità dei dati di addestramento. I dataset di immagini web-crawled e sintetici spesso contengono campioni di bassa qualità o ridondanti, che portano a una fedeltà visiva degradata, un addestramento instabile e un calcolo inefficiente. Pertanto, una selezione efficace dei dati è cruciale per migliorare l'efficienza dei dati. Gli approcci esistenti si basano su una costosa curatela manuale o su punteggi euristici basati su caratteristiche monodimensionali nella filtrazione dei dati Text-to-Image. Sebbene i metodi basati sul meta-apprendimento siano stati esplorati nei LLM, non esiste un adattamento per le modalità immagine. A tal fine, proponiamo **Alchemist**, un framework basato su meta-gradienti per selezionare un sottoinsieme adatto da ampi set di coppie testo-immagine. Il nostro approccio impara automaticamente a valutare l'influenza di ogni campione ottimizzando iterativamente il modello da una prospettiva data-centrica. Alchemist si compone di due fasi chiave: valutazione dei dati e pruning dei dati. Addestriamo un valutatore leggero per stimare l'influenza di ogni campione basandosi sulle informazioni del gradiente, potenziate con una percezione multi-granularità. Utilizziamo quindi la strategia Shift-Gsampling per selezionare sottoinsiemi informativi per un addestramento efficiente del modello. Alchemist è il primo framework automatico, scalabile e basato su meta-gradienti per la selezione dei dati nell'addestramento di modelli Text-to-Image. Esperimenti su dataset sia sintetici che web-crawled dimostrano che Alchemist migliora costantemente la qualità visiva e le prestazioni downstream. L'addestramento sul 50% dei dati selezionati da Alchemist può superare le prestazioni dell'addestramento sull'intero dataset.
Presentiamo WorldCanvas, un framework per eventi mondiali promptable che abilita simulazioni ricche e dirette dall'utente combinando testo, traiettorie e immagini di riferimento. A differenza degli approcci basati esclusivamente sul testo e dei metodi video-to-image esistenti controllati da traiettorie, il nostro approccio multimodale combina le traiettorie – che codificano movimento, tempistica e visibilità – con il linguaggio naturale per l'intento semantico e con immagini di riferimento per l'ancoraggio visivo dell'identità dell'oggetto, consentendo la generazione di eventi coerenti e controllabili che includono interazioni multi-agente, ingresso/uscita di oggetti, aspetto guidato da riferimento ed eventi controintuitivi. I video risultanti dimostrano non solo coerenza temporale ma anche coerenza emergente, preservando l'identità dell'oggetto e la scena nonostante temporanee scomparse. Supportando la generazione di eventi mondiali espressivi, WorldCanvas evolve i modelli del mondo da predittori passivi a simulatori interattivi plasmati dall'utente. La nostra pagina progetto è disponibile all'indirizzo: https://worldcanvas.github.io/.
Sebbene i modelli multimodali attuali siano in grado di rispondere a domande basate su immagini 2D, mancano di una percezione intrinseca degli oggetti 3D, limitando la loro capacità di comprendere le relazioni spaziali e gli indizi di profondità nelle scene 3D. In questo lavoro, proponiamo N3D-VLM, un nuovo framework unificato che integra perfettamente la percezione nativa degli oggetti 3D con il ragionamento visivo consapevole della tridimensionalità, consentendo sia un ancoraggio 3D preciso che una comprensione spaziale interpretabile. A differenza dei modelli end-to-end convenzionali che prevedono direttamente le risposte da input RGB/RGB-D, il nostro approccio fornisce al modello capacità di percezione nativa degli oggetti 3D, permettendogli di localizzare direttamente gli oggetti nello spazio 3D sulla base di descrizioni testuali. Basandosi su un accurato posizionamento degli oggetti in 3D, il modello esegue ulteriormente un ragionamento esplicito in tre dimensioni, raggiungendo una comprensione spaziale più strutturata e interpretabile. Per supportare un addestramento robusto di queste capacità, abbiamo sviluppato una pipeline scalabile per la costruzione di dati che sfrutta la stima della profondità per elevare annotazioni 2D su larga scala nello spazio 3D, aumentando significativamente la diversità e la copertura dei dati per l'ancoraggio di oggetti 3D, producendo un dataset oltre sei volte più grande del più grande dataset esistente di rilevamento 3D da immagine singola. Inoltre, la pipeline genera dataset di domande e risposte spaziali che mirano al ragionamento a catena del pensiero (CoT) in 3D, facilitando l'addestramento congiunto sia per la localizzazione di oggetti 3D che per il ragionamento spaziale tridimensionale. I risultati sperimentali dimostrano che il nostro framework unificato non solo raggiunge prestazioni all'avanguardia nelle attività di ancoraggio 3D, ma supera anche costantemente i metodi esistenti nel ragionamento spaziale 3D all'interno di modelli visione-linguaggio.
I recenti progressi nell'apprendimento per rinforzo per i grandi modelli linguistici hanno visto una convergenza verso una crescente complessità: pipeline di addestramento multi-stadio, schedulazioni dinamiche degli iperparametri e strategie di curriculum learning. Ciò solleva una questione fondamentale: questa complessità è necessaria? Presentiamo JustRL, un approccio minimale che utilizza un addestramento a stadio singolo con iperparametri fissi, raggiungendo prestazioni allo stato dell'arte su due modelli di ragionamento da 1.5B miliardi di parametri (54.9% e 64.3% di accuratezza media su nove benchmark matematici) utilizzando un calcolo 2 volte inferiore rispetto ad approcci sofisticati. Gli stessi iperparametri si trasferiscono tra i due modelli senza necessità di sintonizzazione, e l'addestramento mostra un miglioramento regolare e monotono per oltre 4.000 passi, senza i collassi o gli appiattimenti che tipicamente motivano interventi. In modo cruciale, le ablazioni rivelano che l'aggiunta di "trucchi standard" come penalità esplicite sulla lunghezza e verificatori robusti può degradare le prestazioni collassando l'esplorazione. Questi risultati suggeriscono che il campo potrebbe star aggiungendo complessità per risolvere problemi che scompaiono con una baseline stabile e su larga scala. Rilasciamo i nostri modelli e il codice per stabilire una baseline semplice e validata per la comunità.
Mentre l'editing delle immagini ha fatto rapidi progressi, l'editing video rimane meno esplorato, affrontando sfide in termini di coerenza, controllo e generalizzazione. Studiamo lo spazio di progettazione di dati, architettura e controllo, e introduciamo EasyV2V, un framework semplice ed efficace per l'editing video basato su istruzioni. Sul fronte dati, componiamo esistenti esperti con inverse veloci per costruire coppie video diversificate, eleviamo coppie di editing di immagini in video tramite supervisione a fotogramma singolo e coppie pseudo con movimento affine condiviso, estraiamo clip con descrizioni dense per coppie video e aggiungiamo supervisione delle transizioni per insegnare come si sviluppano le modifiche. Sul lato modello, osserviamo che i modelli preaddestrati testo-video possiedono capacità di editing, motivando una progettazione semplificata. La semplice concatenazione di sequenze per il condizionamento con un fine-tuning LoRA leggero è sufficiente per addestrare un modello solido. Per il controllo, unifichiamo il controllo spaziotemporale tramite un unico meccanismo a maschera e supportiamo immagini di riferimento opzionali. In generale, EasyV2V funziona con input flessibili, ad esempio video+testo, video+maschera+testo, video+maschera+riferimento+testo, e raggiunge risultati di editing video all'avanguardia, superando sistemi concorrenti e commerciali. Pagina del progetto: https://snap-research.github.io/easyv2v/
Recenti progressi hanno dimostrato che i modelli linguistici multimodali di grandi dimensioni (MLLM) traggono vantaggio da una catena di pensiero (CoT) intervallata multimodale con interazioni di strumenti visivi. Tuttavia, i modelli open-source esistenti spesso mostrano pattern di ragionamento nell'uso degli strumenti acritici, invocando strumenti visivi anche quando non sono necessari, il che aumenta significativamente il sovraccarico computazionale e degrada le prestazioni del modello. A tal fine, proponiamo AdaTooler-V, un MLLM che esegue un uso adattivo degli strumenti determinando se un problema visivo richieda veramente l'uso di tool. In primo luogo, introduciamo AT-GRPO, un algoritmo di apprendimento per rinforzo che regola in modo adattivo le scale di ricompensa in base al Punteggio di Beneficio dello Strumento di ciascun campione, incoraggiando il modello a invocare strumenti solo quando questi forniscono miglioramenti genuini. Inoltre, abbiamo costruito due dataset per supportare l'addestramento: AdaTooler-V-CoT-100k per l'avvio a freddo SFT e AdaTooler-V-300k per l'RL con ricompense verificabili su dati di singola immagine, immagini multiple e video. Esperimenti su dodici benchmark dimostrano le solide capacità di ragionamento di AdaTooler-V, che supera i metodi esistenti in varie attività di ragionamento visivo. In particolare, AdaTooler-V-7B raggiunge un'accuratezza dell'89,8% sul benchmark ad alta risoluzione V*, superando il modello proprietario commerciale GPT-4o e Gemini 1.5 Pro. Tutto il codice, i modelli e i dati sono rilasciati pubblicamente.
L'editing di immagini basato su istruzioni consente il controllo tramite linguaggio naturale sulle modifiche visive, tuttavia i modelli esistenti vacillano di fronte alla Complessità Istruzione-Visuale (IV-Complexity), dove istruzioni intricate incontrano scene disordinate o ambigue. Introduciamo RePlan (Region-aligned Planning), un framework "plan-then-execute" che accoppia un pianificatore visione-linguaggio con un editor basato su diffusione. Il pianificatore scompone le istruzioni attraverso un ragionamento passo-passo e le ancora esplicitamente a regioni target; l'editor applica quindi le modifiche utilizzando un meccanismo di iniezione regione-attenzione senza addestramento, abilitando modifiche multi-regione precise e parallele senza inpainting iterativo. Per potenziare la pianificazione, applichiamo un reinforcement learning basato su GRPO utilizzando 1K esempi con sole istruzioni, ottenendo miglioramenti sostanziali nella fedeltà del ragionamento e nell'affidabilità del formato. Presentiamo inoltre IV-Edit, un benchmark focalizzato sull'ancoraggio fine-granularità e su modifiche ad alta intensità di conoscenza. In contesti IV-Complex, RePlan supera costantemente baseline robuste addestrate su dataset molto più grandi, migliorando la precisione regionale e la fedeltà complessiva. La nostra pagina progetto: https://replan-iv-edit.github.io
I modelli di reward (RMs) sono essenziali per l'addestramento di grandi modelli linguistici (LLMs), ma rimangono poco esplorati per i modelli omni che gestiscono sequenze interleave di immagini e testo. Introduciamo Multimodal RewardBench 2 (MMRB2), il primo benchmark completo per modelli di reward sulla comprensione multimodale e sulla generazione (interleave). MMRB2 copre quattro compiti: text-to-image, image editing, generazione interleave e ragionamento multimodale ("thinking-with-images"), fornendo 1.000 coppie di preferenze annotate da esperti per compito, provenienti da 23 modelli e agenti attraverso 21 task sorgente. MMRB2 è progettato con: (1) prompt pratici ma impegnativi; (2) risposte di modelli e agenti all'avanguardia; e (3) coppie di preferenze con un forte consenso di esperti umani, curate tramite una strategia di filtraggio ensemble. Utilizzando MMRB2, studiamo i giudici esistenti per ogni sottocompito, inclusi i multimodal LLM-as-a-judge e i modelli addestrati con preferenze umane. L'ultimo Gemini 3 Pro raggiunge un'accuratezza del 75-80%. GPT-5 e Gemini 2.5 Pro raggiungono un'accuratezza del 66-75%, rispetto a >90% per gli umani, ma superano il diffusamente utilizzato GPT-4o (59%). Il miglior modello open-source, Qwen3-VL-32B, raggiunge accuratezze simili a Gemini 2.5 Flash (64%). Mostriamo inoltre che le prestazioni su MMRB2 correlano fortemente con il successo sui task a valle utilizzando il Best-of-N sampling e conduciamo un'analisi approfondita che evidenzia le aree chiave su cui migliorare i modelli di reward in futuro.
Questo studio esamina il trade-off esplorazione-sfruttamento nell'apprendimento per rinforzo con ricompense verificabili (RLVR), un framework volto a migliorare le capacità di ragionamento dei Large Language Model (LLM). Ricerche recenti indicano che l'RLVR può potenziare il ragionamento matematico degli LLM mediante due meccanismi apparentemente paradossali: le ricompense spurie, che inibiscono lo sfruttamento premiando risultati non correlati alla verità di base, e la minimizzazione dell'entropia, che sopprime l'esplorazione spingendo il modello verso output più confidenti e deterministici. Emerge così una dinamica controintuitiva: sia lo scoraggiamento dello sfruttamento che quello dell'esplorazione migliorano le prestazioni di ragionamento, sebbene i principi sottostanti che riconciliano questi effetti rimangano poco compresi. Ci concentriamo su due questioni fondamentali: (i) come l'entropia della politica si relazioni alle prestazioni, e (ii) se le ricompense spurie producano vantaggi, potenzialmente attraverso l'interazione tra clipping bias e contaminazione del modello. I nostri risultati dimostrano che il clipping bias sotto ricompense spurie riduce l'entropia della politica, conducendo a output più confidenti e deterministici, mentre la minimizzazione dell'entropia da sola risulta insufficiente per ottenere miglioramenti. Proponiamo inoltre un modello di disallineamento delle ricompense che spiega perché le ricompense spurie possono migliorare le prestazioni oltre contesti contaminati. I nostri risultati chiariscono i meccanismi alla base dei benefici delle ricompense spurie e forniscono principi per un addestramento RLVR più efficace.
Gli attuali metodi di accelerazione basati sulla diffusione per l'animazione di ritratti lunghi faticano a garantire la coerenza dell'identità (ID). Questo articolo presenta FlashPortrait, un trasformatore di diffusione video end-to-end in grado di sintetizzare video a lunghezza infinita che preservano l'identità, raggiungendo un'accelerazione della velocità di inferenza fino a 6 volte. In particolare, FlashPortrait inizia calcolando le caratteristiche dell'espressione facciale agnostiche all'identità mediante un estrattore preesistente. Introduce quindi un Blocco dell'Espressione Facciale Normalizzato per allineare le caratteristiche facciali con i latenti di diffusione normalizzandoli rispetto alle rispettive medie e varianze, migliorando così la stabilità dell'identità nella modellazione facciale. Durante l'inferenza, FlashPortrait adotta uno schema dinamico a finestra scorrevole con fusione pesata nelle aree sovrapposte, garantendo transizioni fluide e coerenza dell'ID nelle animazioni lunghe. In ogni finestra contestuale, basandosi sul tasso di variazione dei latenti a specifici step temporali e sul rapporto di magnitudine delle derivate tra gli strati di diffusione, FlashPortrait utilizza derivate latenti di ordine superiore allo step temporale corrente per prevedere direttamente i latenti agli step futuri, saltando così diversi step di denoising e raggiungendo un'accelerazione di velocità di 6 volte. Esperimenti su benchmark dimostrano l'efficacia di FlashPortrait sia qualitativamente che quantitativamente.
Il grounding dell'interfaccia grafica (GUI) è un componente critico per la costruzione di agenti GUI capaci. Tuttavia, i benchmark di grounding esistenti presentano limitazioni significative: forniscono un volume di dati insufficiente e una copertura di dominio ristretta, oppure si concentrano eccessivamente su una singola piattaforma richiedendo conoscenze di dominio altamente specializzate. In questo lavoro, presentiamo VenusBench-GD, un benchmark bilingue e completo per il grounding di GUI che abbraccia più piattaforme, consentendo una valutazione gerarchica per applicazioni del mondo reale. VenusBench-GD contribuisce come segue: (i) introduciamo un benchmark su larga scala e cross-platform con un'ampia copertura di applicazioni, elementi UI diversificati e dati annotati ricchi, (ii) stabiliamo una pipeline di costruzione dati di alta qualità per i task di grounding, raggiungendo una precisione di annotazione superiore rispetto ai benchmark esistenti, e (iii) estendiamo l'ambito del grounding di elementi proponendo una tassonomia gerarchica dei task che divide il grounding in categorie di base e avanzate, comprendendo sei sottotask distinti progettati per valutare i modelli da prospettive complementari. I nostri risultati sperimentali rivelano insight critici: i modelli multimodali generici ora eguagliano o addirittura superano i modelli GUI specializzati sui task di grounding di base. Al contrario, i task avanzati favoriscono ancora i modelli specializzati per GUI, sebbene mostrino un significativo overfitting e una scarsa robustezza. Questi risultati sottolineano la necessità di framework di valutazione completi e multilivello.
Presentiamo ModelTables, un benchmark di tabelle nei Model Lakes che cattura la semantica strutturata delle tabelle di prestazioni e configurazione, spesso trascurata dal recupero basato solo sul testo. Il corpus è costruito a partire dalle model card di Hugging Face, dai README di GitHub e dagli articoli citati, collegando ogni tabella al suo contesto modellistico e di pubblicazione di riferimento. Rispetto alle tabelle degli open data lake, le tabelle di modelli sono più piccole ma presentano relazioni inter-tabella più dense, riflettendo l'evoluzione strettamente accoppiata di modelli e benchmark. L'attuale release copre oltre 60.000 modelli e 90.000 tabelle. Per valutare la correlazione tra modelli e tabelle, costruiamo una ground truth multi-sorgente utilizzando tre segnali complementari: (1) link di citazione tra articoli, (2) link espliciti nelle model card e relazioni di ereditarietà, e (3) dataset di training condivisi. Presentiamo un caso d'uso empirico estensivo per il benchmark, ovvero la ricerca di tabelle. Confrontiamo su questo benchmark gli operatori di ricerca canonici dei Data Lake (unionable, joinable, per parola chiave) e i baseline di Information Retrieval (recupero denso, sparso, ibrido). Il recupero semantico di tabelle basato su union raggiunge il 54,8% di P@1 complessivo (54,6% sul segnale di citazione, 31,3% su ereditarietà, 30,6% su dataset condivisi); il recupero denso basato su tabelle raggiunge il 66,5% di P@1, mentre il recupero ibrido sui metadati raggiunge il 54,1%. Questa valutazione indica un chiaro margine di miglioramento per lo sviluppo di metodi di ricerca tabellare più efficaci. Rilasciando ModelTables e il suo protocollo di creazione, forniamo il primo benchmark su larga scala per dati strutturati che descrivono modelli di IA. Il nostro caso d'uso sul discovery di tabelle nei Model Lakes fornisce intuizioni ed evidenze per sviluppare un recupero semantico più accurato, un confronto strutturato e un'organizzazione principiata della conoscenza modellistica strutturata. Il codice sorgente, i dati e altri artefatti sono disponibili all'indirizzo https://github.com/RJMillerLab/ModelTables.
Mentre i modelli linguistici di grandi dimensioni (LLM) si espandono oltre il testo, l'integrazione del parlato come modalità nativa ha dato origine agli SpeechLLM, che mirano a tradurre direttamente il linguaggio parlato, bypassando così le tradizionali pipeline basate sulla trascrizione. Tuttavia, se questa integrazione migliori la qualità della traduzione parlato-testo rispetto alle consolidate architetture a cascata rimane una questione aperta. Presentiamo *Hearing to Translate*, la prima suite di test completa che confronta rigorosamente 5 SpeechLLM all'avanguardia con 16 sistemi diretti e a cascata di alto livello, che accoppiano modelli fondazionali per il parlato (SFM) leader di settore con LLM multilingue. La nostra analisi copre 16 benchmark, 13 coppie linguistiche e 9 condizioni complesse, tra cui parlato disfluente, rumoroso e in forma lunga. In questa valutazione estensiva, rileviamo che i sistemi a cascata rimangono complessamente i più affidabili, mentre gli SpeechLLM attuali equivalgono alle cascate solo in contesti selezionati e gli SFM rimangono indietro rispetto ad entrambi, sottolineando come l'integrazione di un LLM, sia all'interno del modello che in una pipeline, sia essenziale per una traduzione vocale di alta qualità.
I metodi di valutazione convenzionali per i modelli linguistici multimodali (MLLM) mancano di interpretabilità e sono spesso insufficienti per rivelare completamente i significativi divari di capacità tra i modelli. Per affrontare questo problema, introduciamo AuditDM, un framework automatizzato che scopre attivamente e corregge le modalità di fallimento degli MLLM analizzandone la divergenza. AuditDM mette a punto un MLLM come "auditor" tramite apprendimento per rinforzo per generare domande complesse e immagini controfattuali che massimizzano il disaccordo tra i modelli target. Una volta addestrato, l'auditor individua esempi diversificati e interpretabili che rivelano le debolezze del modello e fungono da dati privi di annotazioni per la correzione. Applicato a modelli all'avanguardia come Gemma-3 e PaliGemma-2, AuditDM ha scoperto oltre 20 tipi di fallimento distinti. La messa a punto su queste scoperte migliora costantemente tutti i modelli su 16 benchmark e consente a un modello da 3B di superare la sua controparte da 28B. I nostri risultati suggeriscono che, quando la scalabilità dei dati incontra rendimenti decrescenti, l'auditing mirato dei modelli offre un percorso efficace per la diagnosi e il miglioramento del modello.
Una supervisione matematica di alta qualità richiede stili di ragionamento diversificati, tracce estese e un'efficace integrazione di strumenti, capacità che i dataset esistenti forniscono solo in forma limitata. Sfruttando l'abilità di generazione multimodale di gpt-oss-120b, introduciamo Nemotron-Math, un dataset su larga scala per il ragionamento matematico contenente 7,5 milioni di tracce risolutive suddivise in modalità di ragionamento alta, media e bassa, ciascuna disponibile sia con che senza ragionamento integrato con strumenti Python (TIR). Il dataset integra 85.000 problemi curati da AoPS con 262.000 problemi provenienti dalla community di StackExchange-Math, combinando attività strutturate da competizione con query matematiche eterogenee del mondo reale. Abbiamo condotto valutazioni controllate per verificarne la qualità. Nemotron-Math supera costantemente il dataset OpenMathReasoning originale sui problemi AoPS corrispondenti. L'inclusione di StackExchange-Math migliora sostanzialmente robustezza e generalizzazione, specialmente su HLE-Math, mantenendo al contempo l'accuratezza sui benchmark di competizione matematica. Per supportare addestramenti efficienti con contesti lunghi, abbiamo sviluppato una strategia sequenziale a bucket che accelera di 2-3 volte il fine-tuning con lunghezze di contesto di 128K senza significative perdite di accuratezza. Nel complesso, Nemotron-Math consente prestazioni all'avanguardia, inclusa un'accuratezza maj@16 del 100% su AIME 2024 e 2025 con TIR Python.
I Diffusion Transformer (DiT) stabiliscono lo stato dell'arte nella generazione visiva, tuttavia il loro costo quadratico di self-attention limita fondamentalmente la scalabilità a sequenze lunghe di token. I recenti approcci di attenzione sparsa Top-K riducono il calcolo dei DiT comprimendo i token in rappresentazioni basate su blocchi e selezionando un piccolo insieme di blocchi chiave rilevanti, ma soffrono ancora di (i) un costo di selezione quadratico sui token compressi e (ii) la necessità di aumentare K per mantenere la qualità del modello man mano che le sequenze crescono. Identifichiamo che la loro inefficienza è dovuta al design a singolo livello, poiché un unico livello grossolano è insufficiente per rappresentare la struttura globale. In questo articolo, introduciamo la Log-linear Sparse Attention (LLSA), un meccanismo di attenzione sparsa addestrabile per sequenze di token estremamente lunghe che riduce sia i costi di selezione che di attenzione da una complessità quadratica a una log-lineare, utilizzando una struttura gerarchica. LLSA esegue una selezione Top-K gerarchica, adottando progressivamente una selezione Top-K sparsa con gli indici trovati al livello precedente, e introduce un meccanismo di Hierarchical KV Enrichment che preserva il contesto globale utilizzando meno token di diversa granularità durante il calcolo dell'attenzione. Per supportare un addestramento efficiente, sviluppiamo un'implementazione GPU ad alte prestazioni che utilizza solo indici sparsi sia per i passi in avanti che all'indietro, eliminando la necessità di maschere di attenzione dense. Valutiamo LLSA sulla generazione di immagini ad alta risoluzione nello spazio dei pixel senza utilizzare patchificazione e codifica VAE. LLSA accelera l'inferenza dell'attenzione di 28.27x e l'addestramento del DiT di 6.09x su sequenze di token di pixel 256x256, mantenendo la qualità di generazione. I risultati dimostrano che LLSA offre una direzione promettente per addestrare efficientemente DiT a sequenza lunga. Il codice è disponibile all'indirizzo: https://github.com/SingleZombie/LLSA
I dati temporali sono fondamentali in molti ambiti scientifici e industriali, tra cui l'analisi ambientale, l'agricoltura, i trasporti e la finanza. Tuttavia, l'estrazione di informazioni da questi dati richiede tipicamente una profonda competenza di dominio, un processo che risulta sia dispendioso in termini di tempo che laborioso. In questo articolo, proponiamo Insight Miner, un modello multimodale su larga scala (LMM) progettato per generare descrizioni temporali di alta qualità e complete, arricchite con conoscenze specifiche del dominio. A tal fine, introduciamo TS-Insights (disponibile all'indirizzo \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}), il primo dataset di dominio generale per l'allineamento tra serie temporali e linguaggio. TS-Insights contiene 100k finestre temporali campionate da 20 dataset di forecasting. Abbiamo costruito questo dataset utilizzando un innovativo flusso di lavoro agentico, in cui strumenti statistici estraggono caratteristiche dalle serie temporali grezze prima di sintetizzarle in descrizioni coerenti dell'andamento tramite GPT-4. Dopo l'instruction tuning su TS-Insights, Insight Miner supera modelli multimodali all'avanguardia, come LLaVA (liu2023llava) e GPT-4, nella generazione di descrizioni e approfondimenti sulle serie temporali. I nostri risultati indicano una direzione promettente per l'utilizzo degli LMM nell'analisi delle serie temporali e rappresentano un passo fondamentale verso l'abilitazione degli LLM a interpretare le serie temporali come una modalità di input nativa.
Il rendering neurale per applicazioni interattive richiede la conversione di proprietà geometriche e materiali (G-buffer) in immagini fotorealistiche con illuminazione realistica su base fotogramma per fotogramma. Sebbene i recenti approcci basati su diffusion mostrino potenziale per la sintesi d'immagine condizionata da G-buffer, presentano limitazioni critiche: i modelli per immagini singole come RGBX generano fotogrammi indipendentemente senza coerenza temporale, mentre i modelli video come DiffusionRenderer sono computazionalmente troppo costosi per la maggior parte delle configurazioni gaming consumer e richiedono sequenze complete a priori, rendendoli inadatti ad applicazioni interattive dove i fotogrammi futuri dipendono dall'input utente. Introduciamo FrameDiffuser, un framework di rendering neurale autoregressivo che genera fotogrammi temporalmente coerenti e fotorealistici condizionando sia i dati G-buffer che l'output precedente del modello. Dopo un fotogramma iniziale, FrameDiffuser opera esclusivamente sui dati G-buffer in ingresso, comprendenti geometria, materiali e proprietà superficiali, utilizzando il proprio fotogramma generato precedentemente come guida temporale, mantenendo una generazione stabile e temporalmente coerente per centinaia o migliaia di fotogrammi. La nostra architettura a doppio condizionamento combina ControlNet per la guida strutturale con ControlLoRA per la coerenza temporale. Una strategia di addestramento in tre fasi abilita una generazione autoregressiva stabile. Specializziamo il nostro modello per ambienti specifici, privilegiando coerenza e velocità d'inferenza rispetto a una generalizzazione ampia, dimostrando che l'addestramento specifico per ambiente raggiunge una qualità fotorealistica superiore con illuminazione, ombre e riflessi accurati rispetto ad approcci generalizzati.
I Normalizing Flows (NF) si sono affermati come un framework metodologicamente solido per la modellazione generativa. I NF standard consistono in un processo forward e un processo reverse: il processo forward mappa i dati al rumore, mentre il processo reverse genera campioni invertendolo. Le tipiche trasformazioni forward dei NF sono vincolate da un'invertibilità esplicita, garantendo che il processo reverse possa fungere da loro esatta inversa analitica. I recenti sviluppi di TARFlow e delle sue varianti hanno rivitalizzato i metodi NF combinando i Transformer con i flussi autoregressivi, ma hanno anche evidenziato il causal decoding come un collo di bottiglia principale. In questo lavoro, introduciamo il Bidirectional Normalizing Flow (BiFlow), un framework che elimina la necessità di un'inversa analitica esatta. BiFlow apprende un modello reverse che approssima la mapping inversa sottostante da rumore a dati, abilitando funzioni di loss e architetture più flessibili. Esperimenti su ImageNet dimostrano che BiFlow, rispetto alla sua controparte a causal decoding, migliora la qualità della generazione accelerando il campionamento fino a due ordini di grandezza. BiFlow produce risultati all'avanguardia tra i metodi basati su NF e prestazioni competitive tra i metodi a singola valutazione ("1-NFE"). Seguendo i recenti e incoraggianti progressi sui NF, speriamo che il nostro lavoro attiri ulteriore attenzione su questo paradigma classico.
La posa di personaggi 3D è un compito fondamentale nella computer grafica e visione artificiale. Tuttavia, i metodi esistenti come l'auto-rigging e la generazione condizionata dalla posa spesso incontrano difficoltà quali previsione imprecisa dei pesi di skinning, imperfezioni topologiche e scarsa conformità alla posa, limitandone robustezza e generalizzabilità. Per superare queste limitazioni, introduciamo Make-It-Poseable, un innovativo framework feed-forward che riformula la posa dei personaggi come problema di trasformazione dello spazio latente. Invece di deformare i vertici della mesh come nelle pipeline tradizionali, il nostro metodo ricostruisce il personaggio in nuove pose manipolando direttamente la sua rappresentazione latente. Al centro del metodo si trova un trasformatore per la posa latente che manipola i token di forma basandosi sul movimento scheletrico. Questo processo è facilitato da una rappresentazione densa della posa per un controllo preciso. Per garantire geometria ad alta fedeltà e adattarsi ai cambiamenti topologici, introduciamo anche una strategia di supervisione nello spazio latente e un modulo di completamento adattivo. Il nostro metodo dimostra prestazioni superiori nella qualità della posa e si estende naturalmente ad applicazioni di editing 3D come la sostituzione e il perfezionamento delle parti.
Sebbene l'apprendimento per rinforzo abbia ottenuto progressi impressionanti nel ragionamento dei modelli linguistici, è vincolato dalla necessità di ricompense verificabili. Recenti metodi RL senza verificatore affrontano questa limitazione utilizzando le probabilità intrinseche degli LLM di generare risposte di riferimento come segnali di ricompensa. Tuttavia, questi approcci tipicamente campionano tracce di ragionamento condizionate solo alla domanda. Questo design disaccoppia il campionamento delle tracce di ragionamento dalle informazioni della risposta, portando a un'esplorazione inefficiente e a un'incongruenza tra le tracce e le risposte finali. In questo articolo, proponiamo \b{Coupled Variational Reinforcement Learning} (CoVRL), che collega l'inferenza variazionale e l'apprendimento per rinforzo accoppiando le distribuzioni a priori e a posteriori attraverso una strategia di campionamento ibrida. Costruendo e ottimizzando una distribuzione composita che integra queste due distribuzioni, CoVRL consente un'esplorazione efficiente preservando al contempo una forte coerenza tra pensiero e risposta. Esperimenti estesi su benchmark di ragionamento matematico e generale mostrano che CoVRL migliora le prestazioni del 12,4% rispetto al modello base e ottiene un ulteriore miglioramento del 2,3% rispetto a solidi baseline RL senza verificatore allo stato dell'arte, fornendo un framework principiato per potenziare le capacità di ragionamento generale dei modelli linguistici.
La condivisione dei parametri nei transformer ricorsivi riduce le dimensioni del modello ma comprime l'espressività per strato. Proponiamo Mixture of LoRAs (MoL), un meccanismo di calcolo condizionale leggero che inserisce esperti di Low-Rank Adaptation (LoRA) all'interno di una rete feed-forward condivisa (FFN). MoL consente la modulazione condizionata al token dello spazio dei pesi nella FFN condivisa senza sciogliere i parametri del backbone, a differenza degli approcci precedenti che aggiungevano adattatori fissi o esternamente collegati. Addestriamo un'architettura ricorsiva modernizzata, ModernALBERT, integrando embedding rotazionali, GeGLU, FlashAttention e un'inizializzazione basata su distillazione. Su GLUE, SQuAD-v2 e BEIR, ModernALBERT (50M-120M) raggiunge prestazioni all'avanguardia tra i modelli compatti e supera baseline completamente parametrizzate più grandi. Proponiamo inoltre una procedura di fusione degli esperti che comprime MoL in un singolo adattatore durante l'inferenza preservando l'accuratezza, consentendo un deployment efficiente. I nostri risultati dimostrano che la modulazione condizionata dello spazio dei pesi ripristina efficacemente l'espressività persa a causa della condivisione aggressiva dei parametri nei transformer ricorsivi.
I manipolatori mobili in ambito domestico devono sia navigare che manipolare oggetti. Ciò richiede una rappresentazione della scena compatta e semanticamente ricca, che catturi la posizione degli oggetti, la loro funzione e quali parti siano azionabili. I scene graph sono una scelta naturale, eppure i lavori precedenti spesso separano le relazioni spaziali da quelle funzionali, trattano le scene come istantanee statiche senza stati degli oggetti o aggiornamenti temporali, e trascurano le informazioni più rilevanti per portare a termine il compito corrente. Per affrontare queste limitazioni, introduciamo MomaGraph, una rappresentazione di scena unificata per agenti embodied che integra relazioni spaziali-funzionali ed elementi interattivi a livello di parti. Tuttavia, progredire con una tale rappresentazione richiede sia dati adeguati che una valutazione rigorosa, elementi largamente assenti. Contribuiamo quindi con MomaGraph-Scenes, il primo dataset su larga scala di scene graph riccamente annotati e guidati dal compito in ambienti domestici, insieme a MomaGraph-Bench, una suite di valutazione sistematica che abbraccia sei capacità di ragionamento, dalla pianificazione di alto livello alla comprensione fine della scena. Basandoci su queste fondamenta, sviluppiamo ulteriormente MomaGraph-R1, un modello visione-linguaggio da 7B addestrato con apprendimento per rinforzo su MomaGraph-Scenes. MomaGraph-R1 predice scene graph orientati al compito e funge da pianificatore di compiti zero-shot all'interno di un framework "Graph-then-Plan". Esperimenti estensivi dimostrano che il nostro modello raggiunge risultati allo stato dell'arte tra i modelli open-source, toccando il 71.6% di accuratezza sul benchmark (+11.4% rispetto al miglior baseline), generalizzando su benchmark pubblici e trasferendosi efficacemente a esperimenti con robot reali.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno significativamente migliorato la comprensione e il ragionamento cross-modale incorporando il ragionamento a Catena del Pensiero (CoT) nello spazio semantico. Sulla base di ciò, studi recenti estendono il meccanismo CoT alla modalità visiva, consentendo ai modelli di integrare informazioni visive durante il ragionamento attraverso strumenti esterni o la generazione esplicita di immagini. Tuttavia, questi metodi rimangono dipendenti da un ragionamento esplicito passo-passo, da un'interazione percezione-ragionamento instabile e da un sovraccarico computazionale significativo. Ispirati dalla cognizione umana, ipotizziamo che il pensiero si sviluppi non in modo lineare, ma attraverso l'alternanza dinamica di ragionamento e percezione all'interno della mente. Motivati da questa prospettiva, proponiamo DMLR, un framework di Ragionamento Latente Multimodale Dinamico a tempo di test che impiega un'ottimizzazione del gradiente della politica latente guidata dalla confidenza per affinare i token di pensiero latente per un ragionamento approfondito. Inoltre, viene introdotta una Strategia di Iniezione Visiva Dinamica, che recupera le caratteristiche visive più rilevanti ad ogni token di pensiero latente e aggiorna l'insieme delle migliori patch visive. Le patch aggiornate vengono quindi iniettate nel token di pensiero latente per ottenere un'alternanza dinamica visivo-testuale. Esperimenti condotti su sette benchmark di ragionamento multimodale e varie architetture di modelli dimostrano che DMLR migliora significativamente le prestazioni di ragionamento e percezione mantenendo un'elevata efficienza inferenziale.
La creazione di nuovi concetti visivi richiede spesso di collegare idee distanti attraverso i loro attributi condivisi più rilevanti: la loro "vibrazione". Introduciamo il Vibe Blending, un nuovo compito per generare ibridi coerenti e significativi che rivelino questi attributi condivisi tra immagini. Ottenere tali fusioni è impegnativo per i metodi attuali, che faticano a identificare e percorrere percorsi non lineari che collegano concetti distanti nello spazio latente. Proponiamo Vibe Space, una varietà a grafo gerarchico che apprende geodetiche a bassa dimensionalità in spazi di feature come CLIP, consentendo transizioni fluide e semanticamente coerenti tra concetti. Per valutare la qualità creativa, progettiamo un framework ispirato alla cognizione che combina giudizi umani, ragionamento di LLM e un punteggio di difficoltà geometrico basato sul percorso. Rileviamo che Vibe Space produce fusioni che gli esseri umani giudicano costantemente più creative e coerenti rispetto ai metodi attuali.
La valutazione della qualità delle tabelle generate da grandi modelli linguistici (LLM) rimane una sfida aperta: le metriche esistenti appiattiscono le tabelle in testo, ignorandone la struttura, o si basano su riferimenti fissi che ne limitano la generalizzazione. Presentiamo TabReX, un framework senza riferimento e guidato da proprietà per valutare la generazione tabulare tramite ragionamento basato su grafi. TabReX converte sia il testo sorgente che le tabelle generate in grafi della conoscenza canonici, li allinea attraverso un processo di matching guidato da LLM e calcola punteggi interpretabili e consapevoli di rubriche che quantificano la fedeltà strutturale e fattuale. La metrica risultante fornisce compromessi controllabili tra sensibilità e specificità, producendo giudizi allineati con quelli umani e tracce di errore a livello di cella. Per valutare sistematicamente la robustezza delle metriche, introduciamo TabReX-Bench, un benchmark su larga scala che abbraccia sei domini e dodici tipi di perturbazione guidati da pianificatori, suddivisi in tre livelli di difficoltà. I risultati empirici dimostrano che TabReX raggiunge la correlazione più elevata con le classificazioni di esperti, rimane stabile sotto perturbazioni più difficili e consente un'analisi granulare modello-vs-prompt, stabilendo un nuovo paradigma per la valutazione affidabile e spiegabile dei sistemi di generazione strutturata.
L'ascesa dei grandi modelli linguistici (LLM) ha introdotto un nuovo tipo di programmazione: la programmazione in linguaggio naturale. Scrivendo prompt che guidano gli LLM nell'eseguire elaborazione del linguaggio naturale, generazione di codice, ragionamento, ecc., gli utenti stanno scrivendo codice in linguaggio naturale – codice in linguaggio naturale – per essere eseguito dall'LLM. Un'area di ricerca emergente consente l'interoperabilità tra il codice in linguaggio naturale e linguaggi formali come Python. Presentiamo una nuova astrazione di programmazione, lo stato condiviso del programma, che elimina il lavoro manuale richiesto per abilitare l'interoperabilità tra il codice in linguaggio naturale e lo stato del programma. Con lo stato condiviso del programma, i programmatori possono scrivere codice naturale che scrive direttamente variabili di programma, calcola con oggetti del programma e implementa il flusso di controllo nel programma. Presentiamo uno schema per specificare interfacce di funzioni naturali che estendono i sistemi di programmazione per supportare il codice naturale e sfruttiamo questo schema per specificare lo stato condiviso del programma come un'interfaccia di funzione naturale. Implementiamo lo stato condiviso del programma nel sistema di programmazione Nightjar. Nightjar consente ai programmatori di scrivere programmi Python che contengono codice naturale che condivide lo stato del programma Python. Dimostriamo che i programmi Nightjar raggiungono un'accuratezza nel compito paragonabile o superiore alle implementazioni scritte manualmente (+4-19%), riducendo contemporaneamente le linee di codice in media del 39.6%. Il compromesso nell'uso di Nightjar è che può comportare un sovraccarico computazionale a runtime (0.4-4.3x il runtime delle implementazioni manuali).
La Comprensione Emotiva Visiva (VEC) mira a dedurre le polarità sentimentali o le categorie emotive a partire da indizi affettivi incorporati nelle immagini. Negli ultimi anni, i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) hanno stabilito un paradigma popolare nella VEC, sfruttando la loro generalizzabilità per unificare i compiti di VEC definiti secondo diverse tassonomie emotive. Sebbene questo paradigma ottenga un successo notevole, tipicamente formula la VEC come un compito deterministico, richiedendo al modello di produrre un'etichetta emotiva singola e definitiva per ogni immagine. Una tale formulazione non tiene sufficientemente conto dell'inherente soggettività della percezione emotiva, trascurando interpretazioni alternative che potrebbero essere ugualmente plausibili per diversi osservatori. Per affrontare questa limitazione, proponiamo di dotare gli MLLM di capacità di verbalizzare la propria confidenza nelle previsioni emotive. Questo segnale aggiuntivo fornisce agli utenti una stima sia della plausibilità delle interpretazioni alternative che della competenza auto-valutata degli MLLM, migliorando così l'affidabilità nella pratica. Sulla base di questa intuizione, introduciamo un framework di addestramento in tre fasi che progressivamente fornisce ragionamento strutturato, insegna a verbalizzare la confidenza e calibra l'espressione della confidenza, culminando in EmoCaliber, un MLLM per VEC consapevole del proprio livello di confidenza. Attraverso valutazioni eque e complete sul benchmark unificato VECBench, EmoCaliber dimostra una superiorità generale rispetto ai metodi esistenti sia nella previsione emotiva che nella stima della confidenza. Questi risultati convalidano l'efficacia del nostro approccio e segnano un passo fattibile verso sistemi VEC più affidabili. Pagina del progetto: https://github.com/wdqqdw/EmoCaliber.