Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo InternVL 3.5, una nuova famiglia di modelli multimodali open-source che segna un significativo avanzamento in termini di versatilità, capacità di ragionamento ed efficienza inferenziale lungo la serie InternVL. Un'innovazione chiave è il framework Cascade Reinforcement Learning (Cascade RL), che migliora il ragionamento attraverso un processo a due fasi: RL offline per una convergenza stabile e RL online per un allineamento raffinato. Questa strategia di addestramento da grossolana a fine porta a sostanziali miglioramenti nei compiti di ragionamento downstream, ad esempio MMMU e MathVista. Per ottimizzare l'efficienza, proponiamo un Visual Resolution Router (ViR) che regola dinamicamente la risoluzione dei token visivi senza compromettere le prestazioni. Insieme al ViR, la nostra strategia Decoupled Vision-Language Deployment (DvD) separa l'encoder visivo e il modello linguistico su diverse GPU, bilanciando efficacemente il carico computazionale. Questi contributi consentono collettivamente a InternVL3.5 di ottenere un guadagno fino al +16,0% nelle prestazioni complessive di ragionamento e un'accelerazione inferenziale di 4,05 volte rispetto al suo predecessore, ovvero InternVL3. Inoltre, InternVL3.5 supporta nuove capacità come l'interazione GUI e l'agency embodied. In particolare, il nostro modello più grande, ovvero InternVL3.5-241B-A28B, raggiunge risultati all'avanguardia tra i MLLM open-source in compiti multimodali generali, di ragionamento, testuali e agentici, riducendo il divario prestazionale con i principali modelli commerciali come GPT-5. Tutti i modelli e il codice sono rilasciati pubblicamente.
Nonostante i promettenti progressi dei recenti modelli autoregressivi nella generazione di immagini da testo (T2I), la loro capacità di gestire prompt multi-attributo e ambigui rimane limitata. Per affrontare queste limitazioni, i lavori esistenti hanno applicato il ragionamento a catena (CoT) per abilitare una sintesi visiva consapevole delle fasi e hanno impiegato l'apprendimento per rinforzo (RL) per migliorare le capacità di ragionamento. Tuttavia, la maggior parte dei modelli fornisce segnali di ricompensa solo alla fine della fase di generazione. Questa guida monolitica esclusivamente finale rende difficile identificare quali fasi contribuiscono positivamente al risultato finale e può portare a politiche subottimali. Per risolvere questo problema, proponiamo un paradigma di Catena Visiva di Guida (Visual-CoG) composto da tre fasi: ragionamento semantico, affinamento del processo e valutazione del risultato, con ricompense consapevoli delle fasi che forniscono una guida immediata lungo l'intera pipeline di generazione delle immagini. Inoltre, costruiamo un benchmark di cognizione visiva, VisCog-Bench, che comprende quattro sottotask per valutare l'efficacia del ragionamento semantico. Valutazioni complete su GenEval, T2I-CompBench e il proposto VisCog-Bench mostrano miglioramenti rispettivamente del 15%, 5% e 19%, dimostrando le prestazioni superiori del Visual-CoG proposto. Rilasceremo presto tutte le risorse.
Presentiamo Hermes 4, una famiglia di modelli di ragionamento ibrido che combina un ragionamento strutturato a più turni con un'ampia capacità di seguire istruzioni. Descriviamo le sfide incontrate durante la curatela dei dati, la sintesi, l'addestramento e la valutazione, e delineiamo le soluzioni adottate per affrontare queste sfide su larga scala. Valutiamo in modo completo su benchmark di ragionamento matematico, codifica, conoscenza, comprensione e allineamento, e riportiamo sia le prestazioni quantitative che l'analisi comportamentale qualitativa. Per supportare la ricerca aperta, tutti i pesi dei modelli sono pubblicati pubblicamente su https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728.
I metodi di generazione da testo a 3D hanno fatto significativi progressi sfruttando modelli di diffusione 2D pre-addestrati, producendo risultati di alta qualità e coerenti in 3D. Tuttavia, spesso falliscono nel generare concetti fuori dal dominio (OOD) o rari, producendo risultati incoerenti o imprecisi. A tal fine, proponiamo MV-RAG, una nuova pipeline da testo a 3D che prima recupera immagini 2D rilevanti da un ampio database di immagini 2D reali e poi condiziona un modello di diffusione multivista su queste immagini per sintetizzare output multivista coerenti e accurati. L'addestramento di un modello condizionato al recupero viene ottenuto tramite una nuova strategia ibrida che collega dati multivista strutturati e collezioni diverse di immagini 2D. Ciò implica l'addestramento su dati multivista utilizzando viste di condizionamento aumentate che simulano la varianza del recupero per la ricostruzione specifica della vista, insieme all'addestramento su insiemi di immagini 2D reali recuperate utilizzando un obiettivo distintivo di previsione della vista esclusa: il modello prevede la vista esclusa dalle altre viste per inferire la coerenza 3D dai dati 2D. Per facilitare una rigorosa valutazione OOD, introduciamo una nuova raccolta di prompt OOD impegnativi. Gli esperimenti condotti rispetto ai metodi all'avanguardia da testo a 3D, da immagine a 3D e di personalizzazione dimostrano che il nostro approccio migliora significativamente la coerenza 3D, il fotorealismo e l'aderenza al testo per concetti OOD/rari, mantenendo prestazioni competitive sui benchmark standard.
Studiamo perché il Ragionamento Integrato con Strumenti (Tool-Integrated Reasoning, TIR) rende i Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) più capaci. Sebbene i LLMs integrati con strumenti come interpreti di codice Python mostrino un grande potenziale, è mancata una teoria principiata che spieghi perché questo paradigma sia efficace. Questo lavoro fornisce la prima dimostrazione formale che il TIR espande fondamentalmente le capacità di un LLM. Dimostriamo che gli strumenti consentono un'espansione rigorosa del supporto empirico e fattibile del modello, superando il limite delle capacità dei modelli basati esclusivamente su testo, sbloccando strategie di risoluzione dei problemi che altrimenti sarebbero impossibili o eccessivamente verbose. Per guidare il comportamento del modello senza compromettere la stabilità e le prestazioni dell'addestramento, introduciamo anche l'Optimizzazione della Politica con Modellazione del Vantaggio (Advantage Shaping Policy Optimization, ASPO), un nuovo algoritmo che modifica direttamente la funzione del vantaggio per guidare il comportamento della politica. Condividiamo esperimenti completi su benchmark matematici complessi, utilizzando un interprete Python come strumento esterno. I nostri risultati mostrano che il modello TIR supera decisamente la sua controparte basata solo su testo nella metrica pass@k. Crucialmente, questo vantaggio non è limitato a problemi computazionalmente intensivi, ma si estende a quelli che richiedono un significativo insight astratto. Identifichiamo inoltre i modelli cognitivi emergenti che illustrano come i modelli imparano a pensare con gli strumenti. Infine, riportiamo un comportamento migliorato nell'uso degli strumenti con l'invocazione precoce del codice e turni molto più interattivi con ASPO. Nel complesso, il nostro lavoro fornisce la prima spiegazione principiata del successo del TIR, spostando l'attenzione dal semplice fatto che gli strumenti funzionano al perché e al come essi abilitano un ragionamento più potente.
Il ragionamento è una capacità fondamentale dei grandi modelli linguistici, ma comprendere come apprendono ed eseguono ragionamenti a più passaggi rimane un problema aperto. In questo studio, esploriamo come diverse architetture e metodi di addestramento influenzino le capacità di ragionamento a più passaggi dei modelli all'interno di un framework di automi cellulari. Addestrando su sequenze di stati generate con funzioni booleane casuali per condizioni iniziali casuali per escludere la memorizzazione, dimostriamo che la maggior parte delle architetture neurali apprende ad astrarre le regole sottostanti. Sebbene i modelli raggiungano un'elevata accuratezza nella previsione dello stato successivo, le loro prestazioni diminuiscono drasticamente se è richiesto un ragionamento a più passaggi. Confermiamo che l'aumento della profondità del modello gioca un ruolo cruciale per i calcoli sequenziali. Dimostriamo che un'estensione della profondità effettiva del modello con ricorrenza, memoria e scalabilità del calcolo al momento del test migliora sostanzialmente le capacità di ragionamento.
Proponiamo T2I-ReasonBench, un benchmark che valuta le capacità di ragionamento dei modelli di generazione da testo a immagine (T2I). Esso si compone di quattro dimensioni: Interpretazione di Modi di Dire, Progettazione di Immagini Testuali, Ragionamento su Entità e Ragionamento Scientifico. Proponiamo un protocollo di valutazione in due fasi per misurare l'accuratezza del ragionamento e la qualità delle immagini. Testiamo vari modelli di generazione T2I e forniamo un'analisi completa delle loro prestazioni.
I modelli visione-linguaggio (VLMs) dimostrano prestazioni impressionanti nella comprensione di contenuti visivi con istruzioni linguistiche convertendo l'input visivo in token visivi. Tuttavia, la ridondanza nei token visivi comporta un'efficienza inferenziale degradata dei VLMs. Sebbene siano stati proposti molti algoritmi per ridurre il numero di token visivi, la maggior parte di essi applica solo informazioni unimodali (ad esempio, visione/testo) per il pruning e ignora la proprietà intrinsecamente multimodale dei compiti visione-linguaggio. Inoltre, manca un criterio generico che possa essere applicato a diverse modalità. Per mitigare questa limitazione, in questo lavoro proponiamo di sfruttare sia i token visivi che quelli testuali per selezionare token visivi informativi attraverso il criterio di copertura. Per prima cosa, formuliamo il problema di selezione del sottoinsieme come un problema di massima copertura. Successivamente, un sottoinsieme di token visivi viene ottimizzato per coprire sia i token testuali che l'insieme originale di token visivi, simultaneamente. Infine, un agente VLM può essere adottato per migliorare ulteriormente la qualità dei token testuali per guidare il pruning visivo. Il metodo proposto, MMTok, è ampiamente valutato su dataset di benchmark con diversi VLMs. Il confronto illustra che le informazioni visive e testuali sono complementari e che combinare informazioni multimodali può superare con un margine significativo il baseline unimodale. Inoltre, sotto il criterio di massima copertura sul dataset POPE, il nostro metodo ottiene un'accelerazione di 1,87x mantenendo il 98,7% delle prestazioni originali su LLaVA-NeXT-13B. Inoltre, con soli quattro token visivi, preserva ancora l'87,7% delle prestazioni originali su LLaVA-1.5-7B. Questi risultati evidenziano l'efficacia della copertura nella selezione dei token.
I recenti progressi nei Modelli Linguistici di Grande Scala (LLMs) hanno evidenziato il potenziale dell'Apprendimento per Rinforzo (RL) nel favorire l'emergere di capacità di ragionamento. Nonostante i risultati incoraggianti, persiste un dilemma fondamentale: il miglioramento dell'RL dipende dall'apprendimento da campioni di alta qualità, ma l'esplorazione di tali campioni rimane limitata dalle intrinseche restrizioni degli LLMs. Ciò crea, di fatto, un ciclo indesiderato in cui ciò che non può essere esplorato non può essere appreso. In questo lavoro, proponiamo il Rubric-Scaffolded Reinforcement Learning (RuscaRL), un nuovo framework di scaffolding didattico progettato per superare il collo di bottiglia dell'esplorazione nel ragionamento generale degli LLMs. Nello specifico, RuscaRL introduce rubriche a checklist come (1) scaffolding esplicito per l'esplorazione durante la generazione di rollout, dove diverse rubriche vengono fornite come guida esterna all'interno delle istruzioni del compito per orientare risposte di alta qualità e diversificate. Questa guida viene gradualmente ridotta nel tempo, incoraggiando il modello a interiorizzare i modelli di ragionamento sottostanti; (2) ricompense verificabili per lo sfruttamento durante l'addestramento del modello, dove possiamo ottenere punteggi robusti di LLM-as-a-Judge utilizzando le rubriche come riferimento, consentendo un RL efficace su compiti di ragionamento generale. Esperimenti estensivi dimostrano la superiorità del RuscaRL proposto su vari benchmark, espandendo efficacemente i confini del ragionamento sotto la valutazione best-of-N. In particolare, RuscaRL incrementa significativamente Qwen-2.5-7B-Instruct da 23.6 a 50.3 su HealthBench-500, superando GPT-4.1. Inoltre, la nostra variante fine-tuned su Qwen3-30B-A3B-Instruct raggiunge 61.1 su HealthBench-500, superando i principali LLMs, incluso OpenAI-o3.
I sistemi multi-agente basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nell'affrontare compiti compositivi complessi. In questo lavoro, applichiamo questo paradigma al problema della generazione di poster a partire da articoli scientifici, un processo pratico ma dispendioso in termini di tempo che i ricercatori devono affrontare quando si preparano per le conferenze. Sebbene approcci recenti abbiano tentato di automatizzare questo compito, la maggior parte trascura i principi fondamentali di progettazione e di estetica, producendo poster che richiedono un sostanziale affinamento manuale. Per superare queste limitazioni progettuali, proponiamo PosterGen, un framework multi-agente che rispecchia il flusso di lavoro dei designer professionisti di poster. Esso è composto da quattro agenti specializzati che collaborano: (1) gli agenti Parser e Curator estraggono i contenuti dall'articolo e organizzano lo storyboard; (2) l'agente Layout mappa i contenuti in una struttura spaziale coerente; (3) gli agenti Stylist applicano elementi di design visivo come colore e tipografia; e (4) il Renderer compone il poster finale. Insieme, questi agenti producono poster che sono sia semanticamente fondati che visivamente accattivanti. Per valutare la qualità del design, introduciamo una rubrica basata su un modello visione-linguaggio (VLM) che misura l'equilibrio del layout, la leggibilità e la coerenza estetica. I risultati sperimentali mostrano che PosterGen eguaglia costantemente i metodi esistenti nella fedeltà dei contenuti e supera significativamente gli approcci attuali nel design visivo, generando poster pronti per la presentazione con un minimo intervento umano.
I benchmark modellano il progresso nella ricerca sull'IA. Un benchmark utile dovrebbe essere sia difficile che realistico: le domande dovrebbero mettere alla prova i modelli all'avanguardia, riflettendo al contempo l'uso nel mondo reale. Tuttavia, i paradigmi attuali affrontano una tensione tra difficoltà e realismo: i benchmark in stile esame sono spesso resi artificialmente difficili con un valore limitato nel mondo reale, mentre i benchmark basati sull'interazione reale degli utenti tendono a privilegiare problemi semplici e ad alta frequenza. In questo lavoro, esploriamo un paradigma radicalmente diverso: valutare i modelli su domande irrisolte. Piuttosto che un benchmark statico valutato una volta, curiamo domande irrisolte e valutiamo i modelli in modo asincrono nel tempo con screening assistito da validatori e verifica comunitaria. Introduciamo UQ, un banco di prova di 500 domande impegnative e diversificate provenienti da Stack Exchange, che spaziano da teoria dell'informatica e matematica a fantascienza e storia, esplorando capacità come ragionamento, veridicità e navigazione. UQ è difficile e realistico per costruzione: le domande irrisolte sono spesso complesse e sorgono naturalmente quando gli esseri umani cercano risposte, quindi risolverle offre un valore diretto nel mondo reale. I nostri contributi sono tre: (1) UQ-Dataset e la sua pipeline di raccolta che combina filtri basati su regole, giudici LLM e revisione umana per garantire la qualità delle domande (ad esempio, ben definite e difficili); (2) UQ-Validators, strategie di validazione composte che sfruttano il divario generatore-validatore per fornire segnali di valutazione e pre-scremare le soluzioni candidate per la revisione umana; e (3) UQ-Platform, una piattaforma aperta in cui gli esperti verificano collettivamente domande e soluzioni. Il modello migliore supera la validazione UQ solo sul 15% delle domande, e la verifica umana preliminare ha già identificato risposte corrette tra quelle che hanno superato il test. UQ traccia un percorso per valutare i modelli all'avanguardia su sfide aperte e reali, dove il successo spinge i confini della conoscenza umana. Rilasciamo UQ all'indirizzo https://uq.stanford.edu.
I tokenizzatori vocali rappresentano componenti fondamentali per i modelli linguistici vocali, tuttavia i design attuali presentano diverse limitazioni, tra cui: 1) dipendenza da strutture di quantizzazione vettoriale residua multi-strato o da alti frame rate, 2) affidamento a modelli pre-addestrati ausiliari per la distillazione semantica, e 3) necessità di complessi processi di addestramento in due fasi. In questo lavoro, introduciamo il Text-aware Diffusion Transformer Speech Codec (TaDiCodec), un approccio innovativo progettato per superare queste sfide. TaDiCodec utilizza un'ottimizzazione end-to-end per la quantizzazione e la ricostruzione attraverso un autoencoder diffusivo, integrando al contempo una guida testuale nel decoder diffusivo per migliorare la qualità della ricostruzione e ottenere una compressione ottimale. TaDiCodec raggiunge un frame rate estremamente basso di 6,25 Hz e un bitrate corrispondente di 0,0875 kbps con un codebook a singolo strato per audio a 24 kHz, mantenendo prestazioni superiori su metriche critiche di valutazione della generazione vocale come il Word Error Rate (WER), la similarità del parlante (SIM) e la qualità del parlato (UTMOS). È importante notare che TaDiCodec impiega un paradigma di addestramento a singola fase e end-to-end, eliminando la necessità di modelli pre-addestrati ausiliari. Validiamo inoltre la compatibilità di TaDiCodec nella sintesi vocale zero-shot basata su modelli linguistici, sia con modellazione autoregressiva che con modellazione generativa mascherata, dimostrandone l'efficacia e l'efficienza per la modellazione linguistica vocale, nonché un gap di ricostruzione-generazione significativamente ridotto. Rilasciamo il nostro codice e i checkpoint del modello. Campioni audio sono disponibili su https://tadicodec.github.io/. Il codice e i checkpoint del modello sono rilasciati su https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
I recenti progressi nei grandi modelli visione-linguaggio (VLMs) si sono concentrati principalmente sull'inglese, con un'attenzione limitata ad altre lingue. Per colmare questa lacuna, introduciamo MEENA (noto anche come PersianMMMU), il primo dataset progettato per valutare i VLMs persiani in compiti scientifici, di ragionamento e di comprensione a livello umano. Il nostro dataset comprende circa 7.500 domande in persiano e 3.000 in inglese, che coprono un'ampia gamma di argomenti come il ragionamento, la matematica, la fisica, diagrammi, grafici, e l'arte e la letteratura persiana. Le caratteristiche principali di MEENA includono: (1) una copertura diversificata di materie che spazia su vari livelli educativi, dalla scuola primaria alla secondaria superiore, (2) metadati ricchi, inclusi livelli di difficoltà e risposte descrittive, (3) dati originali in persiano che preservano le sfumature culturali, (4) una struttura bilingue per valutare le prestazioni cross-linguistiche, e (5) una serie di esperimenti diversificati che valutano varie capacità, tra cui le prestazioni complessive, la capacità del modello di prestare attenzione alle immagini e la sua tendenza a generare allucinazioni. Speriamo che questo benchmark contribuisca a migliorare le capacità dei VLMs oltre l'inglese.
Questo articolo esamina i limiti della normalizzazione nei meccanismi di attenzione. Iniziamo con un quadro teorico che consente l'identificazione della capacità selettiva del modello e della separazione geometrica coinvolta nella selezione dei token. La nostra analisi include limiti espliciti sulle distanze e criteri di separazione per i vettori dei token sotto il ridimensionamento softmax. Attraverso esperimenti con il modello GPT-2 pre-addestrato, convalidiamo empiricamente i nostri risultati teorici e analizziamo i comportamenti chiave del meccanismo di attenzione. In particolare, dimostriamo che all'aumentare del numero di token selezionati, la capacità del modello di distinguere i token informativi diminuisce, convergendo spesso verso un modello di selezione uniforme. Mostriamo inoltre che la sensibilità del gradiente sotto la normalizzazione softmax presenta sfide durante l'addestramento, specialmente a impostazioni di temperatura bassa. Questi risultati avanzano la comprensione attuale del meccanismo di attenzione basato su softmax e motivano la necessità di strategie di normalizzazione e selezione più robuste nelle future architetture di attenzione.
Le tabelle semi-strutturate, ampiamente utilizzate in applicazioni reali (ad esempio, report finanziari, cartelle cliniche, ordini transazionali), spesso presentano layout flessibili e complessi (ad esempio, intestazioni gerarchiche e celle unite). Queste tabelle si basano generalmente su analisti umani per interpretare i layout delle tabelle e rispondere a relative domande in linguaggio naturale, il che è costoso e inefficiente. Per automatizzare la procedura, i metodi esistenti affrontano sfide significative. In primo luogo, metodi come NL2SQL richiedono la conversione di tabelle semi-strutturate in tabelle strutturate, il che spesso causa una sostanziale perdita di informazioni. In secondo luogo, metodi come NL2Code e QA multi-modale con LLM faticano a comprendere i layout complessi delle tabelle semi-strutturate e non riescono a rispondere accuratamente alle relative domande. A tal fine, proponiamo ST-Raptor, un framework basato su alberi per il question answering su tabelle semi-strutturate utilizzando modelli linguistici di grandi dimensioni. In primo luogo, introduciamo l'Hierarchical Orthogonal Tree (HO-Tree), un modello strutturale che cattura i layout complessi delle tabelle semi-strutturate, insieme a un algoritmo efficace per la costruzione dell'albero. In secondo luogo, definiamo un insieme di operazioni di base sugli alberi per guidare gli LLM nell'esecuzione di comuni task di QA. Data una domanda dell'utente, ST-Raptor la scompone in sottodomande più semplici, genera le corrispondenti pipeline di operazioni sugli alberi e conduce un allineamento operazione-tabella per un'esecuzione accurata della pipeline. In terzo luogo, incorporiamo un meccanismo di verifica in due fasi: la validazione in avanti controlla la correttezza dei passi di esecuzione, mentre la validazione all'indietro valuta l'affidabilità delle risposte ricostruendo le query dalle risposte previste. Per valutare le prestazioni, presentiamo SSTQA, un dataset di 764 domande su 102 tabelle semi-strutturate del mondo reale. Gli esperimenti mostrano che ST-Raptor supera nove baseline fino al 20% in termini di accuratezza delle risposte. Il codice è disponibile all'indirizzo https://github.com/weAIDB/ST-Raptor.
La valutazione dei sistemi di generazione del linguaggio naturale (NLG) rimane una sfida fondamentale nell'elaborazione del linguaggio naturale (NLP), ulteriormente complicata dall'ascesa dei modelli linguistici su larga scala (LLM) che mirano a essere di uso generale. Recentemente, i modelli linguistici su larga scala come giudici (LLJ) sono emersi come una promettente alternativa alle metriche tradizionali, ma la loro validità rimane poco esplorata. Questo position paper sostiene che l'attuale entusiasmo per gli LLJ potrebbe essere prematuro, poiché la loro adozione ha superato un esame rigoroso della loro affidabilità e validità come valutatori. Attingendo alla teoria della misurazione delle scienze sociali, identifichiamo e valutiamo criticamente quattro presupposti fondamentali alla base dell'uso degli LLJ: la loro capacità di fungere da proxy per il giudizio umano, le loro competenze come valutatori, la loro scalabilità e la loro convenienza economica. Esaminiamo come ciascuno di questi presupposti possa essere messo in discussione dalle limitazioni intrinseche degli LLM, degli LLJ o dalle pratiche attuali nella valutazione dell'NLG. Per fondare la nostra analisi, esploriamo tre applicazioni degli LLJ: riassunto di testi, annotazione di dati e allineamento alla sicurezza. Infine, sottolineiamo la necessità di pratiche di valutazione più responsabili nella valutazione degli LLJ, per garantire che il loro ruolo crescente nel campo sostenga, anziché minare, il progresso nell'NLG.
La ricostruzione di superfici è stata ampiamente studiata nel campo della visione artificiale e della grafica. Tuttavia, i lavori esistenti sulla ricostruzione di superfici faticano a recuperare una geometria accurata della scena quando le viste di input sono estremamente sparse. Per affrontare questo problema, proponiamo MeshSplat, un framework generalizzabile per la ricostruzione di superfici con viste sparse tramite Gaussian Splatting. La nostra idea chiave è sfruttare 2DGS come ponte, che collega la sintesi di nuove viste a priori geometrici appresi e poi trasferisce questi priori per ottenere la ricostruzione della superficie. Nello specifico, incorporiamo una rete feed-forward per prevedere 2DGS allineati ai pixel per ogni vista, il che consente alla rete di sintetizzare immagini di nuove viste e quindi elimina la necessità di una supervisione diretta con ground-truth 3D. Per migliorare l'accuratezza della previsione della posizione e dell'orientamento di 2DGS, proponiamo una perdita di distanza di Chamfer ponderata per regolarizzare le mappe di profondità, specialmente nelle aree sovrapposte delle viste di input, e anche una rete di previsione delle normali per allineare l'orientamento di 2DGS con i vettori normali previsti da un estimatore di normali monoculare. Estesi esperimenti convalidano l'efficacia dei nostri miglioramenti proposti, dimostrando che il nostro metodo raggiunge prestazioni all'avanguardia nei compiti di ricostruzione di mesh generalizzabili con viste sparse. Pagina del progetto: https://hanzhichang.github.io/meshsplat_web
Il ragionamento visivo compositivo è emerso come una frontiera chiave della ricerca nell'IA multimodale, con l'obiettivo di dotare le macchine della capacità umana di scomporre scene visive, ancorare concetti intermedi ed eseguire inferenze logiche multi-step. Mentre le prime rassegne si concentrano su modelli monolotici visione-linguaggio o sul ragionamento multimodale generale, manca ancora una sintesi dedicata della letteratura in rapida espansione sul ragionamento visivo compositivo. Colmiamo questa lacuna con una rassegna completa che copre il periodo dal 2023 al 2025, esaminando sistematicamente oltre 260 articoli provenienti dalle principali conferenze (CVPR, ICCV, NeurIPS, ICML, ACL, ecc.). Iniziamo formalizzando le definizioni chiave e descrivendo perché gli approcci compositivi offrono vantaggi in termini di allineamento cognitivo, fedeltà semantica, robustezza, interpretabilità ed efficienza dei dati. Successivamente, tracciamo un cambiamento paradigmatico in cinque fasi: dalle pipeline centrate sul linguaggio potenziate da prompt, passando per LLM potenziati da strumenti e VLM potenziati da strumenti, fino al recente ragionamento a catena di pensiero e ai VLM agentici unificati, evidenziandone i design architetturali, i punti di forza e le limitazioni. Cataloghiamo poi oltre 60 benchmark e le relative metriche che indagano il ragionamento visivo compositivo lungo dimensioni come l'accuratezza dell'ancoraggio, la fedeltà della catena di pensiero e la percezione ad alta risoluzione. Basandoci su queste analisi, distilliamo intuizioni chiave, identifichiamo sfide aperte (ad esempio, limitazioni del ragionamento basato su LLM, allucinazioni, un bias verso il ragionamento deduttivo, supervisione scalabile, integrazione di strumenti e limitazioni dei benchmark) e delineamo direzioni future, tra cui l'integrazione di modelli del mondo, il ragionamento collaborativo uomo-IA e protocolli di valutazione più ricchi. Offrendo una tassonomia unificata, una roadmap storica e una prospettiva critica, questa rassegna mira a servire come riferimento fondazionale e a ispirare la prossima generazione di ricerca sul ragionamento visivo compositivo.
L'editing di immagini guidato visivamente, in cui le modifiche sono condizionate sia da segnali visivi che da prompt testuali, è emerso come un paradigma potente per la generazione di contenuti granulari e controllabili. Sebbene i recenti modelli generativi abbiano dimostrato capacità notevoli, le valutazioni esistenti rimangono semplici e insufficientemente rappresentative delle sfide di editing del mondo reale. Presentiamo SpotEdit, un benchmark completo progettato per valutare sistematicamente i metodi di editing di immagini guidati visivamente attraverso diversi modelli generativi di diffusione, autoregressivi e ibridi, rivelando sostanziali disparità di prestazioni. Per affrontare una sfida critica ma ancora poco esplorata, il nostro benchmark include un componente dedicato all'allucinazione, evidenziando come i modelli leader, come GPT-4o, spesso allucinino l'esistenza di un segnale visivo ed eseguano erroneamente il compito di editing. Il nostro codice e benchmark sono pubblicamente disponibili all'indirizzo https://github.com/SaraGhazanfari/SpotEdit.
La ricerca precedente ha dimostrato che la presupposizione nelle domande generate può introdurre assunzioni non verificate, portando a incoerenze nella verifica delle affermazioni. Inoltre, la sensibilità ai prompt rimane una sfida significativa per i grandi modelli linguistici (LLM), con una variazione delle prestazioni che può raggiungere il 3-6%. Sebbene i recenti progressi abbiano ridotto questo divario, il nostro studio dimostra che la sensibilità ai prompt rimane un problema persistente. Per affrontare questa questione, proponiamo un framework strutturato e robusto per la verifica delle affermazioni, che ragiona attraverso domande decomposte e prive di presupposizioni. Esperimenti estesi su più prompt, dataset e LLM rivelano che anche i modelli più avanzati rimangono suscettibili alla variazione dei prompt e alla presupposizione. Il nostro metodo mitiga in modo consistente questi problemi, ottenendo un miglioramento fino al 2-5%.
La capacità di parafrasare testi attraverso diversi livelli di complessità è essenziale per creare testi accessibili che possano essere adattati a gruppi di lettori diversi. Pertanto, introduciamo German4All, il primo dataset su larga scala in tedesco di parafrasi allineate a livello di paragrafo e controllate per la leggibilità. Esso copre cinque livelli di leggibilità e comprende oltre 25.000 campioni. Il dataset è sintetizzato automaticamente utilizzando GPT-4 e valutato rigorosamente attraverso giudizi sia umani che basati su modelli linguistici di grandi dimensioni (LLM). Utilizzando German4All, addestriamo un modello open-source di parafrasi controllata per la leggibilità che raggiunge prestazioni all'avanguardia nella semplificazione di testi in tedesco, consentendo adattamenti più sfumati e specifici per il lettore. Rendiamo disponibili sia il dataset che il modello per incoraggiare ulteriori ricerche sulla parafrasi multi-livello.
L'ecocardiografia svolge un ruolo centrale nell'imaging cardiaco, offrendo viste dinamiche del cuore essenziali per la diagnosi e il monitoraggio. Tuttavia, la qualità dell'immagine può essere significativamente compromessa dalla foschia causata da riverberazioni multipath, specialmente in pazienti difficili da visualizzare. In questo lavoro, proponiamo un algoritmo di de-hazing basato su diffusione e guidato semanticamente, sviluppato per la MICCAI Dehazing Echocardiography Challenge (DehazingEcho2025). Il nostro metodo integra un modello di rumore pixel-wise, derivato dalla segmentazione semantica di input offuscati, in un framework di campionamento posteriore di diffusione guidato da un precedente generativo addestrato su dati ecografici puliti. La valutazione quantitativa sul dataset della challenge dimostra prestazioni solide in termini di contrasto e fedeltà. Il codice per l'algoritmo presentato è disponibile all'indirizzo https://github.com/tristan-deep/semantic-diffusion-echo-dehazing.
Il fotorealismo è un aspetto cruciale dei videogiochi moderni, poiché può influenzare l'esperienza del giocatore e, allo stesso tempo, impattare sull'immersione, sull'engagement narrativo e sulla fedeltà visiva. Sebbene i recenti progressi tecnologici nell'hardware, uniti alle tecnologie di rendering all'avanguardia, abbiano notevolmente migliorato il realismo visivo dei videogiochi, raggiungere un fotorealismo autentico in ambienti dinamici con frame rate in tempo reale rimane una sfida significativa a causa del compromesso tra qualità visiva e prestazioni. In questo breve articolo, presentiamo un approccio innovativo per migliorare il fotorealismo dei frame renderizzati nei videogiochi utilizzando le reti generative adversarial. A tal fine, proponiamo il framework Real-time photorealism Enhancement in Games via a dual-stage gEnerative Network (REGEN), che impiega un robusto modello di traduzione immagine-immagine non accoppiata per produrre frame fotorealistici semanticamente coerenti, trasformando il problema in un compito più semplice di traduzione immagine-immagine accoppiata. Ciò consente un addestramento con un metodo leggero in grado di ottenere tempi di inferenza in tempo reale senza compromettere la qualità visiva. Dimostriamo l'efficacia del nostro framework su Grand Theft Auto V, mostrando che l'approccio raggiunge risultati visivi comparabili a quelli prodotti dal robusto metodo Im2Im non accoppiato, migliorando al contempo la velocità di inferenza di 32,14 volte. I nostri risultati indicano inoltre che i frame migliorati in termini di fotorealismo superano quelli prodotti addestrando direttamente un metodo leggero di traduzione Im2Im non accoppiato per tradurre i frame del videogioco verso le caratteristiche visive delle immagini del mondo reale. Codice, modelli pre-addestrati e demo per questo lavoro sono disponibili all'indirizzo: https://github.com/stefanos50/REGEN.