Articoli di ricerca IA selezionati quotidianamente con traduzioni
Agenti web come Deep Research hanno dimostrato capacità cognitive sovrumane, in grado di risolvere problemi altamente complessi legati alla ricerca di informazioni. Tuttavia, la maggior parte della ricerca rimane principalmente incentrata sul testo, trascurando le informazioni visive del mondo reale. Ciò rende il Deep Research multimodale estremamente impegnativo, poiché tali agenti richiedono capacità di ragionamento molto più avanzate in termini di percezione, logica, conoscenza e utilizzo di strumenti più sofisticati rispetto agli agenti basati esclusivamente sul testo. Per affrontare questa limitazione, introduciamo WebWatcher, un agente multimodale per il Deep Research dotato di capacità potenziate di ragionamento visivo-linguistico. Sfrutta traiettorie multimodali sintetiche di alta qualità per un addestramento efficiente a freddo, utilizza vari strumenti per il ragionamento approfondito e migliora ulteriormente la generalizzazione attraverso l'apprendimento per rinforzo. Per valutare meglio le capacità degli agenti multimodali, proponiamo BrowseComp-VL, un benchmark in stile BrowseComp che richiede una complessa ricerca di informazioni che coinvolge sia dati visivi che testuali. I risultati sperimentali dimostrano che WebWatcher supera significativamente il baseline proprietario, il flusso di lavoro RAG e gli agenti open-source in quattro impegnativi benchmark VQA, aprendo la strada alla risoluzione di complessi compiti multimodali di ricerca di informazioni.
La generazione di mondi 3D esplorabili a partire da una singola immagine o prompt testuale costituisce un pilastro fondamentale dell'intelligenza spaziale. Recenti lavori utilizzano modelli video per ottenere una generazione di mondi 3D ampia e generalizzabile. Tuttavia, gli approcci esistenti spesso presentano una portata limitata nelle scene generate. In questo lavoro, proponiamo Matrix-3D, un framework che utilizza una rappresentazione panoramica per la generazione di mondi 3D esplorabili omnidirezionali a copertura ampia, combinando la generazione condizionata di video e la ricostruzione panoramica 3D. Inizialmente addestriamo un modello di diffusione video panoramico guidato da traiettorie che impiega rendering di mesh di scene come condizione, per consentire la generazione di video di scene di alta qualità e geometricamente coerenti. Per elevare il video panoramico della scena a un mondo 3D, proponiamo due metodi separati: (1) un modello di ricostruzione panoramica di grandi dimensioni in modalità feed-forward per una rapida ricostruzione 3D della scena e (2) una pipeline basata su ottimizzazione per una ricostruzione 3D della scena accurata e dettagliata. Per facilitare un addestramento efficace, introduciamo anche il dataset Matrix-Pano, la prima raccolta sintetica su larga scala che comprende 116K sequenze video panoramiche statiche di alta qualità con annotazioni di profondità e traiettorie. Esperimenti estesi dimostrano che il nostro framework proposto raggiunge prestazioni all'avanguardia nella generazione di video panoramici e nella generazione di mondi 3D. Per ulteriori dettagli, consultare https://matrix-3d.github.io.
I recenti progressi negli agenti basati su LLM hanno dimostrato capacità straordinarie nel gestire compiti complessi e ad alta intensità di conoscenza, integrando strumenti esterni. Tra le diverse scelte di strumenti, quelli di ricerca svolgono un ruolo fondamentale nell'accesso a vaste conoscenze esterne. Tuttavia, gli agenti open-source non riescono ancora a raggiungere un livello esperto di Search Intelligence, ovvero la capacità di risolvere query ambigue, generare ricerche precise, analizzare i risultati e condurre esplorazioni approfondite. Gli approcci esistenti presentano carenze in termini di scalabilità, efficienza e qualità dei dati. Ad esempio, i limiti di turno ridotti nei metodi RL online esistenti, ad esempio <=10, limitano l'apprendimento di strategie complesse. Questo articolo introduce ASearcher, un progetto open-source per l'addestramento RL su larga scala di agenti di ricerca. I nostri contributi principali includono: (1) Un addestramento RL completamente asincrono e scalabile che consente ricerche a lungo termine mantenendo un'elevata efficienza di addestramento. (2) Un agente LLM basato su prompt che sintetizza autonomamente QA di alta qualità e impegnativi, creando un ampio dataset QA. Attraverso l'addestramento RL, il nostro agente QwQ-32B basato su prompt ottiene miglioramenti significativi, con guadagni Avg@4 del 46,7% e 20,8% rispettivamente su xBench e GAIA. In particolare, il nostro agente mostra una ricerca estremamente a lungo termine, con chiamate di strumenti che superano i 40 turni e token di output che superano i 150k durante il tempo di addestramento. Con un design semplice dell'agente e senza LLM esterni, ASearcher-Web-QwQ raggiunge punteggi Avg@4 di 42,1 su xBench e 52,8 su GAIA, superando gli agenti open-source 32B esistenti. Rendiamo open-source i nostri modelli, dati di addestramento e codici su https://github.com/inclusionAI/ASearcher.
La capacità di seguire istruzioni ha catalizzato l'era recente dei Large Language Models (LLM) ed è l'abilità fondamentale che sostiene capacità più avanzate come il ragionamento e i comportamenti agentici. Man mano che i compiti diventano più complessi, le strutture logiche incorporate nelle istruzioni in linguaggio naturale diventano sempre più intricate. Tuttavia, quanto bene i LLM performino su tali istruzioni ricche di logica rimane poco esplorato. Proponiamo LogicIFGen e LogicIFEval. LogicIFGen è un framework scalabile e automatizzato per generare istruzioni verificabili da funzioni di codice, che possono esprimere naturalmente una logica complessa come condizionali, annidamenti, ricorsioni e chiamate di funzioni. Inoltre, curiamo una raccolta di funzioni di codice complesse e utilizziamo LogicIFGen per costruire LogicIFEval, un benchmark composto da 426 istruzioni verificabili ricche di logica. I nostri esperimenti dimostrano che gli attuali LLM all'avanguardia continuano a lottare per seguire correttamente le istruzioni in LogicIFEval. La maggior parte dei LLM riesce a seguire meno del 60% delle istruzioni, rivelando significative carenze nella capacità di seguire le istruzioni. Codice e Benchmark: https://github.com/mianzhang/LogicIF
In questo articolo, proponiamo CharacterShot, un framework controllabile e coerente per l'animazione 4D di personaggi che consente a qualsiasi designer di creare personaggi 3D dinamici (ovvero animazione 4D di personaggi) a partire da una singola immagine di riferimento del personaggio e da una sequenza di pose 2D. Iniziamo pre-addestrando un potente modello di animazione 2D di personaggi basato su un avanzato modello image-to-video basato su DiT, che consente di utilizzare qualsiasi sequenza di pose 2D come segnale controllabile. Successivamente, eleviamo il modello di animazione da 2D a 3D introducendo un modulo di doppia attenzione insieme a un priore della fotocamera per generare video multi-vista con coerenza spazio-temporale e spazio-visuale. Infine, applichiamo una nuova ottimizzazione basata su splatting gaussiano 4D con vincoli di vicinato su questi video multi-vista, ottenendo rappresentazioni 4D di personaggi continue e stabili. Inoltre, per migliorare le prestazioni centrate sui personaggi, abbiamo costruito un dataset su larga scala, Character4D, contenente 13.115 personaggi unici con aspetto e movimenti diversi, renderizzati da più punti di vista. Esperimenti estesi sul nostro nuovo benchmark, CharacterBench, dimostrano che il nostro approccio supera i metodi attuali all'avanguardia. Codice, modelli e dataset saranno pubblicamente disponibili su https://github.com/Jeoyal/CharacterShot.
Presentiamo VertexRegen, un innovativo framework per la generazione di mesh che consente la creazione a un livello di dettaglio continuo. I metodi autoregressivi esistenti generano mesh in modo parziale-completo, pertanto i passaggi intermedi della generazione rappresentano strutture incomplete. VertexRegen trae ispirazione dalle mesh progressive e riformula il processo come l'inversione del collasso degli spigoli, ovvero la divisione dei vertici, appresa attraverso un modello generativo. I risultati sperimentali dimostrano che VertexRegen produce mesh di qualità paragonabile ai metodi all'avanguardia, offrendo in modo unico una generazione in qualsiasi momento con la flessibilità di fermarsi a qualsiasi passaggio per ottenere mesh valide con diversi livelli di dettaglio.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) generano testo attraverso un processo iterativo di rimozione del rumore, ma le attuali strategie di decodifica scartano le ricche previsioni intermedie a favore dell'output finale. Il nostro lavoro rivela un fenomeno critico, l'oscillazione temporale, in cui le risposte corrette spesso emergono durante il processo intermedio, ma vengono sovrascritte nei successivi passaggi di rimozione del rumore. Per affrontare questo problema, introduciamo due metodi complementari che sfruttano la consistenza temporale: 1) il Voto di Auto-Consistenza Temporale, una strategia di decodifica in fase di test che non richiede addestramento e aggrega le previsioni attraverso i passaggi di rimozione del rumore per selezionare l'output più consistente; e 2) un metodo post-addestramento denominato Rafforzamento della Consistenza Temporale, che utilizza l'Entropia Semantica Temporale (TSE), una misura della stabilità semantica tra le previsioni intermedie, come segnale di ricompensa per incoraggiare generazioni stabili. I risultati empirici su più benchmark dimostrano l'efficacia del nostro approccio. Utilizzando solo la ricompensa negativa TSE, osserviamo un notevole miglioramento medio del 24,7% sul dataset Countdown rispetto a un dLLM esistente. Combinando la ricompensa per l'accuratezza, otteniamo guadagni assoluti del 2,0% su GSM8K, del 4,3% su MATH500, del 6,6% su SVAMP e del 25,3% su Countdown, rispettivamente. Le nostre scoperte sottolineano il potenziale inesplorato delle dinamiche temporali nei dLLM e offrono due strumenti semplici ma efficaci per sfruttarle.
I modelli visione-linguaggio hanno dimostrato capacità impressionanti come agenti per l'uso del computer (CUA) in grado di automatizzare una vasta gamma di attività informatiche. Con il crescente potenziale commerciale, i dettagli critici dei sistemi CUA più avanzati rimangono chiusi. Poiché questi agenti medieranno sempre più le interazioni digitali e prenderanno decisioni rilevanti per nostro conto, la comunità di ricerca ha bisogno di accesso a framework CUA aperti per studiarne le capacità, i limiti e i rischi. Per colmare questa lacuna, proponiamo OpenCUA, un framework open-source completo per scalare dati e modelli di base CUA. Il nostro framework consiste in: (1) un'infrastruttura di annotazione che cattura in modo fluido le dimostrazioni umane di utilizzo del computer; (2) AgentNet, il primo dataset su larga scala di attività di utilizzo del computer che copre 3 sistemi operativi e oltre 200 applicazioni e siti web; (3) una pipeline scalabile che trasforma le dimostrazioni in coppie stato-azione con ragionamenti riflessivi a lunga catena di pensiero (Chain-of-Thought) che mantengono robusti guadagni di prestazioni con l'aumento dei dati. I nostri modelli di agenti end-to-end dimostrano prestazioni solide su benchmark CUA. In particolare, OpenCUA-32B raggiunge un tasso di successo medio del 34,8% su OSWorld-Verified, stabilendo un nuovo stato dell'arte (SOTA) tra i modelli open-source e superando OpenAI CUA (GPT-4o). Ulteriori analisi confermano che il nostro approccio generalizza bene tra i domini e beneficia significativamente di un aumento del calcolo al momento del test. Rilasciamo il nostro strumento di annotazione, dataset, codice e modelli per costruire basi aperte per ulteriori ricerche su CUA.
Recentemente, i modelli di ragionamento su larga scala hanno dimostrato forti capacità matematiche e di programmazione, e la ricerca profonda sfrutta le loro abilità di ragionamento in compiti impegnativi di recupero delle informazioni. Le attuali opere di ricerca profonda sono generalmente limitate a una singola fonte di conoscenza, sia locale che sul Web. Tuttavia, le aziende spesso richiedono sistemi di ricerca profonda privati che possano sfruttare strumenti di ricerca sia su corpus locali che sul Web. Addestrare semplicemente un agente dotato di più strumenti di ricerca utilizzando il reinforcement learning (RL) piatto è un'idea diretta, ma presenta problemi come la bassa efficienza dei dati di addestramento e una scarsa padronanza degli strumenti complessi. Per affrontare il problema sopra descritto, proponiamo un framework gerarchico di ricerca profonda agentica, HierSearch, addestrato con RL gerarchico. A livello basso, un agente di ricerca profonda locale e un agente di ricerca profonda sul Web vengono addestrati per recuperare prove dai rispettivi domini. A livello alto, un agente pianificatore coordina gli agenti di livello basso e fornisce la risposta finale. Inoltre, per prevenire la copiatura diretta delle risposte e la propagazione degli errori, progettiamo un affinatore di conoscenza che filtra le allucinazioni e le prove irrilevanti restituite dagli agenti di livello basso. Gli esperimenti mostrano che HierSearch ottiene prestazioni migliori rispetto al RL piatto e supera varie baseline di ricerca profonda e generazione aumentata con recupero da più fonti in sei benchmark nei domini generale, finanziario e medico.
I modelli di diffusione attuali per la generazione di video di avatar guidati da audio incontrano difficoltà nel sintetizzare video lunghi con una sincronizzazione audio naturale e una consistenza dell'identità. Questo articolo presenta StableAvatar, il primo video diffusion transformer end-to-end che sintetizza video di alta qualità a lunghezza infinita senza post-elaborazione. Condizionato da un'immagine di riferimento e da un audio, StableAvatar integra moduli di addestramento e inferenza personalizzati per abilitare la generazione di video a lunghezza infinita. Osserviamo che la ragione principale che impedisce ai modelli esistenti di generare video lunghi risiede nella loro modellazione audio. Essi si affidano tipicamente a estrattori preesistenti di terze parti per ottenere embedding audio, che vengono poi iniettati direttamente nel modello di diffusione tramite cross-attention. Poiché le architetture di diffusione attuali non possiedono alcun priore relativo all'audio, questo approccio causa un accumulo severo di errori nella distribuzione latente tra i clip video, portando la distribuzione latente dei segmenti successivi a discostarsi gradualmente dalla distribuzione ottimale. Per affrontare questo problema, StableAvatar introduce un nuovo Time-step-aware Audio Adapter che previene l'accumulo di errori tramite una modulazione consapevole del time-step. Durante l'inferenza, proponiamo un nuovo Audio Native Guidance Mechanism per migliorare ulteriormente la sincronizzazione audio sfruttando la previsione congiunta audio-latente in evoluzione della diffusione come segnale di guida dinamico. Per migliorare la fluidità dei video a lunghezza infinita, introduciamo una Dynamic Weighted Sliding-window Strategy che fonde i latenti nel tempo. Gli esperimenti sui benchmark dimostrano l'efficacia di StableAvatar sia qualitativamente che quantitativamente.
I recenti lavori sul potenziamento delle capacità di ragionamento dei grandi modelli linguistici (LLM) hanno introdotto il controllo esplicito della lunghezza come mezzo per limitare i costi computazionali preservando l'accuratezza. Tuttavia, gli approcci esistenti si basano su budget di addestramento a lunghezza fissa, che non sfruttano la progressione naturale dall'esplorazione alla compressione durante l'apprendimento. In questo lavoro, proponiamo una strategia di apprendimento curriculare per il ragionamento con controllo della lunghezza utilizzando l'ottimizzazione delle politiche relative ai gruppi (GRPO). Il nostro metodo inizia con budget di token generosi e li riduce gradualmente durante l'addestramento, incoraggiando i modelli a scoprire prima strategie di soluzione efficaci e poi a distillarle in tracce di ragionamento più concise. Aumentiamo il GRPO con una funzione di ricompensa che bilancia tre segnali: correttezza del compito (tramite feedback del verificatore), efficienza della lunghezza e aderenza alla formattazione (tramite tag strutturali). Gli esperimenti su GSM8K, MATH500, SVAMP, College Math e GSM+ dimostrano che l'addestramento basato su curriculum supera costantemente le baseline a budget fisso con lo stesso budget finale, raggiungendo una maggiore accuratezza e una significativa migliorata efficienza dei token. Analizziamo ulteriormente l'impatto della ponderazione delle ricompense e del design del programma di decadimento, mostrando che il vincolo progressivo funge da potente bias induttivo per l'addestramento di modelli di ragionamento efficienti. Il nostro codice e i checkpoint sono rilasciati su: https://github.com/hammoudhasan/curriculum_grpo.
Il grounding delle interfacce grafiche (GUI), ovvero il compito di mappare istruzioni in linguaggio naturale a coordinate precise sullo schermo, è fondamentale per gli agenti autonomi che operano su GUI. Sebbene i metodi esistenti raggiungano prestazioni elevate attraverso un ampio addestramento supervisionato o l'apprendimento per rinforzo con ricompense etichettate, rimangono limitati dal costo e dalla disponibilità di annotazioni a livello di pixel. Osserviamo che quando i modelli generano più previsioni per lo stesso elemento GUI, i modelli di sovrapposizione spaziale rivelano segnali di confidenza impliciti che possono guidare una localizzazione più accurata. Sfruttando questa intuizione, proponiamo GUI-RC (Region Consistency), un metodo di scaling al momento del test che costruisce griglie di voto spaziale da più previsioni campionate per identificare le regioni di consenso in cui i modelli mostrano il massimo accordo. Senza alcun addestramento, GUI-RC migliora l'accuratezza del 2-3% su varie architetture nei benchmark ScreenSpot. Introduciamo inoltre GUI-RCPO (Region Consistency Policy Optimization), che trasforma questi modelli di consistenza in ricompense per l'apprendimento per rinforzo al momento del test. Calcolando quanto bene ogni previsione si allinea con il consenso collettivo, GUI-RCPO consente ai modelli di affinare iterativamente i loro output su dati non etichettati durante l'inferenza. Esperimenti estensivi dimostrano la generalità del nostro approccio: GUI-RC aumenta Qwen2.5-VL-3B-Instruct dall'80.11% all'83.57% su ScreenSpot-v2, mentre GUI-RCPO lo migliora ulteriormente all'85.14% attraverso l'ottimizzazione auto-supervisionata. Il nostro approccio rivela il potenziale inesplorato dello scaling al momento del test e dell'apprendimento per rinforzo al momento del test per il grounding delle GUI, offrendo una strada promettente verso agenti GUI più robusti ed efficienti in termini di dati.
La generazione da testo a immagine (Text-to-Image, T2I) è stata ampiamente studiata utilizzando modelli di diffusione (Diffusion Models) e modelli autoregressivi (Autoregressive Models). Recentemente, i Transformer generativi mascherati (Masked Generative Transformers) hanno attirato l'attenzione come alternativa ai modelli autoregressivi per superare le limitazioni intrinseche dell'attenzione causale e della decodifica autoregressiva, grazie all'attenzione bidirezionale e alla decodifica parallela, consentendo una generazione di immagini efficiente e di alta qualità. Tuttavia, la generazione composizionale T2I rimane una sfida, poiché anche i modelli di diffusione più avanzati spesso non riescono a legare accuratamente gli attributi e a ottenere un allineamento corretto tra testo e immagine. Sebbene i modelli di diffusione siano stati ampiamente studiati per questo problema, i Transformer generativi mascherati presentano limitazioni simili ma non sono stati esplorati in questo contesto. Per affrontare questa questione, proponiamo Unmasking with Contrastive Attention Guidance (UNCAGE), un nuovo metodo senza addestramento che migliora la fedeltà composizionale sfruttando le mappe di attenzione per dare priorità allo smascheramento dei token che rappresentano chiaramente oggetti individuali. UNCAGE migliora costantemente le prestazioni sia nelle valutazioni quantitative che qualitative su più benchmark e metriche, con un sovraccarico di inferenza trascurabile. Il nostro codice è disponibile all'indirizzo https://github.com/furiosa-ai/uncage.
L'uso efficace degli strumenti è essenziale affinché i grandi modelli linguistici (LLM) interagiscano in modo significativo con il loro ambiente. Tuttavia, i progressi sono limitati dalla mancanza di framework di apprendimento per rinforzo (RL) efficienti specificamente progettati per l'uso di strumenti, a causa delle difficoltà nella costruzione di ambienti di formazione stabili e nella progettazione di meccanismi di ricompensa verificabili. Per affrontare questo problema, proponiamo una pipeline automatizzata per la costruzione di ambienti, che incorpora la scomposizione degli scenari, la generazione di documenti, l'integrazione di funzioni, la scalabilità della complessità e il deployment localizzato. Ciò consente la creazione di ambienti di formazione di alta qualità che forniscono feedback dettagliato e misurabile senza fare affidamento su strumenti esterni. Inoltre, introduciamo un meccanismo di ricompensa verificabile che valuta sia la precisione nell'uso degli strumenti sia la completezza dell'esecuzione del compito. Quando combinato con i dati di traiettoria raccolti dagli ambienti costruiti, questo meccanismo si integra perfettamente con gli algoritmi RL standard per facilitare la formazione del modello guidata dal feedback. Esperimenti su LLM di diverse dimensioni dimostrano che il nostro approccio migliora significativamente le prestazioni nell'uso degli strumenti dei modelli senza degradare le loro capacità generali, indipendentemente dalle modalità di inferenza o dagli algoritmi di formazione. La nostra analisi suggerisce che questi miglioramenti derivano da una migliore comprensione del contesto e dal ragionamento, guidati dagli aggiornamenti dei parametri MLP negli strati inferiori dei modelli.
Presentiamo Aryabhata 1.0, un modello compatto da 7B parametri ottimizzato per il ragionamento matematico nell'ambito dell'esame accademico indiano, il Joint Entrance Examination (JEE). Nonostante i rapidi progressi nei grandi modelli linguistici (LLM), i modelli attuali spesso rimangono inadatti all'uso educativo. Aryabhata 1.0 è stato costruito unendo modelli open-weight avanzati per il ragionamento, seguito da un fine-tuning supervisionato (SFT) con apprendimento curriculare su tracce verificate di catena di pensiero (CoT) selezionate attraverso il campionamento di rifiuto best-of-n. Per migliorare ulteriormente le prestazioni, abbiamo applicato l'apprendimento per rinforzo con ricompense verificabili (RLVR) utilizzando l'obiettivo A2C con stima del vantaggio relativo al gruppo, insieme a nuove strategie di esplorazione come il Ridimensionamento Adattivo del Gruppo e il Ridimensionamento della Temperatura. Valutato sia su benchmark in-distribuzione (JEE Main 2025) che out-of-distribuzione (MATH, GSM8K), Aryabhata supera i modelli esistenti in termini di accuratezza ed efficienza, offrendo un ragionamento passo-passo pedagogicamente utile. Rilasciamo Aryabhata come modello di base per promuovere modelli linguistici piccoli, open-source e centrati sugli esami. Questo segna il nostro primo rilascio aperto per il feedback della comunità (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 su Hugging Face}); PW sta attivamente addestrando modelli futuri per migliorare ulteriormente i risultati di apprendimento degli studenti.
La generazione efficace di scene multiple richiede transizioni intenzionali, simili a quelle cinematografiche, e una rigorosa continuità filmica. I metodi attuali, tuttavia, spesso privilegiano una coerenza visiva di base, trascurando modelli di montaggio cruciali (ad esempio, campo/controcampo, inserti) che guidano il flusso narrativo per una narrazione avvincente. Ciò produce risultati che possono essere visivamente coerenti ma privi di sofisticazione narrativa e di una vera integrità cinematografica. Per colmare questa lacuna, introduciamo la Next Shot Generation (NSG): la sintesi di una scena successiva di alta qualità che si conforma criticamente ai modelli di montaggio professionale mantenendo una rigorosa continuità cinematografica. Il nostro framework, Cut2Next, sfrutta un Diffusion Transformer (DiT). Utilizza un tuning in-context guidato da una nuova strategia di Hierarchical Multi-Prompting. Questa strategia impiega Relational Prompts per definire il contesto generale e gli stili di montaggio inter-scena. Gli Individual Prompts specificano poi il contenuto per ogni scena e gli attributi cinematografici. Insieme, questi guidano Cut2Next per generare scene successive cinematicamente appropriate. Innovazioni architetturali, Context-Aware Condition Injection (CACI) e Hierarchical Attention Mask (HAM), integrano ulteriormente questi segnali diversi senza introdurre nuovi parametri. Costruiamo i dataset RawCuts (su larga scala) e CuratedCuts (raffinati), entrambi con prompt gerarchici, e introduciamo CutBench per la valutazione. Gli esperimenti mostrano che Cut2Next eccelle nella coerenza visiva e nella fedeltà testuale. Crucialmente, studi sugli utenti rivelano una forte preferenza per Cut2Next, in particolare per la sua aderenza ai modelli di montaggio intenzionali e alla continuità cinematografica complessiva, validando la sua capacità di generare scene successive di alta qualità, espressive narrativamente e coerenti cinematicamente.
In questo articolo, proponiamo AimBot, una tecnica di augmentazione visiva leggera che fornisce segnali spaziali espliciti per migliorare l'apprendimento delle politiche visuomotorie nella manipolazione robotica. AimBot sovrappone linee di tiro e reticoli di mira alle immagini RGB multi-vista, offrendo una guida visiva ausiliaria che codifica lo stato dell'end-effector. Le sovrapposizioni sono calcolate a partire da immagini di profondità, estrinseche della telecamera e dalla posa corrente dell'end-effector, trasmettendo esplicitamente le relazioni spaziali tra la pinza e gli oggetti nella scena. AimBot comporta un sovraccarico computazionale minimo (meno di 1 ms) e non richiede modifiche alle architetture del modello, poiché si limita a sostituire le immagini RGB originali con versioni aumentate. Nonostante la sua semplicità, i nostri risultati dimostrano che AimBot migliora costantemente le prestazioni di varie politiche visuomotorie sia in simulazione che in contesti reali, evidenziando i vantaggi di un feedback visivo radicato spazialmente.
Questo articolo presenta una regolarizzazione semplice ma efficace per il modello linguistico interno indotto dal decodificatore nei modelli ASR encoder-decoder, migliorando così la robustezza e la generalizzazione sia in contesti in-domain che out-of-domain. Il metodo proposto, denominato Decoder-Centric Regularization in Encoder-Decoder (DeCRED), aggiunge classificatori ausiliari al decodificatore, consentendo la previsione del token successivo tramite logit intermedi. Empiricamente, DeCRED riduce la perplexità media del modello linguistico interno BPE del 36,6% rispetto a 11 set di test. Inoltre, ciò si traduce in miglioramenti effettivi del WER rispetto alla baseline in 5 su 7 set di test in-domain e 3 su 4 set di test out-of-domain, riducendo il WER macro rispettivamente dal 6,4% al 6,3% e dal 18,2% al 16,2%. Su TEDLIUM3, DeCRED raggiunge un WER del 7,0%, superando la baseline e la regolarizzazione encoder-centric InterCTC rispettivamente dello 0,6% e dello 0,5%. Infine, confrontiamo DeCRED con OWSM v3.1 e Whisper-medium, mostrando WER competitivi nonostante l'addestramento su molti meno dati e con un numero inferiore di parametri.
Una mano abile in grado di afferrare oggetti in modo generalizzabile è fondamentale per lo sviluppo di intelligenze artificiali incarnate a scopo generale. Tuttavia, i metodi precedenti si concentrano in modo ristretto su metriche di stabilità dell'impugnazione a basso livello, trascurando il posizionamento consapevole delle affordance e le pose simili a quelle umane, che sono cruciali per la manipolazione successiva. Per affrontare queste limitazioni, proponiamo AffordDex, un nuovo framework con un addestramento in due fasi che apprende una politica universale di presa con una comprensione intrinseca sia dei priori di movimento che delle affordance degli oggetti. Nella prima fase, un imitatore di traiettorie viene pre-addestrato su un ampio corpus di movimenti della mano umana per instillare un forte priore per movimenti naturali. Nella seconda fase, un modulo residuo viene addestrato per adattare questi movimenti generali simili a quelli umani a specifiche istanze di oggetti. Questo affinamento è guidato in modo critico da due componenti: il nostro modulo di Segmentazione Consapevole delle Affordance Negative (NAA), che identifica le regioni di contatto funzionalmente inappropriate, e un processo di distillazione privilegiato insegnante-studente che garantisce che la politica finale basata sulla visione sia altamente efficace. Esperimenti estensivi dimostrano che AffordDex non solo raggiunge una presa abile universale, ma rimane anche notevolmente simile a quella umana nella postura e funzionalmente appropriata nella posizione del contatto. Di conseguenza, AffordDex supera significativamente i benchmark state-of-the-art su oggetti visti, istanze non viste e persino categorie completamente nuove.
Presentiamo il primo sistema di valutazione che consente a qualsiasi modello linguistico di grandi dimensioni (LLM) locale, utilizzabile "out-of-the-box", di giocare a Diplomacy in modalità completa senza necessità di fine-tuning o addestramento specializzato. I lavori precedenti richiedevano LLM all'avanguardia o operazioni di fine-tuning, a causa dell'elevata complessità e densità informativa dello stato di gioco di Diplomacy. Combinati con l'elevata variabilità delle partite, questi fattori rendevano Diplomacy proibitivo da studiare. In questo lavoro, abbiamo utilizzato un'iterazione basata sui dati per ottimizzare una rappresentazione testuale dello stato di gioco, in modo che un modello da 24B possa completare le partite in modo affidabile senza alcun fine-tuning. Abbiamo sviluppato strumenti per facilitare il test di ipotesi e l'analisi statistica, e presentiamo casi di studio sulla persuasione, sugli stili di gioco aggressivi e sulle prestazioni attraverso una gamma di modelli. Abbiamo condotto una varietà di esperimenti su molti LLM popolari, riscontrando che i modelli più grandi performano meglio, ma i modelli più piccoli giocano comunque in modo adeguato. Introduciamo inoltre l'Analisi degli Stati Critici: un protocollo sperimentale per iterare rapidamente e analizzare in profondità i momenti chiave di una partita. Il nostro sistema democratizza la valutazione del ragionamento strategico negli LLM eliminando la necessità di fine-tuning e fornisce approfondimenti su come queste capacità emergono naturalmente da LLM ampiamente utilizzati. Il nostro codice è disponibile nel materiale supplementare e sarà reso open source.
Grazie allo sviluppo di modelli cross-modali, il recupero video da testo (T2VR) sta avanzando rapidamente, ma la sua robustezza rimane in gran parte non esaminata. Gli attacchi esistenti contro il T2VR sono progettati per allontanare i video dalle query, ovvero per sopprimere il ranking dei video, mentre gli attacchi che avvicinano i video a query selezionate, ovvero che promuovono il ranking dei video, rimangono in gran parte inesplorati. Questi attacchi possono essere più impattanti poiché gli aggressori potrebbero ottenere più visualizzazioni/clic per benefici finanziari e diffondere (dis)informazione su larga scala. A tal fine, siamo i primi a introdurre un attacco contro il T2VR per promuovere i video in modo avversariale, denominato Video Promotion attack (ViPro). Proponiamo inoltre il Modal Refinement (MoRe) per catturare l'interazione più fine e intricata tra le modalità visive e testuali, al fine di migliorare la trasferibilità in contesti black-box. Esperimenti completi coprono 2 baseline esistenti, 3 modelli T2VR leader, 3 dataset prevalenti con oltre 10.000 video, valutati in 3 scenari. Tutti gli esperimenti sono condotti in un contesto multi-target per riflettere scenari realistici in cui gli aggressori cercano di promuovere il video rispetto a più query contemporaneamente. Abbiamo anche valutato i nostri attacchi per le difese e l'impercettibilità. Nel complesso, ViPro supera altre baseline di oltre 30/10/4% in media per impostazioni white/grey/black-box. Il nostro lavoro evidenzia una vulnerabilità trascurata, fornisce un'analisi qualitativa sui limiti superiore/inferiore dei nostri attacchi e offre spunti su potenziali contromisure. Il codice sarà disponibile pubblicamente su https://github.com/michaeltian108/ViPro.
Gli assistenti di codifica basati su AI come GitHub Copilot stanno trasformando rapidamente lo sviluppo software, ma la loro sicurezza rimane profondamente incerta, specialmente in domini ad alto rischio come la cybersecurity. Gli attuali strumenti di red-teaming spesso si basano su benchmark fissi o prompt irrealistici, tralasciando molte vulnerabilità del mondo reale. Presentiamo ASTRA, un sistema di agenti automatizzato progettato per scoprire sistematicamente difetti di sicurezza nei sistemi di generazione di codice e di guida alla sicurezza basati su AI. ASTRA opera in tre fasi: (1) costruisce grafi di conoscenza strutturati specifici per il dominio che modellano compiti software complessi e debolezze note; (2) esegue un'esplorazione online delle vulnerabilità di ciascun modello target sondando in modo adattivo sia lo spazio di input, ovvero l'esplorazione spaziale, sia i processi di ragionamento, ovvero l'esplorazione temporale, guidato dai grafi di conoscenza; e (3) genera casi di alta qualità che inducono violazioni per migliorare l'allineamento del modello. A differenza dei metodi precedenti, ASTRA si concentra su input realistici—richieste che gli sviluppatori potrebbero effettivamente fare—e utilizza sia la modellazione del dominio guidata da astrazioni offline che l'adattamento online del grafo di conoscenza del dominio per far emergere vulnerabilità di casi limite. In due principali domini di valutazione, ASTRA individua dall'11% al 66% in più di problemi rispetto alle tecniche esistenti e produce casi di test che portano a un addestramento di allineamento più efficace del 17%, dimostrando il suo valore pratico per costruire sistemi AI più sicuri.
I Large Language Model (LLM) hanno dimostrato capacità straordinarie in vari domini, con la generazione di codice che emerge come un'area chiave di interesse. Sebbene siano stati proposti numerosi benchmark per valutarne le abilità di generazione del codice, questi benchmark presentano diverse limitazioni critiche. In primo luogo, spesso si basano su annotazioni manuali, che richiedono tempo e sono difficili da scalare tra diversi linguaggi di programmazione e livelli di complessità dei problemi. In secondo luogo, la maggior parte dei benchmark esistenti si concentra principalmente su Python, mentre i pochi benchmark multilingue soffrono di una difficoltà limitata e di una distribuzione disomogenea dei linguaggi. Per affrontare queste sfide, proponiamo AutoCodeGen, un metodo automatizzato per generare dataset multilingue ad alta difficoltà per la generazione di codice senza annotazioni manuali. AutoCodeGen garantisce la correttezza e la completezza dei casi di test generando input di test con LLM e ottenendo output di test attraverso un sandbox multilingue, raggiungendo un'elevata qualità dei dati grazie alla generazione di problemi in ordine inverso e a più passaggi di filtraggio. Utilizzando questo metodo innovativo, introduciamo AutoCodeBench, un benchmark su larga scala per la generazione di codice composto da 3.920 problemi equamente distribuiti tra 20 linguaggi di programmazione. È specificamente progettato per valutare gli LLM su compiti multilingue impegnativi, diversificati e pratici. Valutiamo oltre 30 LLM open-source e proprietari leader su AutoCodeBench e sulla sua versione semplificata AutoCodeBench-Lite. I risultati mostrano che anche gli LLM più avanzati faticano a gestire la complessità, la diversità e la natura multilingue di questi compiti. Inoltre, introduciamo AutoCodeBench-Complete, specificamente progettato per i modelli di base per valutarne le capacità di generazione di codice in contesti few-shot. Speriamo che la serie AutoCodeBench possa servire come una risorsa preziosa e ispirare la comunità a concentrarsi su scenari di generazione di codice multilingue più impegnativi e pratici.
Sebbene i modelli linguistici di grandi dimensioni stiano diventando sempre più capaci, è ancora irragionevole aspettarsi che eccellano in compiti che sono sottorappresentati su Internet. Sfruttare i LLM per applicazioni specializzate, in particolare in linguaggi di programmazione di nicchia e domini privati, rimane una sfida e in gran parte irrisolta. In questo lavoro, affrontiamo questa lacuna presentando un approccio completo e open-source per adattare i LLM al linguaggio di programmazione Q, uno strumento popolare nella finanza quantitativa che è molto meno presente su Internet rispetto a Python, C, Java e altri linguaggi "mainstream" e quindi non è un punto di forza dei modelli AI generici. Introduciamo un nuovo dataset di valutazione in stile Leetcode per Q, confrontiamo i principali modelli all'avanguardia su questo dataset, quindi eseguiamo pre-addestramento, fine-tuning supervisionato e apprendimento per rinforzo per addestrare una serie di modelli di ragionamento e non ragionamento basati sulla serie Qwen-2.5, che copre cinque dimensioni di parametri (1.5B, 3B, 7B, 14B, 32B). Il nostro modello migliore raggiunge un'accuratezza pass@1 del 59 percento sul nostro benchmark Q, superando il modello all'avanguardia più performante, Claude Opus-4, del 29.5 percento. Inoltre, tutti i modelli, persino il nostro modello da 1.5B, superano GPT-4.1 in questo compito. Oltre a rilasciare modelli, codice e dati, forniamo una guida dettagliata per la costruzione del dataset, il pre-addestramento del modello, il fine-tuning supervisionato e l'apprendimento per rinforzo. La nostra metodologia è ampiamente applicabile e discutiamo come queste tecniche possano essere estese ad altri compiti, inclusi quelli in cui la valutazione può basarsi su segnali soft o soggettivi.
La capacità di apprendimento continuo dei grandi modelli linguistici (LLM) è cruciale per il progresso dell'intelligenza artificiale generale. Tuttavia, il fine-tuning continuo degli LLM attraverso vari domini spesso soffre di dimenticanza catastrofica, caratterizzata da: 1) una significativa perdita delle loro capacità generali e 2) un drastico declino delle prestazioni nei compiti precedentemente appresi. Per affrontare entrambi i problemi in modo semplice ma stabile, proponiamo General Sample Replay (GeRe), un framework che utilizza testi di pre-addestramento comuni per un'efficace prevenzione della dimenticanza. Oltre a riesaminare le pratiche più diffuse basate sul replay sotto GeRe, sfruttiamo ulteriormente gli stati neurali per introdurre un metodo di ottimizzazione vincolata degli stati di attivazione migliorato, utilizzando una funzione di perdita basata su margine con soglia (TM), che mantiene la coerenza degli stati di attivazione durante l'apprendimento con replay. Siamo i primi a validare che un piccolo insieme fisso di campioni di replay generali pre-raccolti è sufficiente per risolvere entrambe le preoccupazioni: mantenere le capacità generali mentre si promuove la performance complessiva attraverso compiti sequenziali. Infatti, il primo aspetto può intrinsecamente facilitare il secondo. Attraverso esperimenti controllati, confrontiamo sistematicamente TM con diverse strategie di replay sotto il framework GeRe, inclusi l'adattamento semplice delle etichette, l'imitazione dei logit tramite divergenza KL e l'imitazione delle caratteristiche tramite perdite L1/L2. I risultati dimostrano che TM migliora costantemente le prestazioni e mostra una migliore robustezza. Il nostro lavoro apre la strada a un replay efficiente degli LLM per il futuro. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/Qznan/GeRe.
Il compito del trasferimento di stile per gli splat gaussiani 3D è stato esplorato in numerosi lavori precedenti, ma questi richiedono la ricostruzione o il fine-tuning dello splat incorporando informazioni di stile o ottimizzando una rete di estrazione di caratteristiche sulla rappresentazione dello splat. Proponiamo un approccio privo di ricostruzione e ottimizzazione per stilizzare gli splat gaussiani 3D. Questo viene realizzato generando una struttura grafica sulla superficie implicita della rappresentazione dello splat. Successivamente, viene utilizzato un metodo di stilizzazione basato sulla superficie in modalità feed-forward, che viene interpolato nuovamente sui singoli splat nella scena. Ciò consente di utilizzare qualsiasi immagine di stile e splat gaussiano 3D senza ulteriori addestramenti o ottimizzazioni. Inoltre, permette una stilizzazione rapida degli splat, raggiungendo velocità inferiori a 2 minuti anche su hardware di livello consumer. Dimostriamo i risultati di qualità ottenuti con questo approccio e li confrontiamo con altri metodi di trasferimento di stile per splat gaussiani 3D. Il codice è disponibile pubblicamente all'indirizzo https://github.com/davidmhart/FastSplatStyler.
È stato dimostrato che i LLM (Large Language Models) ottengono buoni risultati nella traduzione automatica (MT) grazie all'uso dell'apprendimento in contesto (ICL), rivaleggiando con modelli supervisionati quando si traducono in lingue ad alta risorsa (HRL). Tuttavia, rimangono indietro quando si traducono in lingue a bassa risorsa (LRL). La selezione di esempi tramite ricerca di similarità e la messa a punto supervisionata aiutano, ma i miglioramenti che offrono sono limitati dalle dimensioni, qualità e diversità dei dataset paralleli esistenti. Una tecnica comune nella MT a bassa risorsa è la creazione di dati paralleli sintetici, la più frequente delle quali è la retro-traduzione, in cui i testi esistenti sul lato target vengono tradotti automaticamente nella lingua sorgente. Tuttavia, questo presuppone l'esistenza di testi di buona qualità e rilevanti sul lato target, che non sono facilmente disponibili per molte LRL. In questo articolo, presentiamo TopXGen, un approccio basato su LLM per la generazione di dati di alta qualità e diversificati per argomento in più LRL, che possono poi essere retro-tradotti per produrre testi paralleli utili e diversificati per ICL e messa a punto. La nostra intuizione è che, sebbene i LLM abbiano difficoltà a tradurre in LRL, la loro capacità di tradurre bene in HRL e la loro multilinguità consentono loro di generare testi sul lato target di buona qualità e dal suono naturale, che possono essere tradotti efficacemente in una lingua sorgente ad alta risorsa. Dimostriamo che TopXGen migliora le prestazioni di traduzione dei LLM durante la messa a punto e l'apprendimento in contesto. Codice e output sono disponibili su https://github.com/ArmelRandy/topxgen.
I globuli rossi (RBC) sono essenziali per la salute umana, e la loro precisa analisi morfologica è importante per diagnosticare disturbi ematologici. Nonostante il potenziale dei modelli di base nella diagnostica medica, soluzioni AI complete per l'analisi dei globuli rossi rimangono scarse. Presentiamo RedDino, un modello di base auto-supervisionato progettato per l'analisi delle immagini di globuli rossi. RedDino utilizza un adattamento specifico per i globuli rossi del framework di apprendimento auto-supervisionato DINOv2 ed è addestrato su un dataset curato di 1,25 milioni di immagini di globuli rossi provenienti da diverse modalità e fonti di acquisizione. Valutazioni estensive dimostrano che RedDino supera i modelli all'avanguardia esistenti nella classificazione della forma dei globuli rossi. Attraverso valutazioni che includono il linear probing e la classificazione del vicino più prossimo, confermiamo le sue robuste rappresentazioni di caratteristiche e la capacità di generalizzazione. I nostri principali contributi sono: (1) un modello di base specifico per l'analisi dei globuli rossi, (2) studi di ablazione che esplorano le configurazioni di DINOv2 per la modellazione dei globuli rossi, e (3) una valutazione dettagliata delle prestazioni di generalizzazione. RedDino affronta le principali sfide dell'ematologia computazionale catturando caratteristiche morfologiche sfumate, avanzando lo sviluppo di strumenti diagnostici affidabili. Il codice sorgente e i modelli pre-addestrati per RedDino sono disponibili su https://github.com/Snarci/RedDino, e i modelli pre-addestrati possono essere scaricati dalla nostra collezione Hugging Face su https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc.
Implementare la teoria dei giochi quantistici su hardware reale è impegnativo a causa del rumore, della decoerenza e della connettività limitata dei qubit, tuttavia tali dimostrazioni sono essenziali per validare le previsioni teoriche. Presentiamo una delle prime realizzazioni sperimentali complete del gioco della Battaglia dei Sessi nell'ambito del framework Eisert-Wilkens-Lewenstein (EWL) sul processore superconduttore ibm sherbrooke di IBM Quantum. Quattro strategie quantistiche (I, H, R(pi/4), R(pi)) sono state valutate su 31 valori di entanglement gamma in [0, pi] utilizzando 2048 esecuzioni per configurazione, consentendo un confronto diretto tra previsioni analitiche ed esecuzione hardware. Per mitigare il rumore e la variabilità, introduciamo un metodo di Guided Circuit Mapping (GCM) che seleziona dinamicamente coppie di qubit e ottimizza il routing basandosi su dati topologici e di calibrazione in tempo reale. Il modello analitico prevede un miglioramento del payoff fino al 108% rispetto all'equilibrio classico, e nonostante le deviazioni indotte dall'hardware, i risultati sperimentali con GCM preservano le tendenze attese del payoff con un errore relativo compreso tra il 3,5% e il 12%. Questi risultati dimostrano che i vantaggi quantistici nella coordinazione strategica possono persistere in condizioni realistiche NISQ, fornendo una via verso applicazioni pratiche della teoria dei giochi quantistici in sistemi multi-agente, economici e di decisione distribuita.
Comprendere i pregiudizi e gli stereotipi codificati nei pesi dei Large Language Models (LLM) è fondamentale per sviluppare strategie di mitigazione efficaci. Il comportamento distorto è spesso sottile e non banale da isolare, anche quando viene deliberatamente elicitato, rendendo l'analisi sistematica e la rimozione dei pregiudizi particolarmente impegnative. Per affrontare questo problema, introduciamo BiasGym, un framework semplice, economico e generalizzabile per iniettare, analizzare e mitigare in modo affidabile le associazioni concettuali all'interno dei LLM. BiasGym è composto da due componenti: BiasInject, che inietta specifici pregiudizi nel modello attraverso il fine-tuning basato su token mantenendo il modello congelato, e BiasScope, che sfrutta questi segnali iniettati per identificare e guidare i componenti responsabili del comportamento distorto. Il nostro metodo consente un'elicitazione coerente dei pregiudizi per l'analisi meccanicistica, supporta la rimozione mirata dei pregiudizi senza degradare le prestazioni sui task downstream e si generalizza a pregiudizi non visti durante l'addestramento. Dimostriamo l'efficacia di BiasGym nel ridurre stereotipi del mondo reale (ad esempio, le persone di un paese che sono "guidatori spericolati") e nell'indagare associazioni fittizie (ad esempio, le persone di un paese che hanno "la pelle blu"), mostrandone l'utilità sia per interventi di sicurezza che per la ricerca sull'interpretabilità.
Gli attuali benchmark di ragionamento matematico per i grandi modelli linguistici (LLM) stanno raggiungendo un livello di saturazione, con alcuni che ottengono un'accuratezza superiore al 90%, e sono sempre più compromessi dalla contaminazione del set di addestramento. Introduciamo Putnam-AXIOM, un benchmark composto da 522 problemi di livello universitario tratti dal prestigioso William Lowell Putnam Mathematical Competition, e Putnam-AXIOM Variation, un set complementare non visto di 100 varianti funzionali generate perturbando programmaticamente variabili e costanti. Il protocollo di variazione produce un flusso illimitato di istanze altrettanto difficili e non viste, fornendo un banco di prova resistente alla contaminazione. Sul set Originale, o1-preview di OpenAI — il modello più potente valutato — ottiene un punteggio del 41,9%, ma la sua accuratezza scende del 19,6% (una diminuzione relativa del 46,8%) sulle Variation accoppiate. I restanti diciotto modelli mostrano la stessa tendenza al ribasso, con dieci di essi che presentano intervalli di confidenza al 95% non sovrapposti. Queste lacune suggeriscono memorizzazione e sottolineano la necessità di benchmark dinamici. Integriamo l'accuratezza "in scatola" con l'accuratezza Teacher-Forced (TFA), una metrica leggera che valuta direttamente le tracce di ragionamento e automatizza le valutazioni delle dimostrazioni in linguaggio naturale. Putnam-AXIOM fornisce quindi un framework di valutazione rigoroso e resistente alla contaminazione per valutare il ragionamento matematico avanzato dei LLM. I dati e il codice di valutazione sono disponibili pubblicamente all'indirizzo https://github.com/brando90/putnam-axiom.
Le vocalizzazioni paralinguistiche - inclusi suoni non verbali come risate e respiri, nonché interiezioni lessicalizzate come "uhm" e "oh" - sono parte integrante della comunicazione parlata naturale. Nonostante la loro importanza nel trasmettere affetto, intenti e segnali interazionali, tali segnali rimangono ampiamente trascurati nei sistemi convenzionali di riconoscimento automatico del parlato (ASR) e di sintesi vocale (TTS). Presentiamo NVSpeech, una pipeline integrata e scalabile che colma il divario tra il riconoscimento e la sintesi delle vocalizzazioni paralinguistiche, comprendendo la costruzione di dataset, la modellazione ASR e la TTS controllabile. (1) Introduciamo un dataset annotato manualmente di 48.430 espressioni pronunciate da esseri umani con 18 categorie paralinguistiche a livello di parola. (2) Sviluppiamo il modello ASR consapevole delle caratteristiche paralinguistiche, che tratta i segnali paralinguistici come token decodificabili in linea (ad esempio, "Sei così divertente [Risata]"), consentendo la trascrizione congiunta lessicale e non verbale. Questo modello viene poi utilizzato per annotare automaticamente un ampio corpus, il primo dataset cinese su larga scala di 174.179 espressioni (573 ore) con allineamento a livello di parola e segnali paralinguistici. (3) Ottimizziamo modelli TTS zero-shot su dati etichettati sia manualmente che automaticamente per consentire un controllo esplicito sulle vocalizzazioni paralinguistiche, permettendo l'inserimento consapevole del contesto in posizioni arbitrarie dei token per una sintesi vocale simile a quella umana. Unificando il riconoscimento e la generazione delle vocalizzazioni paralinguistiche, NVSpeech offre la prima pipeline aperta, su larga scala e annotata a livello di parola per la modellazione del parlato espressivo in mandarino, integrando riconoscimento e sintesi in modo scalabile e controllabile. Il dataset e le demo audio sono disponibili all'indirizzo https://nvspeech170k.github.io/.
L'urbanizzazione, il cambiamento climatico e lo stress agricolo stanno aumentando la domanda di monitoraggio ambientale preciso e tempestivo. La Temperatura della Superficie Terrestre (LST) è una variabile chiave in questo contesto e viene rilevata dai satelliti di telerilevamento. Tuttavia, questi sistemi devono affrontare un compromesso tra risoluzione spaziale e temporale. Sebbene i metodi di fusione spaziotemporale offrano soluzioni promettenti, pochi hanno affrontato la stima della LST giornaliera a una risoluzione di 10 m. In questo studio, presentiamo WGAST, una Rete Generativa Debole Supervisionata per la Stima Giornaliera della LST a 10 m tramite Fusione Spaziotemporale di Terra MODIS, Landsat 8 e Sentinel-2. WGAST è il primo framework di deep learning end-to-end progettato per questo compito. Adotta un'architettura generativa avversaria condizionata, con un generatore composto da quattro fasi: estrazione delle caratteristiche, fusione, ricostruzione della LST e soppressione del rumore. La prima fase utilizza un insieme di encoder per estrarre rappresentazioni latenti multi-livello dagli input, che vengono poi fuse nella seconda fase utilizzando la similarità del coseno, la normalizzazione e meccanismi di attenzione temporale. La terza fase decodifica le caratteristiche fuse in LST ad alta risoluzione, seguita da un filtro gaussiano per sopprimere il rumore ad alta frequenza. L'addestramento segue una strategia debole supervisionata basata su principi di mediazione fisica e rafforzata da un discriminatore PatchGAN. Gli esperimenti dimostrano che WGAST supera i metodi esistenti sia nelle valutazioni quantitative che qualitative. Rispetto alla baseline con le migliori prestazioni, in media, WGAST riduce l'RMSE del 17,18% e migliora l'SSIM dell'11,00%. Inoltre, WGAST è robusto alla LST indotta dalle nuvole e cattura efficacemente i modelli termici su scala fine, come validato rispetto a 33 sensori a terra. Il codice è disponibile all'indirizzo https://github.com/Sofianebouaziz1/WGAST.git.
Il trasferimento di stile artistico è stato a lungo possibile grazie ai progressi delle reti neurali basate su convoluzioni e trasformatori. La maggior parte degli algoritmi applica il trasferimento di stile artistico all'intera immagine, ma gli utenti potrebbero aver bisogno di applicarlo solo a una regione specifica dell'immagine. La pratica standard consiste semplicemente nel mascherare l'immagine dopo la stilizzazione. Questo lavoro dimostra che tale approccio tende a catturare in modo improprio le caratteristiche stilistiche nella regione di interesse. Proponiamo una rete di trasferimento di stile basata su convoluzioni parziali che applica accuratamente le caratteristiche stilistiche esclusivamente alla regione di interesse. Inoltre, presentiamo tecniche di fusione interne alla rete che tengono conto delle imperfezioni nella selezione della regione. Dimostriamo che questo migliora visivamente e quantitativamente la stilizzazione utilizzando esempi tratti dal dataset SA-1B. Il codice è disponibile pubblicamente all'indirizzo https://github.com/davidmhart/StyleTransferMasked.
La superficie terrestre è in costante cambiamento, e rilevare queste trasformazioni fornisce preziose informazioni che beneficiano vari aspetti della società umana. Sebbene i metodi tradizionali di rilevamento dei cambiamenti siano stati impiegati per individuare variazioni da immagini bi-temporali, questi approcci richiedono tipicamente conoscenze specialistiche per un'interpretazione accurata. Per consentire un accesso più ampio e flessibile alle informazioni sui cambiamenti da parte di utenti non esperti, è stata introdotta la task di Change Detection Visual Question Answering (CDVQA). Tuttavia, i metodi CDVQA esistenti sono stati sviluppati presupponendo che i dataset di addestramento e test condividano distribuzioni simili. Questa ipotesi non è valida nelle applicazioni reali, dove spesso si verificano spostamenti di dominio. In questo articolo, la task CDVQA viene rivisitata con un focus sulla gestione dello spostamento di dominio. A tal fine, viene introdotto un nuovo dataset multi-modale e multi-dominio, BrightVQA, per facilitare la ricerca sulla generalizzazione di dominio in CDVQA. Inoltre, viene proposto un nuovo modello a spazio di stati, denominato Text-Conditioned State Space Model (TCSSM). Il framework TCSSM è progettato per sfruttare sia le immagini bi-temporali che le informazioni testuali relative ai disastri geologici in modo unificato, al fine di estrarre caratteristiche invarianti al dominio. I parametri dipendenti dall'input presenti nel TCSSM sono previsti dinamicamente utilizzando sia le immagini bi-temporali che le descrizioni relative ai disastri geologici, facilitando così l'allineamento tra i dati visivi bi-temporali e le relative descrizioni testuali. Sono stati condotti esperimenti approfonditi per valutare il metodo proposto rispetto ai modelli all'avanguardia, dimostrando prestazioni superiori in modo consistente. Il codice e il dataset saranno resi pubblicamente disponibili al momento dell'accettazione all'indirizzo https://github.com/Elman295/TCSSM.