Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo lavoro presentiamo Qwen3, l'ultima versione della famiglia di modelli Qwen. Qwen3 comprende una serie di grandi modelli linguistici (LLM) progettati per migliorare prestazioni, efficienza e capacità multilingue. La serie Qwen3 include modelli sia di architettura densa che a miscela di esperti (MoE), con scale di parametri che vanno da 0,6 a 235 miliardi. Un'innovazione chiave in Qwen3 è l'integrazione della modalità di pensiero (per ragionamenti complessi e multi-step) e della modalità non pensante (per risposte rapide e guidate dal contesto) in un framework unificato. Ciò elimina la necessità di passare tra modelli diversi—come modelli ottimizzati per il chat (ad esempio, GPT-4o) e modelli dedicati al ragionamento (ad esempio, QwQ-32B)—e consente il passaggio dinamico tra modalità in base alle query dell'utente o ai template di chat. Inoltre, Qwen3 introduce un meccanismo di budget di pensiero, che permette agli utenti di allocare risorse computazionali in modo adattivo durante l'inferenza, bilanciando così latenza e prestazioni in base alla complessità del task. Inoltre, sfruttando la conoscenza dei modelli principali, riduciamo significativamente le risorse computazionali necessarie per costruire modelli su scala più piccola, garantendo comunque prestazioni altamente competitive. Valutazioni empiriche dimostrano che Qwen3 raggiunge risultati all'avanguardia su diversi benchmark, inclusi task di generazione di codice, ragionamento matematico, task di agenti, ecc., competendo con modelli MoE più grandi e modelli proprietari. Rispetto al predecessore Qwen2.5, Qwen3 amplia il supporto multilingue da 29 a 119 lingue e dialetti, migliorando l'accessibilità globale attraverso capacità avanzate di comprensione e generazione cross-linguale. Per favorire la riproducibilità e la ricerca e sviluppo guidata dalla comunità, tutti i modelli Qwen3 sono accessibili pubblicamente sotto licenza Apache 2.0.
Per migliorare la sicurezza dei VLM, questo articolo introduce un nuovo modello di guardia basato sul ragionamento, denominato GuardReasoner-VL. L'idea centrale è incentivare il modello di guardia a ragionare deliberatamente prima di prendere decisioni di moderazione tramite RL online. In primo luogo, costruiamo GuardReasoner-VLTrain, un corpus di ragionamento con 123K campioni e 631K passaggi di ragionamento, che copre input di testo, immagini e testo-immagini. Successivamente, basandoci su questo, avviamo la capacità di ragionamento del nostro modello tramite SFT. Inoltre, miglioriamo ulteriormente il ragionamento riguardo alla moderazione attraverso RL online. Nello specifico, per aumentare la diversità e la difficoltà dei campioni, eseguiamo un campionamento di rifiuto seguito da un aumento dei dati tramite la proposta di concatenazione dei dati consapevole della sicurezza. Oltre a ciò, utilizziamo un parametro di clipping dinamico per incoraggiare l'esplorazione nelle fasi iniziali e lo sfruttamento nelle fasi successive. Per bilanciare le prestazioni e l'efficienza dei token, progettiamo una ricompensa di sicurezza basata sulla lunghezza che integra accuratezza, formato e costo dei token. Esperimenti estensivi dimostrano la superiorità del nostro modello. In particolare, supera il secondo classificato di una media del 19,27% nel punteggio F1. Rilasciamo dati, codice e modelli (3B/7B) di GuardReasoner-VL all'indirizzo https://github.com/yueliu1999/GuardReasoner-VL/.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) e nelle loro estensioni multimodali (MLLM) hanno notevolmente migliorato il ragionamento automatico in una vasta gamma di compiti. Tuttavia, questi modelli si basano principalmente sul puro testo come mezzo per esprimere e strutturare il ragionamento, anche quando sono presenti informazioni visive. In questo lavoro, sosteniamo che il linguaggio potrebbe non essere sempre la modalità più naturale o efficace per il ragionamento, specialmente in compiti che coinvolgono informazioni spaziali e geometriche. Motivati da ciò, proponiamo un nuovo paradigma, il Pianificazione Visiva, che consente la pianificazione attraverso rappresentazioni puramente visive, indipendenti dal testo. In questo paradigma, la pianificazione viene eseguita tramite sequenze di immagini che codificano inferenze passo-passo nel dominio visivo, analogamente a come gli esseri umani schizzano o visualizzano azioni future. Introduciamo un nuovo framework di apprendimento per rinforzo, Pianificazione Visiva tramite Apprendimento per Rinforzo (VPRL), potenziato da GRPO per il post-addestramento di grandi modelli visivi, portando a miglioramenti significativi nella pianificazione in una selezione di compiti rappresentativi di navigazione visiva, come FrozenLake, Maze e MiniBehavior. Il nostro paradigma di pianificazione visiva supera tutte le altre varianti di pianificazione che conducono il ragionamento esclusivamente nello spazio testuale. I nostri risultati stabiliscono la Pianificazione Visiva come un'alternativa valida e promettente al ragionamento basato sul linguaggio, aprendo nuove strade per compiti che beneficiano di inferenze intuitive basate sulle immagini.
La rapida estensione delle finestre di contesto nei grandi modelli visione-linguaggio ha dato origine ai modelli visione-linguaggio a lungo contesto (LCVLMs), in grado di gestire centinaia di immagini con token di testo intervallati in un singolo passaggio in avanti. In questo lavoro, introduciamo MMLongBench, il primo benchmark che copre un insieme diversificato di task visione-linguaggio a lungo contesto, per valutare in modo efficace e approfondito gli LCVLMs. MMLongBench è composto da 13.331 esempi che abbracciano cinque diverse categorie di task downstream, come Visual RAG e Many-Shot ICL. Offre inoltre un'ampia copertura di tipi di immagini, inclusi vari tipi di immagini naturali e sintetiche. Per valutare la robustezza dei modelli rispetto a diverse lunghezze di input, tutti gli esempi vengono forniti a cinque lunghezze di input standardizzate (8K-128K token) attraverso uno schema di tokenizzazione cross-modale che combina patch visive e token di testo. Attraverso un benchmarking approfondito di 46 LCVLMs sia closed-source che open-source, forniamo un'analisi completa della capacità attuale dei modelli nel contesto visione-linguaggio a lungo termine. I nostri risultati mostrano che: i) le prestazioni su un singolo task sono un debole indicatore della capacità complessiva a lungo contesto; ii) sia i modelli closed-source che open-source affrontano sfide nei task visione-linguaggio a lungo contesto, indicando un ampio margine di miglioramento futuro; iii) i modelli con una maggiore capacità di ragionamento tendono a mostrare migliori prestazioni a lungo contesto. Offrendo un'ampia copertura di task, vari tipi di immagini e un rigoroso controllo della lunghezza, MMLongBench fornisce le basi mancanti per diagnosticare e far progredire la prossima generazione di LCVLMs.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato la potenza del ragionamento attraverso catene di pensiero auto-generate. Moltiplici agenti di ragionamento possono collaborare per elevare la qualità del ragionamento congiunto al di sopra dei risultati individuali. Tuttavia, tali agenti tipicamente interagiscono in modo alternato, scambiando una maggiore latenza con un miglioramento della qualità. In questo articolo, proponiamo Group Think—un singolo LLM che agisce come molteplici agenti di ragionamento concorrenti, o pensatori. Con una visibilità condivisa sui progressi parziali della generazione reciproca, Group Think introduce un nuovo paradigma di ragionamento concorrente in cui molteplici traiettorie di ragionamento si adattano dinamicamente l'una all'altra a livello di token. Ad esempio, un filo di ragionamento può modificare la propria generazione a metà frase rilevando che un altro filo è meglio posizionato per continuare. Questa collaborazione fine e a livello di token consente a Group Think di ridurre il ragionamento ridondante e migliorare la qualità, ottenendo al contempo una latenza significativamente inferiore. Inoltre, la sua natura concorrente permette un utilizzo efficiente delle risorse computazionali inattive, rendendolo particolarmente adatto per l'inferenza ai margini, dove dimensioni di batch molto piccole spesso sottoutilizzano le GPU locali. Proponiamo una modifica semplice e generalizzabile che consente a qualsiasi LLM esistente di eseguire Group Think su una GPU locale. Presentiamo anche una strategia di valutazione per misurare la latenza del ragionamento e dimostriamo empiricamente i miglioramenti della latenza utilizzando LLM open-source che non sono stati esplicitamente addestrati per Group Think. Speriamo che questo lavoro apra la strada a futuri LLM per esibire comportamenti collaborativi più sofisticati ed efficienti, al fine di ottenere una generazione di qualità superiore.
I modelli visione-linguaggio (VLMs) hanno ottenuto un successo notevole in una vasta gamma di compiti sfruttando informazioni testuali ricche con una quantità minima di dati etichettati. Tuttavia, il dispiegamento di tali modelli di grandi dimensioni rimane impegnativo, specialmente in ambienti con risorse limitate. La distillazione della conoscenza (KD) offre una soluzione ben consolidata a questo problema; tuttavia, i recenti approcci di KD basati su VLMs spesso implicano un addestramento multi-stadio o un'ulteriore ottimizzazione, aumentando il sovraccarico computazionale e la complessità dell'ottimizzazione. In questo articolo, proponiamo l'ottimizzazione a doppia testa (texttt{DHO}) — un framework di KD semplice ma efficace che trasferisce la conoscenza dai VLMs a modelli compatti e specifici per il compito in contesti semi-supervisionati. Nello specifico, introduciamo doppie teste di previsione che apprendono in modo indipendente dai dati etichettati e dalle previsioni del modello insegnante, e proponiamo di combinare linearmente i loro output durante l'inferenza. Osserviamo che DHO mitiga i conflitti di gradiente tra i segnali supervisionati e di distillazione, consentendo un apprendimento delle caratteristiche più efficace rispetto alle baseline KD a testa singola. Di conseguenza, esperimenti estensivi dimostrano che DHO supera costantemente le baseline in più domini e dataset granulari. In particolare, su ImageNet, raggiunge prestazioni all'avanguardia, migliorando l'accuratezza del 3% e dello 0,1% rispettivamente con l'1% e il 10% di dati etichettati, utilizzando contemporaneamente un numero inferiore di parametri.
La fusione di modelli consente di combinare le capacità di modelli esistenti in uno nuovo - a posteriori, senza ulteriore addestramento. Questa tecnica è diventata sempre più popolare grazie al suo basso costo e alla disponibilità di librerie che supportano la fusione su GPU consumer. Recenti lavori dimostrano che l'abbinamento della fusione con algoritmi evolutivi può migliorare le prestazioni, ma attualmente non esiste un framework che supporti sperimentazioni flessibili con tali strategie nei modelli linguistici. Introduciamo Mergenetic, una libreria open-source per la fusione evolutiva di modelli. Mergenetic permette una facile composizione di metodi di fusione e algoritmi evolutivi, integrando stimatori leggeri di fitness per ridurre i costi di valutazione. Descriviamo il suo design e dimostriamo che Mergenetic produce risultati competitivi su vari task e lingue utilizzando hardware modesto.
La previsione multi-token è emersa come un obiettivo promettente per migliorare il pre-addestramento dei modelli linguistici, ma i suoi benefici non si sono generalizzati in modo consistente ad altri contesti, come il fine-tuning. In questo articolo, proponiamo MuToR, un approccio semplice ed efficace alla previsione multi-token che intercala token di registro apprendibili nella sequenza di input, ciascuno incaricato di prevedere target futuri. Rispetto ai metodi esistenti, MuToR offre diversi vantaggi chiave: introduce solo un numero trascurabile di parametri aggiuntivi, non richiede modifiche architetturali—garantendo la compatibilità con modelli linguistici pre-addestrati pronti all'uso—e rimane allineato con l'obiettivo di pre-addestramento del token successivo, rendendolo particolarmente adatto per il fine-tuning supervisionato. Inoltre, supporta naturalmente orizzonti di previsione scalabili. Dimostriamo l'efficacia e la versatilità di MuToR in una gamma di casi d'uso, tra cui fine-tuning supervisionato, fine-tuning efficiente in termini di parametri (PEFT) e pre-addestramento, su compiti generativi impegnativi sia nel dominio linguistico che in quello visivo. Il nostro codice sarà disponibile all'indirizzo: https://github.com/nasosger/MuToR.
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni solide in un'ampia gamma di attività di programmazione, ma il loro potenziale per l'ottimizzazione del codice rimane ancora poco esplorato. Questo lavoro indaga se gli LLM possano ottimizzare le prestazioni del codice assembly, dove un controllo fine sull'esecuzione consente miglioramenti difficili da esprimere nei linguaggi di alto livello. Presentiamo un framework di apprendimento per rinforzo che addestra gli LLM utilizzando l'ottimizzazione delle politiche prossimali (PPO), guidato da una funzione di ricompensa che considera sia la correttezza funzionale, validata attraverso casi di test, sia le prestazioni di esecuzione rispetto al compilatore di riferimento del settore gcc -O3. Per supportare questo studio, introduciamo un benchmark di 8.072 programmi reali. Il nostro modello, Qwen2.5-Coder-7B-PPO, raggiunge un tasso di superamento dei test del 96,0% e un miglioramento medio delle prestazioni di 1,47x rispetto alla baseline gcc -O3, superando tutti gli altri 20 modelli valutati, incluso Claude-3.7-sonnet. Questi risultati indicano che l'apprendimento per rinforzo può sbloccare il potenziale degli LLM per fungere da ottimizzatori efficaci delle prestazioni del codice assembly.
Il ragionamento automatico (Automated Theorem Proving, ATP) nei linguaggi formali rimane una sfida formidabile nell'ambito dell'IA, richiedendo deduzione logica rigorosa e la navigazione in vasti spazi di ricerca. Sebbene i grandi modelli linguistici (Large Language Models, LLMs) abbiano mostrato prestazioni promettenti, i dimostratori passo-passo esistenti spesso soffrono di una guida di ricerca distorta, portando a inefficienze e strategie di dimostrazione subottimali. Questo articolo introduce il Multi-Perspective Search Prover (MPS-Prover), un innovativo sistema ATP passo-passo progettato per superare questi limiti. MPS-Prover incorpora due innovazioni chiave: una strategia di curatela dei dati post-addestramento altamente efficace che elimina circa il 40% dei dati di addestramento ridondanti senza compromettere le prestazioni, e un meccanismo di ricerca ad albero multi-prospettica. Questa ricerca integra un modello critico appreso con regole euristiche progettate strategicamente per diversificare la selezione delle tattiche, prevenire il blocco in stati improduttivi e migliorare la robustezza della ricerca. Valutazioni estensive dimostrano che MPS-Prover raggiunge prestazioni all'avanguardia su molteplici benchmark impegnativi, tra cui miniF2F e ProofNet, superando i precedenti modelli con 7 miliardi di parametri. Inoltre, le nostre analisi rivelano che MPS-Prover genera dimostrazioni significativamente più brevi e diversificate rispetto ai metodi passo-passo e a dimostrazione completa esistenti, evidenziandone l'efficienza e l'efficacia. Il nostro lavoro avanza le capacità del ragionamento formale basato su LLM e offre un framework robusto e un'analisi completa per lo sviluppo di dimostratori di teoremi più potenti.
Studi recenti sulle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato miglioramenti promettenti nelle prestazioni dei modelli sfruttando un processo di pensiero prolungato e risorse computazionali aggiuntive durante l'inferenza, principalmente in compiti che coinvolgono il ragionamento matematico (Muennighoff et al., 2025). Tuttavia, rimane incerto se catene di ragionamento più lunghe migliorino intrinsecamente l'accuratezza fattuale, specialmente al di fuori dei contesti matematici. In questo lavoro, esaminiamo approfonditamente il ragionamento degli LLM in scenari complessi di question-answering (QA) a dominio aperto. Inizialmente distilliamo tracce di ragionamento da modelli avanzati di ragionamento su larga scala (QwQ-32B e DeepSeek-R1-671B), per poi ottimizzare una varietà di modelli che vanno da varianti più piccole e adattate alle istruzioni ad architetture più grandi basate su Qwen2.5. Per arricchire le tracce di ragionamento, introduciamo informazioni fattuali da grafi di conoscenza sotto forma di percorsi nelle nostre tracce di ragionamento. La nostra configurazione sperimentale include quattro approcci di base e sei diversi modelli adattati alle istruzioni valutati su un benchmark di sei dataset, che comprendono oltre 22.6K domande. In totale, eseguiamo 168 esperimenti e analizziamo circa 1.7 milioni di tracce di ragionamento. I nostri risultati indicano che, in una singola esecuzione, i modelli di ragionamento più piccoli raggiungono miglioramenti significativi nell'accuratezza fattuale rispetto alle loro controparti originali adattate alle istruzioni. Inoltre, la nostra analisi dimostra che l'aggiunta di risorse computazionali e di budget di token durante il test migliora costantemente l'accuratezza fattuale del 2-8%, confermando ulteriormente l'efficacia dello scaling durante il test per migliorare le prestazioni e, di conseguenza, l'accuratezza del ragionamento nei compiti di QA a dominio aperto. Rilasciamo tutti gli artefatti sperimentali per ulteriori ricerche.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più applicati a questioni di scienza dei materiali, tra cui la comprensione della letteratura, la previsione delle proprietà, la scoperta di materiali e la progettazione di leghe. Allo stesso tempo, è stato sviluppato un ampio ventaglio di approcci computazionali basati sulla fisica per calcolare le proprietà dei materiali. Qui proponiamo un'applicazione benchmark per valutare la competenza degli LLM nel rispondere a domande di scienza dei materiali attraverso la generazione e l'esecuzione sicura di codici basati su tali pacchetti computazionali di scienza dei materiali fondati sulla fisica. MatTools è costruito su due componenti complementari: un benchmark di domande e risposte (QA) per strumenti di simulazione dei materiali e un benchmark di utilizzo di strumenti nel mondo reale. Abbiamo progettato una metodologia automatizzata per raccogliere in modo efficiente esempi reali di utilizzo di strumenti di scienza dei materiali. Il benchmark QA, derivato dalla codebase e dalla documentazione di pymatgen (Python Materials Genomics), comprende 69.225 coppie QA che valutano la capacità di un LLM di comprendere gli strumenti di scienza dei materiali. Il benchmark del mondo reale contiene 49 task (138 sottotask) che richiedono la generazione di codice Python funzionale per il calcolo delle proprietà dei materiali. La nostra valutazione di diversi LLM fornisce tre intuizioni chiave: (1) I generalisti superano gli specialisti; (2) L'IA conosce l'IA; e (3) Più semplice è meglio. MatTools offre un framework standardizzato per valutare e migliorare le capacità degli LLM nelle applicazioni di strumenti di scienza dei materiali, facilitando lo sviluppo di sistemi di IA più efficaci per la scienza dei materiali e la ricerca scientifica in generale.
Nonostante i rapidi progressi nelle capacità dei modelli generativi, i modelli preaddestrati di testo-immagine continuano a incontrare difficoltà nel catturare la semantica veicolata da prompt complessi che combinano più oggetti e attributi a livello di istanza. Di conseguenza, stiamo assistendo a un crescente interesse nell'integrazione di vincoli strutturali aggiuntivi, tipicamente sotto forma di bounding box approssimative, per guidare meglio il processo di generazione in questi casi impegnativi. In questo lavoro, portiamo l'idea della guida strutturale un passo avanti osservando che i modelli contemporanei di generazione di immagini possono fornire direttamente un'inizializzazione strutturale dettagliata e plausibile. Proponiamo una tecnica che combina questa guida strutturale basata su immagini con istruzioni a livello di istanza basate su LLM, producendo immagini di output che aderiscono a tutte le parti del prompt testuale, inclusi il numero di oggetti, gli attributi a livello di istanza e le relazioni spaziali tra le istanze.
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) si integrano nelle nostre interazioni sociali ed economiche, è necessario approfondire la comprensione di come gli esseri umani rispondono agli avversari LLM in contesti strategici. Presentiamo i risultati del primo esperimento di laboratorio controllato e monetariamente incentivato che esamina le differenze nel comportamento umano in un concorso di bellezza p multi-giocatore contro altri esseri umani e LLM. Utilizziamo un disegno within-subject per confrontare il comportamento a livello individuale. Dimostriamo che, in questo contesto, i soggetti umani scelgono numeri significativamente più bassi quando giocano contro LLM rispetto a quando giocano contro esseri umani, principalmente a causa della maggiore prevalenza di scelte di equilibrio di Nash pari a "zero". Questo cambiamento è principalmente guidato da soggetti con un'elevata capacità di ragionamento strategico. I soggetti che scelgono l'equilibrio di Nash pari a zero motivano la loro strategia facendo appello alla percezione della capacità di ragionamento degli LLM e, inaspettatamente, alla loro propensione alla cooperazione. I nostri risultati forniscono intuizioni fondamentali sull'interazione multi-giocatore uomo-LLM in giochi a scelta simultanea, rivelano eterogeneità sia nel comportamento dei soggetti che nelle loro convinzioni sul gioco degli LLM quando giocano contro di essi, e suggeriscono importanti implicazioni per il design dei meccanismi in sistemi misti uomo-LLM.
La modifica delle immagini utilizzando istruzioni in linguaggio naturale è diventata un modo naturale ed espressivo per alterare contenuti visivi; tuttavia, valutare le prestazioni di tali modelli rimane una sfida. Gli approcci di valutazione esistenti si basano spesso su metriche di similarità immagine-testo come CLIP, che mancano di precisione. In questo lavoro, introduciamo un nuovo benchmark progettato per valutare i modelli di modifica delle immagini guidata da testo in modo più fondato, lungo due dimensioni critiche: (i) correttezza funzionale, valutata tramite domande a scelta multipla generate automaticamente che verificano se la modifica intesa è stata applicata con successo; e (ii) preservazione del contenuto dell'immagine, che garantisce che le regioni non target dell'immagine rimangano visivamente consistenti utilizzando una tecnica di mascheramento consapevole degli oggetti e un punteggio di preservazione. Il benchmark include oltre 1000 esempi di modifica di alta qualità in 20 categorie di contenuto diverse, ciascuno annotato con istruzioni di modifica dettagliate, domande di valutazione e maschere spaziali degli oggetti. Abbiamo condotto uno studio su larga scala confrontando GPT-Image-1, l'ultimo modello di punta nel campo della modifica delle immagini guidata da testo, con diversi modelli di modifica all'avanguardia, e abbiamo validato le nostre metriche automatiche rispetto ai giudizi umani. I risultati mostrano che GPT-Image-1 è in testa per accuratezza nel seguire le istruzioni, ma spesso modifica eccessivamente regioni irrilevanti dell'immagine, evidenziando un compromesso chiave nel comportamento attuale del modello. GIE-Bench fornisce un framework scalabile e riproducibile per avanzare verso una valutazione più accurata della modifica delle immagini guidata da testo.
Le mani sono essenziali per l'interazione umana, e comprendere il contatto tra le mani e il mondo può favorire una comprensione completa della loro funzione. Recentemente, è cresciuto il numero di dataset di interazione manuale che coprono l'interazione con oggetti, altre mani, scene e il corpo. Nonostante l'importanza del compito e l'aumento di dati di alta qualità, come apprendere efficacemente la stima densa del contatto manuale rimane in gran parte inesplorato. Ci sono due principali sfide per l'apprendimento della stima densa del contatto manuale. In primo luogo, esiste un problema di squilibrio di classe nei dataset di contatto manuale, dove la maggior parte dei campioni non è in contatto. In secondo luogo, i dataset di contatto manuale presentano un problema di squilibrio spaziale, con la maggior parte dei contatti che si verificano sulle punte delle dita, risultando in difficoltà per la generalizzazione verso contatti in altre regioni della mano. Per affrontare questi problemi, presentiamo un framework che apprende la stima densa del contatto manuale (HACO) da dati squilibrati. Per risolvere il problema dello squilibrio di classe, introduciamo il campionamento bilanciato del contatto, che costruisce e campiona da più gruppi di campionamento che rappresentano equamente diverse statistiche di contatto sia per i campioni in contatto che per quelli non in contatto. Inoltre, per affrontare il problema dello squilibrio spaziale, proponiamo una perdita bilanciata a livello di vertice (VCB), che incorpora la distribuzione del contatto variabile spazialmente ricalibrando separatamente il contributo della perdita di ciascun vertice in base alla sua frequenza di contatto nel dataset. Di conseguenza, apprendiamo efficacemente a prevedere la stima densa del contatto manuale con dati su larga scala senza soffrire dei problemi di squilibrio di classe e spaziale. I codici saranno rilasciati.
La segmentazione accurata delle regioni di interesse nelle immagini biomediche riveste un valore significativo nell'analisi delle immagini. Sebbene diversi modelli di base per la segmentazione biomedica abbiano attualmente raggiunto prestazioni eccellenti su determinati dataset, essi dimostrano tipicamente prestazioni sub-ottimali su dati provenienti da domini non visti. Attribuiamo questa carenza alla mancanza di conoscenza visione-linguaggio prima della segmentazione. I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) portano capacità eccezionali di comprensione e ragionamento ai compiti multimodali, il che ci ispira a sfruttare gli MLLMs per iniettare Conoscenza Visione-Linguaggio (VLK), consentendo così ai modelli di visione di dimostrare capacità di generalizzazione superiori su dataset cross-dominio. In questo articolo, proponiamo di utilizzare gli MLLMs per guidare SAM nell'apprendimento di dati microscopici cross-dominio, unificando Segment Anything in Microscopy, denominato uLLSAM. Nello specifico, proponiamo il modulo di Allineamento Semantico Visione-Linguaggio (VLSA), che inietta VLK nel Segment Anything Model (SAM). Abbiamo osservato che dopo che SAM riceve prompt globali di VLK, le sue prestazioni migliorano significativamente, ma ci sono carenze nella percezione dei contorni dei confini. Pertanto, proponiamo ulteriormente la Regolarizzazione dei Confini Semantici (SBR) per promptare SAM. Il nostro metodo raggiunge miglioramenti delle prestazioni del 7,71% in Dice e del 12,10% in SA su 9 dataset microscopici in-dominio, raggiungendo prestazioni all'avanguardia. Il nostro metodo dimostra anche miglioramenti del 6,79% in Dice e del 10,08% in SA su 10 dataset out-of-domain, mostrando forti capacità di generalizzazione. Il codice è disponibile all'indirizzo https://github.com/ieellee/uLLSAM.
Introduciamo CheXGenBench, un framework di valutazione rigoroso e multifaccettato per la generazione sintetica di radiografie toraciche che valuta simultaneamente fedeltà, rischi per la privacy e utilità clinica attraverso i modelli generativi testo-immagine più avanzati. Nonostante i rapidi progressi nell'IA generativa per immagini del mondo reale, le valutazioni nel dominio medico sono state ostacolate da inconsistenze metodologiche, confronti architetturali obsoleti e criteri di valutazione disconnessi che raramente considerano il valore clinico pratico dei campioni sintetici. CheXGenBench supera queste limitazioni attraverso una partizione standardizzata dei dati e un protocollo di valutazione unificato che comprende oltre 20 metriche quantitative, analizzando sistematicamente la qualità della generazione, le potenziali vulnerabilità della privacy e l'applicabilità clinica a valle in 11 architetture testo-immagine leader. I nostri risultati rivelano inefficienze critiche nei protocolli di valutazione esistenti, in particolare nella valutazione della fedeltà generativa, portando a confronti inconsistenti e poco informativi. Il nostro framework stabilisce un benchmark standardizzato per la comunità di IA medica, consentendo confronti oggettivi e riproducibili e facilitando l'integrazione senza soluzione di continuità sia dei modelli generativi esistenti che futuri. Inoltre, rilasciamo un dataset sintetico di alta qualità, SynthCheX-75K, composto da 75K radiografie generate dal modello con le migliori prestazioni (Sana 0.6B) nel nostro benchmark, per supportare ulteriori ricerche in questo dominio critico. Attraverso CheXGenBench, stabiliamo un nuovo stato dell'arte e rilasciamo il nostro framework, i modelli e il dataset SynthCheX-75K all'indirizzo https://raman1121.github.io/CheXGenBench/.
L'ascesa dei Large Language Models (LLM) ha accentuato le preoccupazioni riguardo all'uso improprio di testi generati dall'IA, rendendo la filigranatura una soluzione promettente. Gli schemi di filigranatura mainstream per i LLM si dividono in due categorie: basati sui logit e basati sul campionamento. Tuttavia, gli schemi attuali comportano compromessi tra robustezza, qualità del testo e sicurezza. Per mitigare ciò, integriamo schemi basati sui logit e sul campionamento, sfruttando i rispettivi punti di forza per ottenere sinergia. In questo articolo, proponiamo un framework versatile di filigranatura simbiotica con tre strategie: seriale, parallela e ibrida. Il framework ibrido incorpora adattivamente le filigrane utilizzando l'entropia dei token e l'entropia semantica, ottimizzando l'equilibrio tra rilevabilità, robustezza, qualità del testo e sicurezza. Inoltre, convalidiamo il nostro approccio attraverso esperimenti completi su vari dataset e modelli. I risultati sperimentali indicano che il nostro metodo supera le baseline esistenti e raggiunge prestazioni all'avanguardia (SOTA). Crediamo che questo framework fornisca nuove intuizioni su diversi paradigmi di filigranatura. Il nostro codice è disponibile all'indirizzo https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.
Il trasferimento di stile con ottimizzazione al momento dell'inferenza (ST-ITO) è un approccio recente per trasferire gli effetti applicati di un audio di riferimento a una traccia audio grezza. Ottimizza i parametri degli effetti per minimizzare la distanza tra gli embedding di stile dell'audio elaborato e quello di riferimento. Tuttavia, questo metodo tratta tutte le configurazioni possibili in modo uguale e si basa esclusivamente sullo spazio degli embedding, il che può portare a risultati irrealistici o distorti. Affrontiamo questa problematica introducendo un prior gaussiano derivato da un dataset di preset vocali, DiffVox, sullo spazio dei parametri. L'ottimizzazione risultante è equivalente a una stima massimo a posteriori. Le valutazioni sul trasferimento di effetti vocali sul dataset MedleyDB mostrano miglioramenti significativi nelle metriche rispetto ai metodi di base, inclusi un stimatore cieco di effetti audio, approcci basati sui vicini più prossimi e ST-ITO non calibrato. La calibrazione proposta riduce l'errore quadratico medio dei parametri fino al 33% e corrisponde meglio allo stile di riferimento. Valutazioni soggettive con 16 partecipanti confermano la superiorità del nostro metodo, specialmente in regimi di dati limitati. Questo lavoro dimostra come l'incorporazione di conoscenze a priori al momento dell'inferenza migliori il trasferimento di effetti audio, aprendo la strada a sistemi di elaborazione audio più efficaci e realistici.