Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'apprendimento auto-supervisionato promette di eliminare la necessità di annotazione manuale dei dati, consentendo ai modelli di scalare senza sforzo su dataset massicci e architetture più grandi. Non essendo vincolato a compiti o domini specifici, questo paradigma di addestramento ha il potenziale di apprendere rappresentazioni visive da fonti diversificate, che vanno dalle immagini naturali a quelle aeree, utilizzando un singolo algoritmo. Questo rapporto tecnico introduce DINOv3, una pietra miliare significativa verso la realizzazione di questa visione, sfruttando strategie semplici ma efficaci. In primo luogo, sfruttiamo i vantaggi della scalabilità sia del dataset che delle dimensioni del modello attraverso un'attenta preparazione, progettazione e ottimizzazione dei dati. In secondo luogo, introduciamo un nuovo metodo chiamato ancoraggio Gram, che affronta efficacemente il problema noto ma irrisolto del degrado delle mappe di feature dense durante lunghi cicli di addestramento. Infine, applichiamo strategie post-hoc che migliorano ulteriormente la flessibilità dei nostri modelli rispetto alla risoluzione, alle dimensioni del modello e all'allineamento con il testo. Di conseguenza, presentiamo un modello di base visivo versatile che supera lo stato dell'arte specializzato in un'ampia gamma di contesti, senza necessità di fine-tuning. DINOv3 produce feature dense di alta qualità che raggiungono prestazioni eccezionali in vari compiti visivi, superando significativamente i precedenti modelli di base auto-supervisionati e debolmente supervisionati. Condividiamo inoltre la suite di modelli visivi DINOv3, progettata per far avanzare lo stato dell'arte su un ampio spettro di compiti e dati, fornendo soluzioni scalabili per vincoli di risorse e scenari di deployment diversificati.
Investighiamo il potenziale dei grandi modelli linguistici (LLM) di fungere da simulatori efficienti per compiti di ricerca agentica nell'apprendimento per rinforzo (RL), riducendo così la dipendenza da costose interazioni con motori di ricerca esterni. A tal fine, quantifichiamo innanzitutto la capacità intrinseca di ricerca degli LLM attraverso prompt strutturati e campionamenti ripetuti, un approccio che definiamo Self-Search. I nostri risultati rivelano che gli LLM mostrano un forte comportamento di scalabilità rispetto al budget di inferenza, raggiungendo elevati valori di pass@k su benchmark di risposta a domande, incluso il complesso task BrowseComp. Sulla base di queste osservazioni, introduciamo Self-Search RL (SSRL), che potenzia la capacità di Self-Search degli LLM attraverso ricompense basate su formati e regole. SSRL consente ai modelli di affinare iterativamente l'utilizzo delle proprie conoscenze internamente, senza richiedere l'accesso a strumenti esterni. Valutazioni empiriche dimostrano che i modelli di policy addestrati con SSRL forniscono un ambiente economico e stabile per l'addestramento RL guidato dalla ricerca, riducendo la dipendenza da motori di ricerca esterni e facilitando un robusto trasferimento da simulazione a realtà. Traiamo le seguenti conclusioni: 1) Gli LLM possiedono conoscenze del mondo che possono essere efficacemente elicitare per ottenere alte prestazioni; 2) SSRL dimostra il potenziale di sfruttare le conoscenze interne per ridurre l'allucinazione; 3) I modelli addestrati con SSRL si integrano perfettamente con motori di ricerca esterni senza sforzi aggiuntivi. I nostri risultati evidenziano il potenziale degli LLM di supportare un addestramento più scalabile degli agenti RL.
A seguito dell'introduzione del concetto di "pensare con le immagini" da parte di OpenAI, recenti sforzi hanno esplorato la stimolazione dell'uso delle informazioni visive nel processo di ragionamento per migliorare le prestazioni dei modelli nei compiti di percezione e ragionamento. Tuttavia, per quanto ne sappiamo, nessun lavoro open-source offre attualmente un set di funzionalità così ricco come i modelli proprietari (O3), che possono eseguire diverse manipolazioni di immagini e contemporaneamente potenziare le capacità di ragionamento logico attraverso il codice. In questo articolo, facciamo un tentativo preliminare in questa direzione introducendo Thyme (Think Beyond Images), un nuovo paradigma che consente ai MLLM di trascendere gli approcci esistenti di "pensare con le immagini" generando ed eseguendo autonomamente diverse operazioni di elaborazione delle immagini e computazionali tramite codice eseguibile. Questo approccio non solo facilita un ricco set di manipolazioni di immagini in tempo reale (ad esempio, ritaglio, rotazione, miglioramento del contrasto), ma consente anche calcoli matematici, mantenendo un'elevata autonomia nel decidere quando e come applicare queste operazioni. Attiviamo questa capacità attraverso una strategia di addestramento in due fasi: un SFT iniziale su un dataset curato di 500K campioni per insegnare la generazione di codice, seguito da una fase di RL per affinare il processo decisionale. Per la fase di RL, raccogliamo e progettiamo manualmente coppie domanda-risposta ad alta risoluzione per aumentare la difficoltà di apprendimento, e proponiamo GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), un algoritmo che applica temperature distinte alla generazione di testo e codice per bilanciare l'esplorazione del ragionamento con la precisione dell'esecuzione del codice. Condividiamo un'ampia analisi sperimentale e studi di ablazione. Valutazioni complete su quasi 20 benchmark mostrano che Thyme produce miglioramenti significativi e consistenti nelle prestazioni, in particolare nei compiti di percezione ad alta risoluzione e di ragionamento complesso.
I recenti progressi nel pre-addestramento di modelli linguistici su larga scala (LLM) hanno dimostrato che il semplice aumento della quantità di dati porta a rendimenti decrescenti, raggiungendo un "muro dei dati". In risposta, l'uso di dati sintetici per il pre-addestramento è emerso come un paradigma promettente per spingere i limiti delle prestazioni. Nonostante ciò, i fattori che influenzano la qualità dei dati sintetici rimangono poco compresi. In questo lavoro, introduciamo BeyondWeb, un framework di generazione di dati sintetici che produce dati sintetici di alta qualità per il pre-addestramento. BeyondWeb estende significativamente le capacità dei tradizionali dataset su scala web, superando i migliori dataset sintetici per il pre-addestramento come Cosmopedia e il sottoinsieme di alta qualità di Nemotron-CC (Nemotron-Synth) rispettivamente fino a 5,1 punti percentuali (pp) e 2,6 pp, in media su una suite di 14 valutazioni benchmark. Offre un addestramento fino a 7,7 volte più veloce rispetto ai dati web aperti e 2,7 volte più veloce rispetto a Nemotron-Synth. In modo notevole, un modello da 3B addestrato su 180B token con BeyondWeb supera un modello da 8B addestrato con lo stesso budget di token su Cosmopedia. Presentiamo inoltre diverse intuizioni da BeyondWeb sui dati sintetici per il pre-addestramento: cosa ne guida i benefici, quali dati riformulare e come, e l'impatto delle dimensioni e della famiglia del modello sulla qualità dei dati. Nel complesso, il nostro lavoro dimostra che non esiste una soluzione universale per generare dati sintetici di alta qualità per il pre-addestramento. I migliori risultati richiedono l'ottimizzazione congiunta di molti fattori, un compito impegnativo che richiede scienza rigorosa e competenza pratica. Approcci ingenui possono portare a miglioramenti modesti, potenzialmente a costi elevati, mentre metodi ben eseguiti possono produrre miglioramenti trasformativi, come dimostrato da BeyondWeb.
Sebbene l'inferenza dei modelli linguistici di grandi dimensioni (LLM) sia emersa come un carico di lavoro critico per molte applicazioni downstream, inferire efficientemente gli LLM è impegnativo a causa dell'ingente impronta di memoria e dei requisiti di larghezza di banda. Parallelamente, le capacità di calcolo hanno superato costantemente sia la capacità di memoria che la larghezza di banda negli ultimi decenni, una tendenza che rimane evidente nell'hardware GPU moderno e che aggrava la sfida dell'inferenza degli LLM. Di conseguenza, stanno emergendo nuovi algoritmi che scambiano un aumento del calcolo con una riduzione delle operazioni di memoria. A tal fine, presentiamo XQuant, che sfrutta questa tendenza, consentendo una riduzione di un ordine di grandezza nel consumo di memoria attraverso la quantizzazione a basso bit, con sostanziali vantaggi in termini di accuratezza rispetto ai metodi di quantizzazione della cache KV allo stato dell'arte. Raggiungiamo questo obiettivo quantizzando e memorizzando nella cache le attivazioni di input X, invece di utilizzare la standard cache KV, e poi rimaterializzando le Chiavi e i Valori al volo durante l'inferenza. Ciò si traduce in un immediato risparmio di memoria di 2 volte rispetto alla cache KV. Applicando XQuant, otteniamo un risparmio di memoria fino a ~7,7 volte con una degradazione della perplessità <0,1 rispetto alla baseline FP16. Inoltre, il nostro approccio sfrutta il fatto che i valori X sono simili tra i livelli. Basandoci su questa osservazione, introduciamo XQuant-CL, che sfrutta la similarità cross-layer negli embedding X per una compressione estrema. Su diversi modelli, XQuant-CL raggiunge un risparmio di memoria fino a 10 volte rispetto alla baseline FP16 con solo una degradazione della perplessità di 0,01, e un risparmio di memoria di 12,5 volte con solo una degradazione della perplessità di 0,1. XQuant sfrutta le capacità di calcolo in rapida crescita delle piattaforme hardware per eliminare il collo di bottiglia della memoria, superando i metodi di quantizzazione della cache KV allo stato dell'arte e raggiungendo un'accuratezza quasi-FP16 su un'ampia gamma di modelli.
La ricerca di articoli scientifici è un'attività importante per i ricercatori, che tipicamente implica l'uso di una query con la descrizione di un argomento per trovare articoli rilevanti. Man mano che la ricerca si approfondisce, i requisiti di ricerca degli articoli possono diventare più flessibili, a volte coinvolgendo dettagli specifici come la configurazione di un modulo, piuttosto che limitarsi a tematiche di ampio respiro. Tuttavia, i precedenti sistemi di ricerca di articoli non sono in grado di soddisfare questi requisiti a granularità flessibile, poiché questi sistemi raccolgono principalmente gli abstract degli articoli per costruire un indice del corpus, che manca di informazioni dettagliate per supportare il recupero tramite query a granularità più fine. In questo lavoro, proponiamo PaperRegister, composto da indicizzazione gerarchica offline e recupero adattivo online, che trasforma l'indice tradizionale basato sugli abstract in un albero di indici gerarchici per la ricerca di articoli, supportando così query a granularità flessibile. Esperimenti su compiti di ricerca di articoli su una gamma di granularità dimostrano che PaperRegister raggiunge prestazioni all'avanguardia, e si distingue particolarmente in scenari a granularità fine, evidenziando il buon potenziale come soluzione efficace per la ricerca di articoli a granularità flessibile in applicazioni reali. Il codice per questo lavoro è disponibile su https://github.com/Li-Z-Q/PaperRegister.
Presentiamo TexVerse, un dataset 3D su larga scala caratterizzato da texture ad alta risoluzione. Sebbene i recenti progressi nei dataset 3D su larga scala abbiano migliorato la generazione di geometrie ad alta risoluzione, la creazione end-to-end di texture ad alta risoluzione rimane poco esplorata a causa della mancanza di dataset adeguati. TexVerse colma questa lacuna con una raccolta curata di oltre 858K modelli 3D unici ad alta risoluzione provenienti da Sketchfab, inclusi più di 158K modelli con materiali basati su rendering fisicamente realistico (PBR). Ogni modello comprende tutte le sue varianti ad alta risoluzione, portando il totale a 1.6M istanze 3D. TexVerse include anche sottoinsiemi specializzati: TexVerse-Skeleton, con 69K modelli riggati, e TexVerse-Animation, con 54K modelli animati, entrambi preservando i dati originali di scheletro e animazione caricati dall'utente. Forniamo inoltre annotazioni dettagliate dei modelli che descrivono le caratteristiche generali, i componenti strutturali e le caratteristiche intricate. TexVerse offre una risorsa dati di alta qualità con ampie potenziali applicazioni nella sintesi di texture, nello sviluppo di materiali PBR, nell'animazione e in vari compiti di visione e grafica 3D.
I recenti progressi nell'animazione di ritratti guidata dall'audio hanno dimostrato capacità impressionanti. Tuttavia, i metodi esistenti faticano ad allinearsi con le preferenze umane dettagliate su più dimensioni, come la naturalezza del movimento, l'accuratezza della sincronizzazione labiale e la qualità visiva. Ciò è dovuto alla difficoltà di ottimizzare tra obiettivi di preferenza in competizione, che spesso confliggono tra loro, e alla scarsità di dataset su larga scala e di alta qualità con annotazioni di preferenza multidimensionali. Per affrontare questi problemi, introduciamo prima Talking-Critic, un modello di ricompensa multimodale che apprende funzioni di ricompensa allineate all'uomo per quantificare quanto bene i video generati soddisfano le aspettative multidimensionali. Sfruttando questo modello, curiamo Talking-NSQ, un dataset su larga scala di preferenze umane multidimensionali contenente 410K coppie di preferenze. Infine, proponiamo Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), un nuovo framework per allineare i modelli di animazione di ritratti basati su diffusione con preferenze dettagliate e multidimensionali. TLPO scompone le preferenze in moduli esperti specializzati, che vengono poi fusi attraverso i passaggi temporali e i livelli della rete, consentendo un miglioramento completo e dettagliato su tutte le dimensioni senza interferenze reciproche. Gli esperimenti dimostrano che Talking-Critic supera significativamente i metodi esistenti nell'allineamento con le valutazioni di preferenza umana. Nel frattempo, TLPO ottiene miglioramenti sostanziali rispetto ai modelli di riferimento in termini di accuratezza della sincronizzazione labiale, naturalezza del movimento e qualità visiva, mostrando prestazioni superiori sia nelle valutazioni qualitative che quantitative. La nostra pagina del progetto: https://fantasy-amap.github.io/fantasy-talking2/
Introduciamo StyleMM, un nuovo framework in grado di costruire un Morphable Model 3D (3DMM) stilizzato basato su descrizioni testuali definite dall'utente che specificano uno stile target. Basandoci su una rete pre-addestrata per la deformazione di mesh e un generatore di texture per volti umani realistici basati su 3DMM, il nostro approccio ottimizza questi modelli utilizzando immagini facciali stilizzate generate tramite traduzione immagine-immagine (i2i) guidata da testo con un modello di diffusione, che fungono da target di stilizzazione per la mesh renderizzata. Per prevenire modifiche indesiderate nell'identità, nell'allineamento facciale o nelle espressioni durante la traduzione i2i, introduciamo un metodo di stilizzazione che preserva esplicitamente gli attributi facciali dell'immagine sorgente. Mantenendo questi attributi critici durante la stilizzazione dell'immagine, l'approccio proposto garantisce un trasferimento di stile 3D coerente nello spazio dei parametri del 3DMM attraverso l'addestramento basato su immagini. Una volta addestrato, StyleMM consente la generazione in feed-forward di mesh facciali stilizzate con controllo esplicito sui parametri di forma, espressione e texture, producendo mesh con connettività dei vertici e animabilità coerenti. Valutazioni quantitative e qualitative dimostrano che il nostro approccio supera i metodi all'avanguardia in termini di diversità facciale a livello di identità e capacità di stilizzazione. Il codice e i video sono disponibili su [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).
Le reti neurali su grafi (GNN) hanno ottenuto risultati all'avanguardia nei compiti di visione artificiale e classificazione di immagini mediche, catturando le dipendenze strutturali tra le istanze di dati. Tuttavia, il loro processo decisionale rimane in gran parte opaco, limitando la loro affidabilità in applicazioni cliniche ad alto rischio, dove l'interpretabilità è essenziale. Le tecniche di spiegabilità esistenti per le GNN sono tipicamente post-hoc e globali, offrendo una visione limitata delle decisioni individuali dei nodi o del ragionamento locale. Introduciamo X-Node, un framework GNN auto-esplicativo in cui ogni nodo genera la propria spiegazione come parte del processo di previsione. Per ogni nodo, costruiamo un vettore di contesto strutturato che codifica indizi interpretabili come grado, centralità, clustering, salienza delle caratteristiche e accordo delle etichette all'interno della sua topologia locale. Un modulo Reasoner leggero mappa questo contesto in un vettore di spiegazione compatto, che serve a tre scopi: (1) ricostruire l'embedding latente del nodo tramite un decoder per garantire la fedeltà, (2) generare una spiegazione in linguaggio naturale utilizzando un LLM pre-addestrato (ad esempio, Grok o Gemini), e (3) guidare la GNN stessa tramite un meccanismo di "iniezione di testo" che reinietta le spiegazioni nel pipeline di passaggio dei messaggi. Valutiamo X-Node su due dataset di grafi derivati da MedMNIST e MorphoMNIST, integrandolo con architetture GCN, GAT e GIN. I nostri risultati mostrano che X-Node mantiene un'accuratezza di classificazione competitiva producendo spiegazioni fedeli per ogni nodo. Repository: https://github.com/basiralab/X-Node.
Man mano che i Modelli Linguistici Multimodali di Grande Scala (MLLM) acquisiscono un'applicabilità diffusa, diventa sempre più desiderabile adattarli a diverse esigenze degli utenti. In questo articolo, studiamo l'adattamento degli MLLM attraverso il decoding controllato. Per raggiungere questo obiettivo, introduciamo il primo metodo per il decoding guidato da ricompense degli MLLM e ne dimostriamo l'applicazione nel migliorare il loro grounding visivo. Il nostro metodo prevede la costruzione di modelli di ricompensa per il grounding visivo e il loro utilizzo per guidare il processo di decoding dell'MLLM. Nello specifico, costruiamo due modelli di ricompensa separati per controllare indipendentemente il grado di precisione e recall degli oggetti nell'output del modello. Il nostro approccio consente una controllabilità in tempo reale del processo di inferenza di un MLLM in due modi: primo, dando controllo sull'importanza relativa di ciascuna funzione di ricompensa durante il decoding, permettendo all'utente di bilanciare dinamicamente la precisione degli oggetti rispetto al recall nei task di descrizione delle immagini; secondo, dando controllo sull'ampiezza della ricerca durante il decoding, consentendo all'utente di gestire il compromesso tra la quantità di calcolo al momento del test e il grado di grounding visivo. Valutiamo il nostro metodo su benchmark standard per l'allucinazione di oggetti, dimostrando che fornisce una significativa controllabilità sull'inferenza degli MLLM, superando costantemente i metodi esistenti di mitigazione delle allucinazioni.
L'apprendimento self-supervised rappresenta una grande promessa per il telerilevamento, ma i metodi self-supervised standard devono essere adattati alle caratteristiche uniche dei dati di osservazione terrestre. Facciamo un passo in questa direzione conducendo un benchmark completo delle strategie di fusione e degli schemi di normalizzazione degli obiettivi di ricostruzione per dati di osservazione terrestre multimodali, multitemporali e multispettrali. Sulla base dei nostri risultati, proponiamo MAESTRO, un nuovo adattamento del Masked Autoencoder, che include strategie di fusione ottimizzate e uno schema di normalizzazione degli obiettivi personalizzato che introduce un priore spettrale come segnale di auto-supervisione. Valutato su quattro dataset di osservazione terrestre, MAESTRO stabilisce un nuovo stato dell'arte per compiti che si basano fortemente sulle dinamiche multitemporali, rimanendo altamente competitivo per compiti dominati da una singola modalità mono-temporale. Il codice per riprodurre tutti i nostri esperimenti è disponibile all'indirizzo https://github.com/ignf/maestro.
Il deep learning ha rivoluzionato l'imaging medico, ma la sua efficacia è gravemente limitata dalla carenza di dati di training etichettati. Questo articolo introduce un nuovo framework di apprendimento semi-supervisionato basato su GAN, progettato specificamente per regimi con pochi dati etichettati, valutato in contesti con 5 a 50 campioni etichettati per classe. Il nostro approccio integra tre reti neurali specializzate — un generatore per la traduzione di immagini condizionata alla classe, un discriminatore per la valutazione dell'autenticità e la classificazione, e un classificatore dedicato — all'interno di un framework di training a tre fasi. Il metodo alterna tra training supervisionato su dati etichettati limitati e apprendimento non supervisionato che sfrutta un'abbondanza di immagini non etichettate attraverso la traduzione da immagine a immagine piuttosto che la generazione da rumore. Utilizziamo un pseudo-labeling basato su ensemble che combina previsioni ponderate per confidenza dal discriminatore e dal classificatore con consistenza temporale attraverso la media mobile esponenziale, consentendo una stima affidabile delle etichette per i dati non etichettati. Una valutazione completa su undici dataset MedMNIST dimostra che il nostro approccio ottiene miglioramenti statisticamente significativi rispetto a sei metodi semi-supervisionati basati su GAN all'avanguardia, con prestazioni particolarmente forti nell'estremo contesto 5-shot dove la scarsità di dati etichettati è più impegnativa. Il framework mantiene la sua superiorità in tutti i contesti valutati (5, 10, 20 e 50 shot per classe). Il nostro approccio offre una soluzione pratica per applicazioni di imaging medico dove i costi di annotazione sono proibitivi, consentendo prestazioni di classificazione robuste anche con dati etichettati minimi. Il codice è disponibile all'indirizzo https://github.com/GuidoManni/SPARSE.