Articoli di ricerca IA selezionati quotidianamente con traduzioni
La creazione di mondi 3D immersivi e giocabili a partire da testi o immagini rimane una sfida fondamentale nel campo della visione artificiale e della grafica. Gli approcci esistenti per la generazione di mondi si dividono generalmente in due categorie: metodi basati su video, che offrono una ricca diversità ma mancano di coerenza 3D e di efficienza nel rendering, e metodi basati su 3D, che garantiscono coerenza geometrica ma faticano a causa di dati di addestramento limitati e rappresentazioni inefficienti in termini di memoria. Per affrontare queste limitazioni, presentiamo HunyuanWorld 1.0, un nuovo framework che combina il meglio di entrambi gli approcci per generare scene 3D immersive, esplorabili e interattive a partire da condizioni testuali e visive. Il nostro approccio presenta tre vantaggi chiave: 1) esperienze immersive a 360° tramite proxy panoramici del mondo; 2) capacità di esportazione di mesh per una compatibilità senza soluzione di continuità con le pipeline di computer grafica esistenti; 3) rappresentazioni di oggetti disaccoppiate per una maggiore interattività. Il cuore del nostro framework è una rappresentazione di mesh 3D stratificata semanticamente che sfrutta immagini panoramiche come proxy del mondo a 360° per la decomposizione e ricostruzione del mondo consapevole della semantica, consentendo la generazione di mondi 3D diversificati. Esperimenti estesi dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella generazione di mondi 3D coerenti, esplorabili e interattivi, abilitando al contempo applicazioni versatili nella realtà virtuale, nella simulazione fisica, nello sviluppo di giochi e nella creazione di contenuti interattivi.
Numerosi sforzi sono stati compiuti per estendere il paradigma della "predizione del token successivo" ai contenuti visivi, con l'obiettivo di creare un approccio unificato sia per la generazione che per la comprensione delle immagini. Tuttavia, i tentativi di generare immagini attraverso modellazione autoregressiva con token discreti sono stati afflitti da problemi come bassa fedeltà visiva, output distorti e incapacità di seguire istruzioni complesse durante il rendering di dettagli intricati. Queste carenze sono probabilmente attribuibili a errori cumulativi durante l'inferenza autoregressiva o alla perdita di informazioni durante il processo di discretizzazione. Probabilmente a causa di questa sfida, la ricerca recente si è sempre più orientata verso l'addestramento congiunto della generazione di immagini con obiettivi di diffusione e della generazione del linguaggio con obiettivi autoregressivi, allontanandosi dagli approcci di modellazione unificata. In questo lavoro, dimostriamo che l'apprendimento per rinforzo può mitigare efficacemente gli artefatti e migliorare significativamente la qualità della generazione di un metodo di modellazione autoregressiva discreta, consentendo così un'integrazione senza soluzione di continuità tra la generazione di immagini e linguaggio. Il nostro framework comprende un tokenizer semantico di immagini, un modello autoregressivo unificato per linguaggio e immagini, e un decoder di diffusione offline per la generazione di immagini, denominato X-Omni. X-Omni raggiunge prestazioni all'avanguardia nei compiti di generazione di immagini utilizzando un modello linguistico da 7B, producendo immagini di alta qualità estetica e dimostrando forti capacità nel seguire istruzioni e nel rendere testi lunghi.
Sebbene i grandi modelli linguistici (LLM) abbiano compiuto progressi impressionanti, la loro applicazione in domini scientifici come la chimica rimane ostacolata da una comprensione superficiale del dominio e da capacità di ragionamento limitate. In questo lavoro, ci concentriamo sul campo specifico della chimica e sviluppiamo un LLM per il ragionamento chimico, ChemDFM-R. In primo luogo, costruiamo un dataset completo di punti di conoscenza atomizzati per migliorare la comprensione del modello dei principi fondamentali e della struttura logica della chimica. Successivamente, proponiamo una strategia di distillazione a fonti miste che integra conoscenze curate da esperti con abilità di ragionamento di dominio generale, seguita da un apprendimento per rinforzo specifico per il dominio per potenziare il ragionamento chimico. Esperimenti su diversi benchmark chimici dimostrano che ChemDFM-R raggiunge prestazioni all'avanguardia, fornendo output interpretabili e guidati da una logica. Ulteriori casi di studio illustrano come catene di ragionamento esplicite migliorino significativamente l'affidabilità, la trasparenza e l'utilità pratica del modello in scenari reali di collaborazione uomo-IA.
La crescita esponenziale della domanda di risorse di calcolo GPU, trainata dal rapido avanzamento dei Modelli Linguistici di Grande Dimensione (LLM), ha creato un'urgente necessità di strategie automatizzate di ottimizzazione CUDA. Sebbene i recenti progressi negli LLM mostrino potenziale per la generazione di codice, i modelli SOTA attuali (ad esempio R1, o1) raggiungono bassi tassi di successo nel migliorare la velocità CUDA. In questo articolo, introduciamo CUDA-L1, un framework di apprendimento per rinforzo automatizzato per l'ottimizzazione CUDA. CUDA-L1 ottiene miglioramenti prestazionali nel compito di ottimizzazione CUDA: addestrato su NVIDIA A100, fornisce un'accelerazione media di x17,7 su tutti i 250 kernel CUDA di KernelBench, con picchi di accelerazione che raggiungono x449. Inoltre, il modello dimostra anche un'eccellente portabilità tra le architetture GPU, ottenendo accelerazioni medie di x17,8 su H100, x19,0 su RTX 3090, x16,5 su L40, x14,7 su H800 e x13,9 su H20 nonostante sia stato ottimizzato specificamente per A100. Oltre a questi risultati di benchmark, CUDA-L1 dimostra diverse proprietà notevoli: 1) Scopre una varietà di tecniche di ottimizzazione CUDA e impara a combinarle strategicamente per ottenere prestazioni ottimali; 2) Rivela principi fondamentali dell'ottimizzazione CUDA; 3) Identifica colli di bottiglia prestazionali non ovvi e rifiuta ottimizzazioni apparentemente vantaggiose che danneggiano le prestazioni. Le capacità di CUDA-L1 dimostrano che l'apprendimento per rinforzo può trasformare un LLM inizialmente poco performante in un efficace ottimizzatore CUDA attraverso segnali di ricompensa basati sull'accelerazione, senza l'intervento di esperti umani o conoscenze di dominio. Ancora più importante, il modello RL addestrato estende le capacità di ragionamento acquisite a nuovi kernel. Questo paradigma apre possibilità per l'ottimizzazione automatizzata delle operazioni CUDA e promette di promuovere sostanzialmente l'efficienza delle GPU e alleviare la crescente pressione sulle risorse di calcolo GPU.
Le interfacce cervello-computer (BCI) consentono la comunicazione diretta tra il cervello e dispositivi esterni. I recenti modelli di base per l'EEG mirano a apprendere rappresentazioni generalizzate attraverso diversi paradigmi BCI. Tuttavia, questi approcci trascurano distinzioni neurofisiologiche fondamentali specifiche del paradigma, limitando la loro capacità di generalizzazione. È importante sottolineare che, nelle implementazioni pratiche delle BCI, il paradigma specifico, come l'immaginazione motoria (MI) per la riabilitazione post-ictus o la robotica assistiva, è generalmente determinato prima dell'acquisizione dei dati. Questo articolo propone MIRepNet, il primo modello di base EEG progettato specificamente per il paradigma MI. MIRepNet comprende una pipeline di pre-elaborazione EEG di alta qualità che incorpora un modello di canale informato neurofisiologicamente, adattabile a cuffie EEG con configurazioni di elettrodi arbitrarie. Inoltre, introduciamo una strategia di pre-addestramento ibrida che combina la ricostruzione auto-supervisionata di token mascherati e la classificazione supervisionata MI, facilitando un rapido adattamento e una decodifica accurata su nuovi compiti MI downstream con meno di 30 prove per classe. Valutazioni estese su cinque dataset MI pubblici hanno dimostrato che MIRepNet ha costantemente raggiunto prestazioni all'avanguardia, superando significativamente sia modelli EEG specializzati che generalizzati. Il nostro codice sarà disponibile su GitHub https://github.com/staraink/MIRepNet.
Mentre si apre l'era dei grandi modelli linguistici (LLM) che agiscono per conto degli utenti, i metodi di Ottimizzazione delle Preferenze (PO) sono diventati un approccio centrale per allineare gli LLM alle preferenze umane e migliorarne le prestazioni. Proponiamo Maximum a Posteriori Preference Optimization (MaPPO), un framework per l'apprendimento dalle preferenze che incorpora esplicitamente conoscenze pregresse sulle ricompense nell'obiettivo di ottimizzazione. Mentre metodi esistenti come Direct Preference Optimization (DPO) e le sue varianti trattano l'apprendimento delle preferenze come un problema di Massima Verosimiglianza (MLE), MaPPO estende questo paradigma integrando stime pregresse delle ricompense in un obiettivo di Massimo a Posteriori (MaP) ben fondato. Ciò non solo generalizza DPO e le sue varianti, ma migliora anche l'allineamento mitigando la classificazione binaria eccessivamente semplificata delle risposte. Ancora più importante, MaPPO non introduce ulteriori iperparametri e supporta l'ottimizzazione delle preferenze sia in contesti offline che online. Inoltre, MaPPO può essere utilizzato come plugin con miglioramenti consistenti sulle varianti di DPO, tra cui le ampiamente utilizzate SimPO, IPO e CPO. Valutazioni empiriche estensive su diverse dimensioni e serie di modelli su tre benchmark standard, tra cui MT-Bench, AlpacaEval 2.0 e Arena-Hard, dimostrano miglioramenti consistenti nelle prestazioni di allineamento senza sacrificare l'efficienza computazionale.
L'osservazione della fauna selvatica svolge un ruolo cruciale nella conservazione della biodiversità, rendendo necessarie metodologie robuste per il monitoraggio delle popolazioni animali e delle interazioni interspecifiche. I recenti progressi nel campo della visione artificiale hanno contribuito in modo significativo all'automazione di compiti fondamentali nell'osservazione della fauna, come il rilevamento degli animali e l'identificazione delle specie. Tuttavia, l'identificazione accurata delle specie a partire da prove indirette, come impronte e feci, rimane relativamente poco esplorata, nonostante la sua importanza nel contribuire al monitoraggio della fauna. Per colmare questa lacuna, presentiamo AnimalClue, il primo dataset su larga scala per l'identificazione delle specie a partire da immagini di prove indirette. Il nostro dataset è composto da 159.605 bounding box che coprono cinque categorie di indizi indiretti: impronte, feci, uova, ossa e piume. Include 968 specie, 200 famiglie e 65 ordini. Ogni immagine è annotata con etichette a livello di specie, bounding box o maschere di segmentazione, e informazioni dettagliate sui tratti, come schemi di attività e preferenze di habitat. A differenza dei dataset esistenti, che si concentrano principalmente su caratteristiche visive dirette (ad esempio, l'aspetto degli animali), AnimalClue presenta sfide uniche per i compiti di classificazione, rilevamento e segmentazione delle istanze, a causa della necessità di riconoscere caratteristiche visive più dettagliate e sottili. Nei nostri esperimenti, valutiamo in modo approfondito modelli di visione rappresentativi e identifichiamo le principali sfide nell'identificazione degli animali a partire dalle loro tracce. Il nostro dataset e il codice sono disponibili all'indirizzo https://dahlian00.github.io/AnimalCluePage/.
Questo lavoro affronta la segmentazione video di oggetti con pochi esempi guidata dal movimento (FSVOS), che mira a segmentare oggetti dinamici nei video basandosi su pochi esempi annotati con gli stessi schemi di movimento. I dataset e i metodi FSVOS esistenti si concentrano tipicamente sulle categorie di oggetti, che sono attributi statici che ignorano le ricche dinamiche temporali nei video, limitando la loro applicazione in scenari che richiedono la comprensione del movimento. Per colmare questa lacuna, introduciamo MOVE, un dataset su larga scala specificamente progettato per la FSVOS guidata dal movimento. Basandoci su MOVE, valutiamo in modo completo 6 metodi all'avanguardia provenienti da 3 diverse task correlate in 2 configurazioni sperimentali. I nostri risultati rivelano che i metodi attuali faticano ad affrontare la FSVOS guidata dal movimento, spingendoci ad analizzare le sfide associate e a proporre un metodo di base, il Decoupled Motion Appearance Network (DMA). Gli esperimenti dimostrano che il nostro approccio raggiunge prestazioni superiori nella comprensione del movimento con pochi esempi, stabilendo una solida base per la ricerca futura in questa direzione.
Le popolazioni faunistiche in Africa affrontano gravi minacce, con un declino superiore al 65% del numero di vertebrati negli ultimi cinque decenni. In risposta, la classificazione di immagini mediante deep learning è emersa come uno strumento promettente per il monitoraggio e la conservazione della biodiversità. Questo articolo presenta uno studio comparativo di modelli di deep learning per la classificazione automatica di immagini della fauna africana, concentrandosi sul transfer learning con estrattori di caratteristiche congelati. Utilizzando un dataset pubblico di quattro specie: bufalo, elefante, rinoceronte e zebra; valutiamo le prestazioni di DenseNet-201, ResNet-152, EfficientNet-B4 e Vision Transformer ViT-H/14. DenseNet-201 ha ottenuto le migliori prestazioni tra le reti convoluzionali (67% di accuratezza), mentre ViT-H/14 ha raggiunto la più alta accuratezza complessiva (99%), ma con un costo computazionale significativamente più elevato, sollevando preoccupazioni riguardo alla distribuzione. I nostri esperimenti evidenziano i compromessi tra accuratezza, requisiti di risorse e fattibilità di distribuzione. La CNN con le migliori prestazioni (DenseNet-201) è stata integrata in uno spazio Hugging Face Gradio per l'uso in tempo reale sul campo, dimostrando la fattibilità di distribuire modelli leggeri in contesti di conservazione. Questo lavoro contribuisce alla ricerca sull'IA radicata in Africa offrendo approfondimenti pratici sulla selezione dei modelli, la preparazione dei dataset e la distribuzione responsabile di strumenti di deep learning per la conservazione della fauna selvatica.
Recentemente, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno ottenuto progressi significativi nei compiti di visione e linguaggio, ma producono contenuti potenzialmente dannosi o inaffidabili. Nonostante il notevole lavoro svolto per indagare l'affidabilità dei modelli linguistici, la capacità degli MMLMs di agire in modo onesto, specialmente di fronte a domande visive a cui non è possibile rispondere, rimane in gran parte inesplorata. Questo lavoro presenta la prima valutazione sistematica dei comportamenti di onestà in vari MLLMs. Definiamo l'onestà nei comportamenti di risposta dei modelli a domande visive irrisolvibili, identifichiamo quattro tipi rappresentativi di tali domande e costruiamo MoHoBench, un benchmark su larga scala per l'onestà degli MMLMs, composto da oltre 12.000 campioni di domande visive, la cui qualità è garantita da un processo di filtraggio a più stadi e da una verifica umana. Utilizzando MoHoBench, abbiamo valutato l'onestà di 28 MMLMs popolari e condotto un'analisi completa. I nostri risultati mostrano che: (1) la maggior parte dei modelli non riesce a rifiutarsi di rispondere quando necessario, e (2) l'onestà degli MMLMs non è solo una questione di modellazione del linguaggio, ma è profondamente influenzata dalle informazioni visive, rendendo necessario lo sviluppo di metodi dedicati per l'allineamento multimodale dell'onestà. Pertanto, abbiamo implementato metodi iniziali di allineamento utilizzando l'apprendimento supervisionato e l'apprendimento per preferenze per migliorare il comportamento di onestà, fornendo una base per futuri lavori su MLLMs affidabili. I nostri dati e il codice sono disponibili all'indirizzo https://github.com/DSTTSD/MoHoBench.