Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Transformer hanno rivoluzionato il machine learning, ma il loro funzionamento interno rimane oscuro a molti. Presentiamo Transformer Explainer, uno strumento di visualizzazione interattivo progettato per i non esperti per apprendere i Transformer attraverso il modello GPT-2. Il nostro strumento aiuta gli utenti a comprendere concetti complessi dei Transformer integrando una panoramica del modello e consentendo transizioni fluide tra i livelli di astrazione delle operazioni matematiche e delle strutture del modello. Esegue un'istanza live di GPT-2 localmente nel browser dell'utente, permettendo agli utenti di sperimentare con il proprio input e osservare in tempo reale come i componenti interni e i parametri del Transformer collaborano per prevedere i token successivi. Il nostro strumento non richiede installazione o hardware speciale, ampliando l'accesso del pubblico all'educazione sulle moderne tecniche di AI generativa. Il nostro strumento open-source è disponibile all'indirizzo https://poloclub.github.io/transformer-explainer/. Una demo video è disponibile all'indirizzo https://youtu.be/ECR4oAwocjs.
I Large Vision-Language Models (LVLM) sono in grado di gestire diversi tipi di dati come immagini, testo e segnali fisiologici, e possono essere applicati in vari campi. Nel settore medico, i LVLM hanno un alto potenziale per offrire un sostanziale supporto nella diagnosi e nel trattamento. Prima di ciò, è cruciale sviluppare benchmark per valutare l'efficacia dei LVLM in varie applicazioni mediche. Gli attuali benchmark sono spesso basati su specifiche pubblicazioni accademiche, concentrandosi principalmente su un singolo dominio e mancando di granularità percettive variabili. Pertanto, affrontano sfide specifiche, tra cui una rilevanza clinica limitata, valutazioni incomplete e una guida insufficiente per i LVLM interattivi. Per affrontare queste limitazioni, abbiamo sviluppato il GMAI-MMBench, il benchmark generale di intelligenza artificiale medica più completo con una struttura dati ben categorizzata e una granularità percettiva multipla fino ad oggi. È costruito da 285 dataset attraverso 39 modalità di immagini mediche, 18 task clinici, 18 reparti e 4 granularità percettive in un formato di Visual Question Answering (VQA). Inoltre, abbiamo implementato una struttura ad albero lessicale che consente agli utenti di personalizzare i task di valutazione, adattandosi a varie esigenze di valutazione e supportando sostanzialmente la ricerca e le applicazioni dell'IA medica. Abbiamo valutato 50 LVLM, e i risultati mostrano che anche l'avanzato GPT-4o raggiunge solo un'accuratezza del 52%, indicando un significativo margine di miglioramento. Inoltre, abbiamo identificato cinque principali carenze negli attuali LVLM all'avanguardia che devono essere affrontate per avanzare nello sviluppo di migliori applicazioni mediche. Crediamo che il GMAI-MMBench stimolerà la comunità a costruire la prossima generazione di LVLM verso il GMAI. Pagina del progetto: https://uni-medical.github.io/GMAI-MMBench.github.io/
La generazione di contenuti 3D è al centro di molte applicazioni di computer grafica, inclusi i videogiochi, la produzione cinematografica, la realtà virtuale e aumentata, ecc. Questo articolo propone un nuovo approccio basato sul deep learning per generare automaticamente scene di gioco 3D interattive e giocabili, partendo da prompt casuali dell'utente come uno schizzo disegnato a mano. L'input basato su schizzi offre un modo naturale e conveniente per trasmettere l'intenzione progettuale dell'utente nel processo di creazione dei contenuti. Per superare la sfida della carenza di dati nell'apprendimento (cioè la mancanza di grandi dataset di addestramento per scene 3D), il nostro metodo sfrutta un modello di diffusione di denoising 2D pre-addestrato per generare un'immagine 2D della scena come guida concettuale. In questo processo, adottiamo la modalità di proiezione isometrica per escludere le pose della camera sconosciute mentre otteniamo il layout della scena. Dall'immagine isometrica generata, utilizziamo un metodo di comprensione delle immagini pre-addestrato per segmentare l'immagine in parti significative, come oggetti fuori terra, alberi e edifici, e per estrarre il layout 2D della scena. Questi segmenti e layout vengono successivamente inseriti in un motore di generazione procedurale di contenuti (PCG), come un motore di videogiochi 3D come Unity o Unreal, per creare la scena 3D. La scena 3D risultante può essere integrata senza soluzione di continuità in un ambiente di sviluppo di giochi ed è immediatamente giocabile. Test estensivi dimostrano che il nostro metodo può generare in modo efficiente scene di gioco 3D di alta qualità e interattive, con layout che seguono da vicino l'intenzione dell'utente.
La diffusa accessibilità dei grandi modelli linguistici (LLM) al pubblico generale ha significativamente amplificato la diffusione di testi generati da macchine (MGT). I progressi nella manipolazione dei prompt hanno esacerbato la difficoltà nel discernere l'origine di un testo (scritto da umani o generato da macchine). Ciò solleva preoccupazioni riguardo al potenziale uso improprio degli MGT, in particolare nei contesti educativi e accademici. In questo articolo, presentiamo LLM-DetectAIve — un sistema progettato per il rilevamento granulare degli MGT. È in grado di classificare i testi in quattro categorie: scritti da umani, generati da macchine, scritti da macchine e umanizzati, e scritti da umani e perfezionati da macchine. A differenza dei precedenti rilevatori di MGT che eseguono una classificazione binaria, l'introduzione di due categorie aggiuntive in LLM-DetectAIve offre approfondimenti sui diversi gradi di intervento degli LLM durante la creazione del testo. Questo potrebbe essere utile in alcuni ambiti come l'educazione, dove qualsiasi intervento da parte degli LLM è solitamente proibito. Gli esperimenti dimostrano che LLM-DetectAIve può identificare efficacemente la paternità dei contenuti testuali, dimostrando la sua utilità nel migliorare l'integrità nell'educazione, nell'accademia e in altri ambiti. LLM-DetectAIve è accessibile pubblicamente all'indirizzo https://huggingface.co/spaces/raj-tomar001/MGT-New. Il video che descrive il nostro sistema è disponibile all'indirizzo https://youtu.be/E8eT_bE7k8c.
Lo sviluppo di modelli linguistici monolingue per lingue a risorse limitate e medie continua a essere ostacolato dalla difficoltà di reperire dati di addestramento di alta qualità. In questo studio, presentiamo una nuova strategia di trasferimento lessicale cross-linguale, la trans-tokenizzazione, progettata per affrontare questa sfida e consentire un adattamento linguistico più efficiente. Il nostro approccio si concentra sull'adattamento di un modello linguistico monolingue ad alta risorsa a una lingua target non vista, inizializzando gli embedding dei token della lingua target utilizzando una media ponderata degli embedding di token semanticamente simili dalla lingua sorgente. A tal fine, sfruttiamo una risorsa di traduzione che copre sia la lingua sorgente che quella target. Validiamo il nostro metodo con i Tweeties, una serie di modelli linguistici trans-tokenizzati, e dimostriamo le loro prestazioni competitive su vari task downstream in un insieme piccolo ma diversificato di lingue. Inoltre, introduciamo i modelli Hydra LLM, dotati di più teste di modellazione linguistica e tabelle di embedding intercambiabili, che estendono ulteriormente le capacità della nostra strategia di trans-tokenizzazione. Progettando un Hydra LLM basato sul modello multilingue TowerInstruct, abbiamo sviluppato un modello di traduzione automatica all'avanguardia per il tataro, in modalità zero-shot, bypassando completamente la necessità di dati paralleli di alta qualità. Questa svolta è particolarmente significativa per lingue a risorse limitate come il tataro, dove dati paralleli di alta qualità sono difficili da reperire. Riducendo i requisiti di dati e tempo per l'addestramento di modelli di alta qualità, la nostra strategia di trans-tokenizzazione consente lo sviluppo di modelli linguistici per una gamma più ampia di lingue, specialmente quelle con risorse limitate. Speriamo che il nostro lavoro possa ispirare ulteriori ricerche e collaborazioni nel campo del trasferimento lessicale cross-linguale e contribuire all'empowerment delle lingue su scala globale.
Proponiamo un nuovo metodo, la traduzione avanti e indietro delle istruzioni, per costruire dati sintetici di alta qualità basati sulla conoscenza del mondo, finalizzati all'allineamento dei grandi modelli linguistici (LLM). Partendo da documenti provenienti da un corpus web, generiamo e curiamo istruzioni sintetiche utilizzando l'approccio di retro-traduzione proposto da Li et al. (2023a), e riscriviamo le risposte per migliorarne ulteriormente la qualità basandoci sui documenti iniziali. Il fine-tuning con le coppie risultanti (istruzione retro-tradotta, risposta riscritta) produce tassi di vittoria più elevati su AlpacaEval rispetto all'uso di altri comuni dataset di istruzioni come Humpback, ShareGPT, Open Orca, Alpaca-GPT4 e Self-instruct. Dimostriamo inoltre che riscrivere le risposte con un LLM supera la distillazione diretta, e che le due distribuzioni di testo generate mostrano una distinzione significativa nello spazio di embedding. Un'ulteriore analisi mostra che le nostre istruzioni retro-tradotte sono di qualità superiore rispetto ad altre fonti di istruzioni sintetiche, mentre le nostre risposte sono più diversificate e complesse rispetto a quelle ottenute dalla distillazione. Nel complesso, riteniamo che la traduzione avanti e indietro delle istruzioni combini il meglio di entrambi i mondi, sfruttando la diversità e la quantità di informazioni presenti sul web, garantendo al contempo la qualità delle risposte necessaria per un allineamento efficace.
I modelli linguistici multimodali ad alte prestazioni (MLLMs) dipendono fortemente dalla qualità dei dati. Questo studio introduce un nuovo dataset denominato Img-Diff, progettato per migliorare il riconoscimento fine delle immagini negli MLLM sfruttando intuizioni provenienti dall'apprendimento contrastivo e dalla descrizione delle differenze tra immagini. Analizzando le differenze tra oggetti in immagini simili, sfidiamo i modelli a identificare sia i componenti corrispondenti che quelli distinti. Utilizziamo il modello Stable-Diffusion-XL e tecniche avanzate di editing delle immagini per creare coppie di immagini simili che evidenziano la sostituzione di oggetti. La nostra metodologia include un Generatore di Aree di Differenza per l'identificazione delle differenze tra oggetti, seguito da un Generatore di Descrizioni di Differenza per descrizioni dettagliate delle differenze. Il risultato è un dataset relativamente piccolo ma di alta qualità di campioni di "sostituzione di oggetti". Utilizziamo il dataset proposto per affinare MLLM all'avanguardia (SOTA) come MGM-7B, ottenendo miglioramenti completi dei punteggi di prestazione rispetto ai modelli SOTA addestrati con dataset su larga scala, in numerosi compiti di differenza tra immagini e di risposta a domande visive. Ad esempio, i nostri modelli addestrati superano notevolmente i modelli SOTA GPT-4V e Gemini sul benchmark MMVP. Inoltre, indaghiamo metodi alternativi per generare dati di differenza tra immagini attraverso la "rimozione di oggetti" e conduciamo una valutazione approfondita per confermare la diversità, la qualità e la robustezza del dataset, presentando diverse intuizioni sulla sintesi di tale dataset contrastivo. Per incoraggiare ulteriori ricerche e avanzare il campo della sintesi di dati multimodali e del potenziamento delle capacità fondamentali degli MLLM per la comprensione delle immagini, rilasciamo i nostri codici e dataset all'indirizzo https://github.com/modelscope/data-juicer/tree/ImgDiff.
La rilevazione della testa umana, la stima dei punti chiave e l'adattamento del modello 3D della testa sono compiti importanti con molte applicazioni. Tuttavia, i tradizionali dataset del mondo reale spesso presentano problemi di bias, privacy e preoccupazioni etiche, e sono stati registrati in ambienti di laboratorio, il che rende difficile per i modelli addestrati generalizzare. Qui presentiamo VGGHeads -- un ampio dataset sintetico generato con modelli di diffusione per la rilevazione della testa umana e la stima delle mesh 3D. Il nostro dataset comprende oltre 1 milione di immagini ad alta risoluzione, ciascuna annotata con dettagliate mesh 3D della testa, punti di riferimento facciali e bounding box. Utilizzando questo dataset, introduciamo una nuova architettura di modello in grado di eseguire simultaneamente la rilevazione delle teste e la ricostruzione delle mesh della testa da una singola immagine in un unico passaggio. Attraverso valutazioni sperimentali estensive, dimostriamo che i modelli addestrati sui nostri dati sintetici raggiungono prestazioni solide su immagini reali. Inoltre, la versatilità del nostro dataset lo rende applicabile a un ampio spettro di compiti, offrendo una rappresentazione generale e completa delle teste umane. In aggiunta, forniamo informazioni dettagliate sulla pipeline di generazione dei dati sintetici, consentendone il riutilizzo per altri compiti e domini.
Presentiamo Puppet-Master, un modello generativo di video interattivo che può fungere da prior di movimento per la dinamica a livello di parti. Durante il test, data una singola immagine e un insieme sparso di traiettorie di movimento (cioè, trascinamenti), Puppet-Master è in grado di sintetizzare un video che rappresenta un movimento realistico a livello di parti, fedele alle interazioni di trascinamento fornite. Questo risultato è ottenuto attraverso il fine-tuning di un modello di diffusione video pre-addestrato su larga scala, per il quale proponiamo una nuova architettura di condizionamento per iniettare efficacemente il controllo del trascinamento. Ancora più importante, introduciamo il meccanismo di attenzione all-to-first, una sostituzione diretta per i moduli di attenzione spaziale ampiamente adottati, che migliora significativamente la qualità della generazione affrontando i problemi di aspetto e sfondo presenti nei modelli esistenti. A differenza di altri generatori di video condizionati al movimento che sono addestrati su video in-the-wild e spostano principalmente un intero oggetto, Puppet-Master è appreso da Objaverse-Animation-HQ, un nuovo dataset di clip di movimento a livello di parti curate. Proponiamo una strategia per filtrare automaticamente le animazioni sub-ottimali e arricchire i rendering sintetici con traiettorie di movimento significative. Puppet-Master generalizza bene a immagini reali in varie categorie e supera i metodi esistenti in modo zero-shot su un benchmark del mondo reale. Per ulteriori risultati, consulta la nostra pagina del progetto: vgg-puppetmaster.github.io.
L'ancoraggio del linguaggio naturale in ambienti fisici 3D è essenziale per il progresso dell'intelligenza artificiale incarnata. I dataset e i modelli attuali per l'ancoraggio visivo 3D si concentrano principalmente sull'identificazione e localizzazione di oggetti a partire da descrizioni statiche e centrate sugli oggetti. Questi approcci non affrontano adeguatamente la natura dinamica e sequenziale dell'ancoraggio orientato ai compiti, necessario per applicazioni pratiche. In questo lavoro, proponiamo un nuovo compito: l'Ancoraggio Sequenziale Orientato ai Compiti in scene 3D, in cui un agente deve seguire istruzioni dettagliate passo-passo per completare attività quotidiane localizzando una sequenza di oggetti target in scene indoor. Per facilitare questo compito, introduciamo SG3D, un dataset su larga scala contenente 22.346 compiti con 112.236 passaggi distribuiti su 4.895 scene 3D del mondo reale. Il dataset è stato costruito utilizzando una combinazione di scansioni RGB-D provenienti da vari dataset di scene 3D e una pipeline automatizzata per la generazione dei compiti, seguita da una verifica umana per garantire la qualità. Abbiamo adattato tre modelli all'avanguardia per l'ancoraggio visivo 3D al compito di ancoraggio sequenziale e valutato le loro prestazioni su SG3D. I nostri risultati rivelano che, sebbene questi modelli performino bene su benchmark tradizionali, affrontano sfide significative con l'ancoraggio sequenziale orientato ai compiti, evidenziando la necessità di ulteriori ricerche in questo ambito.
La rappresentazione molecolare è un elemento fondamentale per la nostra comprensione del mondo fisico. La sua importanza spazia dai principi delle reazioni chimiche alla progettazione di nuove terapie e materiali. I precedenti modelli di machine learning molecolare hanno utilizzato stringhe, impronte digitali, caratteristiche globali e semplici grafi molecolari, che sono rappresentazioni intrinsecamente povere di informazioni. Tuttavia, con l'aumentare della complessità dei compiti di previsione, la rappresentazione molecolare deve codificare informazioni di maggiore fedeltà. Questo lavoro introduce un approccio innovativo per arricchire i grafi molecolari con informazioni quantochimiche attraverso gli effetti stereoelettronici. Dimostriamo che l'aggiunta esplicita di interazioni stereoelettroniche migliora significativamente le prestazioni dei modelli di machine learning molecolare. Inoltre, le rappresentazioni arricchite di stereoelettronica possono essere apprese e implementate con un flusso di lavoro personalizzato basato su una doppia rete neurale a grafo, consentendo la loro applicazione a qualsiasi compito di machine learning molecolare a valle. Infine, mostriamo che le rappresentazioni apprese permettono una facile valutazione stereoelettronica di sistemi precedentemente intrattabili, come intere proteine, aprendo nuove strade per la progettazione molecolare.
Prevedere il comportamento di un programma senza esecuzione è un compito essenziale e complesso nell'ingegneria del software. I modelli tradizionali spesso faticano a catturare le dipendenze dinamiche e le interazioni all'interno del codice. Questo articolo introduce un nuovo framework basato sul machine learning chiamato CodeFlowrepresents, che prevede la copertura del codice e rileva errori di runtime attraverso l'apprendimento delle dipendenze dinamiche. Utilizzando i grafi di flusso di controllo (CFG), CodeFlowrappresenta tutti i possibili percorsi di esecuzione e le relazioni tra diverse istruzioni, offrendo una comprensione completa del comportamento del programma. Costruisce CFG per rappresentare i percorsi di esecuzione e apprende rappresentazioni vettoriali per i nodi dei CFG, catturando le dipendenze statiche del flusso di controllo. Inoltre, apprende le dipendenze dinamiche attraverso tracce di esecuzione, che riflettono gli impatti tra le istruzioni durante l'esecuzione. Questo approccio consente una previsione accurata della copertura del codice e l'identificazione degli errori di runtime. Valutazioni empiriche mostrano miglioramenti significativi nell'accuratezza della previsione della copertura del codice e un'efficace localizzazione degli errori di runtime, superando i modelli attuali.
Quando si utilizzano modelli linguistici (LM) per risolvere problemi complessi, gli esseri umani potrebbero avere difficoltà a comprendere le soluzioni generate dai LM e a correggere quelle imperfette. Per assistere gli esseri umani nella loro correzione, proponiamo di scomporre automaticamente le soluzioni complesse in più parti più semplici che corrispondono a specifici sottocompiti. Introduciamo un nuovo obiettivo per l'apprendimento della scomposizione dei compiti, denominato valore assistivo (AssistV), che misura la fattibilità e la velocità con cui gli esseri umani possono correggere la soluzione scomposta. Raccogliamo un dataset di esperienze umane di correzione su diverse soluzioni scomposte. Utilizzando i dati raccolti come esempi contestuali, apprendiamo quindi a criticare, affinare e classificare le soluzioni scomposte per migliorare l'AssistV. Validiamo il nostro metodo su problemi di programmazione competitiva: in 177 ore di studio umano, il nostro metodo consente ai non esperti di risolvere il 33,3% in più di problemi, li velocizza di 3,3 volte e permette loro di eguagliare gli esperti non assistiti.