Articoli di ricerca IA selezionati quotidianamente con traduzioni
La svolta di OpenAI o1 mette in luce il potenziale di potenziare il ragionamento per migliorare LLM. Tuttavia, la maggior parte della ricerca sul ragionamento si è concentrata su compiti matematici, lasciando settori come la medicina poco esplorati. Il settore medico, sebbene distinto dalla matematica, richiede anche un ragionamento robusto per fornire risposte affidabili, date le elevate norme sanitarie. Tuttavia, verificare il ragionamento medico è impegnativo, a differenza di quello matematico. Per affrontare questo problema, proponiamo problemi medici verificabili con un verificatore medico per controllare la correttezza delle uscite del modello. Questa natura verificabile consente progressi nel ragionamento medico attraverso un approccio a due fasi: (1) utilizzando il verificatore per guidare la ricerca di una traiettoria di ragionamento complessa per il raffinamento dei LLM, (2) applicando l'apprendimento per rinforzo (RL) con ricompense basate sul verificatore per potenziare ulteriormente il ragionamento complesso. Infine, presentiamo HuatuoGPT-o1, un LLM medico capace di ragionamento complesso, che supera i modelli di base generali e specifici per la medicina utilizzando solo 40K problemi verificabili. Gli esperimenti mostrano che il ragionamento complesso migliora la risoluzione dei problemi medici e beneficia maggiormente dell'RL. Speriamo che il nostro approccio ispiri progressi nel ragionamento in settori medici e in altri settori specializzati.
Presentiamo 1.58-bit FLUX, il primo approccio di successo per quantizzare il modello di generazione di testo-immagine all'avanguardia, FLUX.1-dev, utilizzando pesi da 1.58-bit (cioè valori in {-1, 0, +1}) mantenendo al contempo prestazioni comparabili nella generazione di immagini 1024 x 1024. In particolare, il nostro metodo di quantizzazione opera senza accesso ai dati delle immagini, basandosi esclusivamente sull'auto-supervisione del modello FLUX.1-dev. Inoltre, sviluppiamo un kernel personalizzato ottimizzato per operazioni a 1.58-bit, ottenendo una riduzione del 7.7x nello storage del modello, una riduzione del 5.1x nella memoria di inferenza e un miglioramento della latenza di inferenza. Valutazioni approfondite sui benchmark GenEval e T2I Compbench dimostrano l'efficacia di 1.58-bit FLUX nel mantenere la qualità della generazione migliorando significativamente l'efficienza computazionale.
Basandosi sulle fondamenta della modellazione del linguaggio nel processo di elaborazione del linguaggio naturale, la Predizione del Prossimo Token (NTP) si è evoluta in un obiettivo di allenamento versatile per compiti di apprendimento automatico attraverso varie modalità, ottenendo un notevole successo. Poiché i Grandi Modelli Linguistici (LLM) hanno progredito nell'unificare compiti di comprensione e generazione all'interno della modalità testuale, recenti ricerche hanno dimostrato che compiti provenienti da diverse modalità possono essere efficacemente racchiusi all'interno del framework NTP, trasformando le informazioni multimodali in token e prevedendo il successivo dato il contesto. Questa indagine introduce una tassonomia completa che unifica sia la comprensione che la generazione all'interno dell'apprendimento multimodale attraverso la lente del NTP. La tassonomia proposta copre cinque aspetti chiave: Tokenizzazione multimodale, architetture del modello MMNTP, rappresentazione unificata del compito, set di dati \& valutazione e sfide aperte. Questa nuova tassonomia mira ad aiutare i ricercatori nella loro esplorazione dell'intelligenza multimodale. Un repository GitHub associato che raccoglie gli ultimi articoli e repository è disponibile su https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction.
L'orientamento è un attributo chiave degli oggetti, fondamentale per comprendere la loro posizione spaziale e disposizione nelle immagini. Tuttavia, le soluzioni pratiche per una stima accurata dell'orientamento da un'unica immagine rimangono poco esplorate. In questo lavoro, presentiamo Orient Anything, il primo modello esperto e fondamentale progettato per stimare l'orientamento degli oggetti in un'immagine singola e libera. A causa della scarsità di dati etichettati, proponiamo di estrarre conoscenza dal mondo 3D. Sviluppando un flusso di lavoro per annotare la faccia frontale degli oggetti 3D e generare immagini da visualizzazioni casuali, raccogliamo 2 milioni di immagini con precise annotazioni sull'orientamento. Per sfruttare appieno il dataset, progettiamo un obiettivo di addestramento robusto che modella l'orientamento 3D come distribuzioni di probabilità di tre angoli e prevede l'orientamento dell'oggetto adattando queste distribuzioni. Inoltre, adottiamo diverse strategie per migliorare il trasferimento da sintetico a reale. Il nostro modello raggiunge un'accuratezza di stima dell'orientamento all'avanguardia sia nelle immagini generate che in quelle reali e mostra un'eccezionale capacità di zero-shot in vari scenari. Inoltre, il nostro modello potenzia molte applicazioni, come la comprensione e la generazione di concetti spaziali complessi e l'aggiustamento della posa degli oggetti 3D.
Gli attuali modelli linguistici multimodali di grandi dimensioni (MLLM) faticano a comprendere in modo dettagliato o preciso le componenti visive, anche se forniscono una percezione e un ragionamento completi in un'ampia gamma di applicazioni visive. Studi recenti sviluppano strumenti o unificano compiti visivi specifici nel framework autoregressivo, spesso a scapito delle prestazioni multimodali complessive. Per affrontare questo problema e potenziare i MLLM con compiti visivi in modo scalabile, proponiamo l'ottimizzazione delle preferenze dei compiti (TPO), un nuovo metodo che utilizza preferenze di compiti differenziabili derivati da tipici compiti visivi dettagliati. TPO introduce token di compito apprendibili che stabiliscono connessioni tra più testate specifiche del compito e il MLLM. Sfruttando etichette visive dettagliate durante l'addestramento, TPO potenzia significativamente le capacità multimodali del MLLM e le prestazioni specifiche del compito. Attraverso il co-addestramento multi-task all'interno di TPO, osserviamo benefici sinergici che migliorano le prestazioni dei singoli compiti oltre quanto ottenibile attraverso metodologie di addestramento single-task. La nostra implementazione di questo approccio con VideoChat e LLaVA dimostra un miglioramento complessivo delle prestazioni multimodali del 14,6% rispetto ai modelli di base. Inoltre, MLLM-TPO dimostra robuste capacità zero-shot su vari compiti, esibendo prestazioni paragonabili ai modelli supervisionati all'avanguardia. Il codice sarà rilasciato su https://github.com/OpenGVLab/TPO
In questo lavoro, investighiamo la composizione automatica di design da elementi grafici multimodali. Anche se studi recenti hanno sviluppato vari modelli generativi per il design grafico, solitamente si trovano ad affrontare le seguenti limitazioni: si concentrano solo su determinate sottoattività e sono lontani dal raggiungere il compito di composizione del design; non considerano le informazioni gerarchiche dei design grafici durante il processo di generazione. Per affrontare questi problemi, introduciamo il principio del design stratificato nei Grandi Modelli Multimodali (LMMs) e proponiamo un nuovo approccio, chiamato LaDeCo, per portare a termine questo compito impegnativo. In particolare, LaDeCo pianifica inizialmente i livelli per un insieme di elementi dato, dividendo gli elementi di input in diversi livelli semantici in base ai loro contenuti. Sulla base dei risultati della pianificazione, predice successivamente gli attributi degli elementi che controllano la composizione del design in modo stratificato e include l'immagine renderizzata dei livelli precedentemente generati nel contesto. Con questo design illuminante, LaDeCo scompone il compito difficile in passaggi più gestibili, rendendo il processo di generazione più fluido e chiaro. I risultati sperimentali dimostrano l'efficacia di LaDeCo nella composizione del design. Inoltre, mostriamo che LaDeCo consente alcune interessanti applicazioni nel design grafico, come l'aggiustamento della risoluzione, il riempimento degli elementi, la variazione del design, ecc. Inoltre, supera addirittura i modelli specializzati in alcune sottoattività di design senza alcun addestramento specifico per il compito.
La generazione personalizzata di video senza utilizzo di dati ha attirato notevole attenzione per il suo significativo potenziale applicativo. I metodi esistenti si basano su modelli aggiuntivi per estrarre e iniettare le caratteristiche del soggetto di riferimento, assumendo che il Modello di Diffusione Video (VDM) da solo non sia sufficiente per la generazione personalizzata di video senza dati. Tuttavia, questi metodi spesso faticano a mantenere un aspetto coerente del soggetto a causa di tecniche di estrazione e iniezione delle caratteristiche non ottimali. In questo articolo, riveliamo che il VDM possiede intrinsecamente la capacità di estrarre e iniettare le caratteristiche del soggetto. Abbandonando gli approcci euristici precedenti, introduciamo un nuovo framework che sfrutta la capacità intrinseca del VDM per consentire la generazione di video personalizzati di alta qualità senza dati. In particolare, per l'estrazione delle caratteristiche, inseriamo direttamente le immagini di riferimento nel VDM e utilizziamo il suo processo intrinseco di estrazione delle caratteristiche, che non solo fornisce caratteristiche dettagliate ma si allinea significativamente con la conoscenza pre-addestrata del VDM. Per l'iniezione delle caratteristiche, progettiamo una nuova interazione bidirezionale tra le caratteristiche del soggetto e i contenuti generati attraverso l'autorappresentazione spaziale all'interno del VDM, garantendo che il VDM abbia una migliore fedeltà al soggetto pur mantenendo la diversità del video generato. Gli esperimenti sulla generazione di video umani e di oggetti personalizzati convalidano l'efficacia del nostro framework.
L'esplosione cambriana dei modelli di diffusione pre-addestrati facilmente accessibili suggerisce una domanda di metodi che combinino diversi modelli di diffusione pre-addestrati senza incorrere nel significativo onere computazionale del ri-addestramento di un modello combinato più grande. In questo articolo, formuliamo il problema di combinare diversi modelli di diffusione pre-addestrati nella fase di generazione sotto un nuovo framework proposto chiamato sovrapposizione. Teoricamente, deriviamo la sovrapposizione da rigorosi principi fondamentali derivanti dall'acclamata equazione di continuità e progettiamo due nuovi algoritmi su misura per combinare modelli di diffusione in SuperDiff. SuperDiff sfrutta un nuovo stimatore scalabile della densità di It\^o per la log-verosimiglianza dell'SDE di diffusione che non comporta alcun costo aggiuntivo rispetto al ben noto stimatore di Hutchinson necessario per i calcoli di divergenza. Dimostriamo che SuperDiff è scalabile per grandi modelli di diffusione pre-addestrati poiché la sovrapposizione viene eseguita esclusivamente tramite composizione durante l'inferezza, e gode anche di una facile implementazione poiché combina diversi campi vettoriali pre-addestrati attraverso un sistema di ripesatura automatizzato. In particolare, mostriamo che SuperDiff è efficiente durante il tempo di inferenza e imita operatori di composizione tradizionali come il logico OR e il logico AND. Dimostriamo empiricamente l'utilità dell'utilizzo di SuperDiff per generare immagini più diverse su CIFAR-10, per un editing di immagini condizionato a prompt più fedele utilizzando Stable Diffusion e per un miglioramento della progettazione di strutture di proteine incondizionata e completamente nuova. https://github.com/necludov/super-diffusion
Il raffinamento dei grandi modelli linguistici (LLM) per compiti successivi è un approccio ampiamente adottato, ma spesso porta a una degradazione della sicurezza nei LLM allineati alla sicurezza. Attualmente, molte soluzioni affrontano questo problema incorporando dati di sicurezza aggiuntivi, il che può essere impraticabile in molti casi. In questo articolo, affrontiamo la domanda: Come possiamo migliorare le prestazioni dei compiti successivi preservando la sicurezza nei LLM senza fare affidamento su dati di sicurezza aggiuntivi? Proponiamo un metodo semplice ed efficace che mantiene la sicurezza intrinseca dei LLM mentre potenzia le loro prestazioni nei compiti successivi: unendo i pesi dei modelli allineati alla sicurezza pre e post-rafinitura. I risultati sperimentali su vari compiti successivi, modelli e metodi di unione dimostrano che questo approccio mitiga efficacemente la degradazione della sicurezza migliorando le prestazioni dei compiti successivi, offrendo una soluzione pratica per adattare i LLM allineati alla sicurezza.
Il recupero dei dati dai grafi è cruciale per arricchire i grandi modelli linguistici (LLM) con conoscenze sia di dominio aperto che di dati aziendali privati, ed è anche un componente chiave nel recente sistema GraphRAG (edge et al., 2024). Nonostante decenni di ricerca sui grafi di conoscenza e sul question answering delle basi di conoscenza, i principali framework LLM (ad es. Langchain e LlamaIndex) offrono solo un supporto minimo per il recupero dai moderni grafi di conoscenza enciclopedica come Wikidata. In questo articolo, analizziamo la causa principale e suggeriamo che i moderni grafi di conoscenza RDF (ad es. Wikidata, Freebase) siano meno efficienti per i LLM a causa di schemi eccessivamente ampi che superano di gran lunga la tipica finestra di contesto dei LLM, dell'uso di identificatori di risorse, di tipi di relazione sovrapposti e della mancanza di normalizzazione. Come soluzione, proponiamo viste di grafo di proprietà in cima al grafo RDF sottostante che possono essere interrogate in modo efficiente dai LLM utilizzando Cypher. Abbiamo istanziato questa idea su Wikidata e introdotto CypherBench, il primo benchmark con 11 grafi di proprietà su larga scala e multi-dominio con 7,8 milioni di entità e oltre 10.000 domande. Per raggiungere questo obiettivo, abbiamo affrontato diverse sfide chiave, tra cui lo sviluppo di un motore di conversione da RDF a grafo di proprietà, la creazione di un pipeline sistematica per la generazione di compiti da testo a Cypher e la progettazione di nuove metriche di valutazione.
La creazione di un dataset di domande e risposte su figure su larga scala richiede una notevole quantità di lavoro, dalla raccolta e selezione delle figure all'estrazione di attributi come testo, numeri e colori, e alla generazione di domande e risposte. Sebbene gli sviluppi recenti nei LLM abbiano portato a sforzi per sintetizzare figure, la maggior parte di questi si concentra principalmente sulla generazione di domande e risposte. Inoltre, la creazione di figure direttamente utilizzando LLM spesso incontra problemi come errori di codice, figure simili e contenuti ripetitivi nelle figure. Per affrontare questo problema, presentiamo SBSFigures (Figure Sintetiche Stage-by-Stage), un dataset per il pre-training delle domande e risposte sulle figure. Il nostro pipeline proposto consente la creazione di figure grafiche con annotazioni complete dei dati visualizzati e annotazioni dense di domande e risposte senza alcun processo di annotazione manuale. Il nostro pipeline stage-by-stage rende possibile creare in modo efficiente figure su argomenti e aspetti diversi, riducendo al minimo gli errori di codice. Le nostre SBSFigures dimostrano un forte effetto di pre-training, consentendo di ottenere un addestramento efficiente con una quantità limitata di dati reali di grafici partendo dai nostri pesi pre-addestrati.