Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di diffusione hanno ottenuto un successo straordinario nella generazione di immagini e video. In questo lavoro, dimostriamo che i modelli di diffusione possono anche generare parametri di reti neurali ad alte prestazioni. Il nostro approccio è semplice, utilizzando un autoencoder e un modello di diffusione latente standard. L'autoencoder estrae rappresentazioni latenti di un sottoinsieme dei parametri della rete addestrata. Un modello di diffusione viene quindi addestrato per sintetizzare queste rappresentazioni latenti dei parametri partendo da rumore casuale. Successivamente, genera nuove rappresentazioni che vengono passate attraverso il decoder dell'autoencoder, i cui output sono pronti per essere utilizzati come nuovi sottoinsiemi di parametri della rete. Attraverso varie architetture e dataset, il nostro processo di diffusione genera costantemente modelli con prestazioni comparabili o migliori rispetto alle reti addestrate, con un costo aggiuntivo minimo. In particolare, troviamo empiricamente che i modelli generati si comportano in modo diverso rispetto alle reti addestrate. I nostri risultati incoraggiano ulteriori esplorazioni sull'uso versatile dei modelli di diffusione.
Introduciamo il Generalized Instruction Tuning (denominato GLAN), un metodo generale e scalabile per il fine-tuning delle istruzioni nei Large Language Models (LLM). A differenza dei lavori precedenti che si basano su esempi iniziali o dataset esistenti per costruire dati di fine-tuning delle istruzioni, GLAN utilizza esclusivamente una tassonomia pre-curata della conoscenza e delle capacità umane come input e genera dati sintetici di istruzioni su larga scala in tutte le discipline. Nello specifico, ispirati dalla struttura sistematica del sistema educativo umano, costruiamo la tassonomia scomponendo la conoscenza e le capacità umane in vari campi, sotto-campi e, infine, discipline distinte in modo semi-automatico, facilitato dai LLM. Successivamente, generiamo un elenco completo di materie per ogni disciplina e procediamo a progettare un programma di studi personalizzato per ogni materia, sempre utilizzando i LLM. Con i concetti chiave dettagliati in ogni sessione del programma di studi, siamo in grado di generare istruzioni diversificate con una copertura ampia dell'intero spettro della conoscenza e delle abilità umane. Esperimenti estesi su grandi modelli linguistici (ad esempio, Mistral) dimostrano che GLAN eccelle in molteplici dimensioni, dal ragionamento matematico, alla programmazione, agli esami accademici, al ragionamento logico fino al seguire istruzioni generali, senza utilizzare dati di addestramento specifici per questi compiti. Inoltre, GLAN consente una facile personalizzazione e nuovi campi o abilità possono essere aggiunti semplicemente incorporando un nuovo nodo nella nostra tassonomia.
Presentiamo VideoPrism, un codificatore video generico che affronta una vasta gamma di attività di comprensione video con un singolo modello congelato. Addestriamo VideoPrism su un corpus eterogeneo contenente 36 milioni di coppie video-didascalia di alta qualità e 582 milioni di clip video con testo parallelo rumoroso (ad esempio, trascrizioni ASR). L'approccio di pre-addestramento migliora l'auto-codifica mascherata attraverso la distillazione globale-locale di embedding video semantici e uno schema di riordinamento dei token, consentendo a VideoPrism di concentrarsi principalmente sulla modalità video sfruttando al contempo il prezioso testo associato ai video. Testiamo ampiamente VideoPrism su quattro ampi gruppi di attività di comprensione video, dal question answering su video web alla visione artificiale per la scienza, raggiungendo prestazioni all'avanguardia su 30 dei 33 benchmark di comprensione video.
La maggior parte dei modelli di descrizione video sono progettati per elaborare brevi clip video di pochi secondi e produrre testo che descrive concetti visivi di basso livello (ad esempio, oggetti, scene, azioni atomiche). Tuttavia, la maggior parte dei video del mondo reale dura minuti o ore e presenta una struttura gerarchica complessa che si estende su diverse granularità temporali. Proponiamo Video ReCap, un modello ricorsivo di descrizione video in grado di elaborare input video di lunghezze drasticamente diverse (da 1 secondo a 2 ore) e produrre descrizioni video a più livelli gerarchici. L'architettura ricorsiva video-linguistica sfrutta la sinergia tra le diverse gerarchie video e può elaborare video della durata di un'ora in modo efficiente. Utilizziamo uno schema di apprendimento curriculare per apprendere la struttura gerarchica dei video, partendo da descrizioni a livello di clip che descrivono azioni atomiche, per poi concentrarsi su descrizioni a livello di segmento e concludere con la generazione di riassunti per video della durata di un'ora. Inoltre, introduciamo il dataset Ego4D-HCap arricchendo Ego4D con 8.267 riassunti video a lungo raggio raccolti manualmente. Il nostro modello ricorsivo può generare in modo flessibile descrizioni a diversi livelli gerarchici, risultando utile anche per altre complesse attività di comprensione video, come VideoQA su EgoSchema. Dati, codice e modelli sono disponibili all'indirizzo: https://sites.google.com/view/vidrecap
Affinché gli assistenti basati su modelli linguistici di grandi dimensioni (LLM) possano adattarsi efficacemente alle esigenze informative in evoluzione, è necessario aggiornare la loro conoscenza fattuale attraverso un addestramento continuo su nuovi dati. La procedura standard per farlo prevede un pre-addestramento continuo su nuovi documenti seguito da un instruction-tuning su coppie domanda-risposta (QA). Tuttavia, abbiamo osservato che gli LLM addestrati con questa procedura faticano a rispondere alle domande, nonostante la perplessità dei documenti sia minimizzata. Abbiamo riscontrato che le coppie QA sono generalmente semplici, mentre i documenti sono più complessi, intrecciando molte affermazioni fattuali in modo intricato. Pertanto, ipotizziamo che sia vantaggioso esporre gli LLM a coppie QA prima del pre-addestramento continuo sui documenti, in modo che il processo di codifica della conoscenza da documenti complessi tenga conto di come questa conoscenza viene accessibile attraverso le domande. Sulla base di ciò, proponiamo il pre-instruction-tuning (PIT), un metodo che esegue l'instruction-tuning sulle domande prima dell'addestramento sui documenti. Questo si contrappone all'instruction-tuning standard, che impara come estrarre la conoscenza dopo l'addestramento sui documenti. Esperimenti estesi e studi di ablazione dimostrano che il PIT migliora significativamente la capacità degli LLM di assorbire conoscenza da nuovi documenti, superando l'instruction-tuning standard del 17,8%.
I LLM hanno trasformato l'NLP e dimostrato potenziale in vari campi, ma il loro impatto nel settore finanziario rimane poco esplorato a causa della mancanza di valutazioni approfondite e della complessità delle attività finanziarie. Questo, unito al rapido sviluppo dei LLM, evidenzia l'urgente necessità di un benchmark sistematico di valutazione finanziaria per questi modelli. In questo articolo, presentiamo FinBen, il primo benchmark di valutazione open-source e completo, progettato specificamente per valutare in modo approfondito le capacità dei LLM nel dominio finanziario. FinBen comprende 35 dataset relativi a 23 task finanziari, organizzati in tre livelli di difficoltà ispirati alla teoria Cattell-Horn-Carroll, per valutare le abilità cognitive dei LLM nel ragionamento induttivo, nella memoria associativa, nel ragionamento quantitativo, nell'intelligenza cristallizzata e altro ancora. La nostra valutazione di 15 LLM rappresentativi, tra cui GPT-4, ChatGPT e il più recente Gemini, rivela punti di forza e limitazioni nel contesto finanziario. I risultati indicano che GPT-4 eccelle in quantificazione, estrazione, ragionamento numerico e trading azionario, mentre Gemini brilla nella generazione e nella previsione; tuttavia, entrambi mostrano difficoltà nell'estrazione complessa e nella previsione, evidenziando la necessità di miglioramenti mirati. L'instruction tuning migliora le prestazioni nei task semplici, ma non è sufficiente per potenziare il ragionamento complesso e le capacità di previsione. FinBen mira a valutare continuamente i LLM nel settore finanziario, promuovendo lo sviluppo dell'IA attraverso aggiornamenti regolari di task e modelli.
In questo articolo, proponiamo un algoritmo che consente l'affinamento congiunto della posa della telecamera e della geometria della scena rappresentata da un tensore a basso rango decomposto, utilizzando solo immagini 2D come supervisione. Inizialmente, conduciamo uno studio pilota basato su un segnale 1D e colleghiamo i nostri risultati agli scenari 3D, dove l'ottimizzazione congiunta ingenua della posa su NeRF basati su voxel può facilmente portare a soluzioni sub-ottimali. Inoltre, basandoci sull'analisi dello spettro di frequenza, proponiamo di applicare filtri gaussiani convoluzionali sui campi di radianza 2D e 3D per un programma di addestramento da grossolano a fine che consente l'ottimizzazione congiunta della posa della telecamera. Sfruttando la proprietà di decomposizione nel tensore a basso rango decomposto, il nostro metodo raggiunge un effetto equivalente alla convoluzione 3D a forza bruta con un sovraccarico computazionale minimo. Per migliorare ulteriormente la robustezza e la stabilità dell'ottimizzazione congiunta, proponiamo anche tecniche di supervisione 2D smussata, parametri del kernel scalati casualmente e maschera di perdita guidata dai bordi. Valutazioni quantitative e qualitative estensive dimostrano che il nostro framework proposto raggiunge prestazioni superiori nella sintesi di nuove viste, nonché una rapida convergenza per l'ottimizzazione.
Questo articolo presenta l'architettura neurale MVDiffusion++ per la ricostruzione di oggetti 3D, che sintetizza viste dense e ad alta risoluzione di un oggetto partendo da una o poche immagini senza informazioni sulla posizione della camera. MVDiffusion++ raggiunge una flessibilità e scalabilità superiori grazie a due idee sorprendentemente semplici: 1) Un'``architettura senza pose'' in cui l'auto-attenzione standard tra feature latenti 2D apprende la coerenza 3D attraverso un numero arbitrario di viste condizionali e di generazione senza utilizzare esplicitamente informazioni sulla posizione della camera; e 2) Una ``strategia di dropout delle viste'' che scarta un numero significativo di viste di output durante l'addestramento, riducendo l'impronta di memoria in fase di training e abilitando la sintesi di viste dense e ad alta risoluzione in fase di test. Utilizziamo Objaverse per l'addestramento e Google Scanned Objects per la valutazione con metriche standard di sintesi di nuove viste e ricostruzione 3D, dove MVDiffusion++ supera significativamente lo stato dell'arte attuale. Dimostriamo anche un esempio di applicazione text-to-3D combinando MVDiffusion++ con un modello generativo text-to-image.
Il tatto è una modalità sensoriale importante per gli esseri umani, ma non è ancora stato integrato in un modello generativo di linguaggio multimodale. Ciò è in parte dovuto alla difficoltà di ottenere etichette in linguaggio naturale per i dati tattili e alla complessità di allineare le letture tattili con le osservazioni visive e le descrizioni linguistiche. Come passo verso il colmare questa lacuna, questo lavoro introduce un nuovo dataset di 44K coppie visione-tatto acquisite in contesti reali, con etichette in lingua inglese annotate da esseri umani (10%) e pseudo-etichette testuali generate da GPT-4V (90%). Utilizziamo questo dataset per addestrare un codificatore tattile allineato con la visione e il linguaggio per la classificazione a vocabolario aperto e un modello touch-vision-language (TVL) per la generazione di testo utilizzando il codificatore addestrato. I risultati suggeriscono che, incorporando il tatto, il modello TVL migliora (+29% di accuratezza nella classificazione) l'allineamento touch-vision-language rispetto ai modelli esistenti addestrati su qualsiasi coppia di queste modalità. Sebbene solo una piccola frazione del dataset sia etichettata da esseri umani, il modello TVL dimostra una migliore comprensione visivo-tattile rispetto a GPT-4V (+12%) e ai modelli open-source visione-linguaggio (+32%) su un nuovo benchmark di comprensione touch-vision. Codice e dati: https://tactile-vlm.github.io.
La sintesi di notizie da singoli documenti ha registrato progressi significativi in termini di fedeltà negli ultimi anni, grazie alla ricerca sulla valutazione della coerenza fattuale, o delle allucinazioni. Ci chiediamo se questi progressi si estendano ad altri domini di sintesi testuale. Proponiamo un nuovo benchmark di valutazione sulla sintesi di dialoghi focalizzati su argomenti specifici, generata da LLM di dimensioni variabili. Forniamo annotazioni umane binarie a livello di frase sulla coerenza fattuale di questi riassunti, insieme a spiegazioni dettagliate delle frasi fattualmente incoerenti. La nostra analisi mostra che gli LLM esistenti producono una quantità significativa di errori fattuali nel dominio dei dialoghi, indipendentemente dalle dimensioni del modello. D'altra parte, quando gli LLM, incluso GPT-4, fungono da valutatori binari della fattualità, si comportano in modo insoddisfacente e possono essere superati dalle metriche specializzate di valutazione della fattualità più avanzate. Infine, abbiamo condotto un'analisi dei tipi di allucinazioni con una tassonomia degli errori curata. Scopriamo che ci sono errori e distribuzioni di errori diversificati nei riassunti generati dai modelli e che le metriche non basate su LLM possono catturare tutti i tipi di errore meglio dei valutatori basati su LLM.
La creazione manuale di texture per mesh 3D è un processo dispendioso in termini di tempo, anche per esperti creatori di contenuti visivi. Proponiamo un approccio rapido per la texturizzazione automatica di una mesh 3D in input basato su un prompt testuale fornito dall'utente. In modo cruciale, il nostro approccio separa l'illuminazione dal materiale/riflettanza della superficie nella texture risultante, consentendo alla mesh di essere correttamente riluminata e renderizzata in qualsiasi ambiente di illuminazione. Introduciamo LightControlNet, un nuovo modello text-to-image basato sull'architettura ControlNet, che permette di specificare l'illuminazione desiderata come immagine di condizionamento per il modello. La nostra pipeline text-to-texture costruisce la texture in due fasi. La prima fase produce un insieme sparso di viste di riferimento visivamente coerenti della mesh utilizzando LightControlNet. La seconda fase applica un'ottimizzazione della texture basata su Score Distillation Sampling (SDS) che lavora con LightControlNet per aumentare la qualità della texture mentre separa il materiale della superficie dall'illuminazione. La nostra pipeline è significativamente più veloce rispetto ai precedenti metodi text-to-texture, producendo texture di alta qualità e riluminabili.
I notevoli progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) non li hanno resi immuni alle sfide, in particolare nel contesto della gestione di informazioni ingannevoli nei prompt, producendo così risposte allucinate in tali condizioni. Per valutare quantitativamente questa vulnerabilità, presentiamo MAD-Bench, un benchmark accuratamente curato che contiene 850 campioni di test suddivisi in 6 categorie, come oggetti inesistenti, conteggio di oggetti, relazioni spaziali e confusione visiva. Forniamo un'analisi completa dei modelli MLLM più popolari, che vanno da GPT-4V, Gemini-Pro, a modelli open-source come LLaVA-1.5 e CogVLM. Empiricamente, osserviamo significativi divari di prestazioni tra GPT-4V e gli altri modelli; e i precedenti modelli robusti ottimizzati con istruzioni, come LRV-Instruction e LLaVA-RLHF, non sono efficaci su questo nuovo benchmark. Mentre GPT-4V raggiunge un'accuratezza del 75,02% su MAD-Bench, l'accuratezza di qualsiasi altro modello nei nostri esperimenti varia dal 5% al 35%. Proponiamo inoltre un rimedio che aggiunge un paragrafo aggiuntivo ai prompt ingannevoli per incoraggiare i modelli a riflettere due volte prima di rispondere alla domanda. Sorprendentemente, questo semplice metodo può persino raddoppiare l'accuratezza; tuttavia, i numeri assoluti sono ancora troppo bassi per essere soddisfacenti. Speriamo che MAD-Bench possa servire come un benchmark prezioso per stimolare ulteriori ricerche per migliorare la resilienza dei modelli contro i prompt ingannevoli.
I modelli di diffusione hanno ottenuto progressi significativi nella generazione di immagini da testo. Tuttavia, i modelli esistenti incontrano ancora molte difficoltà quando si tratta di generazioni compositive con più oggetti. In questo articolo, proponiamo un nuovo framework per la generazione di immagini da testo, denominato RealCompo, che non richiede addestramento ed è facilmente trasferibile, con l'obiettivo di sfruttare i vantaggi dei modelli di generazione da testo a immagine e da layout a immagine per migliorare sia il realismo che la composizionalità delle immagini generate. Viene proposto un bilanciatore intuitivo e innovativo per equilibrare dinamicamente i punti di forza dei due modelli durante il processo di denoising, consentendo un uso plug-and-play di qualsiasi modello senza ulteriori addestramenti. Esperimenti estensivi dimostrano che RealCompo supera costantemente i modelli all'avanguardia nella generazione di immagini da testo e da layout a immagine nella generazione compositiva con più oggetti, mantenendo un soddisfacente realismo e composizionalità delle immagini generate. Il codice è disponibile all'indirizzo https://github.com/YangLing0818/RealCompo.