Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'autocorrezione è una capacità molto desiderabile dei grandi modelli linguistici (LLM), tuttavia è stata costantemente trovata poco efficace nei LLM moderni. Gli approcci esistenti per addestrare l'autocorrezione richiedono o più modelli o un modello più capace o altre forme di supervisione. A questo scopo, sviluppiamo un approccio di apprendimento per rinforzo (RL) online a più turni, SCoRe, che migliora significativamente la capacità di autocorrezione di un LLM utilizzando dati interamente autogenerati. Per costruire SCoRe, mostriamo innanzitutto che le varianti del fine-tuning supervisionato (SFT) su tracce di correzione generate offline dal modello sono insufficienti per instillare il comportamento di autocorrezione. In particolare, osserviamo che l'addestramento tramite SFT soffre di una discrepanza di distribuzione tra i dati di addestramento e le risposte del modello stesso o preferisce implicitamente solo un certo modo di comportamento di correzione che spesso non è efficace al momento del test. SCoRe affronta queste sfide addestrando sotto la distribuzione del modello di tracce di correzione autogenerate e utilizzando una regolarizzazione appropriata per guidare il processo di apprendimento nell'apprendimento di una strategia di autocorrezione efficace al momento del test anziché semplicemente adattare risposte ad alto reward per un determinato prompt. Questa regolarizzazione prescrive l'esecuzione di una prima fase di RL su un modello di base per generare una inizializzazione della policy che è meno suscettibile al collasso e quindi utilizzare un bonus di reward per amplificare l'autocorrezione durante l'addestramento. Applicato ai modelli Gemini 1.0 Pro e 1.5 Flash, scopriamo che SCoRe raggiunge prestazioni di autocorrezione all'avanguardia, migliorando rispettivamente del 15,6% e del 9,1% le prestazioni di autocorrezione dei modelli di base nei benchmark MATH e HumanEval.
Il pre-addestramento su dataset di grandi dimensioni e di alta qualità è cruciale per potenziare le capacità di ragionamento dei Grandi Modelli Linguistici (LLM), specialmente in ambiti specializzati come la matematica. Nonostante l'importanza riconosciuta, attualmente nel campo dei Modelli Linguistici Multimodali (MLLM) manca un dataset di pre-addestramento open-source esaustivo appositamente progettato per il ragionamento matematico. Per colmare questa lacuna, presentiamo InfiMM-WebMath-40B, un dataset di alta qualità di documenti immagine-testo intercalati. Esso comprende 24 milioni di pagine web, 85 milioni di URL di immagini associate e 40 miliardi di token di testo, tutti estratti e filtrati meticolosamente da CommonCrawl. Forniamo una panoramica dettagliata della nostra raccolta dati e del nostro processo di elaborazione. Per dimostrare la robustezza di InfiMM-WebMath-40B, abbiamo condotto valutazioni sia in impostazioni solo testo che multimodali. Le nostre valutazioni su benchmark solo testo mostrano che, nonostante l'utilizzo di soli 40 miliardi di token, il nostro dataset migliora significativamente le prestazioni del nostro modello da 1.3B, ottenendo risultati paragonabili a DeepSeekMath-1.3B, che utilizza 120 miliardi di token per la stessa dimensione del modello. Tuttavia, con l'introduzione del nostro dataset di pre-addestramento matematico multimodale, i nostri modelli stabiliscono un nuovo stato dell'arte tra i modelli open-source su benchmark matematici multimodali come MathVerse e We-Math. Rilasciamo i nostri dati su https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
L'avvento dei Grandi Modelli Linguistici (LLM) ha aperto la strada ai motori di ricerca AI, ad esempio SearchGPT, mostrando un nuovo paradigma nell'interazione umano-internet. Tuttavia, la maggior parte dei motori di ricerca AI attuali è limitata alle impostazioni solo testuali, trascurando le interrogazioni multimodali degli utenti e la natura testo-immagine intercalata delle informazioni sui siti web. Di recente, i Grandi Modelli Multimodali (LMM) hanno compiuto progressi impressionanti. Tuttavia, se possano funzionare come motori di ricerca AI rimane poco esplorato, lasciando aperta la questione del potenziale dei LMM nella ricerca multimodale. A questo scopo, progettiamo innanzitutto un delicato pipeline, MMSearch-Engine, per dotare qualsiasi LMM di capacità di ricerca multimodale. Inoltre, introduciamo MMSearch, un benchmark di valutazione completo per valutare le prestazioni di ricerca multimodale dei LMM. Il dataset curato contiene 300 istanze raccolte manualmente che coprono 14 sottocampi, senza sovrapposizione con i dati di addestramento attuali dei LMM, garantendo che la risposta corretta possa essere ottenuta solo tramite la ricerca. Utilizzando MMSearch-Engine, i LMM sono valutati eseguendo tre compiti individuali (ricerca ripetuta, riorientamento e riassunto) e un complesso compito end-to-end con un processo di ricerca completo. Conduci...
La selezione della migliore soluzione di codice tra quelle generate è un compito essenziale nella generazione di codice, che può essere realizzato utilizzando alcuni validatori affidabili (ad esempio, casi di test scritti dagli sviluppatori) per assistenza. Poiché casi di test affidabili non sono sempre disponibili e possono essere costosi da creare nella pratica, i ricercatori propongono di generare automaticamente casi di test per valutare le soluzioni di codice. Tuttavia, quando sia le soluzioni di codice che i casi di test sono plausibili e non affidabili, diventa difficile selezionare la migliore soluzione. Sebbene siano state proposte alcune strategie euristiche per affrontare questo problema, queste mancano di una garanzia teorica forte ed è ancora una questione aperta se esista una strategia di selezione ottimale. Il nostro lavoro contribuisce in due modi. In primo luogo, dimostriamo che all'interno di un framework bayesiano, la strategia di selezione ottimale può essere definita in base alla probabilità a posteriori degli stati di superamento osservati tra le soluzioni e i test. Il problema di identificare la migliore soluzione viene quindi formulato come un problema di programmazione intera. In secondo luogo, proponiamo un approccio efficiente per approssimare questa strategia ottimale (ma non calcolabile), dove l'errore di approssimazione è limitato dalla correttezza della conoscenza precedente. Incorporiamo quindi una conoscenza preventiva efficace per adattare compiti di generazione di codice. Studi sia teorici che empirici confermano che le euristiche esistenti sono limitate nella selezione delle migliori soluzioni con casi di test plausibili. La nostra strategia approssimata proposta B4 supera significativamente le euristiche esistenti nella selezione delle soluzioni di codice generate da grandi modelli linguistici (LLM) con test generati da LLM, ottenendo un miglioramento delle prestazioni relative fino al 50% rispetto alla euristica più forte e del 246% rispetto alla selezione casuale nei casi più impegnativi. Il nostro codice è disponibile pubblicamente su https://github.com/ZJU-CTAG/B4.
I dati visivi si presentano in varie forme, che vanno da piccole icone di pochi pixel a lunghi video che durano ore. Gli attuali LLM multimodali di solito standardizzano questi diversi input visivi a una risoluzione fissa per gli encoder visivi e producono un numero simile di token per i LLM. Questo approccio non è ottimale per la comprensione multimodale ed è inefficiente per elaborare input con contenuti visivi lunghi e brevi. Per risolvere il problema, proponiamo Oryx, un'architettura multimodale unificata per la comprensione spazio-temporale di immagini, video e scene 3D multi-vista. Oryx offre una soluzione su richiesta per elaborare in modo fluido ed efficiente input visivi con dimensioni spaziali e lunghezze temporali arbitrarie attraverso due innovazioni principali: 1) un modello OryxViT preaddestrato che può codificare immagini a qualsiasi risoluzione in rappresentazioni visive compatibili con LLM; 2) un modulo compressore dinamico che supporta la compressione da 1x a 16x sui token visivi su richiesta. Queste caratteristiche progettuali consentono a Oryx di gestire contesti visivi estremamente lunghi, come i video, con bassa risoluzione e alta compressione mantenendo nel contempo un'elevata precisione di riconoscimento per compiti come la comprensione dei documenti con risoluzione nativa e nessuna compressione. Oltre ai miglioramenti architetturali, una cura dei dati potenziata e una formazione specializzata sul recupero di contesti lunghi e dati consapevoli dello spazio aiutano Oryx a ottenere forti capacità nella comprensione multimodale di immagini, video e 3D contemporaneamente. Il nostro lavoro è open source su https://github.com/Oryx-mllm/Oryx.
Proponiamo il primo quadro di diffusione video per la colorizzazione di video in stile lineart basata su riferimenti. A differenza dei lavori precedenti che si basano esclusivamente su modelli generativi di immagini per colorizzare frame in stile lineart, il nostro approccio sfrutta un modello di diffusione video preaddestrato su larga scala per generare video animati colorizzati. Questo metodo porta a risultati più coerenti temporalmente ed è più adatto a gestire grandi movimenti. Innanzitutto, introduciamo il ControlNet guidato dallo Sketch che fornisce un controllo aggiuntivo per perfezionare un modello di diffusione immagine-video per la sintesi video controllabile, consentendo la generazione di video animati condizionati al lineart. Successivamente, proponiamo l'Attenzione al Riferimento per facilitare il trasferimento dei colori dal frame di riferimento ad altri frame contenenti movimenti rapidi ed espansivi. Infine, presentiamo uno schema innovativo per il campionamento sequenziale, incorporando il Modulo di Fusione Sovrapposto e l'Attenzione al Riferimento Precedente, per estendere il modello di diffusione video oltre la sua originaria limitazione di lunghezza fissa per la colorizzazione di video lunghi. Sia i risultati qualitativi che quantitativi dimostrano che il nostro metodo supera significativamente le tecniche all'avanguardia in termini di qualità dei frame e dei video, nonché di coerenza temporale. Inoltre, il nostro metodo è in grado di generare video animati di alta qualità e lunga coerenza temporale con ampi movimenti, il che non era possibile nei lavori precedenti. Il nostro codice e modello sono disponibili su https://luckyhzt.github.io/lvcd.
La fase di pre-addestramento dei modelli linguistici spesso inizia con parametri inizializzati casualmente. Con le attuali tendenze nello scalare i modelli, addestrare il loro elevato numero di parametri può essere estremamente lento e costoso. Al contrario, i modelli linguistici più piccoli sono meno costosi da addestrare, ma spesso non riescono a raggiungere l'accuratezza dei modelli più grandi. In questo articolo, esploriamo un'idea intrigante per collegare questi due regimi diversi: possiamo sviluppare un metodo per inizializzare grandi modelli linguistici utilizzando modelli pre-addestrati più piccoli? Questa inizializzazione apporterà benefici in termini di tempo di addestramento e accuratezza finale? In questo articolo, presentiamo HyperCloning, un metodo che può espandere i parametri di un modello linguistico pre-addestrato a quelli di un modello più grande con dimensioni nascoste aumentate. Il nostro metodo garantisce che il modello più grande conservi la funzionalità del modello più piccolo. Di conseguenza, il modello più grande eredita già il potere predittivo e l'accuratezza del modello più piccolo prima dell'inizio dell'addestramento. Dimostriamo che addestrare un tale modello inizializzato comporta significativi risparmi in termini di ore di GPU necessarie per il pre-addestramento di grandi modelli linguistici.
La crescente domanda di asset 3D di alta qualità in vari settori rende necessaria la creazione efficiente e automatizzata di contenuti 3D. Nonostante i recenti progressi nei modelli generativi 3D, i metodi esistenti continuano a incontrare sfide legate alla velocità di ottimizzazione, alla fedeltà geometrica e alla mancanza di asset per il rendering basato sulla fisica (PBR). In questo articolo, presentiamo 3DTopia-XL, un modello generativo 3D nativo scalabile progettato per superare tali limitazioni. 3DTopia-XL sfrutta una nuova rappresentazione 3D basata su primitive, PrimX, che codifica dettagli sulla forma, albedo e campo materiale in un formato tensoriale compatto, facilitando la modellazione di geometrie ad alta risoluzione con asset PBR. Sulla base di questa nuova rappresentazione, proponiamo un framework generativo basato sul Diffusion Transformer (DiT), che comprende 1) Comprimi Patch Primitivi, e 2) Diffusione Primitiva Latente. 3DTopia-XL impara a generare asset 3D di alta qualità da input testuali o visivi. Conduciamo ampi esperimenti qualitativi e quantitativi per dimostrare che 3DTopia-XL supera significativamente i metodi esistenti nella generazione di asset 3D di alta qualità con texture e materiali dettagliati, colmando efficientemente il divario di qualità tra i modelli generativi e le applicazioni reali.
I metodi di generazione di immagini personalizzate senza sintonizzazione hanno ottenuto un notevole successo nel mantenere la coerenza facciale, ossia le identità, anche con più personaggi. Tuttavia, la mancanza di coerenza olistica in scene con più personaggi ostacola la capacità di questi metodi di creare una narrazione coesa. In questo articolo, presentiamo StoryMaker, una soluzione di personalizzazione che preserva non solo la coerenza facciale, ma anche quella degli abiti, delle acconciature e dei corpi, facilitando così la creazione di una storia attraverso una serie di immagini. StoryMaker incorpora condizioni basate sulle identità facciali e sulle immagini dei personaggi ritagliati, che includono abiti, acconciature e corpi. In particolare, integriamo le informazioni sull'identità facciale con le immagini dei personaggi ritagliati utilizzando il Positional-aware Perceiver Resampler (PPR) per ottenere caratteristiche distintive dei personaggi. Per evitare l'interferenza di più personaggi e dello sfondo, vincoliamo separatamente le regioni di impatto della cross-attenzione dei diversi personaggi e dello sfondo utilizzando la perdita MSE con maschere di segmentazione. Inoltre, addestriamo la rete di generazione condizionata sulle pose per favorire lo scollegamento dalle pose. Viene inoltre impiegato un LoRA per migliorare la fedeltà e la qualità. Gli esperimenti sottolineano l'efficacia del nostro approccio. StoryMaker supporta numerose applicazioni ed è compatibile con altri plug-in sociali. I nostri codici sorgente e i pesi del modello sono disponibili su https://github.com/RedAIGC/StoryMaker.
I metodi recenti di generazione di texture raggiungono risultati impressionanti grazie al potente prior generativo che sfruttano dai modelli di diffusione testo-immagine su larga scala. Tuttavia, i prompt testuali astratti sono limitati nel fornire informazioni testuali o di forma globali, il che porta i metodi di generazione di texture a produrre pattern sfocati o inconsistenti. Per affrontare questo problema, presentiamo FlexiTex, che incorpora informazioni ricche tramite guida visiva per generare una texture di alta qualità. Il cuore di FlexiTex è il modulo di Potenziamento della Guida Visiva, che incorpora informazioni più specifiche dalla guida visiva per ridurre l'ambiguità nel prompt testuale e preservare i dettagli ad alta frequenza. Per potenziare ulteriormente la guida visiva, introduciamo un modulo di Adattamento Orientato alla Direzione che progetta automaticamente prompt direzionali basati su diverse posizioni della telecamera, evitando il problema di Janus e mantenendo la coerenza semantica globale. Beneficiando della guida visiva, FlexiTex produce risultati quantitativamente e qualitativamente validi, dimostrando il suo potenziale per far progredire la generazione di texture per applicazioni reali.
I modelli linguistici (LM) possono produrre errori difficili da rilevare per gli esseri umani, specialmente quando il compito è complesso. RLHF, il metodo più popolare di post-addestramento, potrebbe aggravare questo problema: per ottenere ricompense più elevate, i LM potrebbero diventare più bravi nel convincere gli esseri umani di avere ragione anche quando non è così. Studiamo questo fenomeno in un tipico flusso di lavoro RLHF, chiamandolo "U-SOPHISTRY" poiché è non intenzionale da parte degli sviluppatori del modello. In particolare, chiediamo a soggetti umani con limiti di tempo (ad esempio, da 3 a 10 minuti) di valutare la correttezza delle uscite del modello e calcolare l'accuratezza degli esseri umani rispetto alle etichette di riferimento. In un compito di domande e risposte (QuALITY) e un compito di programmazione (APPS), RLHF rende i LM migliori nel convincere i nostri soggetti, ma non nel completare correttamente il compito. RLHF rende anche il modello più difficile da valutare: il tasso di falsi positivi dei nostri soggetti aumenta del 24,1% su QuALITY e del 18,3% su APPS. Infine, mostriamo che il probing, un approccio all'avanguardia per rilevare la sofistica intenzionale (ad esempio, LM con backdoor), non si generalizza a U-SOPHISTRY. I nostri risultati evidenziano una modalità di fallimento importante di RLHF e richiedono ulteriori ricerche per assistere gli esseri umani nell'allineamento con essi.
L'ottimizzazione delle istruzioni migliora i grandi modelli linguistici (LLM) allineandoli alle preferenze umane in diversi compiti. Gli approcci tradizionali per creare set di dati per l'ottimizzazione delle istruzioni affrontano gravi sfide per le lingue a risorse limitate a causa della dipendenza dall'annotazione dei dati. Questo lavoro introduce un nuovo metodo, Multilingual Reverse Instructions (MURI), che genera set di dati di ottimizzazione delle istruzioni di alta qualità per le lingue a risorse limitate senza richiedere annotatori umani o modelli multilingue preesistenti. Utilizzando istruzioni inverse e un pipeline di traduzione, MURI produce coppie istruzione-output da testi scritti da umani esistenti nelle lingue a risorse limitate. Questo metodo garantisce rilevanza culturale e diversità attingendo a testi provenienti da diversi domini nativi e applicando filtri per eliminare contenuti inappropriati. Il nostro set di dati, MURI-IT, include più di 2 milioni di coppie istruzione-output in 200 lingue. Valutazioni da parte di madrelingua e esperimenti di raffinamento con modelli mT5 dimostrano l'efficacia dell'approccio sia per NLU che per la generazione aperta. Rilasciamo pubblicamente set di dati e modelli su https://github.com/akoksal/muri.
Presentiamo 3DGS-LM, un nuovo metodo che accelera la ricostruzione del Gaussian Splatting in 3D (3DGS) sostituendo il suo ottimizzatore ADAM con un Levenberg-Marquardt (LM) personalizzato. I metodi esistenti riducono il tempo di ottimizzazione diminuendo il numero di Gaussiane o migliorando l'implementazione del rasterizzatore differenziabile. Tuttavia, essi continuano a fare affidamento sull'ottimizzatore ADAM per adattare i parametri Gaussiani di una scena in migliaia di iterazioni, il che può richiedere fino a un'ora. A tal fine, cambiamo l'ottimizzatore in LM che funziona insieme al rasterizzatore differenziabile 3DGS. Per una efficiente parallelizzazione GPU, proponiamo una struttura dati di caching per gradienti intermedi che ci consente di calcolare efficientemente prodotti Jacobiano-vettore in kernel CUDA personalizzati. In ogni iterazione di LM, calcoliamo direzioni di aggiornamento da più sottoinsiemi di immagini utilizzando questi kernel e li combiniamo in una media pesata. Nel complesso, il nostro metodo è più veloce del 30% rispetto al 3DGS originale pur ottenendo la stessa qualità di ricostruzione. La nostra ottimizzazione è anche agnostica ad altri metodi che accelerano il 3DGS, consentendo così accelerazioni ancora più rapide rispetto al 3DGS standard.
La generazione di video utilizzando modelli basati sulla diffusione è limitata dai costi computazionali elevati dovuti al processo di diffusione iterativo frame per frame. Questo lavoro presenta una rete chiamata Diffusion Reuse MOtion (Dr. Mo) per accelerare la generazione di video latenti. La nostra scoperta chiave è che i rumori a grana grossolana nei primi passaggi di denoising hanno dimostrato un'alta coerenza di movimento tra i frame video consecutivi. Seguendo questa osservazione, Dr. Mo propaga quei rumori a grana grossolana al frame successivo incorporando movimenti inter-frame leggeri e attentamente progettati, eliminando la massiccia ridondanza computazionale nei modelli di diffusione frame per frame. I rumori più sensibili e a grana più fine sono comunque acquisiti tramite passaggi di denoising successivi, che possono essere essenziali per mantenere le qualità visive. Pertanto, decidere quali passaggi intermedi dovrebbero passare da propagazioni basate sul movimento a denoising può essere un problema cruciale e un trade-off chiave tra efficienza e qualità. Dr. Mo utilizza una meta-rete chiamata Selettore di Passaggi di Denoising (DSS) per determinare dinamicamente i passaggi intermedi desiderabili tra i frame video. Valutazioni approfondite su compiti di generazione e modifica video hanno dimostrato che Dr. Mo può accelerare notevolmente i modelli di diffusione nei compiti video con qualità visive migliorate.
Il compito di Trascrizione Automatica dell'Audio (AAC) richiede ai modelli di generare descrizioni in linguaggio naturale di un input audio. Valutare queste didascalie audio generate dalle macchine è un compito complesso che richiede di considerare diversi fattori, tra cui la comprensione della scena uditiva, l'inferenza sugli oggetti sonori, la coerenza temporale e il contesto ambientale della scena. Mentre i metodi attuali si concentrano su aspetti specifici, spesso non riescono a fornire un punteggio complessivo che si allinei bene con il giudizio umano. In questo lavoro, proponiamo CLAIR-A, un metodo semplice e flessibile che sfrutta le capacità di zero-shot dei grandi modelli linguistici (LLM) per valutare le didascalie audio candidate chiedendo direttamente ai LLM un punteggio di distanza semantica. Nelle nostre valutazioni, CLAIR-A predice meglio i giudizi umani sulla qualità rispetto alle metriche tradizionali, con un miglioramento relativo dell'accuratezza del 5,8% rispetto alla metrica FENSE specifica del dominio e fino al 11% rispetto alla migliore misura ad uso generale nel dataset Clotho-Eval. Inoltre, CLAIR-A offre maggiore trasparenza consentendo al modello linguistico di spiegare il ragionamento dietro i suoi punteggi, con queste spiegazioni valutate fino al 30% meglio dagli esaminatori umani rispetto a quelle fornite dai metodi di base. CLAIR-A è reso pubblicamente disponibile su https://github.com/DavidMChan/clair-a.