Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) sono limitati a ragionare nello "spazio linguistico", dove esprimono tipicamente il processo di ragionamento con una catena di pensiero (CoT) per risolvere un problema di ragionamento complesso. Tuttavia, sosteniamo che lo spazio linguistico potrebbe non essere sempre ottimale per il ragionamento. Ad esempio, la maggior parte dei token delle parole sono principalmente per la coerenza testuale e non essenziali per il ragionamento, mentre alcuni token critici richiedono una pianificazione complessa e pongono enormi sfide ai LLM. Per esplorare il potenziale del ragionamento dei LLM in uno spazio latente non limitato all'uso del linguaggio naturale, introduciamo un nuovo paradigma denominato Coconut (Catena di Pensiero Continuo). Utilizziamo lo stato nascosto finale del LLM come rappresentazione dello stato di ragionamento (chiamato "pensiero continuo"). Piuttosto che decodificarlo in un token di parola, lo reinseriamo nel LLM come incorporamento dell'input successivo direttamente nello spazio continuo. Gli esperimenti mostrano che Coconut può efficacemente potenziare il LLM su diversi compiti di ragionamento. Questo nuovo paradigma di ragionamento latente porta a modelli di ragionamento avanzati emergenti: il pensiero continuo può codificare più alternative passaggi di ragionamento successivi, consentendo al modello di eseguire una ricerca in ampiezza (BFS) per risolvere il problema, anziché impegnarsi prematuramente in un singolo percorso deterministico come CoT. Coconut supera CoT in certi compiti di ragionamento logico che richiedono un notevole backtracking durante la pianificazione, con meno token di pensiero durante l'inferezza. Queste scoperte dimostrano la promessa del ragionamento latente e offrono preziose intuizioni per la ricerca futura.
Poiché i modelli linguistici commettono regolarmente errori nel risolvere problemi matematici, l'identificazione automatizzata degli errori nel processo di ragionamento diventa sempre più significativa per la loro supervisione scalabile. In questo articolo, presentiamo ProcessBench per misurare la capacità di individuare passaggi errati nel ragionamento matematico. Esso consiste di 3.400 casi di test, principalmente focalizzati su problemi matematici di livello competitivo e olimpiadi. Ogni caso di test contiene una soluzione passo dopo passo con la posizione dell'errore annotata da esperti umani. I modelli devono individuare il primo passaggio che contiene un errore, o concludere che tutti i passaggi sono corretti. Conduciamo una valutazione approfondita su ProcessBench, coinvolgendo due tipi di modelli: modelli di ricompensa del processo (PRM) e modelli critici, dove per quest'ultimi sollecitiamo modelli linguistici generali a criticare ogni passaggio della soluzione. Traggiamo due osservazioni principali: (1) I PRM esistenti tendono a non generalizzare a problemi matematici più impegnativi oltre GSM8K e MATH. Essi hanno prestazioni inferiori sia rispetto ai modelli critici (cioè, modelli linguistici generali sollecitati) sia rispetto al nostro PRM addestrato che è stato semplicemente raffinato sul dataset PRM800K. (2) Il miglior modello open-source, QwQ-32B-Preview, ha dimostrato una capacità critica competitiva con il modello proprietario GPT-4o, nonostante rimanga indietro rispetto all'o1-mini specializzato nel ragionamento. Ci auguriamo che ProcessBench possa promuovere futura ricerca nella valutazione del processo di ragionamento, aprendo la strada alla supervisione scalabile dei modelli linguistici.
L'incorporazione della memoria negli agenti è essenziale per numerose attività nel campo del Reinforcement Learning (RL). In particolare, la memoria è fondamentale per compiti che richiedono l'utilizzo di informazioni passate, l'adattamento a ambienti nuovi e un'efficienza di campionamento migliorata. Tuttavia, il termine "memoria" comprende una vasta gamma di concetti, che, uniti alla mancanza di una metodologia unificata per la validazione della memoria di un agente, porta a giudizi erronei sulle capacità mnemoniche degli agenti e impedisce un confronto oggettivo con altri agenti potenziati dalla memoria. Questo articolo mira a razionalizzare il concetto di memoria nel RL fornendo precise definizioni pratiche dei tipi di memoria degli agenti, come la memoria a lungo termine rispetto a quella a breve termine e la memoria dichiarativa rispetto a quella procedurale, ispirate alle scienze cognitive. Utilizzando tali definizioni, classifichiamo diverse categorie di memoria degli agenti, proponiamo una robusta metodologia sperimentale per valutare le capacità mnemoniche degli agenti RL e standardizziamo le valutazioni. Inoltre, dimostriamo empiricamente l'importanza di seguire la metodologia proposta nella valutazione dei diversi tipi di memoria degli agenti conducendo esperimenti con diversi agenti RL e mostrando a cosa porta la sua violazione.
Lo sviluppo rapido dei grandi Modelli Visione-Linguaggio (VLM) ha portato a risultati impressionanti su benchmark accademici, principalmente nelle lingue ampiamente parlate. Tuttavia, rimangono significativi vuoti nella capacità dei VLM attuali di gestire lingue a risorse limitate e contesti culturali variati, principalmente a causa della mancanza di dati di alta qualità, diversificati e verificati per la sicurezza. Di conseguenza, questi modelli spesso faticano a comprendere le lingue a risorse limitate e le sfumature culturali in modo privo di tossicità. Per affrontare queste limitazioni, presentiamo Maya, un modello Multimodale Multilingue open-source. Le nostre contribuzioni sono tre: 1) un dataset di preaddestramento immagine-testo multilingue in otto lingue, basato sul dataset di preaddestramento LLaVA; 2) un'analisi approfondita della tossicità all'interno del dataset LLaVA, seguita dalla creazione di una versione priva di tossicità in otto lingue; e 3) un modello immagine-testo multilingue che supporta queste lingues, migliorando la comprensione culturale e linguistica nei compiti visione-linguaggio. Codice disponibile su https://github.com/nahidalam/maya.
La geolocalizzazione visiva globale predice dove un'immagine è stata catturata sulla Terra. Poiché le immagini variano nella precisione con cui possono essere localizzate, questo compito comporta intrinsecamente un notevole grado di ambiguità. Tuttavia, gli approcci esistenti sono deterministici e trascurano questo aspetto. In questo articolo, miriamo a colmare il divario tra la geolocalizzazione tradizionale e i moderni metodi generativi. Proponiamo il primo approccio generativo alla geolocalizzazione basato sulla diffusione e sul matching del flusso Riemanniano, dove il processo di denoising opera direttamente sulla superficie terrestre. Il nostro modello raggiunge prestazioni all'avanguardia su tre benchmark di geolocalizzazione visiva: OpenStreetView-5M, YFCC-100M e iNat21. Inoltre, introduciamo il compito di geolocalizzazione visiva probabilistica, dove il modello predice una distribuzione di probabilità su tutte le possibili posizioni anziché un singolo punto. Presentiamo nuove metriche e basi di confronto per questo compito, dimostrando i vantaggi del nostro approccio basato sulla diffusione. Codici e modelli saranno resi disponibili.
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) eccellono nei compiti visione-linguaggio pre-addestrando esclusivamente su annotazioni di concetti a grana grossa (ad esempio, didascalie di immagini). Ipotizziamo che l'integrazione di annotazioni di concetti a grana fine (ad esempio, etichette degli oggetti e regioni degli oggetti) migliorerà ulteriormente le prestazioni, poiché entrambe le granularità dei dati si integrano a vicenda in termini di ampiezza e profondità nella rappresentazione dei concetti. Introduciamo un nuovo dataset che presenta annotazioni di concetti Multimodali a Multi-Granularità (MMGiC) per MLLM. Nella costruzione di MMGiC, esploriamo l'impatto di diverse ricette di dati sulla comprensione e generazione multimodale. Le nostre analisi rivelano che le annotazioni a multi-granularità dei concetti si integrano e si completano, all'interno del nostro modello strutturato e di un framework MLLM generale. Esploriamo chiaramente e dimostriamo il potenziale di MMGiC nell'aiutare i MLLM a individuare e apprendere meglio i concetti, allineando la visione e il linguaggio a molteplici granularità. Convalidiamo ulteriormente la nostra ipotesi investigando il confronto equo e la collaborazione efficace tra MMGiC e i dati immagine-didascalia su 12 benchmark di comprensione e generazione multimodale, ad esempio, la loro combinazione appropriata ottiene miglioramenti assoluti del 3,95% e del 2,34% rispetto ai soli dati immagine-didascalia su POPE e SEED-Bench. Codice, dati e modelli saranno disponibili su https://github.com/LooperXX/MMGiC.
Negli ultimi anni c'è stato un significativo aumento di interesse nell'unificare la comprensione e la generazione di immagini all'interno dei Grandi Modelli Linguistici (LLM). Questo crescente interesse ci ha spinti ad esplorare l'estensione di questa unificazione ai video. La sfida principale risiede nello sviluppare un tokenizzatore video versatile che catturi sia le caratteristiche spaziali che le dinamiche temporali dei video per ottenere rappresentazioni per i LLM, e le rappresentazioni possono essere ulteriormente decodificate in clip video realistiche per abilitare la generazione di video. In questo lavoro, presentiamo Divot, un Tokenizzatore Video Alimentato da Diffusione, che sfrutta il processo di diffusione per l'apprendimento di rappresentazioni video auto-supervisionate. Sosteniamo che se un modello di diffusione video può efficacemente eliminare il rumore dalle clip video prendendo le caratteristiche di un tokenizzatore video come condizione, allora il tokenizzatore ha catturato con successo informazioni spaziali e temporali robuste. Inoltre, il modello di diffusione video funziona intrinsecamente come un de-tokenizzatore, decodificando video dalle loro rappresentazioni. Basandoci sul tokenizzatore Divot, presentiamo Divot-Vicuna attraverso un'autoregressione video-testo e una generazione testo-video modellando le distribuzioni delle caratteristiche Divot continue con un Modello a Misure Gaussiane. I risultati sperimentali dimostrano che il nostro tokenizzatore video basato sulla diffusione, quando integrato con un LLM pre-addestrato, raggiunge prestazioni competitive su vari benchmark di comprensione e generazione video. Il Divot-Vicuna ottimizzato con istruzioni eccelle anche nella narrazione video, generando narrazioni interlacciate e video corrispondenti.
I modelli di generazione 3D recenti di solito si basano su etichette 3D a scala limitata o priori di diffusione 2D per la creazione di contenuti 3D. Tuttavia, le loro prestazioni sono limitate superiormente dai vincoli dei priori 3D a causa della mancanza di paradigmi di apprendimento scalabili. In questo lavoro, presentiamo See3D, un modello di diffusione multi-vista condizionato visivamente addestrato su video Internet su larga scala per la creazione 3D in un mondo aperto. Il modello mira ad acquisire conoscenze 3D vedendo esclusivamente i contenuti visivi dai vasti e in rapida crescita dati video - Vedi, Ottieni. Per raggiungere questo obiettivo, prima aumentiamo la mole dei dati di addestramento utilizzando un pipeline di cura dati proposto che filtra automaticamente le inconsistenze multi-vista e le osservazioni insufficienti dai video di origine. Ciò porta alla creazione di un dataset su larga scala, di alta qualità e riccamente diversificato di immagini multi-vista, chiamato WebVi3D, contenente 320M di fotogrammi da 16M di videoclip. Tuttavia, apprendere priori 3D generici da video senza annotazioni esplicite di geometria 3D o posizioni delle telecamere è non banale, e annotare posizioni per video su larga scala è proibitivamente costoso. Per eliminare la necessità di condizioni di posa, introduciamo un'innovativa condizione visiva - un segnale visivo puramente induttivo 2D generato aggiungendo rumore dipendente dal tempo ai dati video mascherati. Infine, presentiamo un nuovo framework di generazione 3D condizionato visivamente integrando See3D in un pipeline basato su deformazioni per la generazione 3D ad alta fedeltà. I nostri confronti numerici e visivi su benchmark di ricostruzione singola e sparso mostrano che See3D, addestrato su dati video economici e scalabili, raggiunge notevoli capacità di generazione zero-shot e open-world, superando nettamente i modelli addestrati su costosi e vincolati dataset 3D. Si prega di fare riferimento alla nostra pagina del progetto su: https://vision.baai.ac.cn/see3d
I trasformatori lineari hanno attirato l'attenzione come alternative efficienti ai trasformatori standard, ma le loro prestazioni nei compiti di recupero e contesti lunghi sono state limitate. Per affrontare tali limitazioni, lavori recenti hanno esplorato due meccanismi distinti: il gating per il controllo adattivo della memoria e la regola di aggiornamento delta per modifiche precise della memoria. Osserviamo che questi meccanismi sono complementari: il gating consente una rapida cancellazione della memoria mentre la regola delta facilita gli aggiornamenti mirati. Sfruttando questa intuizione, introduciamo la regola delta con gating e sviluppiamo un algoritmo di addestramento parallelo ottimizzato per hardware moderno. La nostra architettura proposta, Gated DeltaNet, supera costantemente modelli esistenti come Mamba2 e DeltaNet su diversi benchmark, inclusi modellizzazione del linguaggio, ragionamento di senso comune, recupero in contesto, estrapolazione della lunghezza e comprensione di contesti lunghi. Miglioriamo ulteriormente le prestazioni sviluppando architetture ibride che combinano strati di Gated DeltaNet con attenzione a finestra scorrevole o strati di Mamba2, ottenendo sia un'efficienza di addestramento migliorata che prestazioni superiori nei compiti.
L'estrazione del contenuto dei documenti è cruciale nell'ambito della computer vision, specialmente per soddisfare le esigenze di dati di alta qualità dei grandi modelli linguistici (LLM) e delle tecnologie di generazione potenziate da recupero (RAG). Tuttavia, i metodi attuali di analisi dei documenti presentano significative limitazioni in termini di diversità e valutazione esaustiva. Per affrontare tali sfide, presentiamo OmniDocBench, un nuovo benchmark multi-sorgente progettato per far progredire l'estrazione automatizzata del contenuto dei documenti. OmniDocBench include un dataset di valutazione di alta qualità, meticolosamente curato e annotato, che comprende nove tipi di documenti diversi, come articoli accademici, libri di testo, presentazioni, tra gli altri. Il nostro benchmark fornisce un quadro di valutazione flessibile e completo con 19 etichette di categoria di layout e 14 etichette di attributi, consentendo valutazioni a più livelli su interi dataset, moduli individuali o tipi di dati specifici. Utilizzando OmniDocBench, conduciamo un'analisi comparativa esaustiva dei pipeline modulari esistenti e dei metodi end-to-end multimodali, evidenziandone le limitazioni nel gestire la diversità dei documenti e garantendo una valutazione equa. OmniDocBench stabilisce uno standard di valutazione robusto, diversificato e equo per il campo dell'estrazione del contenuto dei documenti, offrendo importanti spunti per futuri progressi e promuovendo lo sviluppo delle tecnologie di analisi dei documenti. I codici e il dataset sono disponibili su https://github.com/opendatalab/OmniDocBench.
In questo lavoro, proponiamo il primo approccio al trasferimento di movimento nel trasformatore di diffusione attraverso la Guida a Mischia di Punteggi (MSG), un quadro teoricamente fondato per il trasferimento di movimento nei modelli di diffusione. Il nostro principale contributo teorico risiede nella riformulazione del punteggio condizionale per decomporre il punteggio di movimento e il punteggio di contenuto nei modelli di diffusione. Formulando il trasferimento di movimento come una miscela di energie potenziali, MSG conserva naturalmente la composizione della scena e consente trasformazioni creative della scena mantenendo l'integrità dei modelli di movimento trasferiti. Questo campionamento innovativo opera direttamente sui modelli di diffusione video preaddestrati senza ulteriore addestramento o sintonizzazione. Attraverso estesi esperimenti, MSG dimostra una gestione di successo di scenari diversi, inclusi il trasferimento di movimento di oggetti singoli, multipli e tra oggetti, nonché il trasferimento di movimento della telecamera complesso. Inoltre, presentiamo MotionBench, il primo dataset di trasferimento di movimento composto da 200 video di origine e 1000 movimenti trasferiti, che coprono trasferimenti di oggetti singoli/multipli e movimenti di telecamera complessi.
Presentiamo un nuovo modello di apparenza che realizza simultaneamente il recupero di una mesh superficiale 3D di alta qualità e la sintesi fotorealistica di nuove visualizzazioni da campioni di vista sparsi. La nostra idea chiave è modellare la geometria della scena sottostante Mesh come un Atlante di Mappe che renderizziamo con surfels Gaussiani 2D (MAtCha Gaussians). MAtCha distilla dettagli di superficie ad alta frequenza dalla stima della profondità monoculare disponibile in commercio e la perfeziona attraverso la renderizzazione di surfels Gaussiani. I surfels Gaussiani sono attaccati alle mappe al volo, soddisfacendo il fotorealismo della renderizzazione volumetrica neurale e la geometria nitida di un modello di mesh, ovvero due obiettivi apparentemente contrastanti in un unico modello. Al cuore di MAtCha si trova un nuovo modello di deformazione neurale e una perdita di struttura che preserva i dettagli di superficie fini estratti dalle profondità monoculare apprese affrontando le loro ambiguità di scala fondamentali. I risultati di una valida validazione sperimentale dimostrano la qualità all'avanguardia di MAtCha nella ricostruzione della superficie e nel fotorealismo su livello paragonabile ai migliori concorrenti ma con una drastica riduzione del numero di viste di input e del tempo computazionale. Crediamo che MAtCha possa fungere da strumento fondamentale per qualsiasi applicazione visiva in visione, grafica e robotica che richieda una geometria esplicita oltre al fotorealismo. La nostra pagina del progetto è la seguente: https://anttwo.github.io/matcha/
Con il crescente volume di dati di osservazione della Terra presenti negli archivi dei grandi programmi come Copernicus, c'è una crescente necessità di rappresentazioni vettoriali efficienti dei dati grezzi sottostanti. L'approccio di estrarre rappresentazioni delle caratteristiche da reti neurali profonde preaddestrate è un approccio potente che può fornire astrazioni semantiche dei dati in ingresso. Tuttavia, il modo in cui ciò viene fatto per gli archivi di immagini contenenti dati geospaziali non è ancora definito. In questo lavoro, viene proposta un'estensione a un progetto comunitario esistente, Major TOM, focalizzato sulla fornitura e standardizzazione di set di dati pronti per l'IA aperti e gratuiti per l'osservazione della Terra. Inoltre, vengono rilasciati apertamente e gratuitamente quattro set di dati di embedding globali e densi insieme alla pubblicazione di questo manoscritto, risultando nel set di dati globale aperto più completo di embedding visivi geospaziali in termini di superficie terrestre coperta.
Nell'apprendimento delle politiche visuomotorie robotiche, i modelli basati sulla diffusione hanno ottenuto un notevole successo nel migliorare l'accuratezza della generazione della traiettoria dell'azione rispetto ai modelli autoregressivi tradizionali. Tuttavia, essi soffrono di inefficienza a causa di molteplici passaggi di denoising e di limitata flessibilità dovuta a vincoli complessi. In questo articolo, presentiamo Coarse-to-Fine AutoRegressive Policy (CARP), un nuovo paradigma per l'apprendimento delle politiche visuomotorie che ridefinisce il processo di generazione dell'azione autoregressiva come un approccio a scale successive da grossolano a fine. CARP scompone la generazione dell'azione in due fasi: prima, un autoencoder dell'azione apprende rappresentazioni multiscala dell'intera sequenza di azioni; poi, un trasformatore in stile GPT affina la previsione della sequenza attraverso un processo autoregressivo da grossolano a fine. Questo approccio diretto e intuitivo produce azioni altamente accurate e fluide, eguagliando o addirittura superando le prestazioni delle politiche basate sulla diffusione mantenendo un'efficienza paragonabile alle politiche autoregressive. Conduciamo valutazioni approfondite in diversi contesti, inclusi scenari single-task e multi-task su benchmark di simulazione basati su stato e immagine, nonché compiti reali. CARP raggiunge tassi di successo competitivi, con un miglioramento fino al 10%, e offre un'infrazione 10 volte più veloce rispetto alle politiche all'avanguardia, stabilendo un paradigma ad alte prestazioni, efficiente e flessibile per la generazione di azioni nei compiti robotici.
Proponiamo un watermark testuale multi-bit impercettibile incorporato mediante parafrasi con LLM. Ottimizziamo due parafrasatori LLM progettati per comportarsi in modo diverso in modo che le differenze nelle parafrasi, riflesse nella semantica del testo, possano essere identificate da un decoder addestrato. Per incorporare il nostro watermark multi-bit, utilizziamo alternativamente due parafrasatori per codificare il codice binario predefinito a livello di frase. Successivamente, utilizziamo un classificatore di testo come decoder per decodificare ciascun bit del watermark. Attraverso esperimenti approfonditi, dimostriamo che i nostri watermark possono raggiungere oltre il 99,99\% di AUC di rilevamento con parafrasatori di testo di dimensioni ridotte (1,1 miliardi), mantenendo al contempo le informazioni semantiche della frase originale. Inoltre, il nostro processo è robusto alle sostituzioni di parole e alle perturbazioni nelle parafrasi delle frasi, e generalizza bene ai dati fuori distribuzione. Mostriamo anche la furtività del nostro watermark con valutazioni basate su LLM. Rendiamo il codice open-source: https://github.com/xiaojunxu/multi-bit-text-watermark.
Il merging dei modelli ha dimostrato un grande potenziale nel combinare modelli esperti, ma il beneficio del merging non è chiaro quando si fondono modelli "generalisti" addestrati su molte attività. Esploriamo il merging nel contesto di modelli di grandi dimensioni (circa 100 miliardi di parametri), riciclando i checkpoint che presentano compromessi tra diverse attività. Tali checkpoint vengono spesso creati nel processo di sviluppo di un modello all'avanguardia e molti di quelli subottimali vengono di solito scartati. Data una serie di checkpoint del modello ottenuti da diverse esecuzioni di addestramento (ad esempio, diverse fasi, obiettivi, iperparametri e combinazioni di dati), che mostrano naturalmente compromessi tra diverse capacità linguistiche (ad esempio, seguire istruzioni vs generare codice), esaminiamo se il merging possa riciclare tali modelli subottimali in uno ottimale secondo il criterio di Pareto. Il nostro algoritmo di ottimizzazione regola il peso di ciascun checkpoint in una combinazione lineare, producendo modelli ottimali secondo il criterio di Pareto che superano sia i singoli modelli che i baselines basati sul merging. Ulteriori analisi mostrano che i buoni mergers tendono ad includere quasi tutti i checkpoint con pesi non nulli, indicando che anche i checkpoint iniziali apparentemente scadenti possono contribuire a buoni mergers finali.
Presentiamo Turbo3D, un sistema di conversione testo-3D ultra-veloce in grado di generare asset di splatting gaussiano di alta qualità in meno di un secondo. Turbo3D impiega un rapido generatore di diffusione a 4 passaggi e 4 viste e un efficiente ricostruttore gaussiano feed-forward, entrambi operanti nello spazio latente. Il generatore a 4 passaggi e 4 viste è un modello studente distillato attraverso un innovativo approccio Dual-Teacher, che incoraggia lo studente a imparare la coerenza delle viste da un insegnante multi-vista e il fotorealismo da un insegnante single-view. Spostando gli input del ricostruttore gaussiano dallo spazio dei pixel allo spazio latente, eliminiamo il tempo aggiuntivo di decodifica dell'immagine e dimezziamo la lunghezza della sequenza del trasformatore per massimizzare l'efficienza. Il nostro metodo dimostra risultati superiori nella generazione 3D rispetto ai baselines precedenti, operando in una frazione del loro tempo di esecuzione.