Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici basati su diffusione offrono vantaggi unici rispetto ai modelli autoregressivi grazie al loro potenziale per la generazione parallelizzata e alla controllabilità, tuttavia sono inferiori nella modellazione della verosimiglianza e sono limitati alla generazione di sequenze a lunghezza fissa. In questo lavoro, introduciamo una classe di modelli linguistici a diffusione a blocchi che interpola tra la diffusione discreta di denoising e i modelli autoregressivi. La diffusione a blocchi supera le principali limitazioni di entrambi gli approcci supportando la generazione di sequenze a lunghezza flessibile e migliorando l'efficienza inferenziale con la memorizzazione in cache delle chiavi-valori (KV) e il campionamento parallelo di token. Proponiamo una ricetta per costruire modelli di diffusione a blocchi efficaci che include un algoritmo di addestramento efficiente, stimatori della varianza del gradiente e schemi di rumore basati sui dati per minimizzare la varianza. La diffusione a blocchi stabilisce un nuovo stato dell'arte tra i modelli di diffusione nei benchmark di modellazione linguistica e consente la generazione di sequenze di lunghezza arbitraria. Forniamo il codice, insieme ai pesi del modello e a un post sul blog, sulla pagina del progetto: https://m-arriola.com/bd3lms/
Lo sviluppo dei modelli di diffusione video rivela una sfida significativa: le elevate esigenze computazionali. Per mitigare questa sfida, osserviamo che il processo inverso della diffusione presenta una natura intrinsecamente riduttiva dell'entropia. Considerando la ridondanza inter-fotogramma nella modalità video, mantenere frame rate completi nelle fasi ad alta entropia non è necessario. Basandoci su questa intuizione, proponiamo TPDiff, un framework unificato per migliorare l'efficienza nell'addestramento e nell'inferenza. Suddividendo la diffusione in diverse fasi, il nostro framework aumenta progressivamente il frame rate lungo il processo di diffusione, con solo l'ultima fase che opera a frame rate completo, ottimizzando così l'efficienza computazionale. Per addestrare il modello di diffusione multi-fase, introduciamo un framework di addestramento dedicato: la diffusione per fasi. Risolvendo le equazioni differenziali ordinarie (ODE) del flusso di probabilità partizionato della diffusione sotto dati e rumore allineati, la nostra strategia di addestramento è applicabile a varie forme di diffusione e migliora ulteriormente l'efficienza dell'addestramento. Valutazioni sperimentali complete convalidano la generalità del nostro metodo, dimostrando una riduzione del 50% nel costo di addestramento e un miglioramento di 1,5x nell'efficienza dell'inferenza.
Acquisire in modo efficiente conoscenze esterne e informazioni aggiornate è essenziale per un ragionamento efficace e la generazione di testo nei grandi modelli linguistici (LLM). Gli approcci di aumento tramite recupero e addestramento all'uso di strumenti, in cui un motore di ricerca è trattato come uno strumento, mancano di flessibilità complessa nel recupero multi-turn o richiedono dati supervisionati su larga scala. Sollecitare LLM avanzati con capacità di ragionamento durante l'inferenza per utilizzare motori di ricerca non è ottimale, poiché l'LLM non impara come interagire in modo ottimale con il motore di ricerca. Questo articolo introduce Search-R1, un'estensione del modello DeepSeek-R1 in cui l'LLM apprende — esclusivamente attraverso l'apprendimento per rinforzo (RL) — a generare autonomamente (multiple) query di ricerca durante il ragionamento passo-passo con recupero in tempo reale. Search-R1 ottimizza le iterazioni dell'LLM con interazioni di ricerca multi-turn, sfruttando il mascheramento dei token recuperati per un addestramento RL stabile e una semplice funzione di ricompensa basata sui risultati. Esperimenti su sette dataset di risposta alle domande mostrano che Search-R1 migliora le prestazioni del 26% (Qwen2.5-7B), 21% (Qwen2.5-3B) e 10% (LLaMA3.2-3B) rispetto ai baseline SOTA. Questo articolo fornisce inoltre approfondimenti empirici sui metodi di ottimizzazione RL, le scelte degli LLM e le dinamiche della lunghezza delle risposte nel ragionamento aumentato dal recupero. Il codice e i checkpoint del modello sono disponibili all'indirizzo https://github.com/PeterGriffinJin/Search-R1.
La generazione condizionata del movimento è stata ampiamente studiata nel campo della visione artificiale, ma rimangono due sfide critiche. In primo luogo, sebbene i metodi autoregressivi mascherati abbiano recentemente superato gli approcci basati sulla diffusione, i modelli di mascheramento esistenti non dispongono di un meccanismo per dare priorità ai frame dinamici e alle parti del corpo in base alle condizioni date. In secondo luogo, i metodi esistenti per diverse modalità di condizionamento spesso non riescono a integrare efficacemente più modalità, limitando il controllo e la coerenza nel movimento generato. Per affrontare queste sfide, proponiamo Motion Anything, un framework di generazione del movimento multimodale che introduce un approccio di modellazione delle maschere basato sull'attenzione, consentendo un controllo fine-grana spaziale e temporale sui frame chiave e sulle azioni. Il nostro modello codifica in modo adattivo le condizioni multimodali, inclusi testo e musica, migliorando la controllabilità. Inoltre, introduciamo Text-Music-Dance (TMD), un nuovo dataset di movimento composto da 2.153 coppie di testo, musica e danza, rendendolo il doppio rispetto a AIST++, colmando così una lacuna critica nella comunità. Esperimenti estensivi dimostrano che Motion Anything supera i metodi all'avanguardia su più benchmark, ottenendo un miglioramento del 15% nell'FID su HumanML3D e mostrando guadagni di prestazioni consistenti su AIST++ e TMD. Visita il nostro sito web del progetto https://steve-zeyu-zhang.github.io/MotionAnything.
Presentiamo Reangle-A-Video, un framework unificato per la generazione di video multi-vista sincronizzati a partire da un singolo video di input. A differenza degli approcci principali che addestrano modelli di diffusione per video multi-vista su dataset 4D su larga scala, il nostro metodo riformula il compito di generazione di video multi-vista come una traduzione da video a video, sfruttando prior di diffusione per immagini e video disponibili pubblicamente. In sostanza, Reangle-A-Video opera in due fasi. (1) Apprendimento del Movimento Multi-Vista: Un trasformatore di diffusione da immagine a video viene sincronamente fine-tuned in modo auto-supervisionato per distillare il movimento invariante rispetto alla vista da un insieme di video deformati. (2) Traduzione Consistente da Immagine a Immagine Multi-Vista: Il primo fotogramma del video di input viene deformato e inpainting in varie prospettive della fotocamera sotto una guida di consistenza cross-vista durante l'inferenza utilizzando DUSt3R, generando immagini iniziali consistenti multi-vista. Esperimenti estesi sul trasporto di vista statica e sul controllo dinamico della fotocamera dimostrano che Reangle-A-Video supera i metodi esistenti, stabilendo una nuova soluzione per la generazione di video multi-vista. Rilasceremo pubblicamente il nostro codice e i dati. Pagina del progetto: https://hyeonho99.github.io/reangle-a-video/
L'apprendimento per rinforzo con ricompense verificabili sugli esiti (RLVR) ha dimostrato di scalare efficacemente il ragionamento a catena di pensiero (CoT) nei grandi modelli linguistici (LLM). Tuttavia, la sua efficacia nell'addestrare agenti basati su modelli visione-linguaggio (VLM) per il ragionamento orientato all'azione in ambienti visivi è meno consolidata. Questo lavoro indaga tale problema attraverso esperimenti estesi su giochi di carte complessi, come il 24 punti, e su task embodied tratti da ALFWorld. Scopriamo che quando le ricompense si basano esclusivamente sugli esiti delle azioni, l'apprendimento per rinforzo non riesce a incentivare il ragionamento CoT nei VLM, portando invece a un fenomeno che abbiamo definito collasso del pensiero, caratterizzato da una rapida perdita di diversità nei pensieri dell'agente, ragionamenti irrilevanti rispetto allo stato e incompleti, e conseguenti azioni non valide, che risultano in ricompense negative. Per contrastare il collasso del pensiero, evidenziamo la necessità di una guida al processo e proponiamo un correttore automatico che valuta e affina il ragionamento dell'agente a ogni passo dell'apprendimento per rinforzo. Questo semplice e scalabile framework GTR (Guided Thought Reinforcement) addestra simultaneamente il ragionamento e l'azione senza la necessità di un'etichettatura umana densa e per ogni passo. I nostri esperimenti dimostrano che GTR migliora significativamente le prestazioni e la generalizzazione del modello LLaVA-7b in vari ambienti visivi, raggiungendo tassi di successo nei task da 3 a 5 volte superiori rispetto ai modelli state-of-the-art, pur avendo dimensioni notevolmente più ridotte.
La generazione potenziata dal recupero (RAG) fornisce ai modelli linguistici di grandi dimensioni (LLM) documenti rilevanti. Sebbene studi precedenti abbiano osservato che il recupero di molti documenti possa degradare le prestazioni, non hanno isolato come la quantità di documenti influisca sulle prestazioni mantenendo costante la lunghezza del contesto. Valutiamo vari modelli linguistici su dataset personalizzati derivati da un'attività di risposta a domande multi-hop. Manteniamo costanti la lunghezza del contesto e la posizione delle informazioni rilevanti, variando il numero di documenti, e scopriamo che aumentare il numero di documenti in contesti RAG pone sfide significative per i LLM. Inoltre, i nostri risultati indicano che elaborare più documenti rappresenta una sfida distinta rispetto alla gestione di contesti lunghi. Rendiamo disponibili i dataset e il codice: https://github.com/shaharl6000/MoreDocsSameLen.
Lo Score Distillation Sampling (SDS) si è affermato come una tecnica efficace per sfruttare i prior di diffusione 2D in compiti come la generazione di testo in 3D. Sebbene potente, l'SDS fatica a raggiungere un allineamento granulare con l'intento dell'utente. Per superare questo limite, introduciamo RewardSDS, un approccio innovativo che pondera i campioni di rumore in base ai punteggi di allineamento provenienti da un modello di ricompensa, producendo una perdita SDS ponderata. Questa perdita privilegia i gradienti provenienti da campioni di rumore che generano output allineati e ad alto punteggio. Il nostro approccio è ampiamente applicabile e può estendere i metodi basati su SDS. In particolare, ne dimostriamo l'applicabilità al Variational Score Distillation (VSD) introducendo RewardVSD. Valutiamo RewardSDS e RewardVSD su compiti di generazione da testo a immagine, editing 2D e generazione da testo a 3D, mostrando miglioramenti significativi rispetto a SDS e VSD su un insieme diversificato di metriche che misurano la qualità della generazione e l'allineamento ai modelli di ricompensa desiderati, consentendo prestazioni all'avanguardia. La pagina del progetto è disponibile all'indirizzo https://itaychachy.github.io/reward-sds/.
Sebbene i grandi modelli linguistici (LLM) abbiano ottenuto prestazioni notevoli in vari compiti, rimangono soggetti a errori. Una sfida chiave è consentire loro di auto-correggersi. Mentre ricerche precedenti si sono affidate a strumenti esterni o a grandi modelli proprietari, questo lavoro esplora l'auto-correzione nei piccoli modelli linguistici (SLM) attraverso un fine-tuning iterativo utilizzando esclusivamente dati auto-generati. Introduciamo l'algoritmo Self-Taught Self-Correction (STaSC), che incorpora diverse scelte progettuali algoritmiche. I risultati sperimentali su un compito di risposta alle domande dimostrano che STaSC apprende efficacemente l'auto-correzione, portando a significativi miglioramenti delle prestazioni. La nostra analisi fornisce inoltre approfondimenti sui meccanismi di auto-correzione e sull'impatto di diverse scelte progettuali sulle dinamiche di apprendimento e sulle prestazioni complessive. Per supportare future ricerche, rilasciamo il nostro codice user-friendly e modelli leggeri.
I recenti LLM hanno dimostrato un notevole successo nel seguire le istruzioni degli utenti, tuttavia gestire istruzioni con vincoli multipli rimane una sfida significativa. In questo lavoro, introduciamo WildIFEval - un dataset su larga scala di 12K istruzioni reali degli utenti con condizioni diverse e multi-vincolo. A differenza dei dataset precedenti, la nostra raccolta copre un ampio spettro lessicale e tematico di vincoli, presenti in prompt naturali degli utenti. Classifichiamo questi vincoli in otto categorie di alto livello per catturarne la distribuzione e la dinamica in scenari reali. Utilizzando WildIFEval, conduciamo esperimenti estesi per valutare le capacità di seguire le istruzioni dei principali LLM. I nostri risultati rivelano che tutti i modelli valutati subiscono un degrado delle prestazioni con l'aumentare del numero di vincoli. Pertanto, dimostriamo che tutti i modelli hanno un ampio margine di miglioramento su tali compiti. Inoltre, osserviamo che il tipo specifico di vincolo gioca un ruolo critico nelle prestazioni del modello. Rilasciamo il nostro dataset per promuovere ulteriori ricerche sul seguire le istruzioni in condizioni complesse e realistiche.
Le attività quotidiane umane possono essere descritte in modo conciso come sequenze di eventi di routine (ad esempio, spegnere una sveglia) nei flussi video, formando un vocabolario di eventi. Motivati da ciò, introduciamo VLog, un innovativo framework di comprensione video che definisce le narrazioni video come vocabolario, andando oltre i tipici vocabolari di sottoparole nei modelli generativi video-linguistici esistenti. Basato sul leggero modello linguistico GPT-2, VLog presenta tre innovazioni chiave: (i) Un modello di recupero generativo, che unisce le capacità di ragionamento complesso del modello linguistico con la ricerca efficiente di similarità del recupero contrastivo. (ii) Un vocabolario gerarchico derivato da narrazioni video su larga scala utilizzando il nostro algoritmo di codifica delle coppie di narrazione, che consente un'indicizzazione efficiente di eventi specifici (ad esempio, tagliare un pomodoro) identificando scenari più ampi (ad esempio, cucina) con suffissi espressivi (ad esempio, con la mano sinistra). (iii) Una strategia di aggiornamento del vocabolario che sfrutta i modelli generativi per estendere il vocabolario a nuovi eventi incontrati durante l'inferenza. Per validare il nostro approccio, introduciamo VidCap-Eval, un set di sviluppo che richiede narrazioni concise con relazioni di ragionamento (ad esempio, prima e dopo). Gli esperimenti su EgoSchema, COIN e HiREST dimostrano ulteriormente l'efficacia di VLog, evidenziando la sua capacità di generare narrazioni concise, contestualmente accurate ed efficienti, offrendo una nuova prospettiva sulla comprensione video. I codici sono disponibili su https://github.com/showlab/VLog.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato una capacità impressionante nella generazione di codice e, in particolare, nell'implementazione automatica di requisiti descritti in linguaggio naturale. L'efficacia degli LLM generalmente aumenta con le loro dimensioni: maggiore è il numero di parametri addestrabili dell'LLM, migliore è la sua capacità di implementare codice. Tuttavia, quando si tratta di distribuire generatori di codice basati su LLM, gli LLM più grandi presentano sfide significative legate al loro impatto in termini di memoria (e, di conseguenza, di emissioni di carbonio). Un lavoro precedente di Wei et al. ha proposto di sfruttare tecniche di quantizzazione per ridurre l'impatto in memoria dei generatori di codice basati su LLM senza degradarne sostanzialmente l'efficacia. In breve, hanno studiato LLM con fino a 16 miliardi di parametri, quantizzandone la precisione da 32 bit in virgola mobile fino a 8 bit interi, dimostrando un impatto limitato sulle prestazioni nella generazione di codice. Considerando il rapido ritmo con cui le capacità degli LLM e le tecniche di quantizzazione stanno evolvendo, in questo lavoro presentiamo una replica differenziata del lavoro di Wei et al., in cui consideriamo (i) da un lato, LLM più recenti e di dimensioni maggiori, con fino a 34 miliardi di parametri; (ii) i più recenti progressi nelle tecniche di quantizzazione dei modelli, che consentono di spingere la compressione al livello estremo di 2 bit per parametro del modello; e (iii) diversi tipi di dataset di calibrazione per guidare il processo di quantizzazione, inclusi quelli specifici per il codice. La nostra valutazione empirica rivela che la nuova frontiera per la quantizzazione degli LLM è la precisione a 4 bit, che comporta una riduzione media dell'impatto in memoria del 70% rispetto al modello originale, senza osservare alcuna significativa diminuzione delle prestazioni. Inoltre, quando la quantizzazione diventa ancora più estrema (3 e 2 bit), un dataset di calibrazione specifico per il codice aiuta a limitare la perdita di prestazioni.
Le capacità di traduzione immagine-immagine dei modelli di apprendimento generativo hanno recentemente compiuto progressi significativi nella stima di mappature complesse (guidate) tra distribuzioni di immagini. Mentre compiti basati sull'aspetto come il riempimento di immagini o il trasferimento di stile sono stati ampiamente studiati, proponiamo di investigare il potenziale dei modelli generativi nel contesto delle simulazioni fisiche. Fornendo un dataset di 300.000 coppie di immagini e valutazioni di base per tre diverse attività di simulazione fisica, proponiamo un benchmark per esplorare le seguenti domande di ricerca: i) i modelli generativi sono in grado di apprendere relazioni fisiche complesse da coppie di immagini input-output? ii) quali accelerazioni possono essere ottenute sostituendo le simulazioni basate su equazioni differenziali? Mentre le valutazioni di base di diversi modelli attuali mostrano il potenziale per elevate accelerazioni (ii), questi risultati evidenziano anche forti limitazioni riguardo alla correttezza fisica (i). Ciò sottolinea la necessità di nuovi metodi per garantire la correttezza fisica. Dati, modelli di base e codice di valutazione sono disponibili su http://www.physics-gen.org.
La comprensione efficiente visione-linguaggio di grandi immagini telerilevate (RSI) è significativa ma impegnativa. Gli attuali Modelli di Visione-Linguaggio di Grande Scala (LVLM) tipicamente impiegano griglie predefinite limitate per elaborare le immagini, portando a una perdita di informazioni quando si gestiscono RSI di dimensioni gigapixel. Al contrario, l'uso di griglie illimitate aumenta significativamente i costi computazionali. Per preservare i dettagli dell'immagine riducendo la complessità computazionale, proponiamo un metodo di potatura dei token guidato dal testo con integrazione della Piramide Dinamica delle Immagini (DIP). Il nostro metodo introduce: (i) un Modulo di Focalizzazione Regionale (RFM) che sfrutta la capacità di localizzazione regionale consapevole del testo per identificare i token visivi critici, e (ii) una strategia di selezione delle tessere dell'immagine e potatura dei token visivi da grossolana a fine basata su DIP, guidata dagli output di RFM ed evita di elaborare direttamente l'intera immagine di grandi dimensioni. Inoltre, i benchmark esistenti per valutare la capacità percettiva dei LVLM su grandi RSI soffrono di una limitata diversità delle domande e dimensioni delle immagini vincolate. Abbiamo costruito un nuovo benchmark denominato LRS-VQA, che contiene 7.333 coppie di domande e risposte in 8 categorie, con lunghezza dell'immagine fino a 27.328 pixel. Il nostro metodo supera le strategie esistenti ad alta risoluzione su quattro dataset utilizzando gli stessi dati. Inoltre, rispetto ai metodi esistenti di riduzione dei token, il nostro approccio dimostra una maggiore efficienza in contesti ad alta risoluzione. Dataset e codice sono disponibili su https://github.com/VisionXLab/LRS-VQA.
I Large Action Model (LAM) hanno rivoluzionato l'automazione intelligente, ma la loro applicazione in ambito sanitario affronta sfide legate a preoccupazioni sulla privacy, latenza e dipendenza dall'accesso a Internet. Questo rapporto introduce un assistente sanitario multi-agente su dispositivo che supera queste limitazioni. Il sistema utilizza agenti più piccoli e specifici per ottimizzare le risorse, garantendo scalabilità e alte prestazioni. La nostra proposta funge da soluzione completa per le esigenze sanitarie, con funzionalità come prenotazione di appuntamenti, monitoraggio della salute, promemoria per i farmaci e report giornalieri sullo stato di salute. Alimentato dal modello Qwen Code Instruct 2.5 7B, gli agenti Planner e Caller raggiungono un punteggio RougeL medio di 85,5 per la pianificazione e 96,5 per le chiamate, pur essendo leggeri per il deployment su dispositivo. Questo approccio innovativo combina i vantaggi dei sistemi su dispositivo con le architetture multi-agente, aprendo la strada a soluzioni sanitarie centrate sull'utente.
I modelli di diffusione latente (LDMs) sono noti per avere un processo di generazione instabile, in cui anche piccole perturbazioni o spostamenti nel rumore di input possono portare a output significativamente diversi. Ciò ne limita l'applicabilità in contesti che richiedono risultati consistenti. In questo lavoro, ridisegniamo gli LDMs per migliorarne la consistenza rendendoli shift-equivarianti. Sebbene l'introduzione di operazioni di anti-aliasing possa parzialmente migliorare la shift-equivarianza, persistono significativi problemi di aliasing e incoerenza a causa delle sfide uniche negli LDMs, tra cui 1) l'amplificazione dell'aliasing durante l'addestramento del VAE e le inferenze multiple della U-Net, e 2) i moduli di self-attention che intrinsecamente mancano di shift-equivarianza. Per affrontare questi problemi, ridisegniamo i moduli di attenzione per renderli shift-equivarianti e proponiamo una funzione di perdita di equivarianza che sopprime efficacemente la larghezza di banda delle frequenze nel dominio continuo. Il risultante LDM senza aliasing (AF-LDM) raggiunge una forte shift-equivarianza ed è anche robusto a deformazioni irregolari. Esperimenti estensivi dimostrano che AF-LDM produce risultati significativamente più consistenti rispetto al classico LDM in varie applicazioni, tra cui l'editing video e la traduzione da immagine a immagine. Il codice è disponibile all'indirizzo: https://github.com/SingleZombie/AFLDM.
La costruzione di modelli linguistici di grandi dimensioni (LLM) basati su Transformer efficaci ed efficienti è recentemente diventata un focus di ricerca, richiedendo la massimizzazione delle capacità linguistiche del modello e la minimizzazione dei costi di addestramento e distribuzione. Gli sforzi esistenti hanno principalmente descritto relazioni complesse tra le prestazioni del modello, la dimensione dei parametri e la dimensione dei dati, oltre a cercare l'allocazione ottimale delle risorse computazionali per addestrare gli LLM. Tuttavia, trascurano gli impatti della lunghezza del contesto e della configurazione delle teste di attenzione (il numero di teste di query e key-value nell'attenzione a query raggruppate) sull'addestramento e sull'inferenza. In questo articolo, confrontiamo sistematicamente modelli con diverse dimensioni dei parametri, lunghezze del contesto e configurazioni delle teste di attenzione in termini di prestazioni del modello, costi computazionali e costi di memoria. Successivamente, estendiamo i metodi di scalatura esistenti, basati esclusivamente sulla dimensione dei parametri e sulle risorse computazionali di addestramento, per guidare la costruzione di LLM ottimali in termini di costi sia durante l'addestramento che durante l'inferenza. I nostri studi quantitativi di scalatura dimostrano che, quando si elaborano sequenze sufficientemente lunghe, un modello più grande con meno teste di attenzione può raggiungere una perdita inferiore pur comportando costi computazionali e di memoria più bassi. Le nostre scoperte forniscono preziose intuizioni per lo sviluppo di LLM pratici, specialmente in scenari di elaborazione con contesti lunghi. Rilasceremo pubblicamente il nostro codice e i nostri dati.
I modelli linguistici pre-addestrati (PLM) hanno rivoluzionato la ricerca scientifica, ma la loro applicazione nell'analisi a singola cellula rimane limitata. I PLM testuali non possono elaborare i dati di sequenziamento dell'RNA a singola cellula, mentre i PLM cellulari non sono in grado di gestire testo libero, limitando il loro utilizzo in compiti multimodali. Gli sforzi esistenti per colmare queste modalità spesso soffrono di perdita di informazioni o di un pre-addestramento monomodale inadeguato, portando a prestazioni subottimali. Per affrontare queste sfide, proponiamo il Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), un PLM unificato per la modellizzazione congiunta di cellule e testo. scMMGPT integra efficacemente i migliori PLM cellulari e testuali, facilitando la condivisione di conoscenze cross-modali per migliorare le prestazioni. Per colmare il divario modale tra testo e cellula, scMMGPT sfrutta proiettori cross-modali dedicati e viene sottoposto a un esteso pre-addestramento su 27 milioni di cellule — il più grande dataset per PLM multimodali cellula-testo fino ad oggi. Questo pre-addestramento su larga scala consente a scMMGPT di eccellere in compiti congiunti cellula-testo, ottenendo un miglioramento relativo dell'84\% nella discrepanza testuale per la generazione di descrizioni cellulari, un'accuratezza del 20,5\% superiore per l'annotazione del tipo di cellula e un miglioramento del 4\% nell'accuratezza k-NN per la generazione di pseudo-cellule condizionate al testo, superando i benchmark esistenti.
Il Retrieval-Augmented Generation (RAG), pur rappresentando un valido complemento ai grandi modelli linguistici (LLM), spesso trascura l'aspetto cruciale della suddivisione del testo (chunking) all'interno della sua pipeline. Questo articolo introduce inizialmente un metodo di valutazione a doppia metrica, composto da Boundary Clarity e Chunk Stickiness, per consentire la quantificazione diretta della qualità del chunking. Sfruttando questo metodo di valutazione, evidenziamo le limitazioni intrinseche del chunking tradizionale e semantico nel gestire le complesse sfumature contestuali, dimostrando così la necessità di integrare gli LLM nel processo di chunking. Per affrontare il compromesso intrinseco tra efficienza computazionale e precisione del chunking negli approcci basati su LLM, proponiamo il framework granularity-aware Mixture-of-Chunkers (MoC), che consiste in un meccanismo di elaborazione a tre fasi. In particolare, il nostro obiettivo è guidare il chunker nella generazione di una lista strutturata di espressioni regolari di chunking, che vengono successivamente utilizzate per estrarre i chunk dal testo originale. Esperimenti estensivi dimostrano che sia le metriche proposte che il framework MoC affrontano efficacemente le sfide del task di chunking, rivelando il nucleo del chunking e migliorando le prestazioni del sistema RAG.
Il Video Question Answering (VQA) nei video lunghi presenta la sfida chiave di estrarre informazioni rilevanti e modellare dipendenze a lungo raggio da molti fotogrammi ridondanti. Il meccanismo di self-attention fornisce una soluzione generale per la modellazione di sequenze, ma ha un costo proibitivo quando applicato a un numero massiccio di token spazio-temporali nei video lunghi. La maggior parte dei metodi precedenti si basa su strategie di compressione per ridurre il costo computazionale, come ridurre la lunghezza dell'input tramite campionamento sparso di fotogrammi o comprimere la sequenza di output passata al large language model (LLM) tramite pooling spazio-temporale. Tuttavia, questi approcci ingenui sovrarappresentano informazioni ridondanti e spesso perdono eventi salienti o pattern spazio-temporali rapidi. In questo lavoro, introduciamo BIMBA, un modello efficiente di stato-spazio per gestire video di lunga durata. Il nostro modello sfrutta l'algoritmo di scansione selettiva per imparare a selezionare efficacemente informazioni critiche da video ad alta dimensionalità e trasformarle in una sequenza ridotta di token per un'elaborazione efficiente da parte del LLM. Esperimenti estensivi dimostrano che BIMBA raggiunge un'accuratezza all'avanguardia su molteplici benchmark di VQA per video lunghi, tra cui PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench e Video-MME. Codice e modelli sono disponibili pubblicamente su https://sites.google.com/view/bimba-mllm.
Random Sample Consensus (RANSAC) è un approccio fondamentale per la stima robusta di modelli parametrici a partire da dati rumorosi. I metodi RANSAC basati sull'apprendimento esistenti utilizzano il deep learning per migliorare la robustezza di RANSAC contro gli outlier. Tuttavia, questi approcci vengono addestrati e testati su dati generati dagli stessi algoritmi, portando a una limitata generalizzazione su dati fuori distribuzione durante l'inferenza. Pertanto, in questo articolo, introduciamo un nuovo paradigma basato sulla diffusione che inietta progressivamente rumore nei dati di ground truth, simulando le condizioni rumorose per l'addestramento di RANSAC basato sull'apprendimento. Per migliorare la diversità dei dati, incorporiamo il campionamento Monte Carlo nel paradigma di diffusione, approssimando diverse distribuzioni di dati introducendo diversi tipi di casualità in più fasi. Valutiamo il nostro approccio nel contesto del feature matching attraverso esperimenti completi sui dataset ScanNet e MegaDepth. I risultati sperimentali dimostrano che il nostro meccanismo di diffusione Monte Carlo migliora significativamente la capacità di generalizzazione di RANSAC basato sull'apprendimento. Sviluppiamo anche ampi studi di ablazione che evidenziano l'efficacia dei componenti chiave del nostro framework.
I Campi di Forza basati su Machine Learning (MLFFs) rappresentano un'alternativa promettente alle costose simulazioni molecolari quantomeccaniche ab initio. Data la diversità degli spazi chimici di interesse e il costo associato alla generazione di nuovi dati, è fondamentale comprendere come gli MLFFs generalizzino al di là delle loro distribuzioni di addestramento. Per caratterizzare e comprendere meglio gli spostamenti di distribuzione negli MLFFs, conduciamo esperimenti diagnostici su dataset chimici, rivelando spostamenti comuni che pongono sfide significative, anche per modelli di base di grandi dimensioni addestrati su dati estesi. Sulla base di queste osservazioni, ipotizziamo che i metodi di addestramento supervisionati attuali regolarizzino in modo inadeguato gli MLFFs, portando a overfitting e all'apprendimento di rappresentazioni scarse per sistemi fuori distribuzione. Proponiamo quindi due nuovi metodi come passi iniziali per mitigare gli spostamenti di distribuzione negli MLFFs. I nostri metodi si concentrano su strategie di raffinamento al momento del test che comportano un costo computazionale minimo e non utilizzano costose etichette di riferimento ab initio. La prima strategia, basata sulla teoria spettrale dei grafi, modifica gli archi dei grafi di test per allinearli alle strutture dei grafi osservate durante l'addestramento. La nostra seconda strategia migliora le rappresentazioni per sistemi fuori distribuzione al momento del test eseguendo passi di gradiente utilizzando un obiettivo ausiliario, come un precedente fisico a basso costo. Le nostre strategie di raffinamento al momento del test riducono significativamente gli errori sui sistemi fuori distribuzione, suggerendo che gli MLFFs sono in grado di e possono avvicinarsi alla modellazione di spazi chimici diversi, ma non vengono addestrati efficacemente per farlo. I nostri esperimenti stabiliscono benchmark chiari per valutare le capacità di generalizzazione della prossima generazione di MLFFs. Il nostro codice è disponibile all'indirizzo https://tkreiman.github.io/projects/mlff_distribution_shifts/.