Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di linguaggio multimodali di grandi dimensioni (MLLM) open-source esistenti generalmente seguono un processo di addestramento che coinvolge la preformazione e il fine-tuning supervisionato. Tuttavia, questi modelli soffrono di spostamenti di distribuzione, che limitano il loro ragionamento multimodale, in particolare nelle prestazioni della Catena di Pensiero (CoT). Per affrontare questo problema, introduciamo un processo di ottimizzazione delle preferenze (PO) per potenziare le capacità di ragionamento multimodale dei MLLM. In particolare, (1) sul lato dei dati, progettiamo un flusso di lavoro automatizzato per la costruzione dei dati di preferenza per creare MMPR, un dataset di preferenze di ragionamento multimodale di alta qualità e di grandi dimensioni, e (2) sul lato del modello, esploriamo l'integrazione di PO con i MLLM, sviluppando un metodo semplice ma efficace, chiamato Ottimizzazione Mista delle Preferenze (MPO), che migliora le prestazioni multimodali della CoT. Il nostro approccio dimostra un miglioramento delle prestazioni su diversi benchmark, in particolare nei compiti di ragionamento multimodale. In particolare, il nostro modello, InternVL2-8B-MPO, raggiunge un'accuratezza del 67,0 su MathVista, superando InternVL2-8B di 8,7 punti e ottenendo prestazioni paragonabili al modello InternVL2-76B, 10 volte più grande. Speriamo che questo studio possa ispirare ulteriori progressi nei MLLM. Il codice, i dati e il modello saranno resi pubblici.
Attualmente OpenAI o1 ha suscitato un'impennata di interesse nello studio dei grandi modelli di ragionamento (LRM). Approfittando di questo slancio, Marco-o1 non si concentra solo su discipline con risposte standard, come matematica, fisica e programmazione - che si prestano bene al reinforcement learning (RL) - ma pone anche maggiore enfasi su risoluzioni aperte. Ci proponiamo di affrontare la domanda: "Il modello o1 può generalizzare efficacemente a domini più ampi in cui mancano standard chiari e le ricompense sono difficili da quantificare?" Marco-o1 è alimentato dal fine-tuning Chain-of-Thought (CoT), dalla ricerca ad albero Monte Carlo (MCTS), da meccanismi di riflessione e da strategie di ragionamento innovative - ottimizzate per compiti complessi di risoluzione di problemi del mondo reale.
Introduciamo un nuovo metodo per il pre-addestramento di encoder visivi su larga scala. Basandoci sui recenti progressi nel pre-addestramento autoregressivo di modelli visivi, estendiamo questo framework a un contesto multimodale, cioè immagini e testo. In questo articolo, presentiamo AIMV2, una famiglia di encoder visivi generalisti caratterizzati da un processo di pre-addestramento diretto, scalabilità e prestazioni notevoli su una serie di compiti successivi. Ciò è ottenuto accoppiando l'encoder visivo con un decoder multimodale che genera in modo autoregressivo patch di immagini grezze e token di testo. I nostri encoder eccellono non solo nelle valutazioni multimodali ma anche nei benchmark visivi come localizzazione, grounding e classificazione. In particolare, il nostro encoder AIMV2-3B raggiunge un'accuratezza del 89,5% su ImageNet-1k con un tronco congelato. Inoltre, AIMV2 supera costantemente i modelli contrastivi all'avanguardia (ad esempio, CLIP, SigLIP) nella comprensione multimodale delle immagini in contesti diversi.
Proponiamo Hymba, una famiglia di modelli linguistici di piccole dimensioni che presentano un'architettura parallela ibrida che integra meccanismi di attenzione del trasformatore con modelli dello spazio di stato (SSM) per una maggiore efficienza. Le testate di attenzione forniscono un richiamo ad alta risoluzione, mentre le testate SSM consentono una sintesi efficiente del contesto. Inoltre, introduciamo meta-token apprendibili che vengono anteposti alle istruzioni, memorizzando informazioni critiche e alleviando il peso del "forzato ad attenzione" associato ai meccanismi di attenzione. Questo modello è ulteriormente ottimizzato incorporando la condivisione di chiavi-valore (KV) tra strati e l'attenzione a finestra scorrevole parziale, risultando in una dimensione della cache compatta. Durante lo sviluppo, abbiamo condotto uno studio controllato confrontando varie architetture in impostazioni identiche e osservato significativi vantaggi della nostra architettura proposta. In particolare, Hymba raggiunge risultati all'avanguardia per i piccoli modelli linguistici: il nostro modello Hymba-1.5B-Base supera tutti i modelli pubblici inferiori a 2B in termini di prestazioni e batte persino Llama-3.2-3B con una precisione media superiore del 1,32%, una riduzione della dimensione della cache di 11,67 volte e un throughput di 3,49 volte superiore.
Il progresso scientifico dipende dalla capacità dei ricercatori di sintetizzare il crescente corpus di letteratura. Possono i grandi modelli linguistici (LM) assistere gli scienziati in questo compito? Presentiamo OpenScholar, un LM di recupero specializzato che risponde a interrogazioni scientifiche identificando passaggi rilevanti da 45 milioni di articoli in accesso aperto e sintetizzando risposte supportate da citazioni. Per valutare OpenScholar, sviluppiamo ScholarQABench, il primo benchmark multi-dominio su larga scala per la ricerca di letteratura, comprendente 2.967 interrogazioni scritte da esperti e 208 risposte di lunghezza estesa nei settori dell'informatica, della fisica, delle neuroscienze e della biomedicina. Su ScholarQABench, OpenScholar-8B supera GPT-4o del 5% e PaperQA2 del 7% in correttezza, nonostante sia un modello più piccolo e aperto. Mentre GPT-4o produce citazioni erronee dal 78 al 90% delle volte, OpenScholar raggiunge un'accuratezza delle citazioni paragonabile a quella degli esperti umani. Il datastore, il recupero e il ciclo di feedback automatico di OpenScholar migliorano anche i LM pronti all'uso: ad esempio, OpenScholar-GPT4o migliora la correttezza di GPT-4o del 12%. Nelle valutazioni umane, gli esperti hanno preferito le risposte di OpenScholar-8B e OpenScholar-GPT4o rispetto a quelle scritte dagli esperti il 51% e il 70% delle volte, rispettivamente, rispetto al 32% di GPT-4o. Mettiamo a disposizione tutto il nostro codice, modelli, datastore, dati e una demo pubblica in open source.
I Large Language Models (LLM) dimostrano capacità e affidabilità avanzate ragionando di più, evolvendo dalla sollecitazione Chain-of-Thought a soluzioni a livello di prodotto come OpenAI o1. Nonostante vari sforzi per migliorare il ragionamento di LLM, i dati di ragionamento a catena lunga di alta qualità e i flussi di addestramento ottimizzati rimangono ancora insufficientemente esplorati nei compiti visione-linguaggio. In questo articolo, presentiamo Insight-V, un primo sforzo per 1) produrre in modo scalabile dati di ragionamento lunghi e robusti per compiti multi-modalità complessi, e 2) un efficace flusso di addestramento per potenziare le capacità di ragionamento dei grandi modelli di linguaggio multi-modalità (MLLM). In particolare, per creare dati di ragionamento lunghi e strutturati senza lavoro umano, progettiamo un flusso di lavoro a due fasi con una strategia progressiva per generare percorsi di ragionamento sufficientemente lunghi e diversificati e un metodo di valutazione multi-granularità per garantire la qualità dei dati. Osserviamo che supervisionare direttamente MLLM con dati di ragionamento così lunghi e complessi non porterà a capacità di ragionamento ideali. Per affrontare questo problema, progettiamo un sistema multi-agente composto da un agente di ragionamento dedicato a eseguire ragionamenti a catena lunga e un agente di sintesi addestrato a valutare e riassumere i risultati del ragionamento. Incorporiamo inoltre un algoritmo DPO iterativo per potenziare la stabilità e la qualità di generazione dell'agente di ragionamento. Basandoci sul popolare modello LLaVA-NeXT e sul nostro solido MLLM di base, dimostriamo significativi miglioramenti delle prestazioni su sfide multi-modalità che richiedono ragionamento visivo. Beneficiando del nostro sistema multi-agente, Insight-V può anche mantenere o migliorare facilmente le prestazioni su compiti multi-modalità focalizzati sulla percezione.
Il Reinforcement Learning (RL) formula matematicamente il processo decisionale con il Processo Decisionale di Markov (MDP). Con i MDP, i ricercatori hanno ottenuto notevoli progressi in vari settori, tra cui giochi, robotica e modelli linguistici. Questo articolo cerca una nuova possibilità, il Reinforcement Learning basato sul Linguaggio Naturale (NLRL), estendendo il tradizionale MDP allo spazio di rappresentazione basato sul linguaggio naturale. In particolare, il NLRL ridefinisce in modo innovativo i principi del RL, inclusi gli obiettivi del compito, la policy, la funzione di valore, l'equazione di Bellman e l'iterazione della policy, nei loro corrispettivi linguistici. Con i recenti progressi nei grandi modelli linguistici (LLM), il NLRL può essere implementato praticamente per ottenere un miglioramento della policy e del valore simile al RL tramite semplici sollecitazioni o addestramento basato su gradienti. Gli esperimenti su giochi come Maze, Breakthrough e Tris dimostrano l'efficacia, l'efficienza e l'interpretabilità del framework NLRL tra diversi casi d'uso. Il nostro codice sarà rilasciato su https://github.com/waterhorse1/Natural-language-RL.
È ampiamente riconosciuto che le prestazioni dei modelli Transformer sono correlati in modo esponenziale al loro numero di parametri e complessità computazionale. Mentre approcci come Mixture of Experts (MoE) separano il conteggio dei parametri dalla complessità computazionale, affrontano comunque sfide nell'inferenza a causa dei costi elevati di accesso alla memoria. Questo lavoro introduce UltraMem, che incorpora uno strato di memoria ultra-sparsa su larga scala per affrontare tali limitazioni. Il nostro approccio riduce significativamente la latenza dell'inferenza pur mantenendo le prestazioni del modello. Esaminiamo anche le leggi di scalabilità di questa nuova architettura, dimostrando che non solo presenta proprietà di scalabilità favorevoli ma supera i modelli tradizionali. Nei nostri esperimenti, addestriamo reti con fino a 20 milioni di slot di memoria. I risultati mostrano che il nostro metodo raggiunge velocità di inferenza all'avanguardia e prestazioni del modello entro un determinato budget computazionale.
I modelli di diffusione hanno rivoluzionato il campo della sintesi e modifica dei contenuti. I modelli recenti hanno sostituito l'architettura UNet tradizionale con il Transformer di Diffusione (DiT) e hanno utilizzato il flow-matching per un miglioramento dell'addestramento e del campionamento. Tuttavia, mostrano una limitata diversità nella generazione. In questo lavoro, sfruttiamo questa limitazione per eseguire modifiche coerenti alle immagini tramite l'iniezione selettiva delle caratteristiche di attenzione. La sfida principale è che, a differenza dei modelli basati su UNet, DiT manca di una struttura di sintesi da grossolana a fine, rendendo poco chiaro in quali livelli eseguire l'iniezione. Pertanto, proponiamo un metodo automatico per identificare "livelli vitali" all'interno di DiT, cruciali per la formazione dell'immagine, e dimostriamo come questi livelli facilitino una serie di modifiche stabili controllate, da modifiche non rigide all'aggiunta di oggetti, utilizzando lo stesso meccanismo. Successivamente, per consentire la modifica di immagini reali, introduciamo un metodo di inversione delle immagini migliorato per i modelli di flusso. Infine, valutiamo il nostro approccio attraverso confronti qualitativi e quantitativi, insieme a uno studio utente, e dimostriamo la sua efficacia in diverse applicazioni. La pagina del progetto è disponibile su https://omriavrahami.com/stable-flow.
In questo articolo, presentiamo DINO-X, che è un modello unificato di visione centrato sugli oggetti sviluppato da IDEA Research con le migliori prestazioni di rilevamento degli oggetti in un ambiente aperto fino ad oggi. DINO-X utilizza la stessa architettura codificatore-decodificatore basata su Transformer di Grounding DINO 1.5 per perseguire una rappresentazione a livello di oggetto per la comprensione degli oggetti in un ambiente aperto. Per facilitare il rilevamento degli oggetti a lunga coda, DINO-X estende le sue opzioni di input per supportare prompt di testo, prompt visivo e prompt personalizzato. Con tali opzioni di prompt flessibili, sviluppiamo un prompt universale per gli oggetti per supportare il rilevamento senza prompt in un ambiente aperto, rendendo possibile rilevare qualsiasi cosa in un'immagine senza richiedere agli utenti di fornire alcun prompt. Per potenziare la capacità di base del modello di grounding, abbiamo costruito un dataset su larga scala con oltre 100 milioni di campioni di grounding di alta qualità, denominato Grounding-100M, per migliorare le prestazioni del modello nel rilevamento del vocabolario aperto. Il pre-training su un dataset di grounding su larga scala porta a una rappresentazione a livello di oggetto fondamentale, che consente a DINO-X di integrare più testine di percezione per supportare contemporaneamente più compiti di percezione e comprensione degli oggetti, tra cui rilevamento, segmentazione, stima della posa, didascalia degli oggetti, QA basato sugli oggetti, ecc. I risultati sperimentali dimostrano le prestazioni superiori di DINO-X. In particolare, il modello DINO-X Pro raggiunge 56.0 AP, 59.8 AP e 52.4 AP rispettivamente sui benchmark di rilevamento degli oggetti COCO, LVIS-minival e LVIS-val a zero-shot. In particolare, ottiene 63.3 AP e 56.5 AP sulle classi rare dei benchmark LVIS-minival e LVIS-val, migliorando entrambe le prestazioni SOTA precedenti di 5.8 AP. Tale risultato sottolinea la sua capacità significativamente migliorata di riconoscere oggetti a lunga coda.
Le allucinazioni nei grandi modelli linguistici sono un problema diffuso, tuttavia i meccanismi alla base della presenza di allucinazioni nei modelli sono poco compresi, limitando la nostra capacità di risolvere questo problema. Utilizzando autoencoder sparsi come strumento di interpretazione, scopriamo che una parte chiave di tali meccanismi è il riconoscimento delle entità, dove il modello rileva se un'entità è una di cui può ricordare dei fatti. Gli autoencoder sparsi rivelano direzioni significative nello spazio di rappresentazione, che individuano se il modello riconosce un'entità, ad esempio rilevando che non conosce un atleta o un film. Ciò suggerisce che i modelli possono avere auto-conoscenza: rappresentazioni interne sulle proprie capacità. Queste direzioni sono causalmente rilevanti: capaci di guidare il modello a rifiutarsi di rispondere a domande su entità conosciute, o di allucinare attributi di entità sconosciute quando altrimenti si rifiuterebbe. Dimostriamo che nonostante gli autoencoder sparsi siano stati addestrati sul modello di base, queste direzioni hanno un effetto causale sul comportamento di rifiuto del modello di chat, suggerendo che il raffinamento della chat ha riutilizzato questo meccanismo esistente. Inoltre, forniamo una prima esplorazione del ruolo meccanicistico di queste direzioni nel modello, scoprendo che disturbano l'attenzione delle testate a valle che tipicamente spostano gli attributi dell'entità al token finale.
Il rapido avanzamento dei modelli di diffusione ha notevolmente migliorato la sintesi video, specialmente nella generazione di video controllabili, essenziale per applicazioni come la guida autonoma. Tuttavia, i metodi esistenti sono limitati dalla scalabilità e dall'integrazione delle condizioni di controllo, non riuscendo a soddisfare le esigenze di video ad alta risoluzione e di lunga durata per le applicazioni di guida autonoma. In questo articolo, presentiamo MagicDriveDiT, un nuovo approccio basato sull'architettura DiT, e affrontiamo queste sfide. Il nostro metodo potenzia la scalabilità attraverso il matching di flussi e utilizza una strategia di addestramento progressiva per gestire scenari complessi. Integrando la codifica condizionale spazio-temporale, MagicDriveDiT ottiene un controllo preciso sui latenti spazio-temporali. Esperimenti esaustivi mostrano le sue prestazioni superiori nella generazione di video realistici di scene stradali con maggiore risoluzione e più fotogrammi. MagicDriveDiT migliora significativamente la qualità della generazione video e i controlli spazio-temporali, espandendo le sue potenziali applicazioni in varie attività di guida autonoma.
I metodi esistenti di trasformazione di immagini in 3D basati su feed-forward si affidano principalmente a modelli di diffusione multi-visivi 2D che non possono garantire la coerenza in 3D. Questi metodi collassano facilmente quando si cambia la direzione della vista di partenza e gestiscono principalmente immagini di prompt incentrate sugli oggetti. In questo articolo, proponiamo un nuovo modello di diffusione 3D in un unico stadio, DiffusionGS, per la generazione di oggetti e scene da una singola vista. DiffusionGS produce direttamente nuvole di punti gaussiani in 3D ad ogni passaggio temporale per garantire la coerenza della vista e consentire al modello di generare in modo robusto date viste di prompt in qualsiasi direzione, oltre agli input incentrati sugli oggetti. Inoltre, per migliorare la capacità e l'abilità di generalizzazione di DiffusionGS, aumentiamo i dati di addestramento in 3D sviluppando una strategia di addestramento mista scena-oggetto. Gli esperimenti mostrano che il nostro metodo gode di una migliore qualità di generazione (2,20 dB più alta in PSNR e 23,25 inferiore in FID) e una velocità oltre 5 volte più veloce (~6s su una GPU A100) rispetto ai metodi SOTA. Lo studio degli utenti e le applicazioni di testo in 3D rivelano anche i valori pratici del nostro metodo. La nostra pagina del progetto su https://caiyuanhao1998.github.io/project/DiffusionGS/ mostra il video e i risultati interattivi di generazione.
I modelli linguistici di grandi dimensioni (LLM) hanno prestazioni inferiori nelle lingue a risorse limitate a causa dei dati di addestramento limitati. Presentiamo un metodo per raccogliere in modo efficiente dati testuali per le lingue a risorse limitate dall'intero corpus di Common Crawl. Il nostro approccio, UnifiedCrawl, filtra ed estrae Common Crawl utilizzando risorse di calcolo minime, producendo set di dati monolingui molto più ampi rispetto alle fonti precedentemente disponibili. Dimostriamo che sfruttare questi dati per il raffinamento dei LLM multilingue tramite metodi di adattamento efficienti (QLoRA) migliora significativamente le prestazioni nella lingua a risorse limitate, riducendo al minimo l'uso della VRAM. I nostri esperimenti mostrano ampi miglioramenti nella perplessità del modellamento linguistico e un aumento nei punteggi di prompting a pochi colpi. Il nostro lavoro e il codice sorgente rilasciato forniscono un approccio conveniente per migliorare i LLM per le lingue a risorse limitate utilizzando hardware per consumatori. Il nostro codice sorgente è disponibile qui su https://github.com/bethelmelesse/unifiedcrawl.
Gli avanzamenti recenti nel campo dei grandi modelli linguistici, in particolare attraverso l'approccio Chain of Thought (CoT), hanno dimostrato miglioramenti significativi nella risoluzione di problemi complessi. Tuttavia, i modelli esistenti tendono o a sacrificare il ragionamento dettagliato per la concisione a causa delle preferenze dell'utente, o richiedono dati di addestramento estesi e costosi per apprendere capacità di ragionamento complesse, limitando il loro potenziale nella risoluzione di compiti complessi. Per colmare questa lacuna, seguendo il concetto di scalare il test temporale, proponiamo un metodo semplice incoraggiando i modelli ad adottare uno stile di ragionamento più paziente senza la necessità di introdurre nuove conoscenze o abilità. Per impiegare un approccio di ottimizzazione delle preferenze, generiamo processi di ragionamento dettagliati come esempi positivi e risposte semplici come esempi negativi, addestrando così il modello a favorire la completezza nelle sue risposte. I nostri risultati dimostrano un aumento delle prestazioni fino al 6,7% su GSM8k addestrando solo su un dataset leggero.