Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, indaghiamo i fattori sottostanti che potenzialmente migliorano le capacità di ragionamento matematico dei grandi modelli linguistici (LLM). Sosteniamo che la legge di scala dei dati per le capacità di ragionamento matematico nei moderni LLM è ben lontana dall'essere saturata, evidenziando come la qualità del modello migliori con l'aumento della quantità di dati. Per supportare questa affermazione, introduciamo la serie di modelli Skywork-Math, sottoposti a fine-tuning supervisionato (SFT) su comuni LLM da 7B utilizzando il nostro dataset Skywork-MathQA da 2,5 milioni di istanze. Skywork-Math 7B ha raggiunto impressionanti accuratezze del 51,2% sul benchmark MATH di livello competitivo e dell'83,9% sul benchmark GSM8K utilizzando solo dati SFT, superando una versione iniziale di GPT-4 su MATH. La performance superiore dei modelli Skywork-Math è attribuita alle nostre innovative pipeline di sintesi dei dati in due fasi e di SFT del modello, che includono tre diversi metodi di aumento e un insieme diversificato di problemi iniziali, garantendo sia la quantità che la qualità del dataset Skywork-MathQA su diversi livelli di difficoltà. Soprattutto, forniamo diversi spunti pratici per migliorare le capacità di ragionamento matematico negli LLM, sia per la ricerca che per le applicazioni industriali.
Abbiamo compiuto progressi significativi nello sviluppo di modelli di diffusione video di base. Poiché questi modelli vengono addestrati utilizzando dati non supervisionati su larga scala, è diventato cruciale adattarli a specifici task downstream. L'adattamento di questi modelli tramite fine-tuning supervisionato richiede la raccolta di dataset target di video, un'operazione complessa e laboriosa. In questo lavoro, utilizziamo modelli di ricompensa pre-addestrati, appresi tramite preferenze su potenti modelli discriminativi visivi, per adattare i modelli di diffusione video. Questi modelli contengono informazioni dense sui gradienti rispetto ai pixel RGB generati, essenziali per un apprendimento efficiente in spazi di ricerca complessi, come quelli dei video. Dimostriamo che la retropropagazione dei gradienti da questi modelli di ricompensa a un modello di diffusione video può consentire un allineamento efficiente in termini di calcolo e campionamento del modello di diffusione video. Presentiamo risultati su una varietà di modelli di ricompensa e modelli di diffusione video, dimostrando che il nostro approccio può apprendere in modo molto più efficiente in termini di query di ricompensa e calcolo rispetto ai precedenti approcci privi di gradienti. Il nostro codice, i pesi del modello e ulteriori visualizzazioni sono disponibili su https://vader-vid.github.io.
Sebbene la maggior parte degli attuali modelli multimodali di grandi dimensioni (LMM) sia già in grado di comprendere foto di scene naturali e ritratti, la loro comprensione di immagini astratte, come grafici, mappe o layout, e le capacità di ragionamento visivo rimangono piuttosto rudimentali. Spesso hanno difficoltà con semplici compiti quotidiani, come leggere l'ora da un orologio, comprendere un diagramma di flusso o pianificare un percorso utilizzando una mappa stradale. Alla luce di ciò, progettiamo un'istruzione multimodale automatica, sfruttando i modelli linguistici di grandi dimensioni e le loro capacità di codifica per sintetizzare un vasto numero di immagini astratte e istruzioni di ragionamento visivo in scenari quotidiani. La nostra strategia crea senza sforzo un benchmark multimodale con 11.193 istruzioni per otto scenari visivi: grafici, tabelle, mappe simulate, dashboard, diagrammi di flusso, grafici relazionali, planimetrie e puzzle visivi. Questo benchmark, costruito con semplici linee ed elementi geometrici, mette in luce le carenze dei più avanzati LMM come Claude-3.5-Sonnet e GPT-4o nella comprensione di immagini astratte, nel ragionamento sulle relazioni spaziali e nell'induzione di elementi visivi. Inoltre, per verificare la qualità dei nostri dati sintetici, ottimizziamo un LMM utilizzando 62.476 istruzioni sintetiche su grafici, tabelle e mappe stradali. I risultati dimostrano un miglioramento nella comprensione dei grafici e nelle prestazioni di navigazione su mappe, e mostrano anche potenziali benefici per altre attività di ragionamento visivo. Il nostro codice è disponibile all'indirizzo: https://github.com/zwq2018/Multi-modal-Self-instruct.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) sono recentemente emersi come un focus significativo in ambito accademico e industriale. Nonostante la loro competenza in scenari multimodali generali, le capacità di risoluzione di problemi matematici in contesti visivi rimangono insufficientemente esplorate. Identifichiamo tre aree chiave all'interno degli MLLMs che necessitano di miglioramento: la codifica visiva dei diagrammi matematici, l'allineamento diagramma-linguaggio e le abilità di ragionamento matematico. Ciò evidenzia una pressante necessità di dati su larga scala e di alta qualità, nonché di pipeline di addestramento per la matematica visiva. In questo articolo, proponiamo MAVIS, il primo paradigma di sintonizzazione su istruzioni visive matematiche per MLLMs, che comprende una serie di dataset visivi matematici e MLLMs specializzati. Mirando alle tre problematiche, MAVIS contiene tre fasi progressive di addestramento partendo da zero. In primo luogo, curiamo MAVIS-Caption, composto da 558K coppie diagramma-didascalia, per affinare un encoder visivo specifico per la matematica (CLIP-Math) attraverso l'apprendimento contrastivo, ottimizzato per una migliore codifica visiva dei diagrammi. In secondo luogo, utilizziamo MAVIS-Caption per allineare CLIP-Math con un modello linguistico di grande dimensione (LLM) mediante uno strato di proiezione, migliorando l'allineamento visione-linguaggio nei domini matematici. In terzo luogo, introduciamo MAVIS-Instruct, che include 900K problemi matematici visivi accuratamente raccolti e annotati, adottato per sintonizzare infine l'MLLM su istruzioni per abilità robuste di ragionamento matematico. In MAVIS-Instruct, incorporiamo razionalità complete a catena di pensiero (CoT) per ogni problema e minimizziamo la ridondanza testuale, concentrando così il modello sugli elementi visivi. Dati e modelli sono rilasciati su https://github.com/ZrrSkywalker/MAVIS.
L'addestramento di Large Language Models (LLM) è intensivo in termini di memoria a causa del grande numero di parametri e degli stati di ottimizzazione associati. GaLore, un metodo recente, riduce l'uso della memoria proiettando i gradienti dei pesi in un sottospazio a basso rango senza compromettere le prestazioni. Tuttavia, GaLore si basa su operazioni di Singular Value Decomposition (SVD) che richiedono tempo per identificare il sottospazio, e i frequenti aggiornamenti del sottospazio portano a un significativo sovraccarico nel tempo di addestramento. Inoltre, GaLore offre miglioramenti minimi in termini di accuratezza ed efficienza rispetto a LoRA in scenari di fine-tuning più accessibili. Per affrontare queste limitazioni, introduciamo Q-Galore, un nuovo approccio che riduce sostanzialmente l'uso della memoria combinando quantizzazione e proiezione a basso rango, superando i benefici di GaLore. Il nostro metodo si basa su due osservazioni chiave: (i) il sottospazio del gradiente presenta proprietà diverse, con alcuni strati che convergono precocemente durante l'addestramento mentre altri sono soggetti a frequenti cambiamenti; (ii) le matrici di proiezione sono altamente resilienti alla quantizzazione a basso bit. Sfruttando queste intuizioni, Q-Galore aggiorna adattivamente il sottospazio del gradiente in base alle sue statistiche di convergenza, ottenendo prestazioni comparabili riducendo significativamente il numero di operazioni SVD. Manteniamo le matrici di proiezione in formato INT4 e i pesi in formato INT8, incorporando l'arrotondamento stocastico per catturare le informazioni accumulate del gradiente. Questo approccio consente una traiettoria di addestramento ad alta precisione utilizzando solo pesi a bassa precisione. Dimostriamo che Q-Galore raggiunge prestazioni altamente competitive con un'eccellente efficienza della memoria. Durante il pre-training, Q-Galore facilita l'addestramento di un modello LLaMA-7B da zero su una singola NVIDIA RTX 4060 Ti con solo 16 GB di memoria. Durante il fine-tuning, riduce il consumo di memoria fino al 50% rispetto a LoRA e GaLore, superando costantemente QLoRA allo stesso costo di memoria.
Proponiamo una nuova architettura ibrida Mamba-Transformer, denominata MambaVision, specificamente progettata per applicazioni visive. Il nostro contributo principale include la riprogettazione della formulazione Mamba per migliorarne la capacità di modellazione efficiente delle caratteristiche visive. Inoltre, conduciamo uno studio di ablazione completo sulla fattibilità di integrare Vision Transformers (ViT) con Mamba. I nostri risultati dimostrano che dotare l'architettura Mamba di diversi blocchi di self-attention negli strati finali migliora significativamente la capacità di modellazione per catturare dipendenze spaziali a lungo raggio. Sulla base delle nostre scoperte, introduciamo una famiglia di modelli MambaVision con un'architettura gerarchica per soddisfare vari criteri di progettazione. Per la classificazione di immagini sul dataset ImageNet-1K, le varianti del modello MambaVision raggiungono una nuova prestazione State-of-the-Art (SOTA) in termini di accuratezza Top-1 e throughput delle immagini. In task downstream come il rilevamento di oggetti, la segmentazione di istanze e la segmentazione semantica sui dataset MS COCO e ADE20K, MambaVision supera architetture di dimensioni comparabili e dimostra prestazioni più favorevoli. Codice: https://github.com/NVlabs/MambaVision.
Un numero crescente di applicazioni si affida a un ristretto insieme di modelli linguistici (LM) proprietari. Questa dipendenza potrebbe introdurre nuovi rischi per la sicurezza se i LM sviluppassero capacità di autoriconoscimento. Ispirati dai metodi di verifica dell'identità umana, proponiamo un approccio innovativo per valutare l'autoriconoscimento nei LM utilizzando "domande di sicurezza" generate dal modello. Il nostro test può essere somministrato esternamente per monitorare i modelli di frontiera, poiché non richiede l'accesso ai parametri interni del modello o alle probabilità di output. Utilizziamo il nostro test per esaminare l'autoriconoscimento in dieci dei più capaci LM open-source e proprietari attualmente disponibili pubblicamente. I nostri esperimenti estesi non hanno trovato prove empiriche di un autoriconoscimento generale o consistente in nessuno dei LM esaminati. Invece, i nostri risultati suggeriscono che, dato un insieme di alternative, i LM cercano di scegliere la risposta "migliore", indipendentemente dalla sua origine. Inoltre, troviamo indicazioni che le preferenze su quali modelli producono le risposte migliori sono coerenti tra i LM. Scopriamo inoltre nuove intuizioni sulle considerazioni del bias di posizione per i LM in contesti a scelta multipla.
Con i notevoli progressi nella generazione di immagini e nella generazione di testo aperto, la creazione di contenuti intercalati di immagini e testo è diventata un campo sempre più affascinante. La generazione di storie multimodali, caratterizzata dalla produzione di testi narrativi e immagini vivide in modo intercalato, è emersa come un compito prezioso e pratico con ampie applicazioni. Tuttavia, questo compito presenta sfide significative, poiché richiede la comprensione dell'interazione complessa tra testi e immagini e la capacità di generare sequenze lunghe di testi e visualizzazioni coerenti e contestualmente rilevanti. In questo lavoro, proponiamo SEED-Story, un metodo innovativo che sfrutta un Modello Linguistico Multimodale di Grande Scala (MLLM) per generare storie multimodali estese. Il nostro modello, basato sulla potente capacità di comprensione dell'MLLM, predice token di testo e token visivi, che vengono successivamente elaborati con un de-tokenizzatore visivo adattato per produrre immagini con personaggi e stili consistenti. Proponiamo inoltre un meccanismo di attenzione multimodale per consentire la generazione di storie con fino a 25 sequenze (solo 10 per l'addestramento) in modo altamente efficiente e autoregressivo. Inoltre, presentiamo un dataset su larga scala e ad alta risoluzione denominato StoryStream per addestrare il nostro modello e valutare quantitativamente il compito della generazione di storie multimodali in vari aspetti.
La capacità eccezionale di ragionamento matematico è una delle caratteristiche chiave che dimostrano la potenza dei grandi modelli linguistici (LLM). Come definire e valutare in modo completo le abilità matematiche degli LLM, e persino riflettere l'esperienza dell'utente in scenari reali, è emerso come un problema critico. Gli attuali benchmark si concentrano prevalentemente sulle capacità di risoluzione dei problemi, il che presenta un rischio sostanziale di overfitting del modello e non rappresenta accuratamente le genuine capacità di ragionamento matematico. In questo articolo, sosteniamo che se un modello comprende veramente un problema, dovrebbe essere robustamente e prontamente applicabile a una vasta gamma di compiti. Motivati da ciò, introduciamo MATHCHECK, una checklist ben progettata per testare la generalizzazione dei compiti e la robustezza del ragionamento, nonché uno strumento automatico per generare checklist in modo efficiente. MATHCHECK include molteplici compiti di ragionamento matematico e tipi di test di robustezza per facilitare una valutazione completa sia delle abilità di ragionamento matematico che dei test comportamentali. Utilizzando MATHCHECK, sviluppiamo MATHCHECK-GSM e MATHCHECK-GEO per valutare rispettivamente le capacità di ragionamento testuale matematico e di ragionamento multimodale, servendo come versioni aggiornate di benchmark come GSM8k, GeoQA, UniGeo e Geometry3K. Adottiamo MATHCHECK-GSM e MATHCHECK-GEO per valutare oltre 20 LLM e 11 MLLM, valutando le loro capacità complessive di ragionamento matematico. I nostri risultati dimostrano che mentre LLM all'avanguardia come GPT-4o continuano a eccellere in varie abilità sulla checklist, molte altre famiglie di modelli mostrano un significativo declino. Ulteriori esperimenti indicano che, rispetto ai tradizionali benchmark matematici, MATHCHECK riflette meglio le vere abilità matematiche e rappresenta l'intelligenza matematica in modo più lineare, supportando così il nostro design. Sul nostro MATHCHECK, possiamo facilmente condurre analisi comportamentali dettagliate per investigare a fondo i modelli.
I Modelli Linguistici Multimodali di Grande Scala (MLLM) esistenti stanno sempre più enfatizzando una comprensione complessa di vari elementi visivi, inclusi oggetti multipli, informazioni testuali e relazioni spaziali. Il loro sviluppo per una percezione visiva completa dipende dalla disponibilità di dataset immagine-testo di alta qualità che offrano elementi visivi diversificati e descrizioni dettagliate delle immagini. Tuttavia, la scarsità di tali dataset iper-dettagliati attualmente ostacola i progressi all'interno della comunità MLLM. Il collo di bottiglia deriva dalle limitate capacità percettive dei motori di descrizione attuali, che non riescono a fornire annotazioni complete e accurate. Per facilitare la ricerca all'avanguardia degli MLLM sulla percezione visiva completa, proponiamo quindi il Perceptual Fusion, utilizzando un motore di descrizione a basso costo ma altamente efficace per generare descrizioni complete e accurate delle immagini. Nello specifico, il Perceptual Fusion integra esperti di percezione diversificati come priorità immagine per fornire informazioni esplicite sugli elementi visivi e adotta un MLLM efficiente come perno centrale per imitare le capacità percettive degli MLLM avanzati. Abbiamo selezionato con cura 1 milione di immagini altamente rappresentative dal dataset non curato LAION e generato descrizioni dense utilizzando il nostro motore, denominato DenseFusion-1M. Esperimenti estensivi convalidano che il nostro motore supera i suoi concorrenti, dove il dataset risultante migliora significativamente le capacità percettive e cognitive degli MLLM esistenti su vari benchmark di visione e linguaggio, specialmente con immagini ad alta risoluzione come input. Il dataset e il codice sono disponibili pubblicamente all'indirizzo https://github.com/baaivision/DenseFusion.
Un'attenzione significativa è stata rivolta all'integrazione di modelli linguistici di grandi dimensioni (LLM) con vari strumenti nello sviluppo di agenti a scopo generale. Ciò rappresenta una sfida per le capacità di utilizzo degli strumenti degli LLM. Tuttavia, esistono evidenti lacune tra le valutazioni esistenti sull'uso degli strumenti e gli scenari del mondo reale. Le valutazioni attuali spesso utilizzano query generate dall'IA, compiti a singolo passaggio, strumenti fittizi e interazioni esclusivamente testuali, non riuscendo a rivelare efficacemente le capacità di risoluzione dei problemi degli agenti nel mondo reale. Per affrontare questo problema, proponiamo GTA, un benchmark per Agenti Strumentali Generali, che presenta tre aspetti principali: (i) Query reali degli utenti: query scritte da esseri umani con obiettivi semplici del mondo reale ma con un uso implicito degli strumenti, che richiedono all'LLM di ragionare sugli strumenti adatti e pianificare i passaggi della soluzione. (ii) Strumenti realmente implementati: una piattaforma di valutazione dotata di strumenti nelle categorie di percezione, operazione, logica e creatività per valutare le prestazioni effettive degli agenti nell'esecuzione dei compiti. (iii) Input multimodali reali: file di immagini autentici, come scene spaziali, screenshot di pagine web, tabelle, frammenti di codice e materiali stampati/manoscritti, utilizzati come contesti delle query per allinearsi strettamente agli scenari del mondo reale. Progettiamo 229 compiti del mondo reale e catene di strumenti eseguibili per valutare gli LLM mainstream. I nostri risultati mostrano che le query degli utenti del mondo reale sono impegnative per gli LLM esistenti, con GPT-4 che completa meno del 50% dei compiti e la maggior parte degli LLM che raggiunge meno del 25%. Questa valutazione rivela i colli di bottiglia nelle capacità di utilizzo degli strumenti degli LLM attuali negli scenari del mondo reale, fornendo una direzione futura per il progresso degli agenti strumentali a scopo generale. Il codice e il dataset sono disponibili all'indirizzo https://github.com/open-compass/GTA.
Presentiamo MELLE, un nuovo approccio di modellazione del linguaggio basato su token a valori continui per la sintesi vocale da testo (TTS). MELLE genera in modo autoregressivo frame di mel-spettrogrammi continui direttamente dalla condizione testuale, bypassando la necessità di quantizzazione vettoriale, originariamente progettata per la compressione audio e che sacrifica la fedeltà rispetto ai mel-spettrogrammi. Nello specifico, (i) invece della perdita di entropia incrociata, applichiamo una perdita di regressione con una funzione di perdita del flusso dello spettrogramma proposta per modellare la distribuzione di probabilità dei token a valori continui. (ii) abbiamo incorporato l'inferenza variazionale in MELLE per facilitare i meccanismi di campionamento, migliorando così la diversità dell'output e la robustezza del modello. Gli esperimenti dimostrano che, rispetto ai modelli di linguaggio codec a due stadi VALL-E e le sue varianti, il modello a stadio singolo MELLE mitiga i problemi di robustezza evitando le imperfezioni intrinseche del campionamento di codici discreti, raggiunge prestazioni superiori su più metriche e, soprattutto, offre un paradigma più snello. Visita https://aka.ms/melle per le demo del nostro lavoro.
Il rapido sviluppo dei grandi modelli linguistici (LLM) è stato osservato negli ultimi anni. Basandosi sui potenti LLM, i modelli linguistici multimodali (MLLM) estendono la modalità dal testo a uno spettro più ampio di domini, attirando un'attenzione diffusa grazie alla più vasta gamma di scenari applicativi. Poiché gli LLM e gli MLLM si affidano a un'enorme quantità di parametri del modello e di dati per raggiungere capacità emergenti, l'importanza dei dati sta ricevendo un'attenzione e un riconoscimento sempre più ampi. Tracciando e analizzando i recenti lavori orientati ai dati per gli MLLM, scopriamo che lo sviluppo dei modelli e dei dati non è costituito da due percorsi separati, ma piuttosto interconnessi. Da un lato, dati più vasti e di qualità superiore contribuiscono a migliorare le prestazioni degli MLLM; dall'altro, gli MLLM possono facilitare lo sviluppo dei dati. Lo sviluppo congiunto di dati multimodali e MLLM richiede una visione chiara di 1) in quale fase di sviluppo degli MLLM possono essere impiegati approcci specifici centrati sui dati per potenziare quali capacità, e 2) utilizzando quali capacità e agendo in quali ruoli i modelli possono contribuire ai dati multimodali. Per promuovere lo sviluppo congiunto di dati e modelli per la comunità MLLM, esaminiamo sistematicamente i lavori esistenti relativi agli MLLM dal punto di vista dello sviluppo congiunto di dati e modelli. Un progetto regolarmente aggiornato associato a questa rassegna è accessibile all'indirizzo https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
Le reti neurali (NN) ottengono risultati notevoli in vari compiti, ma mancano di caratteristiche chiave: interpretabilità, supporto per feature categoriche e implementazioni leggere adatte a dispositivi edge. Sebbene gli sforzi in corso mirino a risolvere queste sfide, gli alberi di potenziamento del gradiente (GBT) soddisfano intrinsecamente questi requisiti. Di conseguenza, i GBT sono diventati il metodo di riferimento per i compiti di apprendimento supervisionato in molte applicazioni e competizioni del mondo reale. Tuttavia, il loro utilizzo in scenari di apprendimento online, in particolare nell'apprendimento per rinforzo (RL), è stato limitato. In questo lavoro, colmiamo questa lacuna introducendo Gradient-Boosting RL (GBRL), un framework che estende i vantaggi dei GBT al dominio dell'RL. Utilizzando il framework GBRL, implementiamo vari algoritmi actor-critic e confrontiamo le loro prestazioni con le controparti basate su NN. Ispirati dalle strutture condivise nelle NN, introduciamo un approccio di condivisione degli alberi per le funzioni di politica e valore con tassi di apprendimento distinti, migliorando l'efficienza dell'apprendimento su milioni di interazioni. GBRL raggiunge prestazioni competitive in una vasta gamma di compiti, eccellendo in domini con feature strutturate o categoriche. Inoltre, presentiamo un'implementazione ad alte prestazioni, accelerata da GPU, che si integra perfettamente con le librerie RL ampiamente utilizzate (disponibile su https://github.com/NVlabs/gbrl). GBRL amplia il toolkit per i professionisti dell'RL, dimostrando la fattibilità e il potenziale dei GBT all'interno del paradigma dell'RL, in particolare in domini caratterizzati da feature strutturate o categoriche.
I modelli linguistici di grandi dimensioni hanno dimostrato una notevole efficacia nella generazione di dati in streaming come testo e audio, grazie al loro meccanismo di attenzione temporale unidirezionale, che modella le correlazioni tra il token corrente e i token precedenti. Tuttavia, lo streaming video rimane molto meno esplorato, nonostante una crescente necessità di elaborazione video in tempo reale. I modelli di diffusione video all'avanguardia sfruttano l'attenzione temporale bidirezionale per modellare le correlazioni tra il frame corrente e tutti i frame circostanti (inclusi quelli futuri), il che impedisce loro di elaborare video in streaming. Per affrontare questo problema, presentiamo Live2Diff, il primo tentativo di progettare un modello di diffusione video con attenzione temporale unidirezionale, specificamente mirato alla traduzione di video in streaming live. Rispetto ai lavori precedenti, il nostro approccio garantisce coerenza e fluidità temporale correlando il frame corrente con i suoi predecessori e alcuni frame iniziali di riscaldamento, senza alcun frame futuro. Inoltre, utilizziamo uno schema di denoising altamente efficiente che include un meccanismo di cache KV e il pipelining, per facilitare la traduzione di video in streaming a frame rate interattivi. Esperimenti estensivi dimostrano l'efficacia del meccanismo di attenzione e della pipeline proposti, superando i metodi precedenti in termini di fluidità temporale e/o efficienza.
La modellazione del movimento è fondamentale nell'interpolazione di frame video basata sul flusso (VFI). Gli approcci esistenti considerano combinazioni lineari di flussi bidirezionali o prevedono direttamente flussi bilaterali per timestamp specifici senza esplorare precedenti favorevoli sul movimento, mancando quindi della capacità di modellare efficacemente le dinamiche spazio-temporali nei video del mondo reale. Per affrontare questa limitazione, in questo studio introduciamo la Modellazione Implicita Generalizzabile del Movimento (GIMM), un approccio innovativo ed efficace alla modellazione del movimento per la VFI. Nello specifico, per rendere la GIMM un paradigma efficace di modellazione del movimento, progettiamo una pipeline di codifica del movimento per modellare il latente spazio-temporale del movimento a partire da flussi bidirezionali estratti da stimatori di flusso pre-addestrati, rappresentando efficacemente i precedenti specifici del movimento dell'input. Successivamente, prevediamo implicitamente flussi ottici a intervalli temporali arbitrari tra due frame di input adiacenti tramite una rete neurale basata su coordinate adattive, utilizzando come input le coordinate spazio-temporali e il latente del movimento. La nostra GIMM può essere integrata senza ulteriori modifiche con i lavori esistenti di VFI basati sul flusso. Dimostriamo che la GIMM supera lo stato dell'arte negli benchmark di VFI.
Le mappe in vista dall'alto (Bird's Eye View, BEV) sono una rappresentazione popolare per la navigazione dei robot terrestri grazie alla loro ricchezza e flessibilità per compiti successivi. Sebbene i metodi recenti abbiano mostrato promesse nella previsione di mappe BEV a partire da immagini in prima persona (First-Person View, FPV), la loro generalizzabilità è limitata a piccole regioni catturate dai dataset attuali basati su veicoli autonomi. In questo contesto, dimostriamo che un approccio più scalabile verso la previsione generalizzabile di mappe può essere abilitato utilizzando due piattaforme di mappatura su larga scala basate sul crowdsourcing: Mapillary per le immagini FPV e OpenStreetMap per le mappe semantiche BEV. Introduciamo Map It Anywhere (MIA), un motore di dati che consente la curatela e la modellazione senza soluzione di continuità di dati etichettati per la previsione di mappe a partire da piattaforme di mappatura open-source esistenti. Utilizzando il nostro motore di dati MIA, mostriamo la facilità di raccogliere automaticamente un dataset di 1,2 milioni di coppie di immagini FPV e mappe BEV che coprono geografie, paesaggi, fattori ambientali, modelli di fotocamera e scenari di acquisizione diversi. Addestriamo inoltre un modello semplice, indipendente dal modello di fotocamera, su questi dati per la previsione di mappe BEV. Valutazioni estensive utilizzando benchmark consolidati e il nostro dataset dimostrano che i dati curati da MIA consentono un pre-addestramento efficace per la previsione generalizzabile di mappe BEV, con prestazioni zero-shot che superano di gran lunga i baseline addestrati su dataset esistenti del 35%. La nostra analisi evidenzia il potenziale dell'utilizzo di mappe pubbliche su larga scala per lo sviluppo e il test di percezioni BEV generalizzabili, aprendo la strada a una navigazione autonoma più robusta.
In questo articolo prospettico, introduciamo il concetto di Intelligenza Artificiale Generalista Specializzata (SGAI o semplicemente SGI) come una tappa cruciale verso l'Intelligenza Artificiale Generale (AGI). Rispetto al semplice potenziamento di abilità generali, la SGI è definita come un'IA che si specializza in almeno un compito, superando gli esperti umani, pur mantenendo capacità generali. Questo percorso di fusione consente alla SGI di raggiungere rapidamente aree ad alto valore. Classifichiamo la SGI in tre fasi basate sul livello di padronanza delle competenze professionali e sulle prestazioni generali. Inoltre, discutiamo la necessità della SGI nell'affrontare i problemi associati ai grandi modelli linguistici, come la loro insufficiente generalità, capacità specializzate, incertezza nell'innovazione e applicazioni pratiche. Proponiamo inoltre un framework concettuale per lo sviluppo della SGI che integra i punti di forza dei processi cognitivi dei Sistemi 1 e 2. Questo framework è composto da tre livelli e quattro componenti chiave, che si concentrano sul potenziamento delle capacità individuali e sulla facilitazione dell'evoluzione collaborativa. Concludiamo riassumendo le potenziali sfide e suggerendo direzioni future. Speriamo che la SGI proposta fornisca spunti per ulteriori ricerche e applicazioni verso il raggiungimento dell'AGI.
Mentre il campo della ricostruzione di scene 3D è dominato dalle NeRF grazie alla loro qualità fotorealistica, il 3D Gaussian Splatting (3DGS) è emerso recentemente, offrendo una qualità simile con velocità di rendering in tempo reale. Tuttavia, entrambi i metodi eccellono principalmente con scene 3D ben controllate, mentre i dati in condizioni reali - caratterizzati da occlusioni, oggetti dinamici e illuminazione variabile - rimangono una sfida. Le NeRF possono adattarsi facilmente a tali condizioni attraverso vettori di embedding per immagine, ma il 3DGS fatica a causa della sua rappresentazione esplicita e della mancanza di parametri condivisi. Per affrontare questo problema, introduciamo WildGaussians, un approccio innovativo per gestire occlusioni e cambiamenti di aspetto con il 3DGS. Sfruttando robuste caratteristiche DINO e integrando un modulo di modellazione dell'aspetto all'interno del 3DGS, il nostro metodo raggiunge risultati all'avanguardia. Dimostriamo che WildGaussians eguaglia la velocità di rendering in tempo reale del 3DGS superando sia il 3DGS che le baseline NeRF nella gestione di dati in condizioni reali, il tutto all'interno di un framework architetturale semplice.
Proponiamo OmniNOCS, un dataset monoculare su larga scala con mappe 3D di Spazio Normalizzato delle Coordinate degli Oggetti (NOCS), maschere degli oggetti e annotazioni di bounding box 3D per scene sia indoor che outdoor. OmniNOCS presenta 20 volte più classi di oggetti e 200 volte più istanze rispetto ai dataset NOCS esistenti (NOCS-Real275, Wild6D). Utilizziamo OmniNOCS per addestrare un nuovo modello basato su transformer per la predizione monoculare di NOCS (NOCSformer), in grado di prevedere con precisione NOCS, maschere delle istanze e pose a partire da rilevamenti 2D di oggetti in diverse classi. È il primo modello NOCS che può generalizzare su un'ampia gamma di classi quando sollecitato con bounding box 2D. Valutiamo il nostro modello sul compito di predizione di bounding box 3D orientati, dove ottiene risultati comparabili ai metodi di rilevamento 3D all'avanguardia come Cube R-CNN. A differenza di altri metodi di rilevamento 3D, il nostro modello fornisce anche una dettagliata e accurata forma 3D degli oggetti e la loro segmentazione. Proponiamo un nuovo benchmark per il compito di predizione di NOCS basato su OmniNOCS, che speriamo possa servire come baseline utile per lavori futuri in questo ambito. Il nostro dataset e il codice saranno disponibili sul sito del progetto: https://omninocs.github.io.
Il compito della valutazione estetica personalizzata delle immagini mira ad adattare i modelli di previsione del punteggio estetico per corrispondere alle preferenze individuali con pochi input forniti dall'utente. Tuttavia, la scalabilità e le capacità di generalizzazione degli approcci attuali sono notevolmente limitate dalla loro dipendenza da un database curato e costoso. Per superare questa sfida di scalabilità di lunga data, presentiamo un approccio unico che sfrutta database facilmente disponibili per la valutazione estetica generale delle immagini e la valutazione della qualità delle immagini. Nello specifico, consideriamo ogni database come un distinto compito di regressione del punteggio delle immagini che mostra diversi gradi di potenziale di personalizzazione. Determinando combinazioni ottimali di vettori di compito, noti per rappresentare tratti specifici di ciascun database, creiamo con successo modelli personalizzati per gli individui. Questo approccio di integrazione di più modelli ci consente di sfruttare una quantità sostanziale di dati. I nostri ampi esperimenti dimostrano l'efficacia del nostro approccio nel generalizzare a domini precedentemente non visti—una sfida che gli approcci precedenti hanno faticato a raggiungere—rendendolo altamente applicabile a scenari reali. Il nostro approccio innovativo avanza significativamente il campo offrendo soluzioni scalabili per la valutazione estetica personalizzata e stabilendo standard elevati per la ricerca futura. https://yeolj00.github.io/personal-projects/personalized-aesthetics/