Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo il campo di deformazione del contenuto CoDeF come un nuovo tipo di rappresentazione video, che consiste in un campo di contenuto canonico che aggrega i contenuti statici dell'intero video e un campo di deformazione temporale che registra le trasformazioni dall'immagine canonica (cioè renderizzata dal campo di contenuto canonico) a ciascun fotogramma individuale lungo l'asse temporale. Dato un video target, questi due campi vengono ottimizzati congiuntamente per ricostruirlo attraverso una pipeline di rendering accuratamente progettata. Introduciamo deliberatamente alcune regolarizzazioni nel processo di ottimizzazione, spingendo il campo di contenuto canonico a ereditare la semantica (ad esempio, la forma dell'oggetto) dal video. Con un tale design, CoDeF supporta naturalmente il sollevamento di algoritmi di immagine per l'elaborazione video, nel senso che è possibile applicare un algoritmo di immagine all'immagine canonica e propagare senza sforzo i risultati all'intero video con l'aiuto del campo di deformazione temporale. Sperimentalmente dimostriamo che CoDeF è in grado di sollevare la traduzione da immagine a immagine alla traduzione da video a video e di sollevare il rilevamento di punti chiave al tracciamento di punti chiave senza alcun addestramento. Ancora più importante, grazie alla nostra strategia di sollevamento che implementa gli algoritmi su una sola immagine, otteniamo una superiore coerenza inter-fotogramma nei video elaborati rispetto agli approcci esistenti di traduzione da video a video, e riusciamo persino a tracciare oggetti non rigidi come acqua e smog. La pagina del progetto è disponibile all'indirizzo https://qiuyu96.github.io/CoDeF/.
I recenti progressi nei grandi modelli linguistici (LLM) come GPT-4 e PaLM-2 hanno portato a significativi avanzamenti nella risoluzione di problemi di ragionamento matematico. In particolare, l'ultima versione di GPT-4 di OpenAI, nota come GPT-4 Code Interpreter, mostra prestazioni notevoli su dataset matematici complessi. In questo articolo, esploriamo l'effetto del codice nel potenziare la capacità di ragionamento degli LLM introducendo diversi vincoli sulla Frequenza di Utilizzo del Codice di GPT-4 Code Interpreter. Abbiamo scoperto che il suo successo può essere largamente attribuito alle sue potenti abilità nel generare ed eseguire codice, valutare l'output dell'esecuzione del codice e correggere la sua soluzione quando riceve output irragionevoli. Basandoci su questa intuizione, proponiamo un metodo di prompting nuovo ed efficace, la verifica autonoma basata su codice esplicito (CSV), per ulteriormente potenziare il potenziale di ragionamento matematico di GPT-4 Code Interpreter. Questo metodo utilizza un prompt zero-shot su GPT-4 Code Interpreter per incoraggiarlo a usare il codice per auto-verificare le sue risposte. Nei casi in cui lo stato di verifica risulta "False", il modello deve automaticamente correggere la sua soluzione, analogamente al nostro approccio di correzione degli errori durante un esame di matematica. Inoltre, riconosciamo che gli stati del risultato della verifica indicano la fiducia in una soluzione, il che può migliorare l'efficacia del voto a maggioranza. Con GPT-4 Code Interpreter e CSV, otteniamo un'impressionante accuratezza zero-shot sul dataset MATH (dal 53,9% all'84,3%).
In questo articolo, investigiamo la capacità di apprendimento in contesto (in-context learning) dei modelli linguistici encoder-decoder potenziati dal retrieval. Iniziamo conducendo un'analisi completa del modello all'avanguardia ATLAS e identifichiamo i suoi limiti nell'apprendimento in contesto, principalmente dovuti a una discrepanza tra pre-addestramento e test, nonché a una lunghezza del contesto limitata. Per affrontare questi problemi, proponiamo RAVEN, un modello che combina il masked language modeling potenziato dal retrieval e il prefix language modeling. Introduciamo inoltre il Fusion-in-Context Learning per migliorare le prestazioni in scenari few-shot, consentendo al modello di sfruttare più esempi in contesto senza richiedere ulteriori addestramenti o modifiche al modello. Attraverso esperimenti estensivi, dimostriamo che RAVEN supera significativamente ATLAS e raggiunge risultati comparabili ai modelli linguistici più avanzati in determinati scenari, nonostante abbia un numero sostanzialmente inferiore di parametri. Il nostro lavoro sottolinea il potenziale dei modelli linguistici encoder-decoder potenziati dal retrieval per l'apprendimento in contesto e incoraggia ulteriori ricerche in questa direzione.
La capacità di apprendere dal contesto con concetti nuovi e di fornire risposte appropriate è essenziale nelle conversazioni umane. Nonostante gli attuali Modelli Linguistici Multimodali di Grande Scala (MLLMs) e i Modelli Linguistici di Grande Scala (LLMs) siano addestrati su dataset di dimensioni enormi, riconoscere immagini mai viste o comprendere concetti nuovi in modo privo di addestramento rimane una sfida. L'Apprendimento in Contesto (ICL) esplora l'apprendimento few-shot privo di addestramento, in cui i modelli sono incoraggiati a "imparare ad apprendere" da compiti limitati e a generalizzare su compiti mai visti. In questo lavoro, proponiamo l'apprendimento a collegamenti contestuali (LCL), che enfatizza il "ragionamento causa-effetto" per potenziare le capacità di apprendimento degli MLLMs. LCL va oltre il tradizionale ICL rafforzando esplicitamente la relazione causale tra il set di supporto e il set di query. Fornendo dimostrazioni con collegamenti causali, LCL guida il modello a discernere non solo l'analogia ma anche le associazioni causali sottostanti tra i punti dati, il che consente agli MLLMs di riconoscere immagini mai viste e comprendere concetti nuovi in modo più efficace. Per facilitare la valutazione di questo nuovo approccio, introduciamo il dataset ISEKAI, composto esclusivamente da coppie immagine-etichetta generate e mai viste, progettato per l'apprendimento a collegamenti contestuali. Esperimenti estesi dimostrano che il nostro LCL-MLLM mostra forti capacità di apprendimento a collegamenti contestuali su concetti nuovi rispetto ai tradizionali MLLMs. Codice e dati saranno rilasciati su https://github.com/isekai-portal/Link-Context-Learning.
Questo articolo affronta la sfida di creare avatar neurali rilucebili e animabili a partire da video a vista sparsa (o addirittura monoculare) di esseri umani dinamici sotto illuminazione sconosciuta. Rispetto agli ambienti da studio, questa configurazione è più pratica e accessibile, ma presenta un problema mal posto estremamente complesso. I precedenti metodi di ricostruzione neurale di esseri umani sono in grado di ricostruire avatar animabili da viste sparse utilizzando Campi di Distanza con Segno (SDF) deformati, ma non possono recuperare i parametri dei materiali per il rilucimento. Mentre i metodi basati sul rendering inverso differenziabile hanno avuto successo nel recupero dei materiali di oggetti statici, non è semplice estenderli agli esseri umani dinamici, poiché è computazionalmente intensivo calcolare l'intersezione pixel-superficie e la visibilità della luce su SDF deformati per il rendering inverso. Per risolvere questa sfida, proponiamo un algoritmo di Query Gerarchica delle Distanze (HDQ) per approssimare le distanze nello spazio mondiale sotto pose umane arbitrarie. Nello specifico, stimiamo distanze approssimative basandoci su un modello umano parametrico e calcoliamo distanze precise sfruttando l'invarianza locale della deformazione degli SDF. Basandoci sull'algoritmo HDQ, sfruttiamo lo sphere tracing per stimare efficientemente l'intersezione della superficie e la visibilità della luce. Questo ci permette di sviluppare il primo sistema in grado di recuperare avatar neurali animabili e rilucebili da input a vista sparsa (o monoculare). Gli esperimenti dimostrano che il nostro approccio è in grado di produrre risultati superiori rispetto ai metodi all'avanguardia. Il nostro codice verrà rilasciato per garantire la riproducibilità.
L'iniezione di testo per il riconoscimento vocale automatico (ASR), in cui dati testuali non accoppiati vengono utilizzati per integrare dati audio-testo accoppiati, ha dimostrato miglioramenti promettenti nel tasso di errore sulle parole. Questo studio esamina l'uso dell'iniezione di testo per compiti ausiliari, che sono i compiti non legati all'ASR spesso eseguiti da un modello end-to-end (E2E). In questo lavoro, utilizziamo l'addestramento congiunto end-to-end e del modello linguistico interno (JEIT) come algoritmo di iniezione di testo per addestrare un modello ASR che esegue due compiti ausiliari. Il primo è la capitalizzazione, che è un compito di de-normalizzazione. Il secondo è la previsione dell'alternanza dei turni, che tenta di identificare se un utente ha completato il proprio turno di conversazione in un'interazione con un assistente digitale. Mostriamo risultati che dimostrano come il nostro metodo di iniezione di testo migliori le prestazioni di capitalizzazione per dati a coda lunga e aumenti il richiamo nel rilevamento dell'alternanza dei turni.
Recenti lavori sull'apprendimento per rinforzo profondo (DRL) hanno evidenziato che è possibile estrarre informazioni algoritmiche su politiche ottimali da dati offline che non contengono informazioni esplicite sulle azioni eseguite. Ad esempio, video di esseri umani o robot possono trasmettere molte informazioni implicite su sequenze di azioni vantaggiose, ma una macchina DRL che desidera trarre vantaggio dalla visione di tali video deve prima imparare autonomamente a identificare e riconoscere stati/azioni/ricompense rilevanti. Senza fare affidamento su annotazioni di verità di base, il nostro nuovo metodo, chiamato Deep State Identifier, impara a prevedere i rendimenti da episodi codificati come video. Successivamente, utilizza una sorta di analisi di sensibilità basata su maschere per estrarre/identificare stati critici importanti. Esperimenti estesi dimostrano il potenziale del nostro metodo per comprendere e migliorare il comportamento degli agenti. Il codice sorgente e i dataset generati sono disponibili all'indirizzo https://github.com/AI-Initiative-KAUST/VideoRLCS.