Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo un approccio per modellare un priore nello spazio dell'immagine sulla dinamica della scena. Il nostro priore viene appreso da una raccolta di traiettorie di movimento estratte da sequenze video reali contenenti moti naturali oscillanti, come alberi, fiori, candele e vestiti mossi dal vento. Data una singola immagine, il nostro modello addestrato utilizza un processo di campionamento diffuso coordinato in frequenza per prevedere una rappresentazione del movimento a lungo termine per pixel nel dominio di Fourier, che chiamiamo texture di movimento stocastico neurale. Questa rappresentazione può essere convertita in traiettorie di movimento dense che coprono un intero video. Insieme a un modulo di rendering basato su immagini, queste traiettorie possono essere utilizzate per diverse applicazioni a valle, come trasformare immagini statiche in video dinamici che si ripetono senza soluzione di continuità, o consentire agli utenti di interagire in modo realistico con oggetti in fotografie reali.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) consentono ai ricercatori e agli sviluppatori di costruire agenti linguistici autonomi in grado di risolvere automaticamente vari compiti e interagire con ambienti, esseri umani e altri agenti utilizzando interfacce in linguaggio naturale. Consideriamo gli agenti linguistici come una direzione promettente verso l'intelligenza artificiale generale e rilasciamo Agents, una libreria open-source con l'obiettivo di rendere accessibili questi progressi a un pubblico più ampio e non specializzato. Agents è progettato con cura per supportare funzionalità importanti, tra cui pianificazione, memoria, utilizzo di strumenti, comunicazione multi-agente e controllo simbolico granulare. Agents è user-friendly, poiché consente ai non specialisti di costruire, personalizzare, testare, ottimizzare e distribuire agenti linguistici autonomi all'avanguardia senza la necessità di molta codifica. La libreria è anche research-friendly, poiché il suo design modulare la rende facilmente estendibile per i ricercatori. Agents è disponibile all'indirizzo https://github.com/aiwaves-cn/agents.
La super-risoluzione audio è un compito fondamentale che prevede la predizione di componenti ad alta frequenza per audio a bassa risoluzione, migliorando la qualità del suono nelle applicazioni digitali. I metodi precedenti presentano limitazioni come la gamma ristretta di tipi di audio gestibili (ad esempio, musica, parlato) e le specifiche impostazioni di banda che possono affrontare (ad esempio, da 4kHz a 8kHz). In questo articolo, introduciamo un modello generativo basato su diffusione, AudioSR, in grado di eseguire una robusta super-risoluzione audio su una varietà di tipi di audio, inclusi effetti sonori, musica e parlato. Nello specifico, AudioSR può aumentare la risoluzione di qualsiasi segnale audio in ingresso entro un intervallo di banda da 2kHz a 16kHz, producendo un segnale audio ad alta risoluzione con una banda di 24kHz e una frequenza di campionamento di 48kHz. Un'ampia valutazione oggettiva su vari benchmark di super-risoluzione audio dimostra i risultati significativi ottenuti dal modello proposto. Inoltre, la nostra valutazione soggettiva mostra che AudioSR può fungere da modulo plug-and-play per migliorare la qualità di generazione di un'ampia gamma di modelli generativi audio, tra cui AudioLDM, Fastspeech2 e MusicGen. Il nostro codice e la demo sono disponibili all'indirizzo https://audioldm.github.io/audiosr.
Esaminare vasti dati testuali e riassumere le informazioni chiave impone un onere significativo su come i clinici allocano il loro tempo. Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato un enorme potenziale nei compiti di elaborazione del linguaggio naturale (NLP), la loro efficacia in diverse attività di sintesi clinica non è stata ancora rigorosamente esaminata. In questo lavoro, utilizziamo metodi di adattamento del dominio su otto LLM, coprendo sei dataset e quattro distinti compiti di sintesi: referti radiologici, domande dei pazienti, note di progresso e dialoghi medico-paziente. La nostra accurata valutazione quantitativa rivela compromessi tra modelli e metodi di adattamento, oltre a casi in cui i recenti progressi negli LLM potrebbero non portare a risultati migliorati. Inoltre, in uno studio clinico con sei medici, dimostriamo che i riassunti del LLM meglio adattato sono preferibili a quelli umani in termini di completezza e correttezza. La nostra successiva analisi qualitativa delinea le sfide comuni affrontate sia dagli LLM che dagli esperti umani. Infine, correliamo le tradizionali metriche quantitative di NLP con i punteggi dello studio per migliorare la nostra comprensione di come queste metriche si allineano con le preferenze dei medici. La nostra ricerca rappresenta la prima evidenza di LLM che superano gli esperti umani nella sintesi di testi clinici in più compiti. Ciò implica che l'integrazione degli LLM nei flussi di lavoro clinici potrebbe alleviare il carico documentale, consentendo ai clinici di concentrarsi maggiormente sull'assistenza personalizzata ai pazienti e su altri aspetti insostituibili della medicina.
Il video matting ha ampie applicazioni, dall'aggiunta di effetti interessanti a filmati catturati casualmente all'assistenza di professionisti della produzione video. Il matting con effetti associati come ombre e riflessi ha anche attirato un crescente interesse nella ricerca, e metodi come Omnimatte sono stati proposti per separare gli oggetti dinamici in primo piano di interesse nei loro strati separati. Tuttavia, i lavori precedenti rappresentano gli sfondi video come strati di immagini 2D, limitando la loro capacità di esprimere scene più complesse, ostacolando così l'applicazione a video del mondo reale. In questo articolo, proponiamo un nuovo metodo di video matting, OmnimatteRF, che combina strati dinamici 2D in primo piano e un modello di sfondo 3D. Gli strati 2D preservano i dettagli dei soggetti, mentre lo sfondo 3D ricostruisce in modo robusto le scene nei video del mondo reale. Esperimenti estensivi dimostrano che il nostro metodo ricostruisce scene con una qualità migliore su vari video.
L'apprendimento in contesto (In-Context Learning, ICL), ovvero mostrare ai modelli linguistici di grandi dimensioni (LLM) solo poche dimostrazioni specifiche per il compito, ha portato a miglioramenti a valle senza la necessità di un'ottimizzazione specifica per il compito. Tuttavia, gli LLM sono sensibili alla scelta dei prompt, e quindi una questione di ricerca cruciale è come selezionare buone dimostrazioni per l'ICL. Una strategia efficace è sfruttare la similarità semantica tra le dimostrazioni ICL e gli input di test utilizzando un estrattore di testo, che tuttavia è sub-ottimale poiché non considera la conoscenza preesistente dell'LLM su quel compito. Da lavori precedenti (Min et al., 2022), sappiamo già che le etichette associate alle dimostrazioni influenzano le previsioni del modello. Questo ci porta alla nostra ipotesi: considerare la conoscenza preesistente dell'LLM sul compito, in particolare rispetto allo spazio delle etichette di output, può aiutare a sviluppare una strategia di selezione delle dimostrazioni migliore. Attraverso un'ampia sperimentazione su tre compiti di classificazione del testo, scopriamo che è vantaggioso non solo scegliere dimostrazioni ICL semanticamente simili, ma anche selezionare quelle che aiutano a risolvere l'ambiguità intrinseca delle etichette relative all'esempio di test. Interessante è il fatto che includere dimostrazioni che l'LLM aveva precedentemente classificato erroneamente e che si trovano sul confine decisionale dell'esempio di test, porta ai maggiori guadagni di prestazione.
I Large Language Model (LLM) hanno dimostrato prestazioni impressionanti in compiti di Natural Language Processing (NLP), come Question Answering, Summarization e Classification. L'uso degli LLM come valutatori, in grado di classificare o assegnare un punaggio all'output di altri modelli (solitamente LLM), è diventato sempre più popolare a causa delle limitazioni delle attuali tecniche di valutazione, tra cui la mancanza di benchmark appropriati, metriche, costi e accesso a annotatori umani. Sebbene gli LLM siano in grado di gestire circa 100 lingue, la maggior parte delle lingue oltre le prime 20 manca di una valutazione sistematica su vari compiti, metriche e benchmark. Ciò crea un'urgente necessità di ampliare la valutazione multilingue per garantire una comprensione precisa delle prestazioni degli LLM in diverse lingue. I valutatori basati su LLM sembrano la soluzione perfetta a questo problema, poiché non richiedono annotatori umani, riferimenti creati dall'uomo o benchmark e possono teoricamente essere utilizzati per valutare qualsiasi lingua coperta dall'LLM. In questo articolo, indaghiamo se i valutatori basati su LLM possano aiutare a scalare la valutazione multilingue. Nello specifico, calibriamo la valutazione basata su LLM rispetto a 20k giudizi umani su cinque metriche in tre compiti di generazione di testo in otto lingue. I nostri risultati indicano che i valutatori basati su LLM possono mostrare un bias verso punteggi più alti e dovrebbero essere utilizzati con cautela, sempre calibrati con un dataset di giudizi di parlanti nativi, specialmente nelle lingue a bassa risorsa e con scritture non latine.