Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Sapiens, una famiglia di modelli per quattro compiti fondamentali di visione incentrati sull'uomo: stima della posa 2D, segmentazione delle parti del corpo, stima della profondità e previsione delle normali di superficie. I nostri modelli supportano nativamente inferenze ad alta risoluzione 1K e sono estremamente facili da adattare per singoli compiti semplicemente fine-tunando modelli pre-addestrati su oltre 300 milioni di immagini umane in contesti reali. Osserviamo che, a parità di budget computazionale, il pre-addestramento self-supervised su un dataset curato di immagini umane migliora significativamente le prestazioni per un insieme diversificato di compiti incentrati sull'uomo. I modelli risultanti mostrano una notevole generalizzazione ai dati in contesti reali, anche quando i dati etichettati sono scarsi o interamente sintetici. Il nostro design semplice del modello garantisce anche scalabilità: le prestazioni del modello attraverso i compiti migliorano man mano che aumentiamo il numero di parametri da 0,3 a 2 miliardi. Sapiens supera costantemente le baseline esistenti in vari benchmark incentrati sull'uomo. Raggiungiamo miglioramenti significativi rispetto allo stato dell'arte precedente su Humans-5K (posa) di 7,6 mAP, Humans-2K (segmentazione parti) di 17,1 mIoU, Hi4D (profondità) del 22,4% in RMSE relativo e THuman2 (normali) del 53,5% in errore angolare relativo.
Nel campo dell'Elaborazione del Linguaggio Naturale (NLP), i Modelli Linguistici di Grande Scala (LLMs) hanno dimostrato un'elevata qualità nella generazione di testo. Tuttavia, nelle applicazioni reali, gli LLMs devono soddisfare requisiti sempre più complessi. Oltre a evitare contenuti fuorvianti o inappropriati, ci si aspetta che gli LLMs rispondano a esigenze specifiche degli utenti, come imitare stili di scrittura particolari o generare testi con una ricchezza poetica. Queste diverse esigenze hanno guidato lo sviluppo delle tecniche di Generazione Controllata del Testo (CTG), che garantiscono che gli output rispettino condizioni di controllo predefinite—come sicurezza, sentimento, coerenza tematica e stile linguistico—mantenendo al contempo elevati standard di utilità, fluidità e diversità. Questo articolo esamina sistematicamente i più recenti progressi nel campo della CTG per gli LLMs, offrendo una definizione completa dei suoi concetti fondamentali e chiarendo i requisiti per le condizioni di controllo e la qualità del testo. Classifichiamo i compiti della CTG in due tipi principali: controllo del contenuto e controllo degli attributi. Vengono discussi i metodi chiave, tra cui il riaddestramento del modello, il fine-tuning, l'apprendimento per rinforzo, l'ingegneria dei prompt, la manipolazione dello spazio latente e l'intervento al momento della decodifica. Analizziamo le caratteristiche, i vantaggi e i limiti di ciascun metodo, fornendo approfondimenti per il raggiungimento del controllo nella generazione. Inoltre, esaminiamo i metodi di valutazione della CTG, riassumiamo le sue applicazioni in vari domini e affrontiamo le principali sfide nella ricerca attuale, tra cui la ridotta fluidità e praticità. Proponiamo anche diversi appelli, come porre maggiore enfasi sulle applicazioni reali nella ricerca futura. Questo articolo mira a offrire una guida preziosa per ricercatori e sviluppatori del settore. La nostra lista di riferimenti e la versione in cinese sono open-source su https://github.com/IAAR-Shanghai/CTGSurvey.
I modelli linguistici di grandi dimensioni (LLM) hanno fatto avanzare le applicazioni finanziarie, ma spesso mancano di sufficienti conoscenze finanziarie e faticano con compiti che coinvolgono input multimodali come tabelle e dati di serie temporali. Per affrontare queste limitazioni, introduciamo Open-FinLLMs, una serie di LLM finanziari. Iniziamo con FinLLaMA, pre-addestrato su un corpus finanziario di 52 miliardi di token, incorporando testo, tabelle e dati di serie temporali per integrare una conoscenza finanziaria completa. FinLLaMA viene poi ottimizzato tramite istruzioni con 573K istruzioni finanziarie, risultando in FinLLaMA-instruct, che migliora le prestazioni nei compiti. Infine, presentiamo FinLLaVA, un LLM multimodale addestrato con 1.43M istruzioni immagine-testo per gestire tipi di dati finanziari complessi. Valutazioni estensive dimostrano che FinLLaMA supera LLaMA3-8B, LLaMA3.1-8B e BloombergGPT sia in contesti zero-shot che few-shot su 19 e 4 dataset, rispettivamente. FinLLaMA-instruct supera GPT-4 e altri LLM finanziari su 15 dataset. FinLLaVA eccelle nella comprensione di tabelle e grafici in 4 compiti multimodali. Inoltre, FinLLaMA raggiunge impressionanti rapporti di Sharpe nelle simulazioni di trading, evidenziando le sue robuste capacità di applicazione finanziaria. Continueremo a mantenere e migliorare i nostri modelli e benchmark per supportare l'innovazione continua in ambito accademico e industriale.
I modelli ottimizzati per istruzioni (o "chat") sono diventati il principale modo in cui la maggior parte delle persone interagisce con i grandi modelli linguistici. A differenza dei modelli "base" o "fondamentali", i modelli ottimizzati per istruzioni sono progettati per rispondere a comandi imperativi. Presentiamo Hermes 3, un modello generalista allineato in modo neutrale per istruzioni e utilizzo di strumenti, dotato di forti capacità di ragionamento e creatività. La sua versione più grande, Hermes 3 405B, raggiunge prestazioni all'avanguardia tra i modelli open weight su diversi benchmark pubblici.
Presentiamo un trasformatore unificato, denominato Show-o, che integra comprensione e generazione multimodale. A differenza dei modelli completamente autoregressivi, Show-o unisce modellazione autoregressiva e diffusione discreta per gestire in modo adattivo input e output di varie modalità miste. Il modello unificato supporta in modo flessibile un'ampia gamma di attività di visione e linguaggio, tra cui risposta a domande visive, generazione di immagini da testo, inpainting/estrapolazione guidata da testo e generazione a modalità mista. Su vari benchmark, dimostra prestazioni comparabili o superiori rispetto ai modelli individuali esistenti con un numero equivalente o maggiore di parametri progettati specificamente per la comprensione o la generazione. Ciò evidenzia in modo significativo il suo potenziale come modello di base di prossima generazione. Codice e modelli sono disponibili all'indirizzo https://github.com/showlab/Show-o.
Presentiamo xGen-VideoSyn-1, un modello di generazione testo-video (T2V) in grado di produrre scene realistiche a partire da descrizioni testuali. Basandoci sui recenti progressi, come Sora di OpenAI, esploriamo l'architettura del modello di diffusione latente (LDM) e introduciamo un autoencoder variazionale per video (VidVAE). VidVAE comprime i dati video sia spazialmente che temporalmente, riducendo significativamente la lunghezza dei token visivi e le esigenze computazionali associate alla generazione di video a sequenza lunga. Per affrontare ulteriormente i costi computazionali, proponiamo una strategia di divisione e fusione che mantiene la coerenza temporale tra i segmenti video. Il nostro modello Transformer di Diffusione (DiT) incorpora livelli di auto-attenzione spaziale e temporale, consentendo una robusta generalizzazione su diversi intervalli temporali e rapporti d'aspetto. Abbiamo progettato una pipeline di elaborazione dati fin dall'inizio e raccolto oltre 13 milioni di coppie video-testo di alta qualità. La pipeline include molteplici passaggi come il clipping, il rilevamento del testo, la stima del movimento, la valutazione estetica e la creazione di didascalie dense basate sul nostro modello video-LLM interno. L'addestramento dei modelli VidVAE e DiT ha richiesto rispettivamente circa 40 e 642 giorni H100. Il nostro modello supporta la generazione end-to-end di video 720p per oltre 14 secondi e dimostra prestazioni competitive rispetto ai modelli T2V all'avanguardia.
Presentiamo Jamba-1.5, nuovi modelli linguistici di grandi dimensioni ottimizzati per istruzioni basati sulla nostra architettura Jamba. Jamba è un'architettura ibrida Transformer-Mamba a miscela di esperti, che offre un'elevata produttività e un basso utilizzo di memoria su diverse lunghezze di contesto, mantenendo la stessa qualità o superiore rispetto ai modelli Transformer. Rilasciamo due dimensioni di modello: Jamba-1.5-Large, con 94 miliardi di parametri attivi, e Jamba-1.5-Mini, con 12 miliardi di parametri attivi. Entrambi i modelli sono stati ottimizzati per una varietà di capacità conversazionali e di esecuzione di istruzioni, e hanno una lunghezza di contesto effettiva di 256.000 token, la più ampia tra i modelli open-weight. Per supportare un'inferenza economicamente vantaggiosa, introduciamo ExpertsInt8, una nuova tecnica di quantizzazione che consente di adattare Jamba-1.5-Large su una macchina con 8 GPU da 80GB quando si elaborano contesti di 256.000 token senza perdita di qualità. Quando valutati su una serie di benchmark accademici e di chatbot, i modelli Jamba-1.5 ottengono risultati eccellenti, fornendo un'elevata produttività e superando altri modelli open-weight sui benchmark a lungo contesto. I pesi del modello per entrambe le dimensioni sono disponibili pubblicamente sotto la Jamba Open Model License e rilasciamo ExpertsInt8 come open source.
Viviamo in un'era fiorente di media digitali, in cui tutti hanno il potenziale per diventare registi personali. La ricerca attuale sul trasferimento cinematografico consente ai filmmaker di riprodurre e manipolare gli elementi visivi (ad esempio, la cinematografia e i comportamenti dei personaggi) di scene classiche. Tuttavia, i personaggi nei film reinventati si basano ancora su una creazione manuale, che comporta una significativa complessità tecnica e costi elevati, rendendola inaccessibile per gli utenti comuni. Inoltre, la loro cinematografia stimata manca di fluidità a causa di una cattura inadeguata del movimento inter-fotogramma e della modellazione delle traiettorie fisiche. Fortunatamente, il notevole successo dell'AIGC 2D e 3D ha aperto la possibilità di generare in modo efficiente personaggi su misura per le esigenze degli utenti, diversificando la cinematografia. In questo articolo, proponiamo DreamCinema, un nuovo framework di trasferimento cinematografico che introduce l'IA generativa nel paradigma della produzione cinematografica, con l'obiettivo di facilitare la creazione di film user-friendly. Nello specifico, estraiamo prima gli elementi cinematografici (cioè la posa umana e della telecamera) e ottimizziamo la traiettoria della telecamera. Successivamente, applichiamo un generatore di personaggi per creare in modo efficiente personaggi 3D di alta qualità con una struttura umana predefinita. Infine, sviluppiamo una strategia di trasferimento del movimento guidata dalla struttura per incorporare i personaggi generati nella creazione del film e trasferirli in modo fluido tramite motori grafici 3D. Esperimenti estensivi dimostrano l'efficacia del nostro metodo per creare film di alta qualità con telecamera libera e personaggi 3D.
I modelli di embedding svolgono un ruolo cruciale nell'elaborazione del linguaggio naturale (NLP) creando rappresentazioni vettoriali del testo utilizzate in vari compiti come il recupero delle informazioni e la valutazione della similarità semantica del testo. Questo articolo si concentra sulla ricerca relativa ai modelli di embedding per la lingua russa. Introduce un nuovo modello di embedding specifico per il russo, chiamato ru-en-RoSBERTa, e il benchmark ruMTEB, la versione russa che estende il Massive Text Embedding Benchmark (MTEB). Il nostro benchmark include sette categorie di compiti, come la similarità semantica testuale, la classificazione del testo, il riordinamento e il recupero. La ricerca valuta inoltre un insieme rappresentativo di modelli russi e multilingue sul benchmark proposto. I risultati indicano che il nuovo modello raggiunge prestazioni paragonabili ai modelli all'avanguardia per il russo. Rilasciamo il modello ru-en-RoSBERTa, e il framework ruMTEB è accompagnato da codice open-source, integrazione nel framework originale e una classifica pubblica.
Presentiamo AiM, un modello generativo di immagini autoregressivo (AR) basato sull'architettura Mamba. AiM utilizza Mamba, un innovativo modello a spazio di stati caratterizzato da prestazioni eccezionali nella modellazione di sequenze lunghe con complessità temporale lineare, per sostituire i comunemente utilizzati Transformer nei modelli AR di generazione di immagini, con l'obiettivo di ottenere sia una qualità di generazione superiore che una velocità di inferenza migliorata. A differenza dei metodi esistenti che adattano Mamba per gestire segnali bidimensionali tramite scansione multidirezionale, AiM utilizza direttamente il paradigma di previsione del token successivo per la generazione autoregressiva di immagini. Questo approccio evita la necessità di modifiche estese per consentire a Mamba di apprendere rappresentazioni spaziali 2D. Implementando modifiche semplici ma strategicamente mirate per i compiti di generazione visiva, preserviamo la struttura centrale di Mamba, sfruttando appieno le sue efficienti capacità di modellazione di sequenze lunghe e la sua scalabilità. Forniamo modelli AiM di varie dimensioni, con conteggi di parametri che vanno da 148M a 1.3B. Sul benchmark ImageNet1K 256*256, il nostro miglior modello AiM raggiunge un FID di 2.21, superando tutti i modelli AR esistenti con conteggi di parametri comparabili e dimostrando una significativa competitività rispetto ai modelli di diffusione, con una velocità di inferenza da 2 a 10 volte più veloce. Il codice è disponibile all'indirizzo https://github.com/hp-l33/AiM.
In questo rapporto, presentiamo Vintern-1B, un modello linguistico multimodale di grandi dimensioni (MLLM) affidabile da 1 miliardo di parametri, progettato per compiti legati alla lingua vietnamita. Integrando il modello linguistico Qwen2-0.5B-Instruct con il modello visivo InternViT-300M-448px, Vintern-1B è ottimizzato per una gamma di applicazioni, tra cui il riconoscimento ottico dei caratteri (OCR), l'estrazione di documenti e il question-answering generale in contesti vietnamiti. Il modello è stato affinato su un ampio dataset di oltre 3 milioni di coppie immagine-domanda-risposta, ottenendo prestazioni robuste e risultati affidabili su molteplici benchmark della lingua vietnamita come OpenViVQA e ViTextVQA. Vintern-1B è sufficientemente compatto da poter essere facilmente integrato in varie applicazioni su dispositivo. Inoltre, abbiamo reso open-source diversi dataset vietnamiti per il question-answering visivo (VQA) su testi e diagrammi, creati con Gemini 1.5 Flash. I nostri modelli sono disponibili al seguente indirizzo: https://huggingface.co/5CD-AI/Vintern-1B-v2.
Presentiamo Pyramid Attention Broadcast (PAB), un approccio in tempo reale, di alta qualità e senza necessità di addestramento per la generazione di video basata su DiT. Il nostro metodo si fonda sull'osservazione che la differenza di attenzione nel processo di diffusione mostra un pattern a forma di U, indicando una significativa ridondanza. Mitighiamo questo problema trasmettendo gli output di attenzione ai passaggi successivi in uno stile piramidale. Questo applica diverse strategie di trasmissione a ciascuna attenzione in base alla loro varianza per ottenere la massima efficienza. Introduciamo inoltre il parallelismo della sequenza di trasmissione per un'inferenza distribuita più efficiente. PAB dimostra risultati superiori rispetto ai baseline su tre modelli, raggiungendo la generazione in tempo reale per video fino a 720p. Anticipiamo che il nostro metodo semplice ma efficace servirà come baseline robusto e faciliterà la ricerca e l'applicazione futura nella generazione di video.
In questo articolo, proponiamo un nuovo metodo chiamato Strategist che utilizza i Large Language Models (LLM) per acquisire nuove abilità nel gioco multi-agente attraverso un processo di auto-miglioramento. Il nostro metodo raccoglie feedback di qualità mediante simulazioni di auto-gioco con l'algoritmo Monte Carlo Tree Search e riflessioni basate su LLM, che possono poi essere utilizzate per apprendere abilità strategiche di alto livello, come la valutazione degli stati che guidano l'esecuzione a basso livello. Dimostriamo come il nostro metodo possa essere applicato sia nella pianificazione delle azioni che nella generazione di dialoghi nel contesto dei giochi, ottenendo buone prestazioni in entrambi i compiti. In particolare, mostriamo che il nostro metodo può aiutare ad addestrare agenti con prestazioni migliori rispetto sia agli approcci tradizionali basati sull'apprendimento per rinforzo che ad altri approcci di apprendimento delle abilità basati su LLM, in giochi come il Game of Pure Strategy (GOPS) e The Resistance: Avalon.
I modelli Vision-Linguaggio su larga scala (LVLM) hanno compiuto progressi significativi grazie all'allineamento degli input visivi con il testo. Hanno ottenuto risultati notevoli nelle attività di visione artificiale allineando la modalità testuale con gli input visivi. Sono stati inoltre compiuti sforzi per integrare sensori visivi multipli oltre l'RGB, tra cui termici, di profondità e immagini mediche a raggi X. Tuttavia, osserviamo che gli attuali LVLM trattano le immagini acquisite da sensori visivi multipli come se appartenessero al dominio RGB, senza considerare le caratteristiche fisiche di tali sensori. Non riescono a trasmettere correttamente le informazioni fondamentali dei sensori visivi multipli dal dataset e le relative conoscenze contestuali. Di conseguenza, l'allineamento tra le informazioni provenienti dall'ambiente fisico reale e il testo non viene raggiunto in modo corretto, rendendo difficile rispondere a domande complesse relative ai sensori che considerano l'ambiente fisico. In questo articolo, miriamo a stabilire un benchmark chiamato SPARK (Sensor Perception And Reasoning benchmarK) che possa ridurre il divario informativo fondamentale tra le immagini e i sensori visivi multipli. Abbiamo generato automaticamente 6.248 campioni di test visione-linguaggio per indagare la percezione sensoriale multi-visiva e il ragionamento sensoriale multi-visivo sulla competenza delle conoscenze fisiche dei sensori in diversi formati, coprendo vari tipi di domande relative ai sensori. Abbiamo utilizzato questi campioni per valutare dieci LVLM leader. I risultati hanno mostrato che la maggior parte dei modelli presentava carenze nel ragionamento sensoriale multi-visivo in misura variabile. Codici e dati sono disponibili all'indirizzo https://github.com/top-yun/SPARK.
I grandi modelli linguistici (LLM) hanno raggiunto progressi impressionanti in numerose discipline, tuttavia la questione cruciale dei conflitti di conoscenza, una delle principali fonti di allucinazioni, è stata raramente studiata. Solo poche ricerche hanno esplorato i conflitti tra la conoscenza intrinseca degli LLM e la conoscenza contestuale recuperata. Tuttavia, una valutazione approfondita dei conflitti di conoscenza negli LLM è ancora mancante. Motivati da questa lacuna di ricerca, presentiamo ConflictBank, il primo benchmark completo sviluppato per valutare sistematicamente i conflitti di conoscenza da tre aspetti: (i) i conflitti riscontrati nella conoscenza recuperata, (ii) i conflitti all'interno della conoscenza codificata nei modelli, e (iii) l'interazione tra queste forme di conflitto. La nostra indagine approfondisce quattro famiglie di modelli e dodici istanze di LLM, analizzando meticolosamente i conflitti derivanti da disinformazione, discrepanze temporali e divergenze semantiche. Basandoci sul nostro nuovo framework di costruzione, creiamo 7.453.853 coppie affermazione-evidenza e 553.117 coppie domanda-risposta. Presentiamo numerosi risultati sulla scala dei modelli, le cause dei conflitti e i tipi di conflitti. Speriamo che il nostro benchmark ConflictBank aiuti la comunità a comprendere meglio il comportamento dei modelli nei conflitti e a sviluppare LLM più affidabili.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno recentemente dimostrato notevoli capacità percettive e di ragionamento, tipicamente composti da un Encoder Visivo, un Adapter e un Modello Linguistico di Grande Dimensione (LLM). L'adapter funge da ponte cruciale tra i componenti visivi e linguistici. Tuttavia, l'addestramento degli adapter con supervisione a livello di immagine spesso risulta in un significativo disallineamento, compromettendo le capacità degli LLM e limitando il potenziale dei Modelli Linguistici Multimodali. Per affrontare questo problema, introduciamo il Supervised Embedding Alignment (SEA), un metodo di allineamento a livello di token che sfrutta modelli pre-addestrati visione-linguaggio, come CLIP, per allineare i token visivi con lo spazio di embedding dell'LLM attraverso l'apprendimento contrastivo. Questo approccio garantisce un'integrazione più coerente delle rappresentazioni visive e linguistiche, migliorando le prestazioni e l'interpretabilità dei modelli linguistici multimodali preservandone le capacità intrinseche. Esperimenti estensivi dimostrano che SEA migliora efficacemente gli MLLMs, in particolare per i modelli più piccoli, senza aggiungere dati extra o calcoli di inferenza. SEA getta inoltre le basi per lo sviluppo di soluzioni più generali e adattabili per migliorare i sistemi multimodali.
I metodi tradizionali per la generazione di animazioni si basano sull'addestramento di modelli generativi con dati etichettati manualmente, implicando una pipeline multi-stadio sofisticata che richiede un notevole sforzo umano e comporta costi di addestramento elevati. A causa di piani di prompt limitati, questi metodi producono tipicamente animazioni brevi, povere di informazioni e incoerenti dal punto di vista contestuale. Per superare queste limitazioni e automatizzare il processo di animazione, siamo pionieri nell'introduzione di grandi modelli multimodali (LMMs) come processore centrale per costruire un agente autonomo di creazione di animazioni, denominato Anim-Director. Questo agente sfrutta principalmente le avanzate capacità di comprensione e ragionamento degli LMMs e degli strumenti di intelligenza artificiale generativa per creare video animati a partire da narrazioni concise o istruzioni semplici. Nello specifico, opera in tre fasi principali: In primo luogo, l'Anim-Director genera una trama coerente dagli input dell'utente, seguita da uno script dettagliato del regista che include la configurazione dei profili dei personaggi e descrizioni interne/esterne, nonché descrizioni di scene coerenti con il contesto che includono personaggi presenti, interni o esterni ed eventi della scena. In secondo luogo, utilizziamo LMMs con uno strumento di generazione di immagini per produrre immagini visive di ambientazioni e scene. Queste immagini sono progettate per mantenere la coerenza visiva tra diverse scene utilizzando un metodo di prompting visivo-linguistico che combina descrizioni delle scene e immagini del personaggio e dell'ambientazione presenti. In terzo luogo, le immagini delle scene servono come base per la produzione di video animati, con gli LMMs che generano prompt per guidare questo processo. L'intero processo è notevolmente autonomo senza intervento manuale, poiché gli LMMs interagiscono in modo fluido con gli strumenti generativi per generare prompt, valutare la qualità visiva e selezionare la migliore per ottimizzare l'output finale.
La sintesi del suono Foley è fondamentale per la produzione multimediale, migliorando l'esperienza dell'utente sincronizzando audio e video sia temporalmente che semanticamente. Studi recenti sull'automatizzazione di questo processo laborioso attraverso la generazione audio da video affrontano sfide significative. I sistemi privi di caratteristiche temporali esplicite soffrono di scarsa controllabilità e allineamento, mentre i modelli basati su timestamp richiedono annotazioni umane costose e soggettive. Proponiamo Video-Foley, un sistema audio da video che utilizza il valore quadratico medio (RMS) come condizione temporale degli eventi con prompt timbrici semantici (audio o testo). Il RMS, una caratteristica dell'inviluppo di intensità a livello di fotogramma strettamente correlata alla semantica audio, garantisce un'elevata controllabilità e sincronizzazione. Il framework di apprendimento auto-supervisionato senza annotazioni è composto da due fasi, Video2RMS e RMS2Sound, che incorporano idee innovative tra cui la discretizzazione del RMS e RMS-ControlNet con un modello pre-addestrato di testo-audio. La nostra valutazione approfondita dimostra che Video-Foley raggiunge prestazioni all'avanguardia nell'allineamento audio-visivo e nella controllabilità del timing, dell'intensità, del timbro e delle sfumature del suono. Codice, pesi del modello e dimostrazioni sono disponibili sul sito web allegato. (https://jnwnlee.github.io/video-foley-demo)
La ricostruzione 3D e la riluminazione di oggetti composti da materiali diffusivi rappresentano una sfida significativa a causa del complesso trasporto della luce al di sotto della superficie. Il metodo 3D Gaussian Splatting ha introdotto una sintesi di nuove viste di alta qualità a velocità in tempo reale. Sebbene le Gaussiane 3D approssimino efficacemente la superficie di un oggetto, non riescono a catturare le proprietà volumetriche della diffusione sottosuperficiale. Proponiamo un framework per ottimizzare la forma di un oggetto insieme al campo di trasferimento della radianza dati multi-vista OLAT (one light at a time). Il nostro metodo scompone la scena in una superficie esplicita rappresentata come Gaussiane 3D, con un BRDF variabile spazialmente, e una rappresentazione volumetrica implicita della componente di diffusione. Un campo di luce incidente appreso tiene conto dell'ombreggiatura. Ottimizziamo tutti i parametri congiuntamente tramite rendering differenziabile a raggi tracciati. Il nostro approccio consente l'editing dei materiali, la riluminazione e la sintesi di nuove viste a velocità interattive. Mostriamo un'applicazione riuscita su dati sintetici e introduciamo un nuovo dataset multi-vista multi-luce di oggetti in una configurazione light-stage. Rispetto ai lavori precedenti, otteniamo risultati comparabili o migliori in una frazione del tempo di ottimizzazione e rendering, consentendo un controllo dettagliato sugli attributi dei materiali. Pagina del progetto: https://sss.jdihlmann.com/
Considerando la diffusa disseminazione di disinformazione sui social media, l'implementazione di meccanismi di fact-checking per le affermazioni online è essenziale. Verificare manualmente ogni affermazione è estremamente impegnativo, sottolineando la necessità di un sistema automatizzato di fact-checking. Questo articolo presenta il nostro sistema progettato per affrontare questo problema. Utilizziamo il dataset Averitec per valutare la veridicità delle affermazioni. Oltre alla previsione della veridicità, il nostro sistema fornisce prove a supporto, estratte dal dataset. Sviluppiamo una pipeline Retrieve and Generate (RAG) per estrarre frasi di prova rilevanti da una base di conoscenza, che vengono poi inserite insieme all'affermazione in un modello linguistico di grandi dimensioni (LLM) per la classificazione. Valutiamo inoltre le capacità di apprendimento in contesto few-shot (ICL) di più LLM. Il nostro sistema raggiunge un punteggio 'Averitec' di 0.33, che rappresenta un miglioramento assoluto del 22% rispetto alla baseline. Tutto il codice sarà reso disponibile su https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.