ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

Esploratore del Mondo Generativo
Generative World Explorer

Nov 18
ByTaiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
77
6

La pianificazione con osservazione parziale è una sfida centrale nell'ambito dell'IA incorporata. La maggior parte dei lavori precedenti ha affrontato questa sfida sviluppando agenti che esplorano fisicamente il loro ambiente per aggiornare le loro credenze sullo stato del mondo. Al contrario, gli esseri umani possono immaginare parti non viste del mondo attraverso un'esplorazione mentale e rivedere le loro credenze con osservazioni immaginate. Tali credenze aggiornate possono consentire loro di prendere decisioni più informate, senza la necessità di esplorare fisicamente il mondo in ogni momento. Per raggiungere questa capacità simile a quella umana, presentiamo il Generative World Explorer (Genex), un framework di esplorazione del mondo egocentrico che consente a un agente di esplorare mentalmente un mondo 3D su larga scala (ad esempio, scene urbane) e acquisire osservazioni immaginate per aggiornare le sue credenze. Queste credenze aggiornate aiuteranno quindi l'agente a prendere una decisione più informata al passo attuale. Per addestrare Genex, creiamo un dataset sintetico di scene urbane, Genex-DB. I nostri risultati sperimentali dimostrano che (1) Genex può generare osservazioni di alta qualità e coerenti durante l'esplorazione a lungo termine di un grande mondo fisico virtuale e (2) le credenze aggiornate con le osservazioni generate possono informare un modello decisionale esistente (ad esempio, un agente LLM) per formulare piani migliori.

2

BlueLM-V-3B: Progettazione congiunta di algoritmi e sistemi per modelli linguistici multimodali di grandi dimensioni su dispositivi mobili
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

Nov 16
ByXudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
46
5

L'emergere e la crescente popolarità dei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno un significativo potenziale per migliorare vari aspetti della vita quotidiana, dall'ottimizzazione della comunicazione alla facilitazione dell'apprendimento e della risoluzione dei problemi. I telefoni cellulari, come compagni quotidiani essenziali, rappresentano la piattaforma di distribuzione più efficace e accessibile per i MLLM, consentendo un'integrazione senza soluzione di continuità nelle attività quotidiane. Tuttavia, la distribuzione dei MLLM sui telefoni cellulari presenta sfide a causa delle limitazioni delle dimensioni della memoria e delle capacità computazionali, rendendo difficile ottenere un'elaborazione fluida e in tempo reale senza un'ampia ottimizzazione. In questo articolo, presentiamo BlueLM-V-3B, un approccio di co-progettazione algoritmico e di sistema appositamente progettato per la distribuzione efficiente dei MLLM su piattaforme mobili. In particolare, ridisegniamo lo schema di risoluzione dinamica adottato dai MLLM principali e implementiamo l'ottimizzazione di sistema per la distribuzione consapevole dell'hardware al fine di ottimizzare l'inferenza del modello sui telefoni cellulari. BlueLM-V-3B vanta i seguenti punti salienti: (1) Dimensioni ridotte: BlueLM-V-3B presenta un modello linguistico con 2,7 miliardi di parametri e un codificatore di visione con 400 milioni di parametri. (2) Velocità elevata: BlueLM-V-3B raggiunge una velocità di generazione di 24,4 token/s sul processore MediaTek Dimensity 9300 con quantizzazione dei pesi LLM a 4 bit. (3) Elevate prestazioni: BlueLM-V-3B ha ottenuto il punteggio medio più alto di 66,1 nel benchmark OpenCompass tra i modelli con parametri inferiori o uguali a 4 miliardi e ha superato una serie di modelli con dimensioni di parametri molto più grandi (ad esempio, MiniCPM-V-2.6, InternVL2-8B).

3

AnimateAnything: Animazione Coerente e Controllabile per la Generazione di Video
AnimateAnything: Consistent and Controllable Animation for Video Generation

Nov 16
ByGuojun Lei, Chi Wang, Hong Li, Rong Zhang, Yikai Wang, Weiwei Xu
24
2

Presentiamo un approccio unificato alla generazione controllabile di video, AnimateAnything, che facilita la manipolazione precisa e coerente dei video in varie condizioni, incluse traiettorie della telecamera, prompt di testo e annotazioni del movimento dell'utente. In particolare, progettiamo attentamente una rete di fusione delle caratteristiche di controllo multi-scala per costruire una rappresentazione comune del movimento per diverse condizioni. Convertiamo esplicitamente tutte le informazioni di controllo in flussi ottici frame per frame. Successivamente incorporiamo i flussi ottici come priorità di movimento per guidare la generazione finale del video. Inoltre, per ridurre i problemi di sfarfallio causati da movimenti su larga scala, proponiamo un modulo di stabilizzazione basato sulla frequenza. Questo può migliorare la coerenza temporale garantendo la coerenza nel dominio delle frequenze del video. Gli esperimenti dimostrano che il nostro metodo supera gli approcci all'avanguardia. Per ulteriori dettagli e video, si prega di consultare la pagina web: https://yu-shaonian.github.io/Animate_Anything/.

4

Ricerca, Verifica e Feedback: Verso la Prossima Generazione del Paradigma Post-training dei Modelli Fondamentali Attraverso l'Ingegneria del Verificatore
Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

Nov 18
ByXinyan Guan, Yanjiang Liu, Xinyu Lu, Boxi Cao, Ben He, Xianpei Han, Le Sun, Jie Lou, Bowen Yu, Yaojie Lu, Hongyu Lin
23
2

L'evoluzione dell'apprendimento automatico ha sempre più prioritizzato lo sviluppo di modelli potenti e di segnali di supervisione più scalabili. Tuttavia, l'emergere dei modelli fondamentali presenta significativi ostacoli nel fornire segnali di supervisione efficaci necessari per potenziarne ulteriormente le capacità. Di conseguenza, c'è un urgente bisogno di esplorare nuovi segnali di supervisione e approcci tecnici. In questo articolo, proponiamo l'ingegneria del verificatore, un nuovo paradigma post-addestramento specificamente progettato per l'era dei modelli fondamentali. Il nucleo dell'ingegneria del verificatore coinvolge l'utilizzo di una serie di verificatori automatizzati per svolgere compiti di verifica e fornire feedback significativo ai modelli fondamentali. Categorizziamo sistematicamente il processo di ingegneria del verificatore in tre fasi essenziali: ricerca, verifica e feedback, e forniamo una revisione completa degli sviluppi della ricerca all'avanguardia all'interno di ciascuna fase. Riteniamo che l'ingegneria del verificatore costituisca un percorso fondamentale verso il raggiungimento dell'Intelligenza Artificiale Generale.

5

Top-nσ: Non tutti i logit di cui hai bisogno
Top-nσ: Not All Logits Are You Need

Nov 12
ByChenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
23
5

I modelli linguistici di grandi dimensioni (LLM) di solito utilizzano decodifica greedy o campionamento a bassa temperatura per compiti di ragionamento, riflettendo un presunto compromesso tra diversità e accuratezza. Sfidiamo questa convenzione introducendo top-nsigma, un nuovo metodo di campionamento che opera direttamente sui logit pre-softmax sfruttando una soglia statistica. La nostra intuizione chiave è che i logit si separano naturalmente in una regione rumorosa distribuita gaussianamente e una regione informativa distinta, consentendo un efficiente filtraggio dei token senza manipolazioni complesse della probabilità. A differenza dei metodi esistenti (ad esempio, top-p, min-p) che includono involontariamente più token rumorosi a temperature più alte, top-nsigma mantiene uno spazio di campionamento stabile indipendentemente dalla scala della temperatura. Forniamo anche un'analisi teorica di top-nsigma per comprendere meglio il suo comportamento. I risultati sperimentali estensivi su quattro set di dati focalizzati sul ragionamento dimostrano che il nostro metodo non solo supera gli approcci di campionamento esistenti ma supera anche la decodifica greedy, mantenendo prestazioni consistenti anche a temperature elevate.

6

Annegare nei Documenti: Conseguenze della Scalabilità dell'Inferenza del Reranker
Drowning in Documents: Consequences of Scaling Reranker Inference

Nov 18
ByMathew Jacob, Erik Lindgren, Matei Zaharia, Michael Carbin, Omar Khattab, Andrew Drozdov
19
4

I reranker, tipicamente cross-encoder, vengono spesso utilizzati per riesaminare i documenti recuperati dai sistemi IR iniziali più economici. Ciò avviene perché, sebbene costosi, si presume che i reranker siano più efficaci. Sfideremo questa ipotesi misurando le prestazioni del reranker per il recupero completo, non solo per il riesame del recupero di prima fase. I nostri esperimenti rivelano una tendenza sorprendente: i migliori reranker esistenti forniscono rendimenti decrescenti quando valutano progressivamente più documenti e in realtà degradano la qualità oltre un certo limite. Infatti, in questo contesto, i reranker possono spesso assegnare punteggi elevati a documenti senza sovrapposizione lessicale o semantica con la query. Ci auguriamo che le nostre scoperte stimolino futura ricerca per migliorare il reranking.

7

FitDiT: Avanzamento dei Dettagli Autentici dell'Abbigliamento per la Prova Virtuale ad Alta Fedeltà
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on

Nov 15
ByBoyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
13
2

Sebbene il virtual try-on basato su immagini abbia fatto notevoli progressi, gli approcci emergenti incontrano ancora sfide nella produzione di immagini di adattamento di alta fedeltà e robuste in scenari diversi. Questi metodi spesso faticano con problemi come il mantenimento consapevole della texture e l'adattamento consapevole della taglia, che ostacolano la loro efficacia complessiva. Per affrontare queste limitazioni, proponiamo una nuova tecnica di potenziamento della percezione dell'indumento, denominata FitDiT, progettata per il virtual try-on di alta fedeltà utilizzando i Diffusion Transformers (DiT) che allocano più parametri e attenzione alle caratteristiche ad alta risoluzione. Per migliorare ulteriormente il mantenimento consapevole della texture, introduciamo un estrattore di texture dell'indumento che incorpora l'evoluzione dei priori dell'indumento per perfezionare la caratteristica dell'indumento, facilitando la cattura di dettagli ricchi come righe, motivi e testo. Inoltre, introduciamo l'apprendimento nel dominio delle frequenze personalizzando una perdita di distanza in frequenza per potenziare i dettagli ad alta frequenza dell'indumento. Per affrontare il problema dell'adattamento consapevole della taglia, utilizziamo una strategia di mascheramento dilatata-rilassata che si adatta alla lunghezza corretta degli indumenti, impedendo la generazione di indumenti che riempiono l'intera area della maschera durante il cross-category try-on. Dotato del design sopra descritto, FitDiT supera tutti i baselines sia nelle valutazioni qualitative che quantitative. Eccelle nella produzione di indumenti ben adattati con dettagli fotorealistici e intricati, raggiungendo anche tempi di inferenza competitivi di 4,57 secondi per un'immagine singola 1024x768 dopo il dimagrimento della struttura DiT, superando i metodi esistenti.

8

SlimLM: Un Modello Linguistico Piccolo ed Efficiente per l'Assistenza ai Documenti su Dispositivo
SlimLM: An Efficient Small Language Model for On-Device Document Assistance

Nov 15
ByThang M. Pham, Phat T. Nguyen, Seunghyun Yoon, Viet Dac Lai, Franck Dernoncourt, Trung Bui
12
2

Sebbene i modelli linguistici di piccole dimensioni (SLM) mostrino promesse per la distribuzione su dispositivi mobili, le loro prestazioni e applicazioni nel mondo reale sugli smartphone rimangono poco esplorate. Presentiamo SlimLM, una serie di SLM ottimizzati per compiti di assistenza documentale su dispositivi mobili. Attraverso estesi esperimenti su un Samsung Galaxy S24, identifichiamo i compromessi ottimali tra dimensioni del modello (variano da 125M a 7B parametri), lunghezza del contesto e tempo di inferenza per un efficiente processamento on-device. SlimLM è pre-addestrato su SlimPajama-627B e affinato su DocAssist, il nostro dataset costruito per compiti di riassunto, risposta alle domande e suggerimenti. Il nostro modello più piccolo dimostra prestazioni efficienti su S24, mentre varianti più grandi offrono capacità migliorate all'interno dei vincoli mobili. Valutiamo SlimLM rispetto ai SLM esistenti, mostrando prestazioni comparabili o superiori e offrendo un punto di riferimento per futura ricerca sui modelli linguistici on-device. Forniamo inoltre un'applicazione Android, offrendo approfondimenti pratici sulla distribuzione di SLM. Le nostre scoperte forniscono preziosi spunti e illuminano le capacità di esecuzione di modelli linguistici avanzati su smartphone di fascia alta, potenzialmente riducendo i costi del server e migliorando la privacy attraverso il processamento on-device.

9

StableV2V: Stabilizzazione della coerenza della forma nella modifica video a video
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Nov 17
ByChang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
11
5

I recenti progressi dell'IA generativa hanno notevolmente favorito la creazione e la modifica di contenuti, dove gli studi prevalenti estendono ulteriormente questo progresso entusiasmante all'editing video. In tal modo, questi studi trasferiscono principalmente i modelli di movimento intrinseco dai video di origine a quelli modificati, dove spesso si osservano risultati con una coerenza inferiore rispetto agli input dell'utente, a causa della mancanza di allineamenti specifici tra i movimenti forniti e i contenuti modificati. Per affrontare questa limitazione, presentiamo in questo articolo un metodo di editing video basato sulla coerenza della forma, chiamato StableV2V. Il nostro metodo suddivide l'intero processo di editing in diverse procedure sequenziali, in cui modifica il primo frame video, stabilisce un allineamento tra i movimenti forniti e gli input dell'utente e infine propaga i contenuti modificati a tutti gli altri frame basandosi su tale allineamento. Inoltre, abbiamo creato un benchmark di test, chiamato DAVIS-Edit, per una valutazione completa dell'editing video, considerando vari tipi di input e difficoltà. I risultati sperimentali e le analisi illustrano le prestazioni superiori, la coerenza visiva e l'efficienza inferenziale del nostro metodo rispetto agli studi all'avanguardia esistenti.

10

Awaker2.5-VL: Scalare in modo stabile MLLM con una miscela efficiente di esperti parametrici
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts

Nov 16
ByJinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
10
2

Con l'aumentare della popolarità della ricerca sui Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), tipicamente un modello MLLM avanzato è richiesto per gestire contemporaneamente varie attività testuali e visive (ad esempio, VQA, Rilevamento, OCR e ChartQA) per applicazioni reali. Tuttavia, a causa delle significative differenze nella rappresentazione e distribuzione dei dati provenienti da varie attività, mescolare semplicemente i dati di tutte le attività porta al noto problema del "conflitto multi-attività", che comporta una riduzione delle prestazioni in varie attività. Per affrontare questo problema, proponiamo Awaker2.5-VL, un'architettura Mixture of Experts (MoE) adatta per MLLM, che acquisisce le capacità multi-attività attraverso diversi esperti attivati in modo sparso. Per accelerare l'addestramento e l'inferenza di Awaker2.5-VL, ogni esperto nel nostro modello è progettato come una struttura di adattamento a basso rango (LoRA). Estesi esperimenti su più recenti benchmark dimostrano l'efficacia di Awaker2.5-VL. Il codice e i pesi del modello sono disponibili sulla nostra Pagina del Progetto: https://github.com/MetabrainAGI/Awaker.

11

Decodifica adattiva tramite ottimizzazione delle preferenze latenti
Adaptive Decoding via Latent Preference Optimization

Nov 14
ByShehzaad Dhuliawala, Ilia Kulikov, Ping Yu, Asli Celikyilmaz, Jason Weston, Sainbayar Sukhbaatar, Jack Lanchantin
10
2

Durante il decoding del modello linguistico, è noto che l'utilizzo di una temperatura più alta per il campionamento produce risposte più creative, mentre temperature più basse sono più accurate dal punto di vista fattuale. Tuttavia, tali modelli vengono comunemente applicati all'insegnamento generale, che coinvolge compiti sia creativi che di ricerca di fatti, utilizzando una singola temperatura fissa per tutti gli esempi e i token. In questo lavoro, presentiamo il Decoding Adattivo, uno strato aggiunto al modello per selezionare dinamicamente la temperatura di campionamento al momento dell'inferenza, a livello di token o di esempio, al fine di ottimizzare le prestazioni. Per apprendere i suoi parametri, introduciamo l'ottimizzazione delle Preferenze Latenti (LPO), un approccio generale per addestrare variabili latenti discrete come le scelte della temperatura. Il nostro metodo supera tutte le temperature di decoding fisse in una serie di compiti che richiedono temperature diverse, tra cui UltraFeedback, Scrittura di Storie Creative e GSM8K.

12

SmoothCache: Una tecnica universale di accelerazione dell'inferenza per i trasformatori a diffusione
SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers

Nov 15
ByJoseph Liu, Joshua Geddes, Ziyu Guo, Haomiao Jiang, Mahesh Kumar Nandwana
8
2

I trasformatori a diffusione (DiT) sono emersi come potenti modelli generativi per varie attività, inclusa la sintesi di immagini, video e discorsi. Tuttavia, il processo di inferenza rimane computazionalmente costoso a causa della valutazione ripetuta di moduli di attenzione e feed-forward intensivi in risorse. Per affrontare questo problema, introduciamo SmoothCache, una tecnica di accelerazione dell'inferenza agnostica al modello per le architetture DiT. SmoothCache sfrutta l'alta similarità osservata tra le uscite dei livelli attraverso i passaggi di diffusione adiacenti. Analizzando gli errori di rappresentazione livello per livello da un piccolo set di calibrazione, SmoothCache memorizza e riutilizza in modo adattivo le caratteristiche chiave durante l'inferenza. I nostri esperimenti dimostrano che SmoothCache ottiene un aumento della velocità del 8% al 71%, mantenendo o addirittura migliorando la qualità della generazione attraverso diverse modalità. Mostriamo la sua efficacia su DiT-XL per la generazione di immagini, Open-Sora per il testo-video e Stable Audio Open per il testo-audio, evidenziando il suo potenziale per abilitare applicazioni in tempo reale e ampliare l'accessibilità dei potenti modelli DiT.

13

LLäMmlein: Modelli linguistici compatti e competitivi in tedesco creati da zero
LLäMmlein: Compact and Competitive German-Only Language Models from Scratch

Nov 17
ByJan Pfister, Julia Wunderle, Andreas Hotho
8
3

Abbiamo creato due modelli di decodifica solo in tedesco, LL\"aMmlein 120M e 1B, in modo trasparente da zero e li abbiamo pubblicati, insieme ai dati di addestramento, per la comunità di ricerca NLP tedesca. L'addestramento del modello ha coinvolto diversi passaggi chiave, tra cui un'ampia pre-elaborazione dei dati, la creazione di un tokenizzatore tedesco personalizzato, l'addestramento vero e proprio, nonché la valutazione dei modelli finali su vari benchmark. Durante il processo di addestramento, sono stati salvati e analizzati diversi checkpoint utilizzando il benchmark SuperGLEBer per monitorare la dinamica di apprendimento dei modelli. Rispetto ai modelli all'avanguardia sul benchmark SuperGLEBer, entrambi i modelli LL\"aMmlein si sono comportati in modo competitivo, corrispondendo costantemente o superando modelli con dimensioni di parametri simili. I risultati mostrano che la qualità dei modelli aumenta con la dimensione come previsto, ma i miglioramenti delle prestazioni su alcuni compiti si sono stabilizzati presto, offrendo preziose intuizioni sull'allocazione delle risorse per lo sviluppo futuro dei modelli.

14

Valutazione Completa e Pratica dei Sistemi di Generazione Potenziata da Recupero per la Risposta a Domande Mediche
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering

Nov 14
ByNghia Trung Ngo, Chien Van Nguyen, Franck Dernoncourt, Thien Huu Nguyen
7
2

Il Generazione potenziata da recupero (RAG) è emerso come un approccio promettente per migliorare le prestazioni dei grandi modelli linguistici (LLM) in compiti ad alta conoscenza come quelli del dominio medico. Tuttavia, la natura sensibile del dominio medico richiede un sistema completamente accurato e affidabile. Mentre i benchmark RAG esistenti si concentrano principalmente sull'impostazione standard di recupero-risposta, trascurano molti scenari pratici che misurano aspetti cruciali di un sistema medico affidabile. Questo articolo affronta questa lacuna fornendo un quadro di valutazione completo per i sistemi di domande e risposte (QA) medico in un contesto RAG per queste situazioni, inclusa la sufficienza, l'integrazione e la robustezza. Introduciamo il Benchmark di Generazione Potenziata da Recupero Medico (MedRGB) che fornisce vari elementi supplementari a quattro set di dati di QA medico per testare la capacità dei LLM di gestire questi scenari specifici. Utilizzando MedRGB, conduciamo valutazioni approfondite sia dei LLM commerciali all'avanguardia che dei modelli open-source in diverse condizioni di recupero. I nostri risultati sperimentali rivelano la limitata capacità dei modelli attuali di gestire rumore e disinformazione nei documenti recuperati. Analizziamo inoltre i processi di ragionamento dei LLM per fornire preziose intuizioni e indicazioni future per lo sviluppo di sistemi RAG in questo critico dominio medico.

15

VeGaS: Sputtering Gaussiano Video
VeGaS: Video Gaussian Splatting

Nov 17
ByWeronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
7
2

Le Rappresentazioni Neurali Implicite (INR) impiegano reti neurali per approssimare dati discreti come funzioni continue. Nel contesto dei dati video, tali modelli possono essere utilizzati per trasformare le coordinate delle posizioni dei pixel insieme ai tempi (o indici) di comparsa dei frame in valori di colore RGB. Sebbene gli INR facilitino una compressione efficace, non sono adatti per scopi di editing. Una soluzione potenziale è utilizzare un modello basato su Splatting Gaussiano 3D (3DGS), come la Rappresentazione Gaussiana Video (VGR), in grado di codificare video come una moltitudine di Gaussiane 3D ed è applicabile per numerose operazioni di elaborazione video, compreso l'editing. Tuttavia, in questo caso, la capacità di modifica è limitata a un insieme limitato di trasformazioni di base. Per affrontare questo problema, introduciamo il modello Video Gaussian Splatting (VeGaS), che consente modifiche realistiche dei dati video. Per costruire VeGaS, proponiamo una nuova famiglia di distribuzioni Gaussiane Pieghevoli progettate per catturare dinamiche non lineari in uno stream video e modellare frame consecutivi tramite Gaussiane 2D ottenute come rispettive distribuzioni condizionali. I nostri esperimenti dimostrano che VeGaS supera le soluzioni all'avanguardia nei compiti di ricostruzione dei frame e consente modifiche realistiche dei dati video. Il codice è disponibile su: https://github.com/gmum/VeGaS.

16

Valutazione del ruolo delle "costituzioni" per imparare dal feedback dell'IA
Evaluating the role of `Constitutions' for learning from AI feedback

Nov 15
BySaskia Redgate, Andrew M. Bean, Adam Mahdi
5
2

Le crescenti capacità dei grandi modelli linguistici (LLM) hanno portato al loro utilizzo come sostituti del feedback umano per addestrare e valutare altri LLM. Questi metodi spesso si basano su "costituzioni", linee guida scritte che un modello critico utilizza per fornire feedback e migliorare le generazioni. Indaghiamo come la scelta della costituzione influenzi la qualità del feedback utilizzando quattro diverse costituzioni per migliorare la comunicazione centrata sul paziente negli intervisti mediche. In confronti a coppie condotti da 215 valutatori umani, abbiamo scoperto che costituzioni dettagliate hanno portato a risultati migliori riguardo alle qualità emotive. Tuttavia, nessuna delle costituzioni ha superato il punto di riferimento nell'apprendimento di abilità più orientate alla pratica legate alla raccolta e alla fornitura di informazioni. I nostri risultati indicano che, sebbene le costituzioni dettagliate dovrebbero essere prioritarie, ci possono essere limitazioni all'efficacia del feedback dell'IA come segnale di ricompensa in determinate aree.

Nov 18
Nov 19
Nov 20