HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

20 papers found

Individuare i Modelli Linguistici con il Binocolo: Rilevamento Zero-Shot del Testo Generato da Macchine
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

Jan 22

ByAbhimanyu Hans, Avi Schwarzschild, Valeriia Cherepanova, Hamid Kazemi, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein

Rilevare il testo generato dai moderni modelli linguistici di grandi dimensioni (LLM) è considerato difficile, poiché sia gli LLM che gli esseri umani possono esibire una vasta gamma di comportamenti complessi. Tuttavia, abbiamo scoperto che un punteggio basato sul confronto tra due modelli linguistici strettamente correlati è estremamente accurato nel distinguere il testo generato da esseri umani da quello generato da macchine. Basandoci su questo meccanismo, proponiamo un nuovo rilevatore di LLM che richiede solo semplici calcoli utilizzando una coppia di LLM pre-addestrati. Il metodo, chiamato Binocoli, raggiunge un'accuratezza all'avanguardia senza alcun dato di addestramento. È in grado di individuare il testo generato da una gamma di moderni LLM senza alcuna modifica specifica per il modello. Valutiamo in modo completo Binocoli su numerose fonti di testo e in situazioni variate. Su un'ampia gamma di tipi di documenti, Binocoli rileva oltre il 90% dei campioni generati da ChatGPT (e altri LLM) con un tasso di falsi positivi dello 0,01%, nonostante non sia stato addestrato su alcun dato di ChatGPT.

I grandi modelli linguistici sono sovrapposizioni di tutti i personaggi: raggiungere il role-play arbitrario tramite auto-allineamento
Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment

Jan 23

ByKeming Lu, Bowen Yu, Chang Zhou, Jingren Zhou

Sono stati investiti notevoli sforzi per potenziare le capacità di role-playing dei modelli linguistici di grandi dimensioni (LLM) open-source emulando le controparti proprietarie. Tuttavia, riteniamo che gli LLM possiedano intrinsecamente capacità di role-play, grazie alla vasta conoscenza di personaggi e potenziali dialoghi radicata nei loro ampi corpora di addestramento. Pertanto, in questo studio, introduciamo Ditto, un metodo di auto-allineamento per il role-play. Ditto sfrutta la conoscenza dei personaggi, incoraggiando un LLM che segue le istruzioni a simulare dialoghi di role-play come una variante di comprensione della lettura. Questo metodo crea un set di addestramento per il role-play composto da 4.000 personaggi, superando di dieci volte la scala dei dataset attualmente disponibili per quanto riguarda il numero di ruoli. Successivamente, ottimizziamo l'LLM utilizzando questo dataset auto-generato per potenziare le sue capacità di role-playing. Valutando il nostro benchmark di role-play meticolosamente costruito e riproducibile e il sottoinsieme di roleplay di MT-Bench, Ditto, in varie scale di parametri, mantiene costantemente un'identità di ruolo coerente e fornisce conoscenze specifiche del ruolo accurate in conversazioni di role-play a più turni. In particolare, supera tutte le baseline open-source di role-play, mostrando livelli di prestazioni paragonabili a chatbot proprietari avanzati. Inoltre, presentiamo il primo esperimento completo di allineamento cross-supervision nel dominio del role-play, rivelando che le capacità intrinseche degli LLM limitano la conoscenza all'interno del role-play. Nel frattempo, gli stili di role-play possono essere facilmente acquisiti con la guida di modelli più piccoli. Rendiamo disponibili le risorse correlate su https://github.com/OFA-Sys/Ditto.

Meta-Prompting: Potenziamento dei Modelli Linguistici con Scaffolding Indipendente dal Compito
Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding

Jan 23

ByMirac Suzgun, Adam Tauman Kalai

Introduciamo il meta-prompting, una tecnica di scaffolding efficace progettata per migliorare la funzionalità dei modelli linguistici (LM). Questo approccio trasforma un singolo LM in un conduttore multifaccettato, abile nel gestire e integrare molteplici query indipendenti di LM. Utilizzando istruzioni di alto livello, il meta-prompting guida il LM a scomporre compiti complessi in sottotask più piccoli e gestibili. Questi sottotask vengono poi affrontati da distinte istanze "esperte" dello stesso LM, ciascuna operante sotto istruzioni specifiche e personalizzate. Al centro di questo processo c'è il LM stesso, nel suo ruolo di conduttore, che garantisce una comunicazione fluida e un'integrazione efficace degli output di questi modelli esperti. Inoltre, impiega il suo intrinseco pensiero critico e robusti processi di verifica per affinare e autenticare il risultato finale. Questo approccio collaborativo di prompting consente a un singolo LM di agire simultaneamente come un orchestratore completo e un panel di esperti diversificati, migliorando significativamente le sue prestazioni in un'ampia gamma di task. La natura zero-shot e task-agnostica del meta-prompting semplifica notevolmente l'interazione dell'utente, eliminando la necessità di istruzioni dettagliate e specifiche per il task. Inoltre, la nostra ricerca dimostra l'integrazione senza soluzione di continuità di strumenti esterni, come un interprete Python, nel framework di meta-prompting, ampliandone così l'applicabilità e l'utilità. Attraverso rigorosi esperimenti con GPT-4, stabiliamo la superiorità del meta-prompting rispetto ai metodi di scaffolding convenzionali: in media su tutti i task, inclusi il Gioco del 24, Scacco Matto in Una Mossa e gli Enigmi di Programmazione Python, il meta-prompting, potenziato con la funzionalità di un interprete Python, supera il prompting standard del 17,1%, il prompting esperto (dinamico) del 17,3% e il prompting multipersona del 15,2%.

Padroneggiare la diffusione da testo a immagine: Ridescrizione, pianificazione e generazione con modelli linguistici multimodali
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

Jan 22

ByLing Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui

I modelli di diffusione hanno dimostrato prestazioni eccezionali nella generazione e modifica di immagini da testo. Tuttavia, i metodi esistenti spesso incontrano difficoltà nel gestire prompt testuali complessi che coinvolgono più oggetti con molteplici attributi e relazioni. In questo articolo, proponiamo un nuovo framework per la generazione/modifica di immagini da testo senza necessità di addestramento, denominato Recaption, Plan and Generate (RPG), che sfrutta la potente capacità di ragionamento a catena di pensiero dei modelli linguistici multimodali (MLLM) per migliorare la composizionalità dei modelli di diffusione testo-immagine. Il nostro approccio utilizza l'MLLM come pianificatore globale per scomporre il processo di generazione di immagini complesse in più compiti di generazione più semplici all'interno di sottoregioni. Proponiamo una diffusione regionale complementare per abilitare la generazione composizionale a livello di regione. Inoltre, integriamo la generazione e modifica di immagini guidata da testo all'interno del framework RPG proposto in modo a ciclo chiuso, migliorando così la capacità di generalizzazione. Esperimenti estensivi dimostrano che il nostro RPG supera i modelli di diffusione testo-immagine all'avanguardia, inclusi DALL-E 3 e SDXL, in particolare nella composizione di oggetti multi-categoria e nell'allineamento semantico testo-immagine. È importante notare che il nostro framework RPG mostra una vasta compatibilità con varie architetture MLLM (ad esempio, MiniGPT-4) e backbone di diffusione (ad esempio, ControlNet). Il nostro codice è disponibile all'indirizzo: https://github.com/YangLing0818/RPG-DiffusionMaster

SpatialVLM: Dotare i Modelli Visione-Linguaggio di Capacità di Ragionamento Spaziale
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Jan 22

ByBoyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia

Comprendere e ragionare sulle relazioni spaziali è una capacità fondamentale per il Visual Question Answering (VQA) e la robotica. Sebbene i Vision Language Models (VLM) abbiano dimostrato prestazioni notevoli in alcuni benchmark di VQA, mancano ancora di capacità nel ragionamento spaziale 3D, come il riconoscimento di relazioni quantitative tra oggetti fisici, ad esempio distanze o differenze di dimensioni. Ipotesizziamo che la limitata capacità di ragionamento spaziale dei VLM sia dovuta alla mancanza di conoscenza spaziale 3D nei dati di addestramento e miriamo a risolvere questo problema addestrando i VLM con dati di ragionamento spaziale su scala Internet. A tal fine, presentiamo un sistema per facilitare questo approccio. In primo luogo, sviluppiamo un framework automatico per la generazione di dati VQA spaziali 3D che scala fino a 2 miliardi di esempi VQA su 10 milioni di immagini del mondo reale. Successivamente, indaghiamo vari fattori nella ricetta di addestramento, inclusa la qualità dei dati, la pipeline di addestramento e l'architettura del VLM. Il nostro lavoro presenta il primo dataset su scala Internet per il ragionamento spaziale 3D in uno spazio metrico. Addestrando un VLM su tali dati, miglioriamo significativamente la sua capacità sia nel VQA spaziale qualitativo che quantitativo. Infine, dimostriamo che questo VLM sblocca nuove applicazioni downstream nel ragionamento spaziale a catena di pensiero e nella robotica grazie alla sua capacità di stima quantitativa. Sito web del progetto: https://spatial-vlm.github.io/

Apprendimento per rinforzo su larga scala per modelli di diffusione
Large-scale Reinforcement Learning for Diffusion Models

Jan 20

ByYinan Zhang, Eric Tzeng, Yilun Du, Dmitry Kislyuk

I modelli di diffusione testo-immagine sono una classe di modelli generativi profondi che hanno dimostrato una capacità impressionante nella generazione di immagini di alta qualità. Tuttavia, questi modelli sono suscettibili a bias impliciti che derivano da coppie testo-immagine su scala web e potrebbero rappresentare in modo inaccurato aspetti delle immagini che ci interessano. Ciò può portare a campioni subottimali, bias del modello e immagini che non si allineano con l'etica e le preferenze umane. In questo articolo, presentiamo un algoritmo scalabile ed efficace per migliorare i modelli di diffusione utilizzando il Reinforcement Learning (RL) su un insieme diversificato di funzioni di ricompensa, come le preferenze umane, la composizionalità e l'equità su milioni di immagini. Illustriamo come il nostro approccio superi sostanzialmente i metodi esistenti per allineare i modelli di diffusione con le preferenze umane. Inoltre, dimostriamo come questo migliori significativamente i modelli pre-addestrati di Stable Diffusion (SD), generando campioni preferiti dagli esseri umani l'80,3% delle volte rispetto a quelli del modello SD di base, migliorando contemporaneamente sia la composizione che la diversità dei campioni generati.

CMMMU: Un Benchmark Cinese di Comprensione Multimodale e Multidisciplinare su Larga Scala
CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

Jan 22

ByGe Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, Haoran Zhang, Xingwei Qu, Junjie Wang, Ruibin Yuan, Yizhi Li, Zekun Wang, Yudong Liu, Yu-Hsuan Tsai, Fengji Zhang, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu

Con l'avanzamento delle capacità dei grandi modelli multimodali (LMM), emerge una crescente necessità di valutare le loro prestazioni. Inoltre, esiste un divario ancora maggiore nella valutazione delle conoscenze avanzate e delle abilità di ragionamento degli LMM in contesti non inglesi, come il cinese. Introduciamo CMMMU, un nuovo benchmark di comprensione multimodale multidisciplinare cinese, progettato per valutare gli LMM su compiti che richiedono conoscenze disciplinari di livello universitario e un ragionamento ponderato in un contesto cinese. CMMMU è ispirato e segue rigorosamente lo schema di annotazione e analisi di MMMU. CMMMU include 12k domande multimodali raccolte manualmente da esami universitari, quiz e libri di testo, coprendo sei discipline principali: Arte e Design, Business, Scienza, Salute e Medicina, Discipline Umanistiche e Sociali, e Tecnologia e Ingegneria, come il suo compagno MMMU. Queste domande abbracciano 30 materie e comprendono 39 tipi di immagini altamente eterogenei, come grafici, diagrammi, mappe, tabelle, spartiti musicali e strutture chimiche. CMMMU si concentra sulla percezione complessa e sul ragionamento con conoscenze specifiche del dominio nel contesto cinese. Abbiamo valutato 11 LLM open-source e un GPT-4V(ision) proprietario. Anche GPT-4V raggiunge solo un'accuratezza del 42%, indicando un ampio spazio di miglioramento. CMMMU spingerà la comunità a costruire la prossima generazione di LMM verso un'intelligenza artificiale esperta e promuoverà la democratizzazione degli LMM fornendo contesti linguistici diversificati.

CheXagent: Verso un Modello Fondamentale per l'Interpretazione delle Radiografie Toraciche
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation

Jan 22

ByZhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz

Le radiografie del torace (CXRs) sono l'esame di imaging più frequentemente eseguito nella pratica clinica. I recenti progressi nello sviluppo di modelli di base (FMs) visione-linguaggio aprono la possibilità di eseguire un'interpretazione automatizzata delle CXRs, che può assistere i medici nel processo decisionale clinico e migliorare gli esiti dei pazienti. Tuttavia, sviluppare FMs in grado di interpretare accuratamente le CXRs è impegnativo a causa di (1) disponibilità limitata di dataset su larga scala visione-linguaggio nel dominio delle immagini mediche, (2) mancanza di encoder di visione e linguaggio in grado di catturare le complessità dei dati medici, e (3) assenza di framework di valutazione per confrontare le capacità dei FMs nell'interpretazione delle CXRs. In questo lavoro, affrontiamo queste sfide introducendo prima CheXinstruct - un dataset su larga scala per l'instruction-tuning curato da 28 dataset pubblicamente disponibili. Presentiamo poi CheXagent - un FM ottimizzato per l'instruction-tuning in grado di analizzare e riassumere le CXRs. Per costruire CheXagent, progettiamo un modello di linguaggio su larga scala (LLM) clinico per l'analisi dei referti radiologici, un encoder visivo per rappresentare le immagini CXR e una rete per collegare le modalità visiva e linguistica. Infine, introduciamo CheXbench - un nuovo benchmark progettato per valutare sistematicamente i FMs su 8 compiti clinicamente rilevanti di interpretazione delle CXRs. Valutazioni quantitative estese e revisioni qualitative con cinque radiologi esperti dimostrano che CheXagent supera i FMs precedentemente sviluppati, sia di dominio generale che medico, nei compiti di CheXbench. Inoltre, nel tentativo di migliorare la trasparenza del modello, eseguiamo una valutazione di equità rispetto a fattori di sesso, razza ed età per evidenziare potenziali disparità di prestazione. Il nostro progetto è disponibile all'indirizzo https://stanford-aimi.github.io/chexagent.html.

Sintesi Scalabile di Immagini ad Alta Risoluzione nello Spazio dei Pixel con Trasformatori a Diffusione a Clessidra
Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers

Jan 21

ByKatherine Crowson, Stefan Andreas Baumann, Alex Birch, Tanishq Mathew Abraham, Daniel Z. Kaplan, Enrico Shippole

Presentiamo l'Hourglass Diffusion Transformer (HDiT), un modello generativo di immagini che mostra una scalabilità lineare rispetto al numero di pixel, supportando l'addestramento ad alta risoluzione (ad esempio 1024x1024) direttamente nello spazio dei pixel. Basandosi sull'architettura Transformer, nota per scalare fino a miliardi di parametri, HDiT colma il divario tra l'efficienza delle U-Net convoluzionali e la scalabilità dei Transformer. HDiT si addestra con successo senza ricorrere a tecniche tipiche di addestramento ad alta risoluzione come architetture multiscala, autoencoder latenti o auto-condizionamento. Dimostriamo che HDiT compete con i modelli esistenti su ImageNet 256^2 e stabilisce un nuovo stato dell'arte per i modelli di diffusione su FFHQ-1024^2.

DITTO: Ottimizzazione T al Tempo di Inferenza con Diffusione per la Generazione Musicale
DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Jan 22

ByZachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan

Proponiamo Diffusion Inference-Time T-Optimization (DITTO), un framework generico per il controllo di modelli di diffusione pre-addestrati da testo a musica durante l'inferenza, ottimizzando i latenti del rumore iniziale. Il nostro metodo può essere utilizzato per ottimizzare qualsiasi funzione di perdita differenziabile basata sul matching di feature, al fine di ottenere un output (stilizzato) desiderato, e sfrutta il gradient checkpointing per l'efficienza della memoria. Dimostriamo una sorprendente gamma di applicazioni per la generazione musicale, tra cui inpainting, outpainting, looping, nonché il controllo di intensità, melodia e struttura musicale, tutto senza mai fine-tunare il modello sottostante. Confrontando il nostro approccio con metodi correlati basati su addestramento, guida e ottimizzazione, riscontriamo che DITTO raggiunge prestazioni all'avanguardia in quasi tutti i compiti, superando approcci comparabili in termini di controllabilità, qualità audio ed efficienza computazionale, aprendo così la strada a un controllo di alta qualità, flessibile e senza addestramento per i modelli di diffusione. Esempi audio sono disponibili su https://DITTO-Music.github.io/web/.

WARM: Sui Vantaggi dei Modelli di Ricompensa con Media Pesata
WARM: On the Benefits of Weight Averaged Reward Models

Jan 22

ByAlexandre Ramé, Nino Vieillard, Léonard Hussenot, Robert Dadashi, Geoffrey Cideron, Olivier Bachem, Johan Ferret

Allineare i grandi modelli linguistici (LLM) con le preferenze umane attraverso l'apprendimento per rinforzo con feedback umano (RLHF) può portare al fenomeno del "reward hacking", in cui i LLM sfruttano le imperfezioni del modello di ricompensa (RM) per ottenere ricompense apparentemente elevate senza soddisfare gli obiettivi sottostanti. Identifichiamo due principali sfide nella progettazione di RM per mitigare il reward hacking: gli spostamenti di distribuzione durante il processo di RL e le incoerenze nelle preferenze umane. Come soluzione, proponiamo i Modelli di Ricompensa a Media Ponderata (WARM), che prevedono prima il fine-tuning di più RM, seguito dalla loro media nello spazio dei pesi. Questa strategia si basa sull'osservazione che i pesi ottenuti dal fine-tuning rimangono linearmente connessi in modalità quando condividono la stessa pre-addestramento. Mediante la media dei pesi, WARM migliora l'efficienza rispetto all'ensembling tradizionale delle previsioni, aumentando al contempo l'affidabilità in caso di spostamenti di distribuzione e la robustezza alle incoerenze nelle preferenze. I nostri esperimenti su task di riassunto, utilizzando metodi best-of-N e RL, dimostrano che WARM migliora la qualità complessiva e l'allineamento delle previsioni dei LLM; ad esempio, una policy RL fine-tuned con WARM ha un tasso di vittoria del 79,4% rispetto a una policy RL fine-tuned con un singolo RM.

EmerDiff: Conoscenza Semantica a Livello di Pixel Emergente nei Modelli di Diffusione
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models

Jan 22

ByKoichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim

I modelli di diffusione hanno recentemente ricevuto un'attenzione crescente nella ricerca per le loro notevoli capacità di trasferimento nei compiti di segmentazione semantica. Tuttavia, la generazione di maschere di segmentazione dettagliate con i modelli di diffusione spesso richiede un addestramento aggiuntivo su dataset annotati, lasciando incerto fino a che punto i modelli di diffusione pre-addestrati comprendano da soli le relazioni semantiche delle immagini generate. Per affrontare questa questione, sfruttiamo la conoscenza semantica estratta da Stable Diffusion (SD) e miriamo a sviluppare un segmentatore di immagini in grado di generare mappe di segmentazione dettagliate senza alcun addestramento aggiuntivo. La difficoltà principale deriva dal fatto che le mappe di caratteristiche semanticamente significative esistono tipicamente solo negli strati spazialmente a bassa dimensionalità, il che rappresenta una sfida nell'estrazione diretta delle relazioni semantiche a livello di pixel da queste mappe di caratteristiche. Per superare questo problema, il nostro framework identifica le corrispondenze semantiche tra i pixel dell'immagine e le posizioni spaziali delle mappe di caratteristiche a bassa dimensionalità sfruttando il processo di generazione di SD e le utilizza per costruire mappe di segmentazione alla risoluzione dell'immagine. In esperimenti estesi, le mappe di segmentazione prodotte si dimostrano ben delineate e catturano parti dettagliate delle immagini, indicando l'esistenza di una conoscenza semantica a livello di pixel altamente accurata nei modelli di diffusione.

Make-A-Shape: un Modello di Forme 3D su Scala Dieci Milioni
Make-A-Shape: a Ten-Million-scale 3D Shape Model

Jan 20

ByKa-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu

Sono stati compiuti progressi significativi nell'addestramento di grandi modelli generativi per il linguaggio naturale e le immagini. Tuttavia, l'avanzamento dei modelli generativi 3D è ostacolato dalle loro elevate richieste di risorse per l'addestramento, oltre a rappresentazioni inefficienti, non compatte e meno espressive. Questo articolo introduce Make-A-Shape, un nuovo modello generativo 3D progettato per un addestramento efficiente su larga scala, in grado di utilizzare 10 milioni di forme disponibili pubblicamente. Dal punto di vista tecnico, innoviamo innanzitutto una rappresentazione a wavelet-tree per codificare in modo compatto le forme, formulando uno schema di filtraggio dei coefficienti delle sottobande per sfruttare efficientemente le relazioni tra i coefficienti. Rendiamo poi questa rappresentazione generabile da un modello di diffusione, ideando uno schema di impacchettamento dei coefficienti delle sottobande per disporre la rappresentazione in una griglia a bassa risoluzione. Inoltre, deriviamo una strategia di addestramento adattivo alle sottobande per addestrare il nostro modello a generare efficacemente coefficienti wavelet sia grossolani che dettagliati. Infine, estendiamo il nostro framework per essere controllato da condizioni di input aggiuntive, consentendogli di generare forme da varie modalità, ad esempio immagini singole/multipla, nuvole di punti e voxel a bassa risoluzione. Nella nostra ampia serie di esperimenti, dimostriamo varie applicazioni, come la generazione incondizionata, il completamento di forme e la generazione condizionata su un'ampia gamma di modalità. Il nostro approccio non solo supera lo stato dell'arte nel fornire risultati di alta qualità, ma genera anche forme in modo efficiente in pochi secondi, spesso raggiungendo questo obiettivo in soli 2 secondi per la maggior parte delle condizioni.

Orion-14B: Modelli Linguistici Multilingue di Grandi Dimensioni Open-Source
Orion-14B: Open-source Multilingual Large Language Models

Jan 20

ByDu Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han

In questo studio, presentiamo Orion-14B, una famiglia di modelli linguistici multilingue di grandi dimensioni con 14 miliardi di parametri. Utilizziamo un approccio di pianificazione dei dati per addestrare un modello di base su un corpus diversificato di 2,5 trilioni di token, provenienti da testi in inglese, cinese, giapponese, coreano e altre lingue. Inoltre, abbiamo ottimizzato una serie di modelli specificamente progettati per applicazioni conversazionali e altri casi d'uso specifici. I risultati della nostra valutazione dimostrano che Orion-14B raggiunge prestazioni all'avanguardia in un'ampia gamma di compiti. Rendiamo pubblicamente accessibile la famiglia di modelli Orion-14B e il relativo codice all'indirizzo https://github.com/OrionStarAI/Orion, con l'obiettivo di ispirare future ricerche e applicazioni pratiche nel campo.

StreamVoice: Modellazione Linguistica Contestuale in Streaming per la Conversione Vocale in Tempo Reale con Zero-Shot
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion

Jan 19

ByZhichao Wang, Yuanzhe Chen, Xinsheng Wang, Zhuo Chen, Lei Xie, Yuping Wang, Yuxuan Wang

I recenti progressi nei modelli linguistici (LM) hanno dimostrato prestazioni impressionanti nella conversione vocale (VC) zero-shot. Tuttavia, i modelli VC basati su LM esistenti applicano solitamente una conversione offline dalla semantica di origine alle caratteristiche acustiche, richiedendo il discorso di origine completo e limitando il loro utilizzo in applicazioni in tempo reale. In questo articolo, introduciamo StreamVoice, un nuovo modello streaming basato su LM per la VC zero-shot, che facilita la conversione in tempo reale dati prompt di parlanti arbitrari e discorso di origine. Nello specifico, per abilitare la capacità di streaming, StreamVoice utilizza un LM completamente causale con consapevolezza contestuale e un predittore acustico indipendente dal tempo, elaborando alternativamente le caratteristiche semantiche e acustiche ad ogni passo temporale dell'autoregressione, eliminando così la dipendenza dal discorso di origine completo. Per affrontare il potenziale degrado delle prestazioni dovuto al contesto incompleto nell'elaborazione in streaming, miglioriamo la consapevolezza contestuale del LM attraverso due strategie: 1) previsione contestuale guidata da un insegnante, utilizzando un modello insegnante per riassumere il contesto semantico presente e futuro durante l'addestramento, guidando così la previsione del modello per il contesto mancante; 2) strategia di mascheramento semantico, promuovendo la previsione acustica a partire da input semantici e acustici precedenti corrotti, migliorando la capacità di apprendimento contestuale. È importante notare che StreamVoice è il primo modello di VC zero-shot streaming basato su LM senza alcuna previsione futura. I risultati sperimentali dimostrano la capacità di conversione in streaming di StreamVoice, mantenendo prestazioni zero-shot paragonabili ai sistemi VC non streaming.

OK-Robot: Cosa Conta Veramente nell'Integrazione di Modelli a Conoscenza Aperta per la Robotica
OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

Jan 22

ByPeiqi Liu, Yaswanth Orru, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto

Negli ultimi anni sono stati compiuti progressi significativi nei campi della visione, del linguaggio e della robotica. Oggi disponiamo di modelli di visione in grado di riconoscere oggetti in base a query linguistiche, sistemi di navigazione che possono controllare efficacemente sistemi mobili e modelli di presa che possono gestire una vasta gamma di oggetti. Nonostante questi avanzamenti, le applicazioni robotiche di uso generale rimangono indietro, pur basandosi su queste capacità fondamentali di riconoscimento, navigazione e presa. In questo articolo, adottiamo un approccio sistemico per sviluppare un nuovo framework robotico basato su conoscenza aperta chiamato OK-Robot. Combinando modelli visione-linguaggio (VLMs) per il rilevamento degli oggetti, primitive di navigazione per il movimento e primitive di presa per la manipolazione degli oggetti, OK-Robot offre una soluzione integrata per operazioni di pick-and-drop senza richiedere alcun addestramento. Per valutarne le prestazioni, abbiamo testato OK-Robot in 10 ambienti domestici reali. I risultati dimostrano che OK-Robot raggiunge un tasso di successo del 58,5% in compiti aperti di pick-and-drop, rappresentando un nuovo stato dell'arte nella Manipolazione Mobile a Vocabolario Aperto (OVMM) con prestazioni quasi 1,8 volte superiori rispetto ai lavori precedenti. In ambienti più puliti e ordinati, le prestazioni di OK-Robot aumentano all'82%. Tuttavia, l'osservazione più importante emersa da OK-Robot è il ruolo cruciale dei dettagli sfumati quando si combinano sistemi di conoscenza aperta come i VLMs con moduli robotici. I video dei nostri esperimenti sono disponibili sul nostro sito web: https://ok-robot.github.io

UltrAvatar: Un Modello di Diffusione per Avatar 3D Animabili e Realistici con Texture Guidate dall'Autenticità
UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided Textures

Jan 20

ByMingyuan Zhou, Rakib Hyder, Ziwei Xuan, Guojun Qi

I recenti progressi nella generazione di avatar 3D hanno attirato notevole attenzione. Queste innovazioni mirano a produrre avatar animabili più realistici, riducendo il divario tra esperienze virtuali e reali. La maggior parte dei lavori esistenti utilizza la funzione di perdita Score Distillation Sampling (SDS), combinata con un renderer differenziabile e una condizione testuale, per guidare un modello di diffusione nella generazione di avatar 3D. Tuttavia, l'SDS spesso produce risultati eccessivamente levigati con pochi dettagli facciali, mancando quindi della diversità rispetto al campionamento ancestrale. D'altro canto, altri lavori generano avatar 3D a partire da una singola immagine, dove le sfide legate a effetti di illuminazione indesiderati, prospettive visive e qualità inferiore dell'immagine rendono difficile ricostruire in modo affidabile le mesh 3D del volto con texture complete e allineate. In questo articolo, proponiamo un nuovo approccio per la generazione di avatar 3D, denominato UltrAvatar, che offre una maggiore fedeltà della geometria e una qualità superiore delle texture basate su rendering fisicamente corretto (PBR) senza effetti di illuminazione indesiderati. A tal fine, l'approccio proposto presenta un modello di estrazione del colore diffuso e un modello di diffusione delle texture guidato dall'autenticità. Il primo rimuove gli effetti di illuminazione indesiderati per rivelare i veri colori diffusi, consentendo così agli avatar generati di essere renderizzati in diverse condizioni di illuminazione. Il secondo segue due guide basate su gradienti per generare texture PBR che rendono meglio le caratteristiche e i dettagli dell'identità facciale, allineandosi più precisamente con la geometria della mesh 3D. Dimostriamo l'efficacia e la robustezza del metodo proposto, che supera di gran lunga i metodi all'avanguardia negli esperimenti.

Digitalizzazione 3D di esseri umani da vista singola con modelli di ricostruzione su larga scala
Single-View 3D Human Digitalization with Large Reconstruction Models

Jan 22

ByZhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang

In questo articolo presentiamo Human-LRM, un Large Reconstruction Model a stadio singolo e feed-forward progettato per prevedere i Neural Radiance Fields (NeRF) umani a partire da una singola immagine. Il nostro approccio dimostra una notevole adattabilità nell'addestramento utilizzando ampi dataset contenenti scansioni 3D e acquisizioni multi-vista. Inoltre, per migliorare l'applicabilità del modello in scenari reali, specialmente in presenza di occlusioni, proponiamo una nuova strategia che distilla la ricostruzione multi-vista in una singola vista attraverso un modello di diffusione condizionale triplanare. Questa estensione generativa affronta le variazioni intrinseche delle forme del corpo umano osservate da una singola vista e rende possibile ricostruire l'intero corpo umano a partire da un'immagine occlusa. Attraverso esperimenti estensivi, dimostriamo che Human-LRM supera i metodi precedenti con un margine significativo su diversi benchmark.

Scalabilità delle Reti Grafiche di Interazione Facciale a Scene del Mondo Reale
Scaling Face Interaction Graph Networks to Real World Scenes

Jan 22

ByTatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen

Simulare accuratamente le dinamiche degli oggetti nel mondo reale è essenziale per varie applicazioni come la robotica, l'ingegneria, la grafica e il design. Per catturare meglio dinamiche reali complesse come il contatto e l'attrito, i simulatori basati su reti grafiche hanno recentemente mostrato grandi promesse. Tuttavia, applicare questi simulatori appresi a scene reali presenta due sfide principali: in primo luogo, scalare i simulatori appresi per gestire la complessità delle scene del mondo reale, che possono coinvolgere centinaia di oggetti ciascuno con forme 3D complicate, e in secondo luogo, gestire input provenienti dalla percezione piuttosto che da informazioni sullo stato 3D. Qui introduciamo un metodo che riduce sostanzialmente la memoria necessaria per eseguire simulatori appresi basati su grafi. Basandoci su questo modello di simulazione efficiente in termini di memoria, presentiamo quindi un'interfaccia percettiva sotto forma di NeRF modificabili che possono convertire scene del mondo reale in una rappresentazione strutturata che può essere elaborata da un simulatore basato su reti grafiche. Mostriamo che il nostro metodo utilizza sostanzialmente meno memoria rispetto ai precedenti simulatori basati su grafi mantenendo la loro accuratezza, e che i simulatori appresi in ambienti sintetici possono essere applicati a scene del mondo reale catturate da più angolazioni della telecamera. Questo apre la strada per espandere l'applicazione dei simulatori appresi a contesti in cui sono disponibili solo informazioni percettive al momento dell'inferenza.

Registrazione Rapida di Avatar Fotorealistici per l'Animazione Facciale in Realtà Virtuale
Fast Registration of Photorealistic Avatars for VR Facial Animation

Jan 19

ByChaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei

La Realtà Virtuale (VR) promette interazioni sociali che possono risultare più immersive rispetto ad altri media. Un elemento chiave è la capacità di animare in modo accurato un avatar fotorealistico che riproduca le sembianze di una persona mentre indossa un visore VR. Sebbene sia possibile ottenere una registrazione di alta qualità di avatar specifici per una persona rispetto alle immagini della telecamera montata sul visore (HMC) in un contesto offline, le prestazioni dei modelli generici in tempo reale risultano significativamente ridotte. La registrazione online è inoltre complessa a causa delle angolazioni oblique della telecamera e delle differenze nella modalità. In questo lavoro, dimostriamo innanzitutto che il divario di dominio tra l’avatar e le immagini della telecamera del visore è una delle principali fonti di difficoltà, dove un’architettura basata su transformer raggiunge un’elevata accuratezza su dati coerenti nel dominio, ma si degrada quando il divario di dominio viene reintrodotto. Sulla base di questa scoperta, sviluppiamo un design di sistema che scompone il problema in due parti: 1) un modulo di raffinamento iterativo che accetta input nel dominio, e 2) un modulo generico di trasferimento di stile da immagine a immagine guidato dall’avatar, condizionato sulla stima corrente dell’espressione e della posizione della testa. Questi due moduli si rafforzano reciprocamente, poiché il trasferimento di stile delle immagini diventa più semplice quando vengono mostrati esempi vicini alla verità di base, e una migliore rimozione del divario di dominio favorisce la registrazione. Il nostro sistema produce risultati di alta qualità in modo efficiente, eliminando la necessità di una costosa registrazione offline per generare etichette personalizzate. Validiamo l’accuratezza e l’efficienza del nostro approccio attraverso esperimenti estesi su un visore di consumo, dimostrando miglioramenti significativi rispetto ai metodi di regressione diretta e alla registrazione offline.

CheXagent: Verso un Modello Fondamentale per l'Interpretazione delle Radiografie Toraciche
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation

Jan 22