Articoli di ricerca IA selezionati quotidianamente con traduzioni
Lo sviluppo di politiche visuomotorie robuste e correggibili per la manipolazione robotica è sfidante a causa della mancanza di meccanismi di auto-ripristino dai fallimenti e delle limitazioni delle istruzioni linguistiche semplici nel guidare le azioni del robot. Per affrontare questi problemi, proponiamo un flusso di generazione dati scalabile che automaticamente arricchisce le dimostrazioni degli esperti con traiettorie di recupero dai fallimenti e annotazioni linguistiche dettagliate per l'addestramento. Introduciamo quindi Rich languAge-guided failure reCovERy (RACER), un framework supervisore-attore, che combina i dati di recupero dai fallimenti con descrizioni linguistiche dettagliate per migliorare il controllo del robot. RACER presenta un modello visione-linguaggio (VLM) che agisce come supervisore online, fornendo dettagliate indicazioni linguistiche per la correzione degli errori e l'esecuzione del compito, e una politica visuomotoria condizionata dal linguaggio come attore per prevedere le prossime azioni. I nostri risultati sperimentali mostrano che RACER supera lo stato dell'arte del Robotic View Transformer (RVT) su RLbench attraverso vari setting di valutazione, inclusi compiti standard a lungo termine, compiti dinamici di cambio obiettivo e compiti non visti a zero-shot, raggiungendo prestazioni superiori sia in ambienti simulati che reali. Video e codice sono disponibili su: https://rich-language-failure-recovery.github.io.
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in vari ambiti e compiti, spingendo i confini della nostra conoscenza nell'apprendimento e nella cognizione. Il modello più recente, l'o1 di OpenAI, si distingue come il primo LLM con una tecnica di concatenazione del pensiero internalizzata che utilizza strategie di apprendimento per rinforzo. Sebbene abbia dimostrato capacità sorprendentemente forti in vari compiti linguistici generali, le sue prestazioni in campi specializzati come la medicina rimangono sconosciute. A tal fine, questo rapporto fornisce un'esplorazione completa dell'o1 in diversi scenari medici, esaminando 3 aspetti chiave: comprensione, ragionamento e multilinguismo. In particolare, la nostra valutazione comprende 6 compiti utilizzando dati provenienti da 37 set di dati medici, tra cui due compiti di domande e risposte (QA) più impegnativi e di recente creazione basati su quiz medici professionali del New England Journal of Medicine (NEJM) e The Lancet. Questi set di dati offrono una maggiore rilevanza clinica rispetto ai benchmark standard di QA medico come MedQA, traducendosi in modo più efficace nell'utilità clinica del mondo reale. La nostra analisi dell'o1 suggerisce che la capacità di ragionamento potenziata dei LLM potrebbe beneficiare in modo significativo della loro capacità di comprendere varie istruzioni mediche e ragionare attraverso scenari clinici complessi. In particolare, l'o1 supera il precedente GPT-4 in accuratezza di una media del 6,2% e del 6,6% su 19 set di dati e due scenari di QA complessi di nuova creazione. Tuttavia, identifichiamo diverse debolezze sia nella capacità del modello che nei protocolli di valutazione esistenti, tra cui l'allucinazione, la capacità multilingue inconsistente e le metriche discordanti per la valutazione. Rilasciamo i nostri dati grezzi e le uscite del modello su https://ucsc-vlaa.github.io/o1_medicine/ per futura ricerca.
Il successo dell'ottimizzazione dell'istruzione visiva ha accelerato lo sviluppo di grandi modelli linguistici e visivi (LLVM). Seguendo le leggi di ridimensionamento dei grandi modelli linguistici ottimizzati per l'istruzione (LLM), gli LLVM hanno ulteriormente aumentato le loro dimensioni, raggiungendo 26 miliardi, 34 miliardi e persino 80 miliardi di parametri. Sebbene questo aumento delle dimensioni del modello abbia portato a significativi miglioramenti delle prestazioni, richiede notevolmente più risorse hardware sia per l'addestramento che per l'inferenza. Di conseguenza, esiste naturalmente una forte necessità di LLVM efficienti che raggiungano le prestazioni dei modelli più grandi pur essendo di dimensioni più contenute. Per soddisfare questa esigenza, presentiamo una nuova famiglia efficiente di LLVM con dimensioni del modello di 0,5 miliardi, 1,8 miliardi, 3,8 miliardi e 7 miliardi di parametri, Phantom, che potenzia significativamente le capacità di apprendimento all'interno di strutture limitate. Aumentando temporaneamente la dimensione nascosta latente durante l'autoattenzione multi-testa (MHSA), facciamo sì che gli LLVM siano in grado di esaminare e comprendere molto più conoscenza visivo-linguistica sul latente, senza aumentare sostanzialmente le dimensioni fisiche del modello. Per massimizzare il suo vantaggio, introduciamo l'ottimizzazione Phantom (PO) utilizzando sia il fine-tuning supervisionato autoregressivo (SFT) che un concetto simile all'ottimizzazione delle preferenze dirette (DPO), che segue efficacemente le risposte corrette eliminando quelle sbagliate e ambigue. Phantom supera numerosi LLVM più grandi open e closed-source, posizionandosi come una soluzione leader nel panorama degli LLVM efficienti.
Questo articolo presenta un versatile assistente visivo immagine-immagine, PixWizard, progettato per la generazione, manipolazione e traduzione di immagini basate su istruzioni in linguaggio libero. A tal fine, affrontiamo una varietà di compiti di visione all'interno di un quadro unificato di generazione immagine-testo-immagine e curiamo un Dataset di Regolazione Istruzionale Pixel-a-Pixel Onnicomprensivo. Costruendo modelli dettagliati di istruzioni in linguaggio naturale, includiamo in modo esaustivo un ampio insieme di compiti di visione diversi come la generazione testo-immagine, il ripristino dell'immagine, l'ancoraggio dell'immagine, la previsione densa dell'immagine, l'editing dell'immagine, la generazione controllabile, l'inpainting/outpainting e altro ancora. Inoltre, adottiamo i Diffusion Transformers (DiT) come modello fondamentale ed estendiamo le sue capacità con un meccanismo flessibile di qualsiasi risoluzione, consentendo al modello di elaborare dinamicamente le immagini in base al rapporto d'aspetto dell'input, allineandosi strettamente con i processi percettivi umani. Il modello incorpora anche una guida consapevole della struttura e della semantica per facilitare la fusione efficace delle informazioni dall'immagine di input. I nostri esperimenti dimostrano che PixWizard non solo mostra impressionanti capacità generative e di comprensione per immagini con risoluzioni diverse, ma mostra anche promettenti capacità di generalizzazione con compiti non visti e istruzioni umane. Il codice e le risorse correlate sono disponibili su https://github.com/AFeng-x/PixWizard
I Large Language Models (LLM) hanno dimostrato un significativo potenziale nel trasformare le applicazioni cliniche. In questo studio, indaghiamo sull'efficacia di quattro tecniche nell'adattare LLM per casi d'uso clinici: preaddestramento continuo, fine-tuning istruito, NEFTune e ingegneria del prompt. Applichiamo questi metodi sui modelli Mistral 7B e Mixtral 8x7B, sfruttando un dataset di preaddestramento clinico su larga scala di 50 miliardi di token e un dataset di fine-tuning istruito di 500 milioni di token. La nostra valutazione su vari compiti clinici rivela l'impatto di ciascuna tecnica. Mentre il preaddestramento continuo oltre i 250 miliardi di token porta a miglioramenti marginali da solo, stabilisce una solida base per il fine-tuning istruito. In particolare, NEFTune, progettato principalmente per migliorare la qualità della generazione, dimostra sorprendentemente guadagni aggiuntivi sul nostro benchmark. Metodi complessi di ingegneria del prompt migliorano ulteriormente le prestazioni. Queste scoperte mostrano l'importanza di adattare le strategie di fine-tuning ed esplorare tecniche innovative per ottimizzare le prestazioni di LLM nel dominio clinico.
Affrontiamo il problema della generazione di riflessi specchianti altamente realistici e plausibili utilizzando modelli generativi basati sulla diffusione. Formuliamo questo problema come un compito di inpainting di immagini, consentendo un maggiore controllo dell'utente sulla disposizione degli specchi durante il processo di generazione. Per consentire ciò, creiamo SynMirror, un dataset su larga scala di scene sintetiche diverse con oggetti posizionati di fronte agli specchi. SynMirror contiene circa 198K campioni renderizzati da 66K oggetti 3D unici, insieme alle relative mappe di profondità, mappe normali e maschere di segmentazione per istanze, per catturare le proprietà geometriche rilevanti della scena. Utilizzando questo dataset, proponiamo un nuovo metodo di inpainting condizionato dalla profondità chiamato MirrorFusion, che genera riflessi specchianti di alta qualità geometricamente coerenti e fotorealistici dato un'immagine di input e una maschera che rappresenta la regione dello specchio. MirrorFusion supera i metodi all'avanguardia su SynMirror, come dimostrato da un'ampia analisi quantitativa e qualitativa. Per quanto ne sappiamo, siamo i primi a affrontare con successo il difficile problema della generazione controllata e fedele di riflessi di un oggetto in una scena utilizzando modelli basati sulla diffusione. SynMirror e MirrorFusion aprono nuove possibilità per l'editing di immagini e le applicazioni di realtà aumentata sia per i professionisti che per i ricercatori.
Lavori recenti in rendering inverso hanno mostrato promesse nell'utilizzo di immagini multi-vista di un oggetto per recuperare forma, albedo e materiali. Tuttavia, i componenti ripristinati spesso non riescono a renderizzare accuratamente sotto nuove condizioni di illuminazione a causa della sfida intrinseca nel separare le proprietà di albedo e materiali dalle immagini in ingresso. Per affrontare questa sfida, introduciamo MaterialFusion, un migliorato pipeline convenzionale di rendering inverso 3D che incorpora un precedente 2D sulla texture e le proprietà dei materiali. Presentiamo StableMaterial, un modello di diffusione 2D precedente che affina i dati multi-illuminati per stimare l'albedo e il materiale più probabili dalle apparenze in ingresso. Questo modello è addestrato su dati di albedo, materiale e immagini rilucide derivati da un dataset curato di circa ~12K oggetti sintetici progettati da artisti chiamato BlenderVault. Incorporiamo questo precedente di diffusione con un framework di rendering inverso in cui utilizziamo il campionamento di distillazione del punteggio (SDS) per guidare l'ottimizzazione dell'albedo e dei materiali, migliorando le prestazioni di rilucita rispetto ai lavori precedenti. Convalidiamo le prestazioni di rilucita di MaterialFusion su 4 dataset di oggetti sintetici e reali in condizioni di illuminazione diverse, mostrando che il nostro approccio assistito dalla diffusione migliora significativamente l'aspetto degli oggetti ricostruiti sotto nuove condizioni di illuminazione. Intendiamo rilasciare pubblicamente il nostro dataset BlenderVault per supportare ulteriori ricerche in questo campo.
Il rilascio di ChatGPT nel novembre 2022 ha scatenato un'esplosione di interesse nel post-training e un'avalanche di nuovi metodi di ottimizzazione delle preferenze (PO). Questi metodi affermano un'allineamento superiore in virtù di una migliore corrispondenza con le preferenze umane a coppie, spesso misurate da giudici LLM. In questo lavoro, cerchiamo di rispondere alla seguente domanda - le preferenze dei giudici LLM si traducono in progressi su altre metriche più concrete per l'allineamento, e se no, perché no? Definiamo una metrica concreta per l'allineamento e presentiamo SOS-Bench, il più grande meta-benchmark LLM standardizzato e riproducibile fino ad oggi. Troviamo che (1) i giudizi LLM non correlano con misure concrete di sicurezza, conoscenza del mondo e seguire le istruzioni; (2) i giudici LLM hanno potenti pregiudizi impliciti, dando priorità allo stile rispetto alla factualità e alla sicurezza; e (3) la fase di fine-tuning supervisionato (SFT) del post-training, e non la fase PO, ha il maggior impatto sull'allineamento, con la scalabilità dei dati e la diversità delle prompt come fattori trainanti. Il nostro codice sorgente e i risultati completi possono essere trovati su https://github.com/penfever/sos-bench.
In questo articolo, presentiamo un modulo di Trasferimento Vocale (VT) zero-shot che può essere integrato senza soluzione di continuità in un sistema di Text-to-speech (TTS) multilingue per trasferire la voce di un individuo tra lingue diverse. Il nostro modulo VT proposto include un codificatore di speaker che elabora il discorso di riferimento, uno strato di bottleneck e adattatori residui, collegati agli strati preesistenti del TTS. Confrontiamo le prestazioni di varie configurazioni di questi componenti e riportiamo il Punteggio Medio di Opinione (MOS) e la Similarità degli Speaker tra lingue. Utilizzando un unico discorso di riferimento in inglese per speaker, otteniamo un punteggio medio di similarità nel trasferimento della voce del 73% in nove lingue di destinazione. Le caratteristiche vocali contribuiscono significativamente alla costruzione e percezione dell'identità individuale. La perdita della propria voce, a causa di condizioni fisiche o neurologiche, può portare a un profondo senso di perdita, influenzando l'identità fondamentale di una persona. Come studio di caso, dimostriamo che il nostro approccio non solo può trasferire discorsi tipici, ma può anche ripristinare le voci di individui con disartria, anche quando sono disponibili solo campioni di discorsi atipici - un'utilità preziosa per coloro che non hanno mai avuto un discorso tipico o registrato la propria voce. Campioni audio tipici cross-linguistici, oltre a video che dimostrano il ripristino della voce per gli speaker disartrici, sono disponibili qui (google.github.io/tacotron/publications/zero_shot_voice_transfer).
Creare un singolo e versatile controller basato sulla fisica che possa infondere vita a personaggi interattivi in una vasta gamma di scenari rappresenta una frontiera eccitante nell'animazione dei personaggi. Un controller ideale dovrebbe supportare diverse modalità di controllo, come pochi keyframe di destinazione, istruzioni testuali e informazioni sulla scena. Mentre lavori precedenti hanno proposto modelli di controllo simulati fisicamente e consapevoli della scena, questi sistemi si sono principalmente concentrati nello sviluppare controller specializzati in un insieme ristretto di compiti e modalità di controllo. Questo lavoro presenta MaskedMimic, un nuovo approccio che formula il controllo dei personaggi basato sulla fisica come un problema generale di inpainting del movimento. La nostra intuizione chiave è addestrare un singolo modello unificato per sintetizzare movimenti da descrizioni parziali (mascherate) del movimento, come keyframe mascherati, oggetti, descrizioni testuali o qualsiasi loro combinazione. Ciò è ottenuto sfruttando i dati di tracciamento del movimento e progettando un metodo di addestramento scalabile che possa utilizzare in modo efficace diverse descrizioni del movimento per produrre animazioni coerenti. Attraverso questo processo, il nostro approccio apprende un controller basato sulla fisica che fornisce un'interfaccia di controllo intuitiva senza richiedere un noioso ingegnerizzazione del reward per tutti i comportamenti di interesse. Il controller risultante supporta una vasta gamma di modalità di controllo e consente transizioni senza soluzione di continuità tra compiti disparati. Unificando il controllo dei personaggi attraverso l'inpainting del movimento, MaskedMimic crea personaggi virtuali versatili. Questi personaggi possono adattarsi dinamicamente a scene complesse e comporre movimenti diversi su richiesta, consentendo esperienze più interattive e coinvolgenti.
Il diabete è una malattia cronica che rappresenta un significativo onere per la salute globale, e ottimizzare la gestione del diabete richiede una collaborazione multi-stakeholder. I grandi modelli linguistici (LLM) hanno mostrato promesse in vari scenari sanitari, ma la loro efficacia in una vasta gamma di compiti legati al diabete rimane da dimostrare. In questo studio, abbiamo introdotto un framework per addestrare e convalidare LLM specifici per il diabete. Abbiamo prima sviluppato un completo processo di elaborazione dei dati che include raccolta, filtraggio, ampliamento e raffinamento dei dati. Questo approccio contribuisce alla creazione di un dataset di alta qualità specifico per il diabete e diversi benchmark di valutazione completamente da zero. Sfruttando il dataset di addestramento raccolto, abbiamo perfezionato una famiglia di LLM specifici per il diabete che ha dimostrato competenza all'avanguardia nella comprensione e nell'elaborazione di vari compiti legati al diabete rispetto ad altri LLM. Inoltre, studi clinici hanno mostrato le potenziali applicazioni dei nostri modelli nella cura del diabete, inclusa la fornitura di assistenza sanitaria personalizzata, il supporto all'educazione medica e la semplificazione dei compiti clinici. In conclusione, il nostro studio ha introdotto un framework per sviluppare e valutare una famiglia di LLM specifici per il diabete, evidenziando il suo potenziale per migliorare la pratica clinica e fornire supporto personalizzato basato sui dati per il diabete quando si affrontano diversi utenti finali. Il codice è disponibile su GitHub all'indirizzo https://github.com/waltonfuture/Diabetica.
C'è un crescente interesse nell'utilizzare l'IA generativa per creare spazi 3D per le applicazioni di Realtà Virtuale (VR). Tuttavia, i modelli attuali producono ambienti artificiali, non supportando appieno compiti collaborativi che trarrebbero vantaggio dall'incorporare il contesto fisico dell'utente. Per generare ambienti che supportino la telepresenza VR, presentiamo SpaceBlender, un nuovo processo che utilizza tecniche di IA generativa per mescolare gli ambienti fisici degli utenti in spazi virtuali unificati. Questo processo trasforma le immagini 2D fornite dagli utenti in ambienti 3D ricchi di contesto attraverso un processo iterativo composto da stima della profondità, allineamento delle mesh e completamento dello spazio basato sulla diffusione guidata da priorità geometriche e prompt di testo adattivi. In uno studio preliminare tra soggetti, in cui 20 partecipanti hanno svolto un compito collaborativo di diagrammi di affinità VR in coppie, abbiamo confrontato SpaceBlender con un ambiente virtuale generico e un framework di generazione di scene all'avanguardia, valutandone la capacità di creare spazi virtuali adatti alla collaborazione. I partecipanti hanno apprezzato la maggiore familiarità e contesto forniti da SpaceBlender, ma hanno anche notato complessità negli ambienti generativi che potrebbero distogliere l'attenzione dal compito. Basandoci sul feedback dei partecipanti, proponiamo indicazioni per migliorare il processo e discutiamo il valore e il design degli spazi mescolati per scenari diversi.
Questo articolo presenta uno studio di caso sui compiti di codifica eseguiti dai più recenti modelli di ragionamento di OpenAI, ovvero o1-preview e o1-mini, confrontandoli con altri modelli all'avanguardia. I modelli o1 forniscono risultati all'avanguardia per WebApp1K, un benchmark a singolo compito. A tal fine, introduciamo WebApp1K-Duo, un benchmark più difficile che raddoppia il numero di compiti e casi di test. Il nuovo benchmark porta le performance dei modelli o1 a declinare significativamente, rimanendo indietro rispetto a Claude 3.5. Inoltre, essi falliscono costantemente di fronte a casi di test atipici ma corretti, una trappola che i modelli non di ragionamento evitano occasionalmente. Ipotizziamo che la variabilità delle performance sia dovuta alla comprensione delle istruzioni. In particolare, il meccanismo di ragionamento migliora le performance quando tutte le aspettative sono catturate, ma aumenta gli errori quando le aspettative chiave vengono trascurate, potenzialmente influenzate dalle lunghezze di input. Pertanto, sosteniamo che il successo della codifica dei modelli di ragionamento dipende dal modello base di alta qualità e dalla trasformazione di sequenza a sequenza per garantire un'attenta adesione alle istruzioni.
I suoni del linguaggio trasmettono una grande quantità di informazioni sugli scenari, generando una varietà di effetti che vanno dalla riverberazione ai suoni ambientali aggiuntivi. In questo articolo, manipoliamo il linguaggio di input in modo che sembri registrato all'interno di uno scenario diverso, dato un esempio condizionale audio-visivo registrato da tale scenario. Il nostro modello apprende tramite auto-supervisione, sfruttando il fatto che i video naturali contengono eventi sonori e texture ricorrenti. Estraiamo un frammento audio da un video e applichiamo un miglioramento del linguaggio. Successivamente addestriamo un modello di diffusione latente per recuperare il linguaggio originale, utilizzando un altro frammento audio-visivo preso da un'altra parte del video come suggerimento condizionale. Attraverso questo processo, il modello impara a trasferire le proprietà sonore dell'esempio condizionale al linguaggio di input. Dimostriamo che il nostro modello può essere addestrato con successo utilizzando video non etichettati e non elaborati, e che un segnale visivo aggiuntivo può migliorare le sue capacità di previsione del suono. Si prega di visitare la pagina web del nostro progetto per i risultati video: https://tinglok.netlify.app/files/avsoundscape/