Articoli di ricerca IA selezionati quotidianamente con traduzioni
La modifica delle immagini comporta una varietà di compiti complessi e richiede tecniche di manipolazione efficienti e precise. In questo articolo, presentiamo MagicQuill, un sistema integrato di modifica delle immagini che consente la rapida realizzazione di idee creative. Il nostro sistema presenta un'interfaccia snella ma funzionalmente robusta, che permette l'articolazione delle operazioni di modifica (ad esempio, l'inserimento di elementi, la cancellazione di oggetti, l'alterazione del colore) con un input minimo. Queste interazioni sono monitorate da un modello di linguaggio multimodale di grandi dimensioni (MLLM) per anticipare le intenzioni di modifica in tempo reale, evitando la necessità di inserire esplicitamente un prompt. Infine, applichiamo una potente priorità di diffusione, potenziata da un modulo plug-in a due rami appreso con cura, per elaborare le richieste di modifica con un controllo preciso. I risultati sperimentali dimostrano l'efficacia di MagicQuill nel realizzare modifiche di immagini di alta qualità. Visita https://magic-quill.github.io per provare il nostro sistema.
Questo lavoro esplora l'espansione delle capacità dei grandi modelli linguistici (LLM) preaddestrati su testo per generare mesh 3D all'interno di un modello unificato. Ciò offre importanti vantaggi nel (1) sfruttare la conoscenza spaziale già incorporata nei LLM, derivata da fonti testuali come tutorial 3D, e nel (2) consentire la generazione conversazionale 3D e la comprensione delle mesh. Una sfida principale è la tokenizzazione efficace dei dati delle mesh 3D in token discreti che i LLM possono elaborare in modo fluido. Per affrontare questo problema, introduciamo LLaMA-Mesh, un approccio innovativo che rappresenta le coordinate dei vertici e le definizioni dei poligoni delle mesh 3D come testo semplice, consentendo un'integrazione diretta con i LLM senza espandere il vocabolario. Costruiamo un dataset di fine-tuning supervisionato (SFT) che consente ai LLM preaddestrati di (1) generare mesh 3D da prompt di testo, (2) produrre output di testo e mesh 3D intercalati come richiesto e (3) comprendere e interpretare le mesh 3D. Il nostro lavoro è il primo a dimostrare che i LLM possono essere affinati per acquisire conoscenze spaziali complesse per la generazione di mesh 3D in un formato basato su testo, unificando efficacemente le modalità 3D e testuali. LLaMA-Mesh raggiunge una qualità di generazione di mesh all'altezza dei modelli addestrati da zero, mantenendo nel contempo elevate prestazioni nella generazione di testo.
Man mano che i modelli linguistici crescono sempre di più, crescono anche i loro vocabolari. Ciò ha spostato in modo sproporzionato l'impronta di memoria dei LLM durante l'addestramento su un singolo strato: l'entropia incrociata nel calcolo della perdita. L'entropia incrociata costruisce una matrice di logit con voci per ciascuna coppia di token di input e elementi del vocabolario e, per modelli piccoli, consuma un ordine di grandezza di memoria maggiore rispetto al resto del LLM combinato. Proponiamo Cut Cross-Entropy (CCE), un metodo che calcola la perdita di entropia incrociata senza materializzare i logit per tutti i token nella memoria globale. Piuttosto, CCE calcola solo il logit per il token corretto e valuta il log-sum-exp su tutti i logit al volo. Implementiamo un kernel personalizzato che esegue le moltiplicazioni delle matrici e la riduzione del log-sum-exp sul vocabolario nella memoria flash, rendendo trascurabile il consumo di memoria globale per il calcolo dell'entropia incrociata. Ciò ha un effetto drammatico. Prendendo come esempio il modello Gemma 2 (2B), CCE riduce l'impronta di memoria del calcolo della perdita da 24 GB a 1 MB e il consumo di memoria totale durante il tempo di addestramento della testa del classificatore da 28 GB a 1 GB. Per migliorare il throughput di CCE, sfruttiamo la sparità intrinseca del softmax e proponiamo di saltare gli elementi del calcolo del gradiente che hanno un contributo trascurabile (cioè al di sotto della precisione numerica) al gradiente. Gli esperimenti dimostrano che la drastica riduzione del consumo di memoria è realizzata senza sacrificare la velocità di addestramento o la convergenza.
I Large Language Models (LLM) promettono di rivoluzionare i sistemi clinici attuali per le loro capacità superiori nelle attività di elaborazione del testo medico e negli esami di licenza medica. Nel frattempo, modelli di ML tradizionali come SVM e XGBoost sono ancora principalmente adottati nelle attività di previsione clinica. Una domanda emergente è: possono i LLM battere i modelli di ML tradizionali nella previsione clinica? Pertanto, abbiamo sviluppato un nuovo benchmark, ClinicalBench, per studiare in modo esaustivo le capacità di modellazione predittiva clinica sia dei LLM generici che di quelli medici e confrontarli con i modelli di ML tradizionali. ClinicalBench include tre comuni attività di previsione clinica, due basi di dati, 14 LLM generici, 8 LLM medici e 11 modelli di ML tradizionali. Attraverso un'ampia indagine empirica, scopriamo che sia i LLM generici che quelli medici, anche con diverse scale di modello, strategie di prompt diverse o di fine-tuning, non riescono ancora a battere i modelli di ML tradizionali nella previsione clinica, mettendo in luce le loro potenziali carenze nel ragionamento e nella presa di decisioni cliniche. Invitiamo alla cautela quando i professionisti adottano i LLM nelle applicazioni cliniche. ClinicalBench può essere utilizzato per colmare il divario tra lo sviluppo dei LLM per la sanità e la pratica clinica reale.
Le registrazioni video delle attività degli utenti, in particolare le registrazioni del desktop, costituiscono una ricca fonte di dati per comprendere i comportamenti degli utenti e automatizzare i processi. Tuttavia, nonostante i progressi nei Modelli Visione-Linguaggio (VLM) e il loro crescente utilizzo nell'analisi video, l'estrazione delle azioni degli utenti dalle registrazioni del desktop rimane un'area poco esplorata. Questo articolo affronta questa lacuna proponendo due nuovi metodi basati su VLM per l'estrazione delle azioni degli utenti: l'Approccio Diretto Basato sui Frame (DF), che inserisce frame campionati direttamente nei VLM, e l'Approccio Differenziale Basato sui Frame (DiffF), che incorpora differenze di frame esplicite rilevate tramite tecniche di computer vision. Valutiamo questi metodi utilizzando un dataset di base autogestito e un benchmark avanzato adattato da lavori precedenti. I nostri risultati mostrano che l'approccio DF raggiunge un'accuratezza del 70% all'80% nell'identificare le azioni degli utenti, con le sequenze di azioni estratte che possono essere riprodotte tramite Automazione dei Processi Robotici. Riscontriamo che, sebbene i VLM mostrino potenziale, l'incorporazione di cambiamenti UI espliciti può degradare le prestazioni, rendendo l'approccio DF più affidabile. Questo lavoro rappresenta la prima applicazione dei VLM per l'estrazione delle sequenze di azioni degli utenti dalle registrazioni del desktop, contribuendo con nuovi metodi, benchmark e spunti per la ricerca futura.
Sebbene i modelli di diffusione possano generare campioni di qualità eccezionalmente elevata, sono intrinsecamente limitati dal loro costoso procedimento di campionamento iterativo. I modelli di coerenza (CM) sono emersi di recente come un promettente metodo di distillazione dei modelli di diffusione, riducendo il costo del campionamento generando campioni ad alta fedeltà in poche iterazioni. La distillazione del modello di coerenza mira a risolvere l'equazione differenziale ordinaria (ODE) del flusso di probabilità definita da un modello di diffusione esistente. I CM non sono direttamente addestrati per minimizzare l'errore rispetto a un risolutore di ODE, ma utilizzano un obiettivo più facilmente computabile. Come metodo per studiare quanto efficacemente i CM risolvono l'ODE del flusso di probabilità e l'effetto che eventuali errori indotti hanno sulla qualità dei campioni generati, introduciamo i CM diretti, che minimizzano direttamente questo errore. In modo intrigante, scopriamo che i CM diretti riducono l'errore di risoluzione dell'ODE rispetto ai CM, ma comportano anche una qualità dei campioni significativamente peggiore, mettendo in discussione il motivo per cui esattamente i CM funzionano bene in primo luogo. Il codice completo è disponibile su: https://github.com/layer6ai-labs/direct-cms.
La spinta verso l'automatizzazione delle operazioni delle reti cellulari è cresciuta con l'aumentare della complessità di questi sistemi. Nonostante i progressi, l'autonomia completa attualmente rimane fuori dalla portata a causa della dipendenza dall'intervento umano per modellare i comportamenti della rete e definire le politiche per soddisfare i requisiti prefissati. I "Network Digital Twins" (NDT) hanno mostrato promesse nel migliorare l'intelligenza di rete, ma l'implementazione di successo di questa tecnologia è vincolata da architetture specifiche per casi d'uso, limitando il suo ruolo nell'avanzamento dell'autonomia di rete. È necessaria un'intelligenza di rete più capace, o "cervello delle telecomunicazioni", per consentire una gestione autonoma e senza soluzione di continuità delle reti cellulari. I "Large Language Models" (LLM) sono emersi come potenziali abilitatori per questa visione, ma affrontano sfide nella modellazione di rete, in particolare nel ragionamento e nella gestione di diversi tipi di dati. Per affrontare queste lacune, presentiamo Hermes, una catena di agenti LLM che utilizza "blueprints" per costruire istanze di NDT attraverso passaggi logici strutturati e spiegabili. Hermes consente la modellazione automatica, affidabile e accurata della rete di diversi casi d'uso e configurazioni, segnando così un progresso verso operazioni di rete completamente autonome.