Articoli di ricerca IA selezionati quotidianamente con traduzioni
Man mano che i Modelli Linguistici di Grandi Dimensioni (LLM) sono diventati più avanzati, hanno superato le nostre capacità di valutarne accuratamente la qualità. Non solo è difficile trovare dati per sondare adeguatamente proprietà specifiche del modello, ma valutare la correttezza della generazione libera di un modello rappresenta di per sé una sfida. Per affrontare questo problema, molte valutazioni si basano ora sull'uso degli stessi LLM come giudici per assegnare un punteggio alla qualità degli output prodotti da altri LLM. Le valutazioni utilizzano più comunemente un singolo modello di grandi dimensioni come GPT-4. Sebbene questo metodo abbia guadagnato popolarità, è costoso, è stato dimostrato che introduce un bias intramodello, e in questo lavoro scopriamo che i modelli molto grandi sono spesso non necessari. Proponiamo invece di valutare i modelli utilizzando un Panel di Valutatori LLM (PoLL). In tre diversi contesti di giudizio e attraverso sei diversi dataset, scopriamo che l'uso di un PoLL composto da un numero maggiore di modelli più piccoli supera le prestazioni di un singolo giudice di grandi dimensioni, mostra meno bias intramodello grazie alla sua composizione di famiglie di modelli disgiunte, e lo fa con un costo oltre sette volte inferiore.
La decodifica speculativa ha dimostrato la sua efficacia nell'accelerare l'inferenza dei modelli linguistici di grandi dimensioni mantenendo una distribuzione di campionamento coerente. Tuttavia, l'approccio convenzionale di addestrare un modello di bozza separato per ottenere un tasso di accettazione dei token soddisfacente può risultare costoso. Traendo ispirazione dall'early exiting, proponiamo un nuovo framework di decodifica auto-speculativa chiamato Kangaroo, che utilizza una sottorete fissa e poco profonda come modello di bozza auto-generato, con i rimanenti strati che fungono da modello target più grande. Addestriamo un modulo adattatore leggero ed efficiente sulla sottorete per colmare il divario tra la capacità rappresentativa della sottorete e quella del modello completo. È importante notare che la latenza di inferenza del modello di bozza auto-generato potrebbe non essere più trascurabile rispetto al modello grande, rendendo necessarie strategie per aumentare il tasso di accettazione dei token riducendo al minimo i passaggi di bozza del modello piccolo. Per affrontare questa sfida, introduciamo un ulteriore meccanismo di early exit per generare i token di bozza. Nello specifico, interrompiamo la previsione successiva del modello piccolo durante la fase di bozza una volta che il livello di confidenza per il token corrente scende al di sotto di una certa soglia. Esperimenti estensivi su Spec-Bench dimostrano l'efficacia di Kangaroo. Sotto verifica a sequenza singola, Kangaroo raggiunge accelerazioni fino a 1,68 volte su Spec-Bench, superando Medusa-1 con l'88,7% in meno di parametri aggiuntivi (67M rispetto a 591M). Il codice di Kangaroo è disponibile all'indirizzo https://github.com/Equationliu/Kangaroo.
L'eccellenza in una vasta gamma di applicazioni mediche rappresenta una sfida considerevole per l'IA, richiedendo ragionamenti avanzati, accesso a conoscenze mediche aggiornate e comprensione di dati multimodali complessi. I modelli Gemini, con forti capacità generali nel ragionamento multimodale e a contesto lungo, offrono possibilità entusiasmanti in medicina. Basandoci su questi punti di forza fondamentali di Gemini, introduciamo Med-Gemini, una famiglia di modelli multimodali altamente capaci specializzati in medicina, in grado di utilizzare in modo fluido la ricerca web e di essere efficientemente adattati a nuove modalità tramite encoder personalizzati. Valutiamo Med-Gemini su 14 benchmark medici, stabilendo nuove prestazioni state-of-the-art (SoTA) su 10 di essi e superando la famiglia di modelli GPT-4 su ogni benchmark dove un confronto diretto è possibile, spesso con un ampio margine. Sul popolare benchmark MedQA (USMLE), il nostro modello Med-Gemini più performante raggiunge una precisione SoTA del 91,1%, utilizzando una nuova strategia di ricerca guidata dall'incertezza. Su 7 benchmark multimodali, tra cui NEJM Image Challenges e MMMU (salute e medicina), Med-Gemini migliora rispetto a GPT-4V con un margine relativo medio del 44,5%. Dimostriamo l'efficacia delle capacità a contesto lungo di Med-Gemini attraverso prestazioni SoTA in un'attività di recupero "ago in un pagliaio" da lunghi record sanitari anonimizzati e nella risposta a domande basate su video medici, superando metodi specifici precedenti utilizzando solo l'apprendimento in contesto. Infine, le prestazioni di Med-Gemini suggeriscono un'utilità nel mondo reale superando esperti umani in compiti come la sintesi di testi medici, insieme a dimostrazioni di un potenziale promettente per il dialogo multimodale in medicina, la ricerca medica e l'educazione. Nel complesso, i nostri risultati offrono prove convincenti del potenziale di Med-Gemini, sebbene ulteriori valutazioni rigorose saranno cruciali prima del dispiegamento nel mondo reale in questo dominio critico per la sicurezza.
Nonostante i progressi nei Modelli Linguistici di Grande Scala (LLMs) e nei Modelli Multimodali di Grande Scala (LMMs), la loro integrazione in agenti incarnati basati sul linguaggio e simili agli umani rimane incompleta, ostacolando l'esecuzione di compiti complessi nella vita reale in ambienti fisici. Le integrazioni esistenti spesso presentano una limitata apertura del codice sorgente, rendendo difficile il progresso collettivo in questo campo. Introduciamo LEGENT, una piattaforma aperta e scalabile per lo sviluppo di agenti incarnati utilizzando LLMs e LMMs. LEGENT offre un approccio duale: un ambiente 3D ricco e interattivo con agenti comunicativi e azionabili, abbinato a un'interfaccia user-friendly, e una sofisticata pipeline di generazione dati che utilizza algoritmi avanzati per sfruttare la supervisione da mondi simulati su larga scala. Nei nostri esperimenti, un modello embrionale visione-linguaggio-azione addestrato su dati generati da LEGENT supera GPT-4V in compiti incarnati, dimostrando promettenti capacità di generalizzazione.
La progettazione grafica è fondamentale per varie applicazioni, inclusa la produzione cinematografica e il design di giochi. Per creare una scena di alta qualità, i designer di solito devono trascorrere ore in software come Blender, in cui potrebbero dover intercalare e ripetere operazioni, come la connessione di nodi di materiale, centinaia di volte. Inoltre, obiettivi di design leggermente diversi possono richiedere sequenze completamente differenti, rendendo difficile l'automazione. In questo articolo, proponiamo un sistema che sfrutta i Modelli Visione-Linguaggio (VLMs), come GPT-4V, per esplorare in modo intelligente lo spazio delle azioni di design e arrivare a una soluzione che possa soddisfare l'intento dell'utente. Nello specifico, progettiamo un generatore di modifiche basato sulla visione e un valutatore di stato che lavorano insieme per trovare la sequenza corretta di azioni per raggiungere l'obiettivo. Ispirati dal ruolo dell'immaginazione visiva nel processo di design umano, integriamo le capacità di ragionamento visivo dei VLMs con immagini di riferimento "immaginate" da modelli di generazione di immagini, fornendo un ancoraggio visivo a descrizioni linguistiche astratte. In questo articolo, forniamo prove empiriche che suggeriscono come il nostro sistema possa produrre sequenze di editing in Blender semplici ma noiose per compiti come la modifica di materiali procedurali da testo e/o immagini di riferimento, nonché l'adeguamento delle configurazioni di illuminazione per rendering di prodotti in scene complesse.
Oltre al ridimensionamento dei modelli di base con più dati o parametri, gli adattatori fine-tuned offrono un metodo alternativo per generare immagini personalizzate ad alta fedeltà a costi ridotti. Di conseguenza, gli adattatori sono stati ampiamente adottati dalle comunità open-source, accumulando un database di oltre 100K adattatori, la maggior parte dei quali altamente personalizzati con descrizioni insufficienti. Questo articolo esplora il problema di abbinare il prompt a un insieme di adattatori rilevanti, basandosi su lavori recenti che evidenziano i guadagni di prestazioni ottenuti componendo adattatori. Introduciamo Stylus, che seleziona e compone automaticamente adattatori specifici per il task in base alle parole chiave del prompt. Stylus delinea un approccio in tre fasi che prima riassume gli adattatori con descrizioni e embedding migliorati, recupera gli adattatori rilevanti e poi assembla ulteriormente gli adattatori in base alle parole chiave del prompt, verificando quanto bene si adattano al prompt. Per valutare Stylus, abbiamo sviluppato StylusDocs, un dataset curato che include 75K adattatori con embedding pre-calcolati. Nella nostra valutazione sui checkpoint più popolari di Stable Diffusion, Stylus raggiunge una maggiore efficienza Pareto CLIP-FID ed è preferito due volte di più, sia da valutatori umani che da modelli multimodali, rispetto al modello di base. Visita stylus-diffusion.github.io per maggiori informazioni.
I sistemi robotici autonomi in grado di apprendere nuove attività di manipolazione sono destinati a trasformare settori che vanno dalla manifattura all'automazione dei servizi. Tuttavia, i metodi moderni (ad esempio, VIP e R3M) devono ancora affrontare ostacoli significativi, in particolare il divario di dominio tra le diverse incarnazioni robotiche e la scarsità di esecuzioni riuscite di compiti all'interno di specifici spazi d'azione, che portano a rappresentazioni dei compiti disallineate e ambigue. Introduciamo Ag2Manip (Rappresentazioni Agent-Agnostic per la Manipolazione), un framework progettato per superare queste sfide attraverso due innovazioni chiave: una nuova rappresentazione visiva agent-agnostic derivata da video di manipolazione umana, in cui i dettagli delle incarnazioni sono oscurati per migliorare la generalizzabilità; e una rappresentazione d'azione agent-agnostic che astrae la cinematica di un robot in un proxy universale, enfatizzando le interazioni cruciali tra l'end-effector e l'oggetto. La validazione empirica di Ag2Manip su benchmark simulati come FrankaKitchen, ManiSkill e PartManip mostra un aumento del 325% nelle prestazioni, ottenuto senza dimostrazioni specifiche per dominio. Studi di ablazione sottolineano il contributo essenziale delle rappresentazioni visive e d'azione a questo successo. Estendendo le nostre valutazioni al mondo reale, Ag2Manip migliora significativamente i tassi di successo dell'apprendimento per imitazione dal 50% al 77,5%, dimostrando la sua efficacia e generalizzabilità sia in ambienti simulati che fisici.
Il ruolo significativo dell'abbigliamento nell'aspetto umano sottolinea l'importanza della digitalizzazione degli indumenti per la creazione di umani digitali. I recenti progressi nella creazione di contenuti 3D sono fondamentali per la creazione di umani digitali. Tuttavia, la generazione di indumenti basata su testo è ancora agli inizi. Introduciamo un framework di generazione di indumenti 3D guidato da testo, DressCode, che mira a democratizzare il design per i principianti e offre un enorme potenziale nel design della moda, nel virtual try-on e nella creazione di umani digitali. Per il nostro framework, introduciamo prima SewingGPT, un'architettura basata su GPT che integra l'attenzione incrociata con l'embedding condizionato da testo per generare modelli di cucitura con guida testuale. Abbiamo anche adattato un Stable Diffusion pre-addestrato per la generazione di texture PBR basate su tessere di alta qualità. Sfruttando un modello linguistico di grandi dimensioni, il nostro framework genera indumenti adatti alla computer grafica attraverso l'interazione in linguaggio naturale. Il nostro metodo facilita anche il completamento dei modelli e la modifica delle texture, semplificando il processo per i designer grazie a un'interazione user-friendly. Con valutazioni complete e confronti con altri metodi all'avanguardia, il nostro metodo dimostra la migliore qualità e allineamento con i prompt di input. Studi sugli utenti convalidano ulteriormente i nostri risultati di rendering di alta qualità, evidenziando la sua utilità pratica e il potenziale in contesti di produzione.