Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il software è uno degli strumenti più potenti a disposizione dell'umanità; permette a un programmatore esperto di interagire con il mondo in modi complessi e profondi. Allo stesso tempo, grazie ai progressi nei modelli linguistici di grandi dimensioni (LLM), si è assistito a un rapido sviluppo di agenti di intelligenza artificiale che interagiscono con e influenzano i loro ambienti circostanti. In questo articolo, presentiamo OpenDevin, una piattaforma per lo sviluppo di agenti di IA potenti e flessibili che interagiscono con il mondo in modi simili a quelli di uno sviluppatore umano: scrivendo codice, interagendo con una riga di comando e navigando sul web. Descriviamo come la piattaforma consenta l'implementazione di nuovi agenti, l'interazione sicura con ambienti sandbox per l'esecuzione del codice, la coordinazione tra più agenti e l'integrazione di benchmark di valutazione. Sulla base dei benchmark attualmente incorporati, eseguiamo una valutazione degli agenti su 15 compiti impegnativi, tra cui ingegneria del software (ad esempio, SWE-Bench) e navigazione web (ad esempio, WebArena), tra gli altri. Rilasciato sotto la licenza permissiva MIT, OpenDevin è un progetto comunitario che coinvolge accademia e industria con oltre 1.3K contributi da più di 160 collaboratori e continuerà a migliorare in futuro.
I modelli di linguaggio visivo (VLMs) hanno fatto rapidi progressi, trainati dal successo dei grandi modelli linguistici (LLMs). Mentre le architetture dei modelli e le infrastrutture di addestramento avanzano rapidamente, la cura dei dati rimane un ambito poco esplorato. Quando la quantità e la qualità dei dati diventano un collo di bottiglia, i lavori esistenti si limitano a raccogliere direttamente più dati grezzi da Internet, senza garanzia di qualità, oppure distillano da modelli commerciali a scatola chiusa (ad esempio, GPT-4V / Gemini), limitando così le prestazioni a quelle del modello di partenza. In questo lavoro, introduciamo un approccio innovativo che include un passo di auto-aumento e un passo di aumento specializzato per migliorare iterativamente la qualità dei dati e le prestazioni del modello. Nel passo di auto-aumento, un VLM ricaptiona i propri dati di pre-addestramento per migliorarne la qualità, per poi riaddestrare da zero utilizzando questo dataset raffinato, migliorando così le prestazioni del modello. Questo processo può iterare per diversi cicli. Una volta che l'auto-aumento raggiunge un punto di saturazione, impieghiamo diversi VLMs specializzati, affinati a partire dal VLM auto-aumentato, con competenze specifiche per dominio, per infondere ulteriormente conoscenze specialistiche nel VLM generalista attraverso ricaptioning e riaddestramento orientati al compito. Con l'addestramento combinato di auto-aumento e aumento specializzato, introduciamo VILA^2 (VILA-aumentato-VILA), una famiglia di VLMs che migliora costantemente l'accuratezza su un'ampia gamma di task rispetto allo stato dell'arte precedente e raggiunge nuovi risultati all'avanguardia nella classifica MMMU tra i modelli open-source.
L'animazione di immagini umane consiste nella generazione di video a partire da una foto di un personaggio, consentendo il controllo da parte dell'utente e aprendo nuove possibilità per la produzione di video e film. Sebbene i metodi recenti producano risultati impressionanti utilizzando dati di addestramento di alta qualità, l'inaccessibilità di questi dataset ostacola un benchmarking equo e trasparente. Inoltre, questi approcci privilegiano il movimento umano in 2D e trascurano l'importanza dei movimenti della telecamera nei video, portando a un controllo limitato e a una generazione di video instabile. Per chiarire i dati di addestramento, presentiamo HumanVid, il primo dataset su larga scala e di alta qualità specificamente progettato per l'animazione di immagini umane, che combina dati reali elaborati e dati sintetici. Per i dati reali, abbiamo raccolto una vasta collezione di video reali liberi da diritti d'autore da internet. Attraverso una strategia di filtraggio basata su regole accuratamente progettata, garantiamo l'inclusione di video di alta qualità, ottenendo una raccolta di 20K video incentrati sull'uomo in risoluzione 1080P. L'annotazione del movimento umano e della telecamera è stata realizzata utilizzando un estimatore di pose 2D e un metodo basato su SLAM. Per i dati sintetici, abbiamo raccolto 2.300 risorse di avatar 3D libere da diritti d'autore per ampliare le risorse 3D disponibili. In particolare, introduciamo un metodo di generazione della traiettoria della telecamera basato su regole, che consente alla pipeline sintetica di incorporare annotazioni di movimento della telecamera diverse e precise, difficilmente riscontrabili nei dati reali. Per verificare l'efficacia di HumanVid, abbiamo stabilito un modello di base denominato CamAnimate, abbreviazione di Camera-controllable Human Animation, che considera sia i movimenti umani che quelli della telecamera come condizioni. Attraverso un'ampia sperimentazione, dimostriamo che un semplice addestramento di base sul nostro HumanVid raggiunge prestazioni all'avanguardia nel controllo sia della posa umana che dei movimenti della telecamera, stabilendo un nuovo benchmark. Codice e dati saranno pubblicamente disponibili all'indirizzo https://github.com/zhenzhiwang/HumanVid/.
Nonostante le avanzate capacità intellettive dei grandi modelli linguistici (LLM) in varie applicazioni, essi continuano a presentare significative esigenze computazionali e di archiviazione. La Distillazione della Conoscenza (KD) è emersa come una strategia efficace per migliorare le prestazioni di un LLM più piccolo (cioè, il modello studente) trasferendo conoscenza da un LLM ad alte prestazioni (cioè, il modello insegnante). Le tecniche prevalenti nella distillazione degli LLM utilizzano tipicamente un'API di modello black-box per generare dataset pre-addestrati e allineati di alta qualità, o impiegano la distillazione white-box modificando la funzione di perdita per trasferire meglio la conoscenza dal LLM insegnante. Tuttavia, questi metodi ignorano le differenze di conoscenza tra i LLM studente e insegnante attraverso i domini. Ciò si traduce in un'eccessiva focalizzazione sui domini con gap di prestazioni minimi e un'attenzione insufficiente ai domini con gap ampi, riducendo le prestazioni complessive. In questo articolo, introduciamo un nuovo framework di distillazione LLM chiamato DDK, che regola dinamicamente la composizione del dataset di distillazione in modo fluido in base alle differenze di prestazioni tra i modelli insegnante e studente, rendendo il processo di distillazione più stabile ed efficace. Valutazioni estensive dimostrano che DDK migliora significativamente le prestazioni dei modelli studente, superando di gran lunga sia i baseline pre-addestrati in modo continuativo che i metodi esistenti di distillazione della conoscenza.
Il rapido progresso dei modelli linguistici (LM) richiede un allineamento robusto con i valori diversificati degli utenti. Tuttavia, gli attuali approcci di ottimizzazione delle preferenze spesso non riescono a cogliere la pluralità delle opinioni degli utenti, rafforzando invece i punti di vista maggioritari e marginalizzando le prospettive minoritarie. Introduciamo PERSONA, un banco di prova riproducibile progettato per valutare e migliorare l'allineamento pluralistico dei LM. Generiamo proceduralmente profili utente diversificati dai dati del censimento statunitense, ottenendo 1.586 persone sintetiche con attributi demografici e idiosincratici variati. Successivamente, generiamo un dataset di valutazione su larga scala contenente 3.868 prompt e 317.200 coppie di feedback ottenute dalle nostre persone sintetiche. Utilizzando questo dataset, valutiamo sistematicamente le capacità dei LM nel rappresentare utenti diversi, verificate attraverso giudici umani, e stabiliamo sia un benchmark, PERSONA Bench, per approcci di allineamento pluralistico, sia un dataset esteso per creare nuovi benchmark futuri. Il dataset completo e i benchmark sono disponibili qui: https://www.synthlabs.ai/research/persona.
La capacità più fondamentale dei metodi moderni di intelligenza artificiale, come i Large Language Models (LLM), è quella di prevedere il token successivo in una lunga sequenza di token, nota come "modellazione di sequenza". Sebbene il modello Transformers rappresenti l'approccio attualmente dominante per la modellazione di sequenza, il suo costo computazionale quadratico rispetto alla lunghezza della sequenza costituisce uno svantaggio significativo. I modelli a spazio di stato (SSM) offrono un'alternativa promettente grazie alla loro efficienza lineare nel decoding e all'elevata parallelizzabilità durante l'addestramento. Tuttavia, gli SSM esistenti spesso si basano su progetti di ricorrenza lineare apparentemente ad hoc. In questo lavoro, esploriamo la progettazione degli SSM attraverso la lente dell'apprendimento online, concettualizzando gli SSM come meta-moduli per specifici problemi di apprendimento online. Questo approccio collega la progettazione degli SSM alla formulazione di obiettivi precisi di apprendimento online, con regole di transizione di stato derivate dall'ottimizzazione di tali obiettivi. Sulla base di questa intuizione, introduciamo una nuova architettura di SSM profonda basata sull'aggiornamento implicito per ottimizzare un obiettivo di regressione online. I nostri risultati sperimentali dimostrano che i nostri modelli superano gli SSM all'avanguardia, incluso il modello Mamba, nei benchmark standard di modellazione di sequenza e nei task di modellazione del linguaggio.
Presentiamo Stable Video 4D (SV4D), un modello di diffusione latente per video dedicato alla generazione di contenuti 3D dinamici con coerenza multi-frame e multi-view. A differenza dei metodi precedenti che si basano su modelli generativi addestrati separatamente per la generazione di video e la sintesi di nuove visualizzazioni, progettiamo un modello di diffusione unificato per generare video con nuove visualizzazioni di oggetti 3D dinamici. Nello specifico, dato un video di riferimento monoculare, SV4D genera nuove visualizzazioni per ogni fotogramma del video che sono temporalmente coerenti. Utilizziamo quindi i video con nuove visualizzazioni generati per ottimizzare in modo efficiente una rappresentazione implicita 4D (NeRF dinamico), senza la necessità dell'ingombrante ottimizzazione basata su SDS utilizzata nella maggior parte dei lavori precedenti. Per addestrare il nostro modello unificato di generazione di video con nuove visualizzazioni, abbiamo curato un dataset di oggetti 3D dinamici a partire dal dataset esistente Objaverse. I risultati sperimentali estesi su più dataset e gli studi sugli utenti dimostrano che SV4D raggiunge prestazioni all'avanguardia nella sintesi di video con nuove visualizzazioni e nella generazione 4D rispetto ai lavori precedenti.
Possiamo dotare i robot visuomotori di capacità di generalizzazione per operare in scenari aperti e diversificati? In questo articolo, proponiamo Maniwhere, un framework generalizzabile progettato per l'apprendimento per rinforzo visivo, che consente alle politiche del robot addestrate di generalizzare attraverso una combinazione di diversi tipi di disturbi visivi. Nello specifico, introduciamo un approccio di apprendimento della rappresentazione multi-vista fuso con il modulo Spatial Transformer Network (STN) per catturare informazioni semantiche condivise e corrispondenze tra diversi punti di vista. Inoltre, utilizziamo un approccio di randomizzazione e aumento basato su curriculum per stabilizzare il processo di addestramento RL e rafforzare la capacità di generalizzazione visiva. Per dimostrare l'efficacia di Maniwhere, progettiamo meticolosamente 8 task che comprendono oggetti articolati, manipolazione bi-manuale e compiti di manipolazione con mano destra, dimostrando le forti capacità di generalizzazione visiva e di trasferimento sim2real di Maniwhere su 3 piattaforme hardware. I nostri esperimenti mostrano che Maniwhere supera significativamente i metodi state-of-the-art esistenti. I video sono disponibili all'indirizzo https://gemcollector.github.io/maniwhere/.
Utenti diversi trovano desiderabili immagini diverse generate per lo stesso prompt. Ciò dà origine alla generazione di immagini personalizzata, che implica la creazione di immagini allineate con le preferenze visive di un individuo. I modelli generativi attuali, tuttavia, non sono personalizzati, poiché sono ottimizzati per produrre risultati che piacciono a un pubblico ampio. Utilizzarli per generare immagini allineate con i singoli utenti si basa su un'ingegneria manuale iterativa dei prompt da parte dell'utente, che è inefficiente e indesiderabile. Proponiamo di personalizzare il processo di generazione delle immagini catturando prima le preferenze generiche dell'utente in un processo una tantum, invitandoli a commentare una piccola selezione di immagini, spiegando perché apprezzano o meno ciascuna. Sulla base di questi commenti, deduciamo gli attributi visivi strutturati che l'utente apprezza o meno, ovvero le sue preferenze visive, utilizzando un modello linguistico di grandi dimensioni. Questi attributi vengono utilizzati per guidare un modello di testo-immagine verso la produzione di immagini sintonizzate sulle preferenze visive del singolo utente. Attraverso una serie di studi sugli utenti e valutazioni guidate da modelli linguistici di grandi dimensioni, dimostriamo che il metodo proposto produce generazioni ben allineate con le preferenze visive dei singoli utenti.
I formati a bassa precisione come float8 sono stati introdotti nell'hardware accelerato per il machine learning per migliorare l'efficienza computazionale nell'addestramento e nell'inferenza di modelli linguistici di grandi dimensioni. Tuttavia, l'adozione da parte della comunità ML è stata rallentata dalle tecniche complesse e talvolta fragili necessarie per raggiungere l'accuratezza dell'addestramento a precisione più elevata. In questo lavoro, presentiamo Scalify, un paradigma di propagazione della scala end-to-end per grafi computazionali, che generalizza e formalizza i metodi esistenti di ridimensionamento dei tensori. I risultati sperimentali mostrano che Scalify supporta nativamente la moltiplicazione di matrici e la rappresentazione dei gradienti in float8, nonché la memorizzazione dello stato dell'ottimizzatore in float16. La nostra implementazione di Scalify in JAX è open-source e disponibile all'indirizzo https://github.com/graphcore-research/jax-scalify.
Molte attività complesse come la gestione dei sistemi di traffico, delle reti elettriche o delle catene di approvvigionamento implicano processi decisionali articolati che devono bilanciare molteplici obiettivi conflittuali e coordinare le azioni di vari decisori indipendenti (DM). Una prospettiva per formalizzare e affrontare tali compiti è l'apprendimento per rinforzo multi-obiettivo e multi-agente (MOMARL). Il MOMARL estende l'apprendimento per rinforzo (RL) a problemi con più agenti, ciascuno dei quali deve considerare molteplici obiettivi nel proprio processo di apprendimento. Nella ricerca sull'apprendimento per rinforzo, i benchmark sono cruciali per facilitare il progresso, la valutazione e la riproducibilità. L'importanza dei benchmark è sottolineata dall'esistenza di numerosi framework di benchmark sviluppati per vari paradigmi di RL, tra cui RL a singolo agente (ad esempio, Gymnasium), RL multi-agente (ad esempio, PettingZoo) e RL multi-obiettivo a singolo agente (ad esempio, MO-Gymnasium). Per supportare l'avanzamento del campo del MOMARL, introduciamo MOMAland, la prima raccolta di ambienti standardizzati per l'apprendimento per rinforzo multi-obiettivo e multi-agente. MOMAland risponde alla necessità di benchmarking completo in questo campo emergente, offrendo oltre 10 ambienti diversificati che variano nel numero di agenti, nelle rappresentazioni degli stati, nelle strutture di ricompensa e nelle considerazioni di utilità. Per fornire solide basi per la ricerca futura, MOMAland include anche algoritmi in grado di apprendere politiche in tali contesti.
Un drammatico afflusso di immagini generate tramite diffusione ha caratterizzato gli ultimi anni, ponendo sfide uniche alle attuali tecnologie di rilevamento. Sebbene il compito di identificare queste immagini rientri nella classificazione binaria, una categoria apparentemente semplice, il carico computazionale è significativo quando si utilizza la tecnica "ricostruzione e confronto". Questo approccio, noto come DIRE (Diffusion Reconstruction Error), non solo identifica le immagini generate tramite diffusione, ma rileva anche quelle prodotte da GAN, evidenziando l'ampia applicabilità della tecnica. Per affrontare le sfide computazionali e migliorare l'efficienza, proponiamo di distillare la conoscenza incorporata nei modelli di diffusione per sviluppare modelli rapidi di rilevamento di deepfake. Il nostro approccio, mirato a creare un rilevatore di deepfake sintetizzati tramite diffusione piccolo, veloce, economico e leggero, mantiene prestazioni robuste riducendo significativamente le esigenze operative. Mantenendo le prestazioni, i nostri risultati sperimentali indicano una velocità di inferenza 3,2 volte superiore rispetto all'attuale framework DIRE. Questo progresso non solo migliora la praticità di implementare questi sistemi in contesti reali, ma apre anche la strada a future ricerche che cercano di sfruttare la conoscenza dei modelli di diffusione.
Le industrie dei veicoli autonomi impiegano solitamente artisti professionisti per creare auto 3D di alta qualità. Tuttavia, la realizzazione di asset digitali su larga scala è costosa. Poiché esistono già numerosi dataset che contengono un vasto numero di immagini di automobili, ci concentriamo sulla ricostruzione di modelli 3D di alta qualità a partire da questi dataset. Tuttavia, questi dataset contengono solo un lato delle auto in scene di movimento in avanti. Cerchiamo di utilizzare i modelli generativi esistenti per fornire ulteriori informazioni di supervisione, ma questi faticano a generalizzare bene per le auto poiché sono addestrati su dataset sintetici non specifici per le automobili. Inoltre, la texture delle auto 3D ricostruite risulta disallineata a causa di un ampio errore nella stima della posa della fotocamera quando si lavora con immagini reali. Queste limitazioni rendono difficile per i metodi precedenti ricostruire auto 3D complete. Per affrontare questi problemi, proponiamo un nuovo metodo, denominato DreamCar, che può ricostruire auto 3D di alta qualità partendo da poche immagini, persino una sola. Per generalizzare il modello generativo, abbiamo raccolto un dataset di auto, chiamato Car360, con oltre 5.600 veicoli. Con questo dataset, rendiamo il modello generativo più robusto per le auto. Utilizziamo questo prior generativo specifico per le auto per guidarne la ricostruzione tramite Score Distillation Sampling. Per integrare ulteriormente le informazioni di supervisione, sfruttiamo la simmetria geometrica e di aspetto delle auto. Infine, proponiamo un metodo di ottimizzazione della posa che corregge le pose per risolvere il disallineamento delle texture. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente i metodi esistenti nella ricostruzione di auto 3D di alta qualità. https://xiaobiaodu.github.io/dreamcar-project/{Il nostro codice è disponibile.}