HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

13 papers found

OpenDevin: Una Piattaforma Aperta per Sviluppatori di Software AI come Agenti Generalisti
OpenDevin: An Open Platform for AI Software Developers as Generalist Agents

Jul 23

ByXingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, Hoang H. Tran, Fuqiang Li, Ren Ma, Mingzhang Zheng, Bill Qian, Yanjun Shao, Niklas Muennighoff, Yizhe Zhang, Binyuan Hui, Junyang Lin, Robert Brennan, Hao Peng, Heng Ji, Graham Neubig

Il software è uno degli strumenti più potenti a disposizione dell'umanità; permette a un programmatore esperto di interagire con il mondo in modi complessi e profondi. Allo stesso tempo, grazie ai progressi nei modelli linguistici di grandi dimensioni (LLM), si è assistito a un rapido sviluppo di agenti di intelligenza artificiale che interagiscono con e influenzano i loro ambienti circostanti. In questo articolo, presentiamo OpenDevin, una piattaforma per lo sviluppo di agenti di IA potenti e flessibili che interagiscono con il mondo in modi simili a quelli di uno sviluppatore umano: scrivendo codice, interagendo con una riga di comando e navigando sul web. Descriviamo come la piattaforma consenta l'implementazione di nuovi agenti, l'interazione sicura con ambienti sandbox per l'esecuzione del codice, la coordinazione tra più agenti e l'integrazione di benchmark di valutazione. Sulla base dei benchmark attualmente incorporati, eseguiamo una valutazione degli agenti su 15 compiti impegnativi, tra cui ingegneria del software (ad esempio, SWE-Bench) e navigazione web (ad esempio, WebArena), tra gli altri. Rilasciato sotto la licenza permissiva MIT, OpenDevin è un progetto comunitario che coinvolge accademia e industria con oltre 1.3K contributi da più di 160 collaboratori e continuerà a migliorare in futuro.

VILA^2: VILA Aumentato VILA
VILA^2: VILA Augmented VILA

Jul 24

ByYunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin

I modelli di linguaggio visivo (VLMs) hanno fatto rapidi progressi, trainati dal successo dei grandi modelli linguistici (LLMs). Mentre le architetture dei modelli e le infrastrutture di addestramento avanzano rapidamente, la cura dei dati rimane un ambito poco esplorato. Quando la quantità e la qualità dei dati diventano un collo di bottiglia, i lavori esistenti si limitano a raccogliere direttamente più dati grezzi da Internet, senza garanzia di qualità, oppure distillano da modelli commerciali a scatola chiusa (ad esempio, GPT-4V / Gemini), limitando così le prestazioni a quelle del modello di partenza. In questo lavoro, introduciamo un approccio innovativo che include un passo di auto-aumento e un passo di aumento specializzato per migliorare iterativamente la qualità dei dati e le prestazioni del modello. Nel passo di auto-aumento, un VLM ricaptiona i propri dati di pre-addestramento per migliorarne la qualità, per poi riaddestrare da zero utilizzando questo dataset raffinato, migliorando così le prestazioni del modello. Questo processo può iterare per diversi cicli. Una volta che l'auto-aumento raggiunge un punto di saturazione, impieghiamo diversi VLMs specializzati, affinati a partire dal VLM auto-aumentato, con competenze specifiche per dominio, per infondere ulteriormente conoscenze specialistiche nel VLM generalista attraverso ricaptioning e riaddestramento orientati al compito. Con l'addestramento combinato di auto-aumento e aumento specializzato, introduciamo VILA^2 (VILA-aumentato-VILA), una famiglia di VLMs che migliora costantemente l'accuratezza su un'ampia gamma di task rispetto allo stato dell'arte precedente e raggiunge nuovi risultati all'avanguardia nella classifica MMMU tra i modelli open-source.

HumanVid: Svelare i Dati di Addestramento per l'Animazione di Immagini Umane Controllabili dalla Fotocamera
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

Jul 24

ByZhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin

L'animazione di immagini umane consiste nella generazione di video a partire da una foto di un personaggio, consentendo il controllo da parte dell'utente e aprendo nuove possibilità per la produzione di video e film. Sebbene i metodi recenti producano risultati impressionanti utilizzando dati di addestramento di alta qualità, l'inaccessibilità di questi dataset ostacola un benchmarking equo e trasparente. Inoltre, questi approcci privilegiano il movimento umano in 2D e trascurano l'importanza dei movimenti della telecamera nei video, portando a un controllo limitato e a una generazione di video instabile. Per chiarire i dati di addestramento, presentiamo HumanVid, il primo dataset su larga scala e di alta qualità specificamente progettato per l'animazione di immagini umane, che combina dati reali elaborati e dati sintetici. Per i dati reali, abbiamo raccolto una vasta collezione di video reali liberi da diritti d'autore da internet. Attraverso una strategia di filtraggio basata su regole accuratamente progettata, garantiamo l'inclusione di video di alta qualità, ottenendo una raccolta di 20K video incentrati sull'uomo in risoluzione 1080P. L'annotazione del movimento umano e della telecamera è stata realizzata utilizzando un estimatore di pose 2D e un metodo basato su SLAM. Per i dati sintetici, abbiamo raccolto 2.300 risorse di avatar 3D libere da diritti d'autore per ampliare le risorse 3D disponibili. In particolare, introduciamo un metodo di generazione della traiettoria della telecamera basato su regole, che consente alla pipeline sintetica di incorporare annotazioni di movimento della telecamera diverse e precise, difficilmente riscontrabili nei dati reali. Per verificare l'efficacia di HumanVid, abbiamo stabilito un modello di base denominato CamAnimate, abbreviazione di Camera-controllable Human Animation, che considera sia i movimenti umani che quelli della telecamera come condizioni. Attraverso un'ampia sperimentazione, dimostriamo che un semplice addestramento di base sul nostro HumanVid raggiunge prestazioni all'avanguardia nel controllo sia della posa umana che dei movimenti della telecamera, stabilendo un nuovo benchmark. Codice e dati saranno pubblicamente disponibili all'indirizzo https://github.com/zhenzhiwang/HumanVid/.

DDK: Distillazione della Conoscenza di Dominio per Modelli Linguistici di Grandi Dimensioni Efficienti
DDK: Distilling Domain Knowledge for Efficient Large Language Models

Jul 23

ByJiaheng Liu, Chenchen Zhang, Jinyang Guo, Yuanxing Zhang, Haoran Que, Ken Deng, Zhiqi Bai, Jie Liu, Ge Zhang, Jiakai Wang, Yanan Wu, Congnan Liu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng

Nonostante le avanzate capacità intellettive dei grandi modelli linguistici (LLM) in varie applicazioni, essi continuano a presentare significative esigenze computazionali e di archiviazione. La Distillazione della Conoscenza (KD) è emersa come una strategia efficace per migliorare le prestazioni di un LLM più piccolo (cioè, il modello studente) trasferendo conoscenza da un LLM ad alte prestazioni (cioè, il modello insegnante). Le tecniche prevalenti nella distillazione degli LLM utilizzano tipicamente un'API di modello black-box per generare dataset pre-addestrati e allineati di alta qualità, o impiegano la distillazione white-box modificando la funzione di perdita per trasferire meglio la conoscenza dal LLM insegnante. Tuttavia, questi metodi ignorano le differenze di conoscenza tra i LLM studente e insegnante attraverso i domini. Ciò si traduce in un'eccessiva focalizzazione sui domini con gap di prestazioni minimi e un'attenzione insufficiente ai domini con gap ampi, riducendo le prestazioni complessive. In questo articolo, introduciamo un nuovo framework di distillazione LLM chiamato DDK, che regola dinamicamente la composizione del dataset di distillazione in modo fluido in base alle differenze di prestazioni tra i modelli insegnante e studente, rendendo il processo di distillazione più stabile ed efficace. Valutazioni estensive dimostrano che DDK migliora significativamente le prestazioni dei modelli studente, superando di gran lunga sia i baseline pre-addestrati in modo continuativo che i metodi esistenti di distillazione della conoscenza.

PERSONA: Un ambiente di test riproducibile per l'allineamento pluralistico
PERSONA: A Reproducible Testbed for Pluralistic Alignment

Jul 24

ByLouis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn

Il rapido progresso dei modelli linguistici (LM) richiede un allineamento robusto con i valori diversificati degli utenti. Tuttavia, gli attuali approcci di ottimizzazione delle preferenze spesso non riescono a cogliere la pluralità delle opinioni degli utenti, rafforzando invece i punti di vista maggioritari e marginalizzando le prospettive minoritarie. Introduciamo PERSONA, un banco di prova riproducibile progettato per valutare e migliorare l'allineamento pluralistico dei LM. Generiamo proceduralmente profili utente diversificati dai dati del censimento statunitense, ottenendo 1.586 persone sintetiche con attributi demografici e idiosincratici variati. Successivamente, generiamo un dataset di valutazione su larga scala contenente 3.868 prompt e 317.200 coppie di feedback ottenute dalle nostre persone sintetiche. Utilizzando questo dataset, valutiamo sistematicamente le capacità dei LM nel rappresentare utenti diversi, verificate attraverso giudici umani, e stabiliamo sia un benchmark, PERSONA Bench, per approcci di allineamento pluralistico, sia un dataset esteso per creare nuovi benchmark futuri. Il dataset completo e i benchmark sono disponibili qui: https://www.synthlabs.ai/research/persona.

Longhorn: I Modelli di Spazio degli Stati sono Apprenditori Online Ammortizzati
Longhorn: State Space Models are Amortized Online Learners

Jul 19

ByBo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu

La capacità più fondamentale dei metodi moderni di intelligenza artificiale, come i Large Language Models (LLM), è quella di prevedere il token successivo in una lunga sequenza di token, nota come "modellazione di sequenza". Sebbene il modello Transformers rappresenti l'approccio attualmente dominante per la modellazione di sequenza, il suo costo computazionale quadratico rispetto alla lunghezza della sequenza costituisce uno svantaggio significativo. I modelli a spazio di stato (SSM) offrono un'alternativa promettente grazie alla loro efficienza lineare nel decoding e all'elevata parallelizzabilità durante l'addestramento. Tuttavia, gli SSM esistenti spesso si basano su progetti di ricorrenza lineare apparentemente ad hoc. In questo lavoro, esploriamo la progettazione degli SSM attraverso la lente dell'apprendimento online, concettualizzando gli SSM come meta-moduli per specifici problemi di apprendimento online. Questo approccio collega la progettazione degli SSM alla formulazione di obiettivi precisi di apprendimento online, con regole di transizione di stato derivate dall'ottimizzazione di tali obiettivi. Sulla base di questa intuizione, introduciamo una nuova architettura di SSM profonda basata sull'aggiornamento implicito per ottimizzare un obiettivo di regressione online. I nostri risultati sperimentali dimostrano che i nostri modelli superano gli SSM all'avanguardia, incluso il modello Mamba, nei benchmark standard di modellazione di sequenza e nei task di modellazione del linguaggio.

SV4D: Generazione Dinamica di Contenuti 3D con Coerenza Multi-Frame e Multi-View
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

Jul 24

ByYiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani

Presentiamo Stable Video 4D (SV4D), un modello di diffusione latente per video dedicato alla generazione di contenuti 3D dinamici con coerenza multi-frame e multi-view. A differenza dei metodi precedenti che si basano su modelli generativi addestrati separatamente per la generazione di video e la sintesi di nuove visualizzazioni, progettiamo un modello di diffusione unificato per generare video con nuove visualizzazioni di oggetti 3D dinamici. Nello specifico, dato un video di riferimento monoculare, SV4D genera nuove visualizzazioni per ogni fotogramma del video che sono temporalmente coerenti. Utilizziamo quindi i video con nuove visualizzazioni generati per ottimizzare in modo efficiente una rappresentazione implicita 4D (NeRF dinamico), senza la necessità dell'ingombrante ottimizzazione basata su SDS utilizzata nella maggior parte dei lavori precedenti. Per addestrare il nostro modello unificato di generazione di video con nuove visualizzazioni, abbiamo curato un dataset di oggetti 3D dinamici a partire dal dataset esistente Objaverse. I risultati sperimentali estesi su più dataset e gli studi sugli utenti dimostrano che SV4D raggiunge prestazioni all'avanguardia nella sintesi di video con nuove visualizzazioni e nella generazione 4D rispetto ai lavori precedenti.

Imparare a Manipolare Ovunque: Un Framework Visivo Generalizzabile per l'Apprendimento per Rinforzo
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

Jul 22

ByZhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu

Possiamo dotare i robot visuomotori di capacità di generalizzazione per operare in scenari aperti e diversificati? In questo articolo, proponiamo Maniwhere, un framework generalizzabile progettato per l'apprendimento per rinforzo visivo, che consente alle politiche del robot addestrate di generalizzare attraverso una combinazione di diversi tipi di disturbi visivi. Nello specifico, introduciamo un approccio di apprendimento della rappresentazione multi-vista fuso con il modulo Spatial Transformer Network (STN) per catturare informazioni semantiche condivise e corrispondenze tra diversi punti di vista. Inoltre, utilizziamo un approccio di randomizzazione e aumento basato su curriculum per stabilizzare il processo di addestramento RL e rafforzare la capacità di generalizzazione visiva. Per dimostrare l'efficacia di Maniwhere, progettiamo meticolosamente 8 task che comprendono oggetti articolati, manipolazione bi-manuale e compiti di manipolazione con mano destra, dimostrando le forti capacità di generalizzazione visiva e di trasferimento sim2real di Maniwhere su 3 piattaforme hardware. I nostri esperimenti mostrano che Maniwhere supera significativamente i metodi state-of-the-art esistenti. I video sono disponibili all'indirizzo https://gemcollector.github.io/maniwhere/.

ViPer: Personalizzazione Visiva dei Modelli Generativi attraverso l'Apprendimento delle Preferenze Individuali
ViPer: Visual Personalization of Generative Models via Individual Preference Learning

Jul 24

BySogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir

Utenti diversi trovano desiderabili immagini diverse generate per lo stesso prompt. Ciò dà origine alla generazione di immagini personalizzata, che implica la creazione di immagini allineate con le preferenze visive di un individuo. I modelli generativi attuali, tuttavia, non sono personalizzati, poiché sono ottimizzati per produrre risultati che piacciono a un pubblico ampio. Utilizzarli per generare immagini allineate con i singoli utenti si basa su un'ingegneria manuale iterativa dei prompt da parte dell'utente, che è inefficiente e indesiderabile. Proponiamo di personalizzare il processo di generazione delle immagini catturando prima le preferenze generiche dell'utente in un processo una tantum, invitandoli a commentare una piccola selezione di immagini, spiegando perché apprezzano o meno ciascuna. Sulla base di questi commenti, deduciamo gli attributi visivi strutturati che l'utente apprezza o meno, ovvero le sue preferenze visive, utilizzando un modello linguistico di grandi dimensioni. Questi attributi vengono utilizzati per guidare un modello di testo-immagine verso la produzione di immagini sintonizzate sulle preferenze visive del singolo utente. Attraverso una serie di studi sugli utenti e valutazioni guidate da modelli linguistici di grandi dimensioni, dimostriamo che il metodo proposto produce generazioni ben allineate con le preferenze visive dei singoli utenti.

Scalify: propagazione della scala per un addestramento efficiente di LLM a bassa precisione
Scalify: scale propagation for efficient low-precision LLM training

Jul 24

ByPaul Balança, Sam Hosegood, Carlo Luschi, Andrew Fitzgibbon

I formati a bassa precisione come float8 sono stati introdotti nell'hardware accelerato per il machine learning per migliorare l'efficienza computazionale nell'addestramento e nell'inferenza di modelli linguistici di grandi dimensioni. Tuttavia, l'adozione da parte della comunità ML è stata rallentata dalle tecniche complesse e talvolta fragili necessarie per raggiungere l'accuratezza dell'addestramento a precisione più elevata. In questo lavoro, presentiamo Scalify, un paradigma di propagazione della scala end-to-end per grafi computazionali, che generalizza e formalizza i metodi esistenti di ridimensionamento dei tensori. I risultati sperimentali mostrano che Scalify supporta nativamente la moltiplicazione di matrici e la rappresentazione dei gradienti in float8, nonché la memorizzazione dello stato dell'ottimizzatore in float16. La nostra implementazione di Scalify in JAX è open-source e disponibile all'indirizzo https://github.com/graphcore-research/jax-scalify.

MOMAland: Una serie di benchmark per il Reinforcement Learning Multi-Agente a Obiettivi Multipli
MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning

Jul 23

ByFlorian Felten, Umut Ucak, Hicham Azmani, Gao Peng, Willem Röpke, Hendrik Baier, Patrick Mannion, Diederik M. Roijers, Jordan K. Terry, El-Ghazali Talbi, Grégoire Danoy, Ann Nowé, Roxana Rădulescu

Molte attività complesse come la gestione dei sistemi di traffico, delle reti elettriche o delle catene di approvvigionamento implicano processi decisionali articolati che devono bilanciare molteplici obiettivi conflittuali e coordinare le azioni di vari decisori indipendenti (DM). Una prospettiva per formalizzare e affrontare tali compiti è l'apprendimento per rinforzo multi-obiettivo e multi-agente (MOMARL). Il MOMARL estende l'apprendimento per rinforzo (RL) a problemi con più agenti, ciascuno dei quali deve considerare molteplici obiettivi nel proprio processo di apprendimento. Nella ricerca sull'apprendimento per rinforzo, i benchmark sono cruciali per facilitare il progresso, la valutazione e la riproducibilità. L'importanza dei benchmark è sottolineata dall'esistenza di numerosi framework di benchmark sviluppati per vari paradigmi di RL, tra cui RL a singolo agente (ad esempio, Gymnasium), RL multi-agente (ad esempio, PettingZoo) e RL multi-obiettivo a singolo agente (ad esempio, MO-Gymnasium). Per supportare l'avanzamento del campo del MOMARL, introduciamo MOMAland, la prima raccolta di ambienti standardizzati per l'apprendimento per rinforzo multi-obiettivo e multi-agente. MOMAland risponde alla necessità di benchmarking completo in questo campo emergente, offrendo oltre 10 ambienti diversificati che variano nel numero di agenti, nelle rappresentazioni degli stati, nelle strutture di ricompensa e nelle considerazioni di utilità. Per fornire solide basi per la ricerca futura, MOMAland include anche algoritmi in grado di apprendere politiche in tali contesti.

DistilDIRE: Un sistema piccolo, veloce, economico e leggero per il rilevamento di deepfake sintetizzati tramite diffusione
DistilDIRE: A Small, Fast, Cheap and Lightweight Diffusion Synthesized Deepfake Detection

Jun 2

ByYewon Lim, Changyeon Lee, Aerin Kim, Oren Etzioni

Un drammatico afflusso di immagini generate tramite diffusione ha caratterizzato gli ultimi anni, ponendo sfide uniche alle attuali tecnologie di rilevamento. Sebbene il compito di identificare queste immagini rientri nella classificazione binaria, una categoria apparentemente semplice, il carico computazionale è significativo quando si utilizza la tecnica "ricostruzione e confronto". Questo approccio, noto come DIRE (Diffusion Reconstruction Error), non solo identifica le immagini generate tramite diffusione, ma rileva anche quelle prodotte da GAN, evidenziando l'ampia applicabilità della tecnica. Per affrontare le sfide computazionali e migliorare l'efficienza, proponiamo di distillare la conoscenza incorporata nei modelli di diffusione per sviluppare modelli rapidi di rilevamento di deepfake. Il nostro approccio, mirato a creare un rilevatore di deepfake sintetizzati tramite diffusione piccolo, veloce, economico e leggero, mantiene prestazioni robuste riducendo significativamente le esigenze operative. Mantenendo le prestazioni, i nostri risultati sperimentali indicano una velocità di inferenza 3,2 volte superiore rispetto all'attuale framework DIRE. Questo progresso non solo migliora la praticità di implementare questi sistemi in contesti reali, ma apre anche la strada a future ricerche che cercano di sfruttare la conoscenza dei modelli di diffusione.

DreamCar: Sfruttare conoscenze pregne specifiche per auto nella ricostruzione 3D di veicoli in contesti reali
DreamCar: Leveraging Car-specific Prior for in-the-wild 3D Car Reconstruction

Jul 24

ByXiaobiao Du, Haiyang Sun, Ming Lu, Tianqing Zhu, Xin Yu

Le industrie dei veicoli autonomi impiegano solitamente artisti professionisti per creare auto 3D di alta qualità. Tuttavia, la realizzazione di asset digitali su larga scala è costosa. Poiché esistono già numerosi dataset che contengono un vasto numero di immagini di automobili, ci concentriamo sulla ricostruzione di modelli 3D di alta qualità a partire da questi dataset. Tuttavia, questi dataset contengono solo un lato delle auto in scene di movimento in avanti. Cerchiamo di utilizzare i modelli generativi esistenti per fornire ulteriori informazioni di supervisione, ma questi faticano a generalizzare bene per le auto poiché sono addestrati su dataset sintetici non specifici per le automobili. Inoltre, la texture delle auto 3D ricostruite risulta disallineata a causa di un ampio errore nella stima della posa della fotocamera quando si lavora con immagini reali. Queste limitazioni rendono difficile per i metodi precedenti ricostruire auto 3D complete. Per affrontare questi problemi, proponiamo un nuovo metodo, denominato DreamCar, che può ricostruire auto 3D di alta qualità partendo da poche immagini, persino una sola. Per generalizzare il modello generativo, abbiamo raccolto un dataset di auto, chiamato Car360, con oltre 5.600 veicoli. Con questo dataset, rendiamo il modello generativo più robusto per le auto. Utilizziamo questo prior generativo specifico per le auto per guidarne la ricostruzione tramite Score Distillation Sampling. Per integrare ulteriormente le informazioni di supervisione, sfruttiamo la simmetria geometrica e di aspetto delle auto. Infine, proponiamo un metodo di ottimizzazione della posa che corregge le pose per risolvere il disallineamento delle texture. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente i metodi esistenti nella ricostruzione di auto 3D di alta qualità. https://xiaobiaodu.github.io/dreamcar-project/{Il nostro codice è disponibile.}

HumanVid: Svelare i Dati di Addestramento per l'Animazione di Immagini Umane Controllabili dalla Fotocamera
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

Jul 24

ByZhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin