Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nella ricerca di una creazione automatizzata ed efficiente di contenuti, la generazione procedurale, che sfrutta parametri modificabili e sistemi basati su regole, si presenta come un approccio promettente. Tuttavia, può rivelarsi un'impresa impegnativa, data la sua natura complessa che richiede una profonda comprensione di regole, algoritmi e parametri. Per ridurre il carico di lavoro, introduciamo 3D-GPT, un framework che utilizza modelli linguistici di grandi dimensioni (LLM) per la modellazione 3D guidata da istruzioni. 3D-GPT posiziona gli LLM come risolutori di problemi esperti, suddividendo i compiti di modellazione 3D procedurale in segmenti accessibili e assegnando l'agente più adatto per ciascun compito. 3D-GPT integra tre agenti principali: l'agente di dispacciamento dei compiti, l'agente di concettualizzazione e l'agente di modellazione. Collaborano per raggiungere due obiettivi. In primo luogo, migliora le descrizioni iniziali concise delle scene, evolvendole in forme dettagliate e adattando dinamicamente il testo in base alle istruzioni successive. In secondo luogo, integra la generazione procedurale, estraendo i valori dei parametri dal testo arricchito per interfacciarsi agevolmente con il software 3D per la creazione di asset. Le nostre indagini empiriche confermano che 3D-GPT non solo interpreta ed esegue le istruzioni, fornendo risultati affidabili, ma collabora anche efficacemente con i progettisti umani. Inoltre, si integra perfettamente con Blender, sbloccando possibilità di manipolazione ampliate. Il nostro lavoro evidenzia il potenziale degli LLM nella modellazione 3D, offrendo un framework di base per futuri progressi nella generazione di scene e animazioni.
I grandi modelli linguistici (LLM) open source con prestazioni eccellenti in vari compiti hanno significativamente avanzato lo sviluppo degli LLM. Tuttavia, sono molto inferiori ai modelli commerciali come ChatGPT e GPT-4 quando agiscono come agenti per affrontare compiti complessi nel mondo reale. Questi compiti da agente utilizzano gli LLM come controller centrale responsabile della pianificazione, memorizzazione e utilizzo di strumenti, richiedendo sia metodi di prompting granulari che LLM robusti per ottenere prestazioni soddisfacenti. Sebbene siano stati proposti molti metodi di prompting per completare specifici compiti da agente, manca una ricerca focalizzata sul miglioramento delle capacità di agente degli LLM stessi senza compromettere le loro abilità generali. In questo lavoro, presentiamo AgentTuning, un metodo semplice e generale per migliorare le capacità di agente degli LLM mantenendo le loro capacità generali di LLM. Costruiamo AgentInstruct, un dataset leggero per l'instruction-tuning contenente traiettorie di interazione di alta qualità. Utilizziamo una strategia ibrida di instruction-tuning combinando AgentInstruct con istruzioni open source di domini generali. AgentTuning viene utilizzato per fare instruction-tuning della serie Llama 2, ottenendo AgentLM. Le nostre valutazioni mostrano che AgentTuning potenzia le capacità di agente degli LLM senza compromettere le abilità generali. L'AgentLM-70B è paragonabile a GPT-3.5-turbo su compiti da agente non visti, dimostrando capacità di agente generalizzate. Rendiamo open source AgentInstruct e i modelli AgentLM-7B, 13B e 70B su https://github.com/THUDM/AgentTuning, offrendo alternative open e potenti ai LLM commerciali per i compiti da agente.
Con lo sviluppo dei grandi modelli linguistici (LLM), trovare un equilibrio tra le prestazioni e la sicurezza dei sistemi di intelligenza artificiale non è mai stato così cruciale. Tuttavia, la tensione intrinseca tra gli obiettivi di utilità e innocuità rappresenta una sfida significativa durante l'addestramento degli LLM. Per affrontare questo problema, proponiamo il Safe Reinforcement Learning from Human Feedback (Safe RLHF), un nuovo algoritmo per l'allineamento ai valori umani. Safe RLHF separa esplicitamente le preferenze umane riguardo all'utilità e all'innocuità, evitando efficacemente la confusione dei lavoratori sulla tensione tra i due obiettivi e permettendoci di addestrare modelli di ricompensa e costo separati. Formalizziamo il problema della sicurezza degli LLM come un'attività di ottimizzazione che massimizza la funzione di ricompensa rispettando vincoli di costo specifici. Utilizzando il metodo Lagrangiano per risolvere questo problema vincolato, Safe RLHF regola dinamicamente l'equilibrio tra i due obiettivi durante il fine-tuning. Attraverso un fine-tuning in tre fasi con Safe RLHF, dimostriamo una capacità superiore di mitigare risposte dannose migliorando al contempo le prestazioni del modello rispetto agli algoritmi esistenti allineati ai valori. Sperimentalmente, abbiamo applicato il fine-tuning al modello Alpaca-7B utilizzando Safe RLHF e lo abbiamo allineato alle preferenze umane raccolte, ottenendo un miglioramento significativo in termini di utilità e innocuità secondo le valutazioni umane.
I Large Language Model (LLM) si sono distinti come pianificatori semantici di alto livello per compiti di decisione sequenziale. Tuttavia, sfruttarli per apprendere compiti complessi di manipolazione di basso livello, come il giro della penna con destrezza, rimane un problema aperto. Colmiamo questa lacuna fondamentale e presentiamo Eureka, un algoritmo di progettazione di ricompense di livello umano alimentato da LLM. Eureka sfrutta le straordinarie capacità di generazione zero-shot, scrittura di codice e miglioramento in-context degli LLM all'avanguardia, come GPT-4, per eseguire un'ottimizzazione evolutiva sul codice delle ricompense. Le ricompense risultanti possono quindi essere utilizzate per acquisire abilità complesse tramite apprendimento per rinforzo. Senza alcun prompt specifico per il compito o modelli predefiniti di ricompensa, Eureka genera funzioni di ricompensa che superano quelle progettate da esperti umani. In un'ampia suite di 29 ambienti RL open-source che includono 10 morfologie robotiche distinte, Eureka supera gli esperti umani nell'83% dei compiti, portando a un miglioramento normalizzato medio del 52%. La generalità di Eureka consente anche un nuovo approccio di apprendimento in-context senza gradienti per l'apprendimento per rinforzo da feedback umano (RLHF), incorporando facilmente input umani per migliorare la qualità e la sicurezza delle ricompense generate senza aggiornare il modello. Infine, utilizzando le ricompense di Eureka in un contesto di apprendimento curriculare, dimostriamo per la prima volta una Shadow Hand simulata in grado di eseguire trucchi con la penna, manipolando abilmente una penna in cerchi ad alta velocità.
L'apprendimento per rinforzo (RL) richiede la specifica manuale di una funzione di ricompensa, spesso impraticabile, oppure l'apprendimento di un modello di ricompensa da una grande quantità di feedback umano, che è spesso molto costoso. Esploriamo un'alternativa più efficiente in termini di campioni: utilizzare modelli visione-linguaggio (VLMs) pre-addestrati come modelli di ricompensa zero-shot (RMs) per specificare i compiti tramite linguaggio naturale. Proponiamo un approccio naturale e generale per utilizzare i VLMs come modelli di ricompensa, che chiamiamo VLM-RMs. Utilizziamo VLM-RMs basati su CLIP per addestrare un umanoide MuJoCo a imparare compiti complessi senza una funzione di ricompensa specificata manualmente, come inginocchiarsi, fare lo split e sedersi in posizione del loto. Per ciascuno di questi compiti, forniamo solo una singola frase di prompt testuale che descrive il compito desiderato con un minimo di ingegneria del prompt. Forniamo video degli agenti addestrati al seguente link: https://sites.google.com/view/vlm-rm. Possiamo migliorare le prestazioni fornendo un secondo prompt di "baseline" e proiettando fuori le parti dello spazio di embedding CLIP irrilevanti per distinguere tra obiettivo e baseline. Inoltre, troviamo un forte effetto di scala per i VLM-RMs: VLMs più grandi addestrati con più risorse computazionali e dati sono migliori modelli di ricompensa. I casi di fallimento dei VLM-RMs che abbiamo riscontrato sono tutti legati a limitazioni note delle capacità degli attuali VLMs, come la capacità limitata di ragionamento spaziale o ambienti visivamente irrealistici che sono lontani dalla distribuzione del VLM. Troviamo che i VLM-RMs sono notevolmente robusti purché il VLM sia sufficientemente grande. Ciò suggerisce che i futuri VLMs diventeranno modelli di ricompensa sempre più utili per una vasta gamma di applicazioni RL.
La creazione musicale è un processo iterativo che richiede metodi diversi in ogni fase. Tuttavia, i sistemi di IA musicale esistenti non riescono a orchestrare più sottosistemi per soddisfare esigenze diverse. Per colmare questa lacuna, introduciamo Loop Copilot, un sistema innovativo che consente agli utenti di generare e perfezionare iterativamente la musica attraverso un'interfaccia di dialogo interattiva e multi-round. Il sistema utilizza un modello linguistico di grandi dimensioni per interpretare le intenzioni dell'utente e selezionare i modelli di IA appropriati per l'esecuzione dei compiti. Ogni modello di backend è specializzato per un compito specifico e i loro output vengono aggregati per soddisfare le esigenze dell'utente. Per garantire la coerenza musicale, gli attributi essenziali vengono mantenuti in una tabella centralizzata. Valutiamo l'efficacia del sistema proposto attraverso interviste semi-strutturate e questionari, evidenziando la sua utilità non solo nel facilitare la creazione musicale, ma anche il suo potenziale per applicazioni più ampie.
I modelli linguistici di grandi dimensioni (LLM) sono ora disponibili in varie dimensioni e configurazioni da parte dei fornitori di API cloud. Sebbene questa diversità offra un ampio spettro di scelte, sfruttare efficacemente le opzioni per ottimizzare i costi computazionali e le prestazioni rimane una sfida. In questo lavoro, presentiamo AutoMix, un approccio che instrada strategicamente le query verso LLM più grandi, basandosi sulla correttezza approssimativa degli output di un LLM più piccolo. Elemento centrale di AutoMix è un meccanismo di auto-verifica few-shot, che stima l'affidabilità dei propri output senza richiedere addestramento. Dato che le verifiche possono essere rumorose, utilizziamo un meta-verificatore in AutoMix per affinare l'accuratezza di queste valutazioni. I nostri esperimenti utilizzando LLAMA2-13/70B, su cinque dataset di ragionamento contestualizzato, dimostrano che AutoMix supera i benchmark stabiliti, migliorando il beneficio incrementale per costo fino all'89%. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/automix-llm/automix.
Textural Inversion, un metodo di prompt learning, apprende un singolo embedding per una nuova "parola" per rappresentare lo stile e l'aspetto di un'immagine, consentendone l'integrazione in frasi di linguaggio naturale per generare nuove immagini sintetizzate. Tuttavia, identificare e integrare più concetti a livello di oggetto all'interno di una singola scena presenta sfide significative, anche quando gli embedding per i singoli concetti sono ottenibili. Questo è ulteriormente confermato dai nostri test empirici. Per affrontare questa sfida, introduciamo un framework per il Multi-Concept Prompt Learning (MCPL), in cui più nuove "parole" vengono apprese simultaneamente da una singola coppia frase-immagine. Per migliorare l'accuratezza della correlazione parola-concetto, proponiamo tre tecniche di regolarizzazione: Attention Masking (AttnMask) per concentrare l'apprendimento sulle aree rilevanti; Prompts Contrastive Loss (PromptCL) per separare gli embedding di concetti diversi; e Bind adjective (Bind adj.) per associare nuove "parole" a parole note. Valutiamo il metodo attraverso la generazione di immagini, la modifica e la visualizzazione dell'attenzione con immagini diverse. Estesi confronti quantitativi dimostrano che il nostro metodo può apprendere concetti semanticamente più disaccoppiati con una correlazione parola-concetto migliorata. Inoltre, introduciamo un nuovo dataset e un protocollo di valutazione specificamente progettati per questo nuovo compito di apprendimento di concetti a livello di oggetto.
I modelli linguistici (LM) ampiamente utilizzati sono tipicamente costruiti attraverso un processo di addestramento in due fasi: una fase di pre-addestramento che utilizza un dataset di testo molto ampio e diversificato, e una fase di fine-tuning (a volte chiamata "allineamento") che impiega esempi mirati o altre specifiche dei comportamenti desiderati. Sebbene si ipotizzi che la conoscenza e le competenze derivino principalmente dal pre-addestramento, e che il fine-tuning agisca principalmente come filtro su queste conoscenze e competenze, questa intuizione non è stata ampiamente testata. Per contribuire a chiarire questo aspetto, introduciamo una tecnica innovativa per separare la conoscenza e le competenze acquisite in queste due fasi, consentendo di rispondere direttamente alla domanda: "Cosa accadrebbe se combinassimo la conoscenza appresa da un modello di grandi dimensioni durante il pre-addestramento con quella appresa da un modello più piccolo durante il fine-tuning (o viceversa)?" Utilizzando un framework basato sull'apprendimento per rinforzo (RL) derivato da recenti sviluppi nell'apprendimento dalle preferenze umane, introduciamo il fine-tuning emulato (EFT), un metodo pratico e basato su principi per campionare da una distribuzione che approssima (o "emula") il risultato del pre-addestramento e del fine-tuning a scale diverse. I nostri esperimenti con EFT dimostrano che aumentare la scala del fine-tuning tende a migliorare l'utilità, mentre aumentare la scala del pre-addestramento tende a migliorare la veridicità. Oltre a separare la scala, mostriamo che EFT consente di regolare al momento del test tratti comportamentali in competizione, come utilità e innocuità, senza ulteriore addestramento. Infine, un caso speciale di fine-tuning emulato, che chiamiamo up-scaling di LM, evita il fine-tuning ad alta intensità di risorse di modelli pre-addestrati di grandi dimensioni aggregandoli con modelli di piccole dimensioni sottoposti a fine-tuning, emulando essenzialmente il risultato del fine-tuning del modello pre-addestrato di grandi dimensioni. L'up-scaling migliora costantemente l'utilità e la veridicità dei modelli che seguono istruzioni nelle famiglie Llama, Llama-2 e Falcon, senza ulteriori iperparametri o addestramento.
La generazione di oggetti 3D ad alta risoluzione rimane un compito impegnativo principalmente a causa della limitata disponibilità di dati di training annotati e completi. I recenti progressi hanno cercato di superare questo vincolo sfruttando modelli generativi di immagini, pre-addestrati su ampi dataset web curati, utilizzando tecniche di trasferimento di conoscenza come il Score Distillation Sampling (SDS). Affrontare in modo efficiente i requisiti del rendering ad alta risoluzione spesso richiede l'adozione di modelli basati su rappresentazioni latenti, come il Latent Diffusion Model (LDM). In questo contesto, emerge una sfida significativa: per calcolare i gradienti per i singoli pixel dell'immagine, è necessario propagare all'indietro i gradienti dallo spazio latente designato attraverso i componenti congelati del modello di immagine, come l'encoder VAE utilizzato all'interno dell'LDM. Tuttavia, questo percorso di propagazione dei gradienti non è mai stato ottimizzato, rimanendo incontrollato durante l'addestramento. Abbiamo osservato che i gradienti non regolati influiscono negativamente sulla capacità del modello 3D di acquisire informazioni relative alla texture dal modello generativo di immagini, portando a una sintesi di aspetto di scarsa qualità. Per affrontare questa sfida generale, proponiamo un'operazione innovativa denominata Pixel-wise Gradient Clipping (PGC), progettata per un'integrazione senza soluzione di continuità nei modelli generativi 3D esistenti, migliorando così la qualità della sintesi. Nello specifico, controlliamo l'entità dei gradienti stocastici limitando in modo efficiente i gradienti a livello di pixel, preservando al contempo le direzioni cruciali dei gradienti relative alla texture. Nonostante questa semplicità e il costo aggiuntivo minimo, esperimenti estesi dimostrano l'efficacia del nostro PGC nel migliorare le prestazioni dei modelli generativi 3D esistenti per il rendering di oggetti ad alta risoluzione.