Articoli di ricerca IA selezionati quotidianamente con traduzioni
Guidato da un pre-addestramento su grandi quantità di dati, il Segment Anything Model (SAM) si è dimostrato un framework potente e promptable, rivoluzionando i modelli di segmentazione. Nonostante la sua generalità, la personalizzazione di SAM per concetti visivi specifici senza l'intervento umano tramite prompt è ancora poco esplorata, ad esempio, segmentare automaticamente il proprio cane in diverse immagini. In questo articolo, proponiamo un approccio di Personalizzazione per SAM senza addestramento, denominato PerSAM. Dato solo un'immagine con una maschera di riferimento, PerSAM localizza prima il concetto target tramite un prior di posizione e lo segmenta in altre immagini o video attraverso tre tecniche: attenzione guidata dal target, prompting semantico del target e raffinamento post-cascata. In questo modo, adattiamo efficacemente SAM per uso privato senza alcun addestramento. Per ulteriormente alleviare l'ambiguità della maschera, presentiamo una variante efficiente di fine-tuning one-shot, PerSAM-F. Congelando l'intero SAM, introduciamo due pesi apprendibili per maschere multi-scala, addestrando solo 2 parametri in 10 secondi per migliorare le prestazioni. Per dimostrare la nostra efficacia, costruiamo un nuovo dataset di segmentazione, PerSeg, per la valutazione personalizzata, e testiamo i nostri metodi sulla segmentazione di oggetti in video con prestazioni competitive. Inoltre, il nostro approccio può anche migliorare DreamBooth per personalizzare Stable Diffusion nella generazione di immagini da testo, eliminando il disturbo dello sfondo per un migliore apprendimento dell'aspetto del target. Il codice è rilasciato su https://github.com/ZrrSkywalker/Personalize-SAM.
Presentiamo Shap-E, un modello generativo condizionale per asset 3D. A differenza dei recenti lavori sui modelli generativi 3D che producono una singola rappresentazione in output, Shap-E genera direttamente i parametri di funzioni implicite che possono essere renderizzate sia come mesh con texture che come campi di radianza neurale. Addestriamo Shap-E in due fasi: prima, addestriamo un encoder che mappa deterministicamente gli asset 3D nei parametri di una funzione implicita; successivamente, addestriamo un modello di diffusione condizionale sugli output dell'encoder. Quando addestrato su un ampio dataset di dati 3D e testuali accoppiati, i nostri modelli risultanti sono in grado di generare asset 3D complessi e diversificati in pochi secondi. Rispetto a Point-E, un modello generativo esplicito su nuvole di punti, Shap-E converge più rapidamente e raggiunge una qualità del campione comparabile o migliore, nonostante modelli uno spazio di output multidimensionale e multi-rappresentazione. Rilasciamo i pesi del modello, il codice di inferenza e i campioni su https://github.com/openai/shap-e.
Adattare gli output dei grandi modelli linguistici, come ChatGPT, a specifiche esigenze degli utenti rimane una sfida nonostante la loro impressionante qualità di generazione. In questo articolo, proponiamo una pipeline di generazione tri-agente composta da un generatore, un istruttore e un editor per migliorare la personalizzazione degli output generati. Il generatore produce un output iniziale, l'istruttore specifico per l'utente genera istruzioni di modifica e l'editor genera un output rivisto allineato alle preferenze dell'utente. Il grande modello linguistico utilizzato solo per l'inferenza (ChatGPT) funge sia da generatore che da editor, mentre un modello più piccolo agisce come istruttore specifico per l'utente per guidare il processo di generazione verso le esigenze dell'utente. L'istruttore viene addestrato utilizzando il reinforcement learning guidato dall'editor, sfruttando il feedback del modello editor su larga scala per ottimizzare la generazione delle istruzioni. I risultati sperimentali su due dataset di summarization astrattivo dimostrano l'efficacia del nostro approccio nel generare output che soddisfano meglio le aspettative degli utenti.
I recenti agenti assistenti basati su IA, come ChatGPT, si affidano principalmente al fine-tuning supervisionato (SFT) con annotazioni umane e al reinforcement learning da feedback umano (RLHF) per allineare l'output dei grandi modelli linguistici (LLM) alle intenzioni umane, garantendo che siano utili, etici e affidabili. Tuttavia, questa dipendenza può limitare significativamente il vero potenziale degli agenti assistenti basati su IA a causa dell'elevato costo per ottenere supervisione umana e dei problemi correlati in termini di qualità, affidabilità, diversità, autoconsistenza e bias indesiderati. Per affrontare queste sfide, proponiamo un nuovo approccio chiamato SELF-ALIGN, che combina il ragionamento guidato da principi e la potenza generativa degli LLM per l'auto-allineamento degli agenti IA con una supervisione umana minima. Il nostro approccio comprende quattro fasi: prima, utilizziamo un LLM per generare prompt sintetici e un metodo guidato da argomenti per aumentare la diversità dei prompt; secondo, utilizziamo un piccolo insieme di principi scritti da esseri umani che i modelli IA devono seguire, e guidiamo l'LLM attraverso l'apprendimento in contesto da dimostrazioni (di applicazione dei principi) per produrre risposte utili, etiche e affidabili alle query degli utenti; terzo, eseguiamo il fine-tuning dell'LLM originale con le risposte auto-allineate di alta qualità, in modo che il modello risultante possa generare risposte desiderabili per ogni query direttamente senza il set di principi e le dimostrazioni; infine, offriamo un passaggio di raffinamento per affrontare i problemi di risposte eccessivamente brevi o indirette. Applicando SELF-ALIGN al modello linguistico di base LLaMA-65b, abbiamo sviluppato un assistente IA chiamato Dromedary. Con meno di 300 righe di annotazioni umane (inclusi < 200 prompt iniziali, 16 principi generici e 5 esempi per l'apprendimento in contesto), Dromedary supera significativamente le prestazioni di diversi sistemi IA all'avanguardia, inclusi Text-Davinci-003 e Alpaca, su dataset di benchmark con varie impostazioni.