Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nella modellazione generativa consentono ora la creazione di contenuti 4D (oggetti 3D in movimento) controllati da prompt di testo. La generazione 4D ha un grande potenziale in applicazioni come mondi virtuali, media e videogiochi, ma i metodi esistenti offrono un controllo limitato sull'aspetto e sulla geometria dei contenuti generati. In questo lavoro, presentiamo un metodo per animare oggetti 3D forniti dall'utente condizionandoli con prompt testuali per guidare la generazione 4D, consentendo animazioni personalizzate mantenendo l'identità dell'oggetto originale. Prima convertiamo una mesh 3D in un "statico" campo di radianza neurale (NeRF) 4D che conserva gli attributi visivi dell'oggetto in ingresso. Successivamente, animiamo l'oggetto utilizzando un modello di diffusione immagine-video guidato dal testo. Per migliorare il realismo del movimento, introduciamo un protocollo incrementale di selezione del punto di vista per campionare prospettive al fine di promuovere un movimento realistico e una perdita di campionamento di distillazione del punteggio mascherato (SDS), che sfrutta mappe di attenzione per concentrare l'ottimizzazione sulle regioni rilevanti. Valutiamo il nostro modello in termini di coerenza temporale, aderenza ai prompt e fedeltà visiva e scopriamo che il nostro metodo supera le baselines basate su altri approcci, raggiungendo fino a triplici miglioramenti nella conservazione dell'identità misurata utilizzando i punteggi LPIPS, e bilanciando efficacemente la qualità visiva con i contenuti dinamici.
La notevole performance dei modelli come l'OpenAI o1 può essere attribuita alla loro capacità di emulare un pensiero a lungo termine simile a quello umano durante l'infertenza. Questi modelli impiegano processi estesi di concatenazione del pensiero (CoT), esplorando diverse strategie per potenziare le capacità di risoluzione dei problemi. Tuttavia, rimane una domanda critica: come scalare in modo intelligente ed efficiente le risorse computazionali durante i test. Questo articolo presenta il primo studio esaustivo sulla diffusa problematica dell'eccessiva riflessione in questi modelli, in cui vengono allocate risorse computazionali eccessive per problemi semplici con benefici minimi. Introduciamo nuove metriche di efficienza sia dal punto di vista dell'esito che del processo per valutare l'uso razionale delle risorse computazionali da parte dei modelli simili a o1. Utilizzando un paradigma di auto-apprendimento, proponiamo strategie per mitigare l'eccessiva riflessione, razionalizzando i processi di ragionamento senza compromettere l'accuratezza. I risultati sperimentali mostrano che il nostro approccio riduce con successo il sovraccarico computazionale preservando al contempo le prestazioni del modello su una serie di set di test con diversi livelli di difficoltà, come GSM8K, MATH500, GPQA e AIME.
Introduciamo TangoFlux, un efficiente modello generativo Testo-a-Audio (TTA) con 515 milioni di parametri, in grado di generare fino a 30 secondi di audio a 44,1kHz in soli 3,7 secondi su una singola GPU A40. Una sfida chiave nell'allineare i modelli TTA risiede nella difficoltà di creare coppie di preferenze, poiché il TTA manca di meccanismi strutturati come ricompense verificabili o risposte di standard d'oro disponibili per i Grandi Modelli Linguistici (LLM). Per affrontare questo problema, proponiamo Ottimizzazione delle Preferenze Classificate con Apprendimento Continuo (CRPO), un nuovo framework che genera e ottimizza iterativamente dati di preferenza per migliorare l'allineamento del TTA. Dimostriamo che il dataset di preferenze audio generato utilizzando CRPO supera le alternative esistenti. Con questo framework, TangoFlux raggiunge prestazioni all'avanguardia su entrambi i benchmark oggettivi e soggettivi. Rendiamo open source tutto il codice e i modelli per sostenere ulteriori ricerche nella generazione TTA.
Presentiamo SWE-Gym, il primo ambiente per addestrare agenti di ingegneria del software (SWE) del mondo reale. SWE-Gym contiene 2.438 istanze di compiti Python del mondo reale, ognuna composta da una base di codice con un ambiente di esecuzione eseguibile, test di unità e un compito specificato in linguaggio naturale. Utilizziamo SWE-Gym per addestrare agenti SWE basati su modelli linguistici, ottenendo fino al 19% di guadagni assoluti nella percentuale di risoluzione sui popolari set di test SWE-Bench Verified e Lite. Sperimentiamo anche con la scalabilità al momento dell'inferenza attraverso verificatori addestrati su traiettorie degli agenti campionate da SWE-Gym. Quando combinato con i nostri agenti SWE ottimizzati, otteniamo il 32,0% e il 26,0% su SWE-Bench Verified e Lite, rispettivamente, riflettendo un nuovo stato dell'arte per agenti SWE open-weight. Per facilitare ulteriori ricerche, rilasciamo pubblicamente SWE-Gym, modelli e traiettorie degli agenti.