Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli generativi hanno avuto un impatto significativo in vari ambiti, in gran parte grazie alla loro capacità di scalare durante l'addestramento aumentando i dati, le risorse computazionali e le dimensioni del modello, un fenomeno caratterizzato dalle leggi di scaling. Ricerche recenti hanno iniziato a esplorare il comportamento di scaling al momento dell'inferenza nei Grandi Modelli Linguistici (LLM), rivelando come le prestazioni possano ulteriormente migliorare con ulteriori calcoli durante l'inferenza. A differenza dei LLM, i modelli di diffusione possiedono intrinsecamente la flessibilità di regolare il calcolo al momento dell'inferenza tramite il numero di passaggi di denoising, anche se i guadagni di prestazioni tendono tipicamente a stabilizzarsi dopo alcune dozzine. In questo lavoro, esploriamo il comportamento di scaling al momento dell'inferenza dei modelli di diffusione oltre all'aumento dei passaggi di denoising e indaghiamo su come le prestazioni di generazione possano ulteriormente migliorare con un calcolo aumentato. In particolare, consideriamo un problema di ricerca mirato a identificare migliori rumori per il processo di campionamento di diffusione. Strutturiamo lo spazio di progettazione lungo due assi: i verificatori utilizzati per fornire feedback e gli algoritmi utilizzati per trovare migliori candidati di rumore. Attraverso estesi esperimenti su benchmark di generazione di immagini condizionate alla classe e al testo, le nostre scoperte rivelano che l'aumento del calcolo al momento dell'inferenza porta a miglioramenti sostanziali nella qualità dei campioni generati dai modelli di diffusione e, con la natura complicata delle immagini, le combinazioni dei componenti nel framework possono essere scelte specificamente per conformarsi a diversi scenari applicativi.
La scrittura automatica con grandi modelli linguistici spesso si basa sulla generazione potenziata da recupero. Tuttavia, questi approcci rimangono confinati entro i confini del campo predefinito del modello, limitando la generazione di contenuti con informazioni dettagliate. In particolare, le informazioni recuperate in modo standard tendono a mancare di profondità, utilità e soffrono di ridondanza, il che influisce negativamente sulla qualità degli articoli generati, portando a output superficiali, ripetitivi e poco originali. Per affrontare tali problemi, proponiamo OmniThink, un framework di scrittura automatica che emula il processo umano di espansione e riflessione iterativa. L'idea principale dietro OmniThink è simulare il comportamento cognitivo degli apprendisti mentre approfondiscono progressivamente le loro conoscenze sugli argomenti. I risultati sperimentali dimostrano che OmniThink migliora la densità di conoscenza degli articoli generati senza compromettere metriche come coerenza e profondità. Valutazioni umane e feedback degli esperti evidenziano ulteriormente il potenziale di OmniThink nel affrontare sfide reali nella generazione di articoli di lunga durata.
Il linguaggio è da lungo tempo considerato uno strumento essenziale per il ragionamento umano. La svolta dei Grandi Modelli Linguistici (LLM) ha suscitato un notevole interesse nella ricerca per sfruttare questi modelli per affrontare compiti complessi di ragionamento. I ricercatori hanno superato la generazione semplice di token autoregressivi introducendo il concetto di "pensiero" - una sequenza di token che rappresentano passaggi intermedi nel processo di ragionamento. Questo paradigma innovativo consente ai LLM di imitare processi complessi di ragionamento umano, come la ricerca ad albero e il pensiero riflessivo. Recentemente, una tendenza emergente di apprendimento del ragionamento ha applicato il reinforcement learning (RL) per addestrare i LLM a padroneggiare i processi di ragionamento. Questo approccio consente la generazione automatica di traiettorie di ragionamento di alta qualità attraverso algoritmi di ricerca per tentativi ed errori, espandendo significativamente la capacità di ragionamento dei LLM fornendo dati di addestramento notevolmente più numerosi. Inoltre, recenti studi dimostrano che incoraggiare i LLM a "pensare" con più token durante l'inferenza al test può ulteriormente aumentare significativamente l'accuratezza del ragionamento. Pertanto, la combinazione di scalabilità durante l'addestramento e il test mostra una nuova frontiera della ricerca - un percorso verso un Grande Modello di Ragionamento. L'introduzione della serie o1 di OpenAI segna una pietra miliare significativa in questa direzione di ricerca. In questa panoramica, presentiamo una revisione completa dei recenti progressi nel ragionamento dei LLM. Iniziamo introducendo il contesto fondamentale dei LLM e poi esploriamo i componenti tecnici chiave che guidano lo sviluppo dei grandi modelli di ragionamento, con un focus sulla costruzione automatica dei dati, sulle tecniche di apprendimento del ragionamento e sulla scalabilità al test. Analizziamo anche progetti open-source popolari per la costruzione di grandi modelli di ragionamento e concludiamo con le sfide aperte e le future direzioni di ricerca.
La tokenizzazione visuale tramite auto-codifica potenzia i modelli generativi di immagini e video all'avanguardia comprimendo i pixel in uno spazio latente. Sebbene l'incremento di scala dei generatori basati su Transformer sia stato centrale negli avanzamenti recenti, il componente tokenizer stesso raramente viene scalato, lasciando aperte domande su come le scelte progettuali dell'auto-codificatore influenzino sia l'obiettivo di ricostruzione che le prestazioni generative successive. Il nostro lavoro mira a condurre un'esplorazione dello scaling negli auto-codificatori per colmare questa lacuna. Per agevolare questa esplorazione, sostituiamo la tipica struttura convoluzionale di base con un'architettura migliorata del Vision Transformer per la Tokenizzazione (ViTok). Alleniamo ViTok su set di dati di immagini e video su larga scala che superano di gran lunga ImageNet-1K, eliminando vincoli di dati sullo scaling del tokenizer. Iniziamo studiando come lo scaling del collo di bottiglia dell'auto-codificatore influenzi sia la ricostruzione che la generazione, e scopriamo che sebbene sia altamente correlato alla ricostruzione, la sua relazione con la generazione è più complessa. Successivamente esploriamo l'effetto dello scaling separato dell'encoder e del decoder degli auto-codificatori sulle prestazioni di ricostruzione e generazione. In modo cruciale, scopriamo che lo scaling dell'encoder porta a guadagni minimi sia per la ricostruzione che per la generazione, mentre lo scaling del decoder potenzia la ricostruzione ma i benefici per la generazione sono misti. Basandoci sulla nostra esplorazione, progettiamo ViTok come un auto-codificatore leggero che raggiunge prestazioni competitive con auto-codificatori all'avanguardia su ImageNet-1K e compiti di ricostruzione COCO (256p e 512p), superando gli auto-codificatori esistenti nella ricostruzione video a 16 frame 128p per UCF-101, il tutto con 2-5 volte meno FLOPs. Integrato con i Diffusion Transformers, ViTok dimostra prestazioni competitive nella generazione di immagini per ImageNet-1K e stabilisce nuovi benchmark all'avanguardia per la generazione video condizionata alla classe su UCF-101.
La generazione di video tramite intelligenza artificiale sta subendo una rivoluzione, con la qualità e il realismo che avanzano rapidamente. Questi progressi hanno portato a un appassionato dibattito scientifico: i modelli video apprendono "modelli del mondo" che scoprono le leggi della fisica, oppure sono semplicemente sofisticati predittori di pixel che raggiungono il realismo visivo senza comprendere i principi fisici della realtà? Affrontiamo questa questione sviluppando Physics-IQ, un ampio set di dati di benchmark che può essere risolto solo acquisendo una profonda comprensione di vari principi fisici, come la dinamica dei fluidi, l'ottica, la meccanica dei solidi, il magnetismo e la termodinamica. Scopriamo che in una serie di modelli attuali (Sora, Runway, Pika, Lumiere, Stable Video Diffusion e VideoPoet), la comprensione fisica è gravemente limitata e non correlata al realismo visivo. Allo stesso tempo, alcuni casi di test possono già essere risolti con successo. Ciò indica che acquisire certi principi fisici solo dall'osservazione potrebbe essere possibile, ma rimangono significativi ostacoli. Sebbene ci aspettiamo rapidi progressi in futuro, il nostro lavoro dimostra che il realismo visivo non implica la comprensione fisica. La pagina del nostro progetto si trova su https://physics-iq.github.io; il codice su https://github.com/google-deepmind/physics-IQ-benchmark.
I modelli sequenziali autoregressivi, come le politiche visione-linguaggio basate su Transformer, possono essere estremamente efficaci per catturare comportamenti robotici complessi e generalizzabili. Tuttavia, tali modelli richiedono di scegliere una tokenizzazione dei nostri segnali di azione continui, che determina come i simboli discreti previsti dal modello si traducono in azioni robotiche continue. Troviamo che gli approcci attuali per la tokenizzazione delle azioni del robot, basati su schemi di suddivisione semplici per dimensione e timestep, di solito hanno prestazioni scadenti quando si imparano abilità destre da dati robot ad alta frequenza. Per affrontare questa sfida, proponiamo un nuovo schema di tokenizzazione basato sulla compressione per le azioni del robot, basato sulla trasformata discreta del coseno. Il nostro approccio di tokenizzazione, Tokenizzazione Sequenza Azioni Spazio Frequenza (FAST), ci consente di addestrare VLAs autoregressivi per compiti altamente destri e ad alta frequenza in cui i metodi standard di discretizzazione falliscono completamente. Basandoci su FAST, rilasciamo FAST+, un tokenizzatore di azioni robot universale, addestrato su 1M traiettorie di azioni robot reali. Può essere utilizzato come tokenizzatore black-box per una vasta gamma di sequenze di azioni robot, con spazi di azione e frequenze di controllo diversi. Infine, dimostriamo che, combinato con il VLA pi0, il nostro metodo può scalare all'addestramento su 10k ore di dati robot e eguagliare le prestazioni dei VLAs a diffusione, riducendo il tempo di addestramento fino a 5 volte.
Introduciamo SynthLight, un modello di diffusione per il relighting di ritratti. Il nostro approccio concepisce il relighting delle immagini come un problema di rirenderizzazione, in cui i pixel vengono trasformati in risposta ai cambiamenti delle condizioni di illuminazione ambientale. Utilizzando un motore di rendering basato sulla fisica, sintetizziamo un dataset per simulare questa trasformazione condizionata dall'illuminazione con asset di teste 3D sotto varie illuminazioni. Proponiamo due strategie di addestramento e inferenza per colmare il divario tra i domini delle immagini sintetiche e reali: (1) addestramento multi-task che sfrutta veri ritratti umani senza etichette di illuminazione; (2) una procedura di campionamento a diffusione al momento dell'inferenza basata su una guida senza classificatore che sfrutta il ritratto in ingresso per preservare meglio i dettagli. Il nostro metodo si generalizza a diverse fotografie reali e produce effetti di illuminazione realistici, inclusi riflessi speculari e ombre proiettate, preservando nel contempo l'identità del soggetto. I nostri esperimenti quantitativi sui dati di Light Stage dimostrano risultati comparabili ai metodi di relighting all'avanguardia. I nostri risultati qualitativi su immagini in-the-wild mostrano effetti di illuminazione ricchi e senza precedenti. Pagina del Progetto: https://vrroom.github.io/synthlight/
La consulenza medica online (OMC) limita i medici a raccogliere informazioni dai pazienti esclusivamente attraverso domande, rendendo il già complesso processo decisionale sequenziale di diagnosi ancora più impegnativo. Recentemente, il rapido avanzamento dei grandi modelli linguistici ha dimostrato un significativo potenziale per trasformare l'OMC. Tuttavia, la maggior parte degli studi si è concentrata principalmente sul miglioramento dell'accuratezza diagnostica in condizioni di informazioni relativamente sufficienti, prestando scarso interesse alla fase di "domanda" del processo di consultazione. Questa mancanza di attenzione ha lasciato insufficientemente esplorato il rapporto tra "domanda" e "diagnosi". In questo articolo, estraiamo inizialmente strategie di interazione reale dei pazienti da autentiche conversazioni medico-paziente e utilizziamo tali strategie per guidare l'addestramento di un simulatore di pazienti che riflette da vicino il comportamento del mondo reale. Inserendo i record medici nel nostro simulatore di pazienti per simulare le risposte dei pazienti, conduciamo ampi esperimenti per esplorare il rapporto tra "domanda" e "diagnosi" nel processo di consultazione. I risultati sperimentali dimostrano che la domanda e la diagnosi rispettano la legge di Liebig: una scarsa qualità della domanda limita l'efficacia della diagnosi, indipendentemente dalla capacità diagnostica, e viceversa. Inoltre, gli esperimenti rivelano significative differenze nelle prestazioni di domanda di vari modelli. Per indagare su questo fenomeno, categorizziamo il processo di domanda in quattro tipi: (1) domanda sulla principale lamentela; (2) specificazione dei sintomi conosciuti; (3) domanda sui sintomi accompagnatori; e (4) raccolta della storia familiare o medica. Analizziamo la distribuzione delle domande nei quattro tipi per i diversi modelli per esplorare le ragioni dietro le significative differenze nelle prestazioni. Abbiamo intenzione di rendere open-source i pesi e il codice correlato del nostro simulatore di pazienti su https://github.com/LIO-H-ZEN/PatientSimulator.
La sintesi di asset 3D di alta qualità da input testuali o visivi è diventata un obiettivo centrale nella moderna modellazione generativa. Nonostante la proliferazione degli algoritmi di generazione 3D, spesso si confrontano con sfide come l'incoerenza multi-vista, tempi di generazione lenti, bassa fedeltà e problemi di ricostruzione delle superfici. Sebbene alcuni studi abbiano affrontato alcuni di questi problemi, una soluzione completa resta sfuggente. In questo articolo, presentiamo CaPa, un framework di intaglio e pittura che genera asset 3D ad alta fedeltà in modo efficiente. CaPa utilizza un processo a due fasi, separando la generazione della geometria dalla sintesi delle texture. Inizialmente, un modello di diffusione latente 3D genera la geometria guidata da input multi-vista, garantendo coerenza strutturale tra prospettive. Successivamente, sfruttando un'innovativa Attenzione Spazialmente Decoppiata, il framework sintetizza texture ad alta risoluzione (fino a 4K) per una data geometria. Inoltre, proponiamo un algoritmo di inpainting di occlusione consapevole del 3D che riempie le regioni non testurizzate, ottenendo risultati coerenti sull'intero modello. Questo flusso di lavoro genera asset 3D di alta qualità in meno di 30 secondi, fornendo output pronti all'uso per applicazioni commerciali. I risultati sperimentali dimostrano che CaPa eccelle sia nella fedeltà delle texture che nella stabilità geometrica, stabilendo un nuovo standard per la generazione pratica e scalabile di asset 3D.
Recentemente, i modelli generativi su larga scala hanno dimostrato eccezionali capacità di generazione testo-immagine. Tuttavia, generare immagini personalizzate ad alta fedeltà con soggetti specifici presenta ancora sfide, specialmente nei casi che coinvolgono più soggetti. In questo articolo, proponiamo AnyStory, un approccio unificato per la generazione di soggetti personalizzati. AnyStory non solo raggiunge una personalizzazione ad alta fedeltà per singoli soggetti, ma anche per più soggetti, senza compromettere la fedeltà del soggetto. In particolare, AnyStory modella il problema della personalizzazione del soggetto in modo "codifica-e-instrada". Nella fase di codifica, AnyStory utilizza un codificatore d'immagine universale e potente, cioè ReferenceNet, in combinazione con il codificatore visivo CLIP per ottenere una codifica ad alta fedeltà delle caratteristiche del soggetto. Nella fase di instradamento, AnyStory utilizza un instradatore di soggetto consapevole delle istanze disaccoppiato per percepire e prevedere con precisione la posizione potenziale del soggetto corrispondente nello spazio latente e guidare l'inserimento delle condizioni del soggetto. Dettagliati risultati sperimentali dimostrano l'eccellente performance del nostro metodo nel mantenere i dettagli del soggetto, allineare le descrizioni testuali e personalizzare per più soggetti. La pagina del progetto si trova su https://aigcdesigngroup.github.io/AnyStory/.
L'aumento recente della popolarità dei grandi modelli linguistici ha stimolato lo sviluppo di ampi set di dati di codice necessari per addestrarli. Ciò ha lasciato un codice limitato disponibile per la raccolta e l'uso nella successiva indagine di comportamenti specifici, o valutazione di grandi modelli linguistici senza subire contaminazioni dei dati. Per affrontare questo problema, rilasciamo The Heap, un ampio dataset multilingue che copre 57 linguaggi di programmazione ed è stato deduplicato rispetto ad altri dataset aperti di codice, consentendo ai ricercatori di condurre valutazioni imparziali di grandi modelli linguistici senza un'elevata pulizia dei dati.
I sistemi AI generativi come i modelli fondamentali (FMs) devono essere allineati in modo appropriato con i valori umani per garantire che il loro comportamento sia utile e affidabile. Sebbene il Reinforcement Learning from Human Feedback (RLHF) abbia mostrato promesse nell'ottimizzazione delle prestazioni del modello utilizzando i giudizi umani, i flussi di lavoro RLHF esistenti si basano principalmente su feedback immediati, che possono non riflettere accuratamente l'impatto a valle di un'interazione sull'utilità degli utenti. Dimostriamo che il feedback basato sulle stime della previsione degli osservatori sulle conseguenze a valle induce sistematicamente dinamiche della Legge di Goodhart, incentivando comportamenti non allineati come la servilità e l'inganno e degradando infine i risultati degli utenti. Per alleviare ciò, proponiamo di separare la valutazione dalla previsione riorientando il RLHF sul feedback in retrospettiva. La nostra analisi teorica rivela che condizionare il feedback degli osservatori sulle osservazioni a valle mitiga il disallineamento e migliora l'utilità umana attesa, anche quando queste osservazioni sono simulate dal sistema AI stesso. Per sfruttare questa intuizione in un algoritmo di allineamento pratico, introduciamo il Reinforcement Learning from Hindsight Simulation (RLHS), che prima simula conseguenze plausibili e poi raccoglie feedback per valutare quali comportamenti siano stati effettivamente benefici in retrospettiva. Applichiamo RLHS a due metodi di ottimizzazione delle preferenze online e offline ampiamente impiegati - Proximal Policy Optimization (PPO) e Direct Preference Optimization (DPO) - e mostriamo empiricamente che il disallineamento è significativamente ridotto con entrambi i metodi. Attraverso uno studio online con utenti umani, mostriamo che RLHS supera costantemente RLHF nell'aiutare gli utenti a raggiungere i loro obiettivi e ottiene valutazioni di soddisfazione più elevate, nonostante sia stato addestrato esclusivamente con feedback simulati in retrospettiva. Questi risultati sottolineano l'importanza di concentrarsi sulle conseguenze a lungo termine, anche se simulate, per mitigare il disallineamento in RLHF.