Articoli di ricerca IA selezionati quotidianamente con traduzioni
Una delle grandi sfide dell'intelligenza artificiale generale è sviluppare agenti in grado di condurre ricerche scientifiche e scoprire nuove conoscenze. Sebbene i modelli all'avanguardia siano già stati utilizzati come supporto per gli scienziati umani, ad esempio per il brainstorming di idee, la scrittura di codice o i compiti di previsione, essi svolgono ancora solo una piccola parte del processo scientifico. Questo articolo presenta il primo quadro completo per la scoperta scientifica completamente automatica, consentendo ai modelli linguistici all'avanguardia di condurre ricerche in modo indipendente e comunicare i propri risultati. Introduciamo "The AI Scientist", che genera nuove idee di ricerca, scrive codice, esegue esperimenti, visualizza i risultati, descrive le sue scoperte scrivendo un articolo scientifico completo e poi esegue un processo di revisione simulato per la valutazione. In linea di principio, questo processo può essere ripetuto per sviluppare iterativamente le idee in modo aperto, agendo come la comunità scientifica umana. Ne dimostriamo la versatilità applicandolo a tre distinti sottocampi del machine learning: modellazione a diffusione, modellazione linguistica basata su transformer e dinamiche di apprendimento. Ogni idea viene implementata e sviluppata in un articolo completo a un costo inferiore a $15 per articolo. Per valutare gli articoli generati, progettiamo e validiamo un revisore automatico, che dimostriamo raggiungere prestazioni quasi umane nella valutazione dei punteggi degli articoli. The AI Scientist può produrre articoli che superano la soglia di accettazione a una conferenza di machine learning di alto livello, secondo il giudizio del nostro revisore automatico. Questo approccio segna l'inizio di una nuova era nella scoperta scientifica nel machine learning: portando i benefici trasformativi degli agenti AI all'intero processo di ricerca dell'AI stessa, e avvicinandoci a un mondo in cui una creatività e innovazione infinita e accessibile possono essere liberate sui problemi più complessi del mondo. Il nostro codice è open-source all'indirizzo https://github.com/SakanaAI/AI-Scientist.
Questo articolo introduce rStar, un approccio di ragionamento reciproco basato sul self-play che migliora significativamente le capacità di ragionamento di piccoli modelli linguistici (SLM) senza la necessità di fine-tuning o modelli superiori. rStar scompone il ragionamento in un processo reciproco di generazione-discriminazione basato sul self-play. In primo luogo, un SLM target arricchisce la Ricerca ad Albero Monte Carlo (MCTS) con un ampio set di azioni di ragionamento simili a quelle umane per costruire traiettorie di ragionamento di qualità superiore. Successivamente, un altro SLM, con capacità simili al target SLM, agisce come discriminatore per verificare ciascuna traiettoria generata dal target SLM. Le traiettorie di ragionamento reciprocamente concordate sono considerate mutuamente consistenti e quindi più probabili che siano corrette. Esperimenti estesi su cinque SLM dimostrano che rStar può risolvere efficacemente diversi problemi di ragionamento, tra cui GSM8K, GSM-Hard, MATH, SVAMP e StrategyQA. In modo notevole, rStar aumenta l'accuratezza su GSM8K dal 12,51% al 63,91% per LLaMA2-7B, dal 36,46% all'81,88% per Mistral-7B e dal 74,53% al 91,13% per LLaMA3-8B-Instruct. Il codice sarà disponibile all'indirizzo https://github.com/zhentingqi/rStar.
I modelli di diffusione hanno dimostrato capacità notevoli e robuste sia nella generazione di immagini che di video. Per ottenere un maggiore controllo sui risultati generati, i ricercatori introducono architetture aggiuntive, come ControlNet, Adapters e ReferenceNet, per integrare controlli condizionati. Tuttavia, i metodi attuali di generazione controllata spesso richiedono risorse computazionali aggiuntive significative, specialmente per la generazione di video, e affrontano sfide nell'addestramento o mostrano un controllo debole. In questo articolo, proponiamo ControlNeXt: un metodo potente ed efficiente per la generazione controllata di immagini e video. Inizialmente progettiamo un'architettura più semplice ed efficiente, sostituendo rami aggiuntivi pesanti con un costo aggiuntivo minimo rispetto al modello base. Una struttura così concisa permette inoltre al nostro metodo di integrarsi perfettamente con altri pesi LoRA, consentendo l'alterazione dello stile senza la necessità di un ulteriore addestramento. Per quanto riguarda l'addestramento, riduciamo fino al 90% dei parametri apprendibili rispetto alle alternative. Inoltre, proponiamo un altro metodo chiamato Cross Normalization (CN) come sostituto della Zero-Convolution per ottenere una convergenza rapida e stabile durante l'addestramento. Abbiamo condotto vari esperimenti con diversi modelli base su immagini e video, dimostrando la robustezza del nostro metodo.
Med42-v2 introduce una suite di modelli linguistici di grandi dimensioni (LLM) clinici progettati per affrontare i limiti dei modelli generici in contesti sanitari. Questi modelli sono basati sull'architettura Llama3 e ottimizzati utilizzando dati clinici specializzati. Hanno subito un allineamento delle preferenze in più fasi per rispondere efficacemente a prompt naturali. Mentre i modelli generici sono spesso allineati per evitare di rispondere a query cliniche come precauzione, Med42-v2 è specificamente addestrato per superare questa limitazione, consentendone l'uso in ambienti clinici. I modelli Med42-v2 dimostrano prestazioni superiori rispetto ai modelli Llama3 originali sia nelle configurazioni da 8B che da 70B parametri e rispetto a GPT-4 in vari benchmark medici. Questi LLM sono sviluppati per comprendere query cliniche, eseguire compiti di ragionamento e fornire un'assistenza preziosa in contesti clinici. I modelli sono ora disponibili pubblicamente all'indirizzo https://huggingface.co/m42-health{https://huggingface.co/m42-health}.
Presentiamo CogVideoX, un modello di trasformatori su larga scala basato su diffusione, progettato per generare video a partire da prompt testuali. Per modellare in modo efficiente i dati video, proponiamo di sfruttare un Variational Autoencoder (VAE) 3D per comprimere i video lungo sia le dimensioni spaziali che temporali. Per migliorare l'allineamento testo-video, introduciamo un trasformatore esperto con LayerNorm adattivo, che facilita la fusione profonda tra le due modalità. Utilizzando una tecnica di addestramento progressivo, CogVideoX è in grado di produrre video coerenti e di lunga durata caratterizzati da movimenti significativi. Inoltre, sviluppiamo una pipeline efficace per l'elaborazione dei dati testo-video, che include varie strategie di pre-elaborazione dei dati e un metodo di descrizione video. Questo contribuisce significativamente a migliorare le prestazioni di CogVideoX, aumentando sia la qualità della generazione che l'allineamento semantico. I risultati dimostrano che CogVideoX raggiunge prestazioni all'avanguardia sia in termini di metriche automatiche che di valutazioni umane. I pesi del modello sia per il 3D Causal VAE che per CogVideoX sono disponibili pubblicamente all'indirizzo https://github.com/THUDM/CogVideo.
Presentiamo FruitNeRF, un framework unificato e innovativo per il conteggio dei frutti che sfrutta metodi all'avanguardia di sintesi delle viste per contare qualsiasi tipo di frutto direttamente in 3D. Il nostro framework prende in input un insieme non ordinato di immagini con pose note, acquisite da una camera monoculare, e segmenta i frutti in ciascuna immagine. Per rendere il nostro sistema indipendente dal tipo di frutto, utilizziamo un modello di base che genera maschere di segmentazione binaria per qualsiasi frutto. Utilizzando entrambe le modalità, RGB e semantica, addestriamo un campo di radianza neurale semantico. Attraverso un campionamento uniforme del volume del campo implicito Fruit Field, otteniamo nuvole di punti contenenti solo frutti. Applicando un clustering a cascata sulla nuvola di punti estratta, il nostro approccio raggiunge un conteggio preciso dei frutti. L'uso dei campi di radianza neurale offre vantaggi significativi rispetto ai metodi convenzionali come il tracciamento degli oggetti o il flusso ottico, poiché il conteggio stesso viene elevato in 3D. Il nostro metodo previene il doppio conteggio dei frutti ed evita di contare frutti irrilevanti. Valutiamo la nostra metodologia utilizzando sia dataset reali che sintetici. Il dataset reale è composto da tre meli con conteggi manuali come verità di base, un dataset di riferimento di mele con una fila e posizioni dei frutti note, mentre il dataset sintetico comprende vari tipi di frutti tra cui mela, prugna, limone, pera, pesca e mango. Inoltre, valutiamo le prestazioni del conteggio dei frutti utilizzando il modello di base rispetto a una U-Net.
I Large Multimodal Models (LMM) hanno inaugurato una nuova era nell'intelligenza artificiale, unendo capacità linguistiche e visive per formare Visual Foundation Agent altamente competenti. Questi agenti sono ritenuti eccellere in una miriade di compiti, avvicinandosi potenzialmente all'intelligenza artificiale generale. Tuttavia, i benchmark esistenti non riescono a mettere sufficientemente alla prova o a mostrare il pieno potenziale degli LMM in ambienti complessi e reali. Per colmare questa lacuna, introduciamo VisualAgentBench (VAB), un benchmark completo e pionieristico progettato specificamente per addestrare e valutare gli LMM come Visual Foundation Agent in scenari diversificati, tra cui Embodied, Graphical User Interface e Visual Design, con compiti formulati per sondare la profondità della comprensione e delle capacità di interazione degli LMM. Attraverso test rigorosi su nove API LMM proprietarie e otto modelli open, dimostriamo le considerevoli ma ancora in via di sviluppo capacità agentive di questi modelli. Inoltre, VAB costruisce un set di addestramento traiettoria attraverso metodi ibridi che includono Program-based Solvers, LMM Agent Bootstrapping e Human Demonstrations, promuovendo miglioramenti significativi delle prestazioni degli LMM attraverso il behavior cloning. Il nostro lavoro non solo mira a valutare i modelli esistenti, ma fornisce anche una solida base per lo sviluppo futuro di Visual Foundation Agent. Codice, dati di addestramento e test, e parte degli LMM open ottimizzati sono disponibili su https://github.com/THUDM/VisualAgentBench.
In questo articolo, presentiamo un nuovo approccio per la creazione di avatar 3D della testa in grado di generalizzare a partire da pochi dati in condizioni reali, garantendo alta fedeltà e robustezza animabile. Data la natura sottovincolata di questo problema, l'incorporazione di conoscenze pregresse è essenziale. Pertanto, proponiamo un framework composto da fasi di apprendimento delle conoscenze pregresse e di creazione dell'avatar. La fase di apprendimento delle conoscenze pregresse sfrutta priorità 3D della testa derivate da un ampio dataset dinamico multi-vista, mentre la fase di creazione dell'avatar applica queste priorità per la personalizzazione con pochi dati. Il nostro approccio cattura efficacemente queste priorità utilizzando una rete auto-decodificatore basata su Gaussian Splatting con modellazione dinamica basata su parti. Il nostro metodo impiega una codifica condivisa per l'identità con codici latenti personalizzati per singole identità, al fine di apprendere gli attributi delle primitive gaussiane. Durante la fase di creazione dell'avatar, otteniamo una rapida personalizzazione dell'avatar della testa sfruttando strategie di inversione e fine-tuning. Esperimenti estensivi dimostrano che il nostro modello sfrutta efficacemente le priorità della testa e le generalizza con successo per la personalizzazione con pochi dati, raggiungendo una qualità di rendering foto-realistica, coerenza multi-vista e animazione stabile.
Questo articolo presenta UniPortrait, un innovativo framework di personalizzazione delle immagini umane che unisce la personalizzazione a singolo e multi-ID con alta fedeltà facciale, ampia editabilità del volto, descrizione di input in forma libera e generazione di layout diversificati. UniPortrait è composto da soli due moduli plug-and-play: un modulo di embedding ID e un modulo di routing ID. Il modulo di embedding ID estrae caratteristiche facciali versatile e modificabili utilizzando una strategia di disaccoppiamento per ciascun ID e le incorpora nello spazio contestuale dei modelli di diffusione. Il modulo di routing ID combina e distribuisce quindi questi embedding in modo adattivo alle rispettive regioni all'interno dell'immagine sintetizzata, ottenendo la personalizzazione di singoli e multipli ID. Con uno schema di addestramento a due fasi accuratamente progettato, UniPortrait raggiunge prestazioni superiori sia nella personalizzazione a singolo che a multi-ID. Esperimenti quantitativi e qualitativi dimostrano i vantaggi del nostro metodo rispetto agli approcci esistenti, nonché la sua buona scalabilità, ad esempio la compatibilità universale con gli strumenti di controllo generativo esistenti. La pagina del progetto è disponibile all'indirizzo https://aigcdesigngroup.github.io/UniPortrait-Page/.
Negli ultimi anni, l'architettura transformer è diventata lo standard de facto per gli algoritmi di apprendimento automatico applicati all'elaborazione del linguaggio naturale e alla visione artificiale. Nonostante ci siano prove significative del successo di questa architettura nel contesto dell'apprendimento robotico, sosteniamo che i transformer standard non sfruttino appieno la struttura del problema dell'apprendimento robotico. Pertanto, proponiamo Body Transformer (BoT), un'architettura che sfrutta l'incorporazione fisica del robot fornendo un bias induttivo che guida il processo di apprendimento. Rappresentiamo il corpo del robot come un grafo di sensori e attuatori e ci affidiamo all'attenzione mascherata per aggregare le informazioni all'interno dell'architettura. L'architettura risultante supera il transformer standard, così come il classico perceptron multistrato, in termini di completamento del compito, proprietà di scalabilità ed efficienza computazionale quando si rappresentano politiche di apprendimento per imitazione o per rinforzo. Materiale aggiuntivo, incluso il codice open-source, è disponibile all'indirizzo https://sferrazza.cc/bot_site.
Nonostante i loro recenti successi, i modelli linguistici su larga scala basati su Transformer mostrano modalità di fallimento sorprendenti. Un esempio ben noto di tali modalità di fallimento è la loro incapacità di generalizzare in base alla lunghezza: risolvere istanze di problemi durante l'inferenza che sono più lunghe di quelle osservate durante l'addestramento. In questo lavoro, esploriamo ulteriormente la causa principale di questo fallimento eseguendo un'analisi dettagliata dei comportamenti del modello sul semplice compito di parità. La nostra analisi suggerisce che i fallimenti nella generalizzazione della lunghezza sono strettamente correlati all'incapacità di un modello di eseguire accessi casuali alla memoria all'interno della sua finestra contestuale. Presentiamo prove a sostegno di questa ipotesi dimostrando l'efficacia di metodologie che aggirano la necessità di indicizzazione o che consentono l'accesso casuale ai token indirettamente, attraverso l'indirizzamento basato sul contenuto. Mostriamo inoltre dove e come si manifesta il fallimento nell'eseguire accessi casuali alla memoria attraverso visualizzazioni delle mappe di attenzione.