Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'avvento dei grandi modelli linguistici (LLM) ha catalizzato un cambiamento trasformativo nell'intelligenza artificiale, aprendo la strada a agenti intelligenti avanzati capaci di ragionamento sofisticato, percezione robusta e azione versatile in diversi domini. Man mano che questi agenti guidano sempre più la ricerca e le applicazioni pratiche dell'IA, il loro design, valutazione e miglioramento continuo presentano sfide intricate e multifaccettate. Questo studio fornisce una panoramica completa, inquadrando gli agenti intelligenti all'interno di un'architettura modulare ispirata al cervello che integra principi tratti dalla scienza cognitiva, dalle neuroscienze e dalla ricerca computazionale. Strutturiamo la nostra esplorazione in quattro parti interconnesse. In primo luogo, approfondiamo le basi modulari degli agenti intelligenti, mappando sistematicamente i loro moduli cognitivi, percettivi e operativi su funzionalità analoghe del cervello umano, e chiarendo componenti fondamentali come la memoria, la modellazione del mondo, l'elaborazione delle ricompense e i sistemi simili alle emozioni. In secondo luogo, discutiamo i meccanismi di auto-miglioramento e di evoluzione adattativa, esplorando come gli agenti affinano autonomamente le loro capacità, si adattano a ambienti dinamici e raggiungono un apprendimento continuo attraverso paradigmi di ottimizzazione automatizzata, incluse le emergenti strategie di ottimizzazione guidate da AutoML e LLM. In terzo luogo, esaminiamo i sistemi multi-agente collaborativi ed evolutivi, investigando l'intelligenza collettiva che emerge dalle interazioni, dalla cooperazione e dalle strutture sociali degli agenti, evidenziando parallelismi con le dinamiche sociali umane. Infine, affrontiamo l'imperativo critico di costruire sistemi di IA sicuri, protetti e benefici, enfatizzando le minacce alla sicurezza intrinseche ed estrinseche, l'allineamento etico, la robustezza e le strategie pratiche di mitigazione necessarie per un dispiegamento affidabile nel mondo reale.
L'addestramento di grandi modelli linguistici (LLM) presenta numerose sfide, tra cui instabilità del gradiente e picchi di perdita. Questi fenomeni possono portare a una divergenza catastrofica, richiedendo un costoso ripristino dei checkpoint e il salto di batch di dati. Le tradizionali tecniche di clipping del gradiente, come i metodi costanti o basati sulla norma, non riescono a risolvere efficacemente questi problemi a causa della loro dipendenza da soglie fisse o euristiche, portando a un apprendimento inefficiente e richiedendo frequenti interventi manuali. In questo lavoro, proponiamo ZClip, un algoritmo di clipping del gradiente adattativo che regola dinamicamente la soglia di clipping in base alle proprietà statistiche delle norme del gradiente nel tempo. A differenza delle strategie reattive precedenti, ZClip si adatta proattivamente alle dinamiche di addestramento senza fare alcuna ipotesi preliminare sulla scala e sull'evoluzione temporale delle norme del gradiente. Nel suo nucleo, sfrutta il rilevamento di anomalie basato sullo z-score per identificare e mitigare i grandi picchi di gradiente, prevenendo picchi di perdita maligni senza interferire con la convergenza in altri casi. Il nostro codice è disponibile all'indirizzo: https://github.com/bluorion-com/ZClip.
I Large Multi-modality Models (LMMs) hanno compiuto progressi significativi nella comprensione e generazione visiva, ma continuano a incontrare sfide nell'ambito del General Visual Editing, in particolare nel seguire istruzioni complesse, preservare la coerenza dell'aspetto e supportare formati di input flessibili. Per colmare questa lacuna, introduciamo RISEBench, il primo benchmark per valutare il Reasoning-Informed viSual Editing (RISE). RISEBench si concentra su quattro tipi chiave di ragionamento: Temporale, Causale, Spaziale e Logico. Abbiamo curato casi di test di alta qualità per ciascuna categoria e proposto un framework di valutazione che analizza il Ragionamento sulle Istruzioni, la Coerenza dell'Aspetto e la Plausibilità Visiva, utilizzando sia giudizi umani che un approccio LMM-as-a-judge. I nostri esperimenti rivelano che, sebbene GPT-4o-Native superi significativamente altri modelli open-source e proprietari, anche questo sistema all'avanguardia incontra difficoltà nei compiti di ragionamento logico, evidenziando un'area ancora poco esplorata. Come sforzo iniziale, RISEBench mira a fornire intuizioni fondamentali sull'editing visivo consapevole del ragionamento e a catalizzare la ricerca futura. Sebbene sia ancora nelle sue fasi iniziali, ci impegniamo a espandere e perfezionare continuamente il benchmark per supportare valutazioni più complete, affidabili e scalabili delle prossime generazioni di sistemi multimodali. Il nostro codice e i dati saranno rilasciati su https://github.com/PhoenixZ810/RISEBench.
I recenti progressi nel modello GPT4o di OpenAI hanno dimostrato capacità sorprendentemente buone nella generazione e modifica di immagini, suscitando un notevole entusiasmo nella comunità. Questo rapporto tecnico presenta il primo benchmark di valutazione (denominato GPT-ImgEval), che analizza in modo quantitativo e qualitativo le prestazioni di GPT-4o lungo tre dimensioni critiche: (1) qualità della generazione, (2) competenza nella modifica e (3) sintesi semantica basata sulla conoscenza del mondo. In tutte e tre le attività, GPT-4o dimostra prestazioni solide, superando significativamente i metodi esistenti sia nel controllo della generazione di immagini che nella qualità dell'output, mostrando al contempo eccezionali capacità di ragionamento basato sulla conoscenza. Inoltre, basandosi sui dati generati da GPT-4o, proponiamo un approccio basato su modelli di classificazione per investigare l'architettura sottostante di GPT-4o, dove i nostri risultati empirici suggeriscono che il modello è composto da una componente auto-regressiva (AR) combinata con una testa basata su diffusione per il decoding delle immagini, piuttosto che da architetture di tipo VAR. Forniamo anche una speculazione completa sull'architettura complessiva di GPT-4o. In aggiunta, conduciamo una serie di analisi per identificare e visualizzare le specifiche limitazioni di GPT-4o e gli artefatti sintetici comunemente osservati nella sua generazione di immagini. Presentiamo inoltre uno studio comparativo sulla modifica di immagini in più round tra GPT-4o e Gemini 2.0 Flash e discutiamo le implicazioni di sicurezza degli output di GPT-4o, in particolare la loro rilevabilità da parte dei modelli forensi esistenti. Speriamo che il nostro lavoro possa offrire spunti preziosi e fornire un benchmark affidabile per guidare la ricerca futura, favorire la riproducibilità e accelerare l'innovazione nel campo della generazione di immagini e oltre. I codici e i dataset utilizzati per valutare GPT-4o sono disponibili all'indirizzo https://github.com/PicoTrex/GPT-ImgEval.
Questo articolo introduce JavisDiT, un innovativo Joint Audio-Video Diffusion Transformer progettato per la generazione sincronizzata di audio e video (JAVG). Basato sull'architettura avanzata del Diffusion Transformer (DiT), JavisDiT è in grado di generare contenuti audio e video di alta qualità simultaneamente a partire da prompt aperti forniti dall'utente. Per garantire una sincronizzazione ottimale, introduciamo un meccanismo di allineamento spazio-temporale fine attraverso un Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. Questo modulo estrae sia prior globali che finemente dettagliate a livello spazio-temporale, guidando la sincronizzazione tra le componenti visive e uditive. Inoltre, proponiamo un nuovo benchmark, JavisBench, composto da 10.140 video sonori di alta qualità con didascalie testuali, che coprono una vasta gamma di scene e scenari complessi del mondo reale. Inoltre, abbiamo specificamente ideato una metrica robusta per valutare la sincronizzazione tra coppie audio-video generate in contenuti complessi del mondo reale. I risultati sperimentali dimostrano che JavisDiT supera significativamente i metodi esistenti, garantendo sia una generazione di alta qualità che una sincronizzazione precisa, stabilendo un nuovo standard per i compiti JAVG. Il nostro codice, modello e dataset saranno resi pubblicamente disponibili all'indirizzo https://javisdit.github.io/.
L'apprendimento per rinforzo (RL) è stato ampiamente adottato nel post-addestramento di modelli linguistici di grandi dimensioni (LLM) su vasta scala. Recentemente, l'incentivazione delle capacità di ragionamento negli LLM attraverso l'RL indica che metodi di apprendimento appropriati potrebbero abilitare una scalabilità efficace durante l'inferenza. Una delle principali sfide dell'RL è ottenere segnali di ricompensa accurati per gli LLM in vari domini che vanno oltre domande verificabili o regole artificiali. In questo lavoro, indaghiamo come migliorare la modellazione delle ricompense (RM) con un maggiore utilizzo di risorse computazionali per query generali, ovvero la scalabilità durante l'inferenza di RM generalisti, e, inoltre, come migliorare l'efficacia della scalabilità prestazioni-risorse con metodi di apprendimento appropriati. Per l'approccio RM, adottiamo la modellazione generativa delle ricompense puntuale (GRM) per garantire flessibilità per diversi tipi di input e potenziale di scalabilità durante l'inferenza. Per il metodo di apprendimento, proponiamo il Self-Principled Critique Tuning (SPCT) per favorire comportamenti scalabili nella generazione di ricompense nelle GRM attraverso l'RL online, generando principi in modo adattivo e critiche in modo accurato, ottenendo i modelli DeepSeek-GRM. Inoltre, per una scalabilità efficace durante l'inferenza, utilizziamo il campionamento parallelo per espandere l'uso delle risorse computazionali e introduciamo una meta RM per guidare il processo di voto e migliorare le prestazioni di scalabilità. Empiricamente, dimostriamo che lo SPCT migliora significativamente la qualità e la scalabilità delle GRM, superando metodi e modelli esistenti in vari benchmark RM senza gravi distorsioni, e potrebbe ottenere prestazioni migliori rispetto alla scalabilità durante l'addestramento. DeepSeek-GRM incontra ancora sfide in alcuni compiti, che riteniamo possano essere affrontate da futuri sforzi nei sistemi di ricompensa generalisti. I modelli saranno rilasciati e resi open-source.
La sintesi di volti parlanti è fondamentale per gli avatar virtuali e l'interazione uomo-computer. Tuttavia, la maggior parte dei metodi esistenti è tipicamente limitata all'accettazione di controlli da una singola modalità primaria, riducendone l'utilità pratica. A tal fine, introduciamo ACTalker, un framework di diffusione video end-to-end che supporta sia il controllo multi-segnale che il controllo a singolo segnale per la generazione di video di volti parlanti. Per il controllo multiplo, progettiamo una struttura mamba parallela con più rami, ciascuno dei quali utilizza un segnale di guida separato per controllare specifiche regioni facciali. Un meccanismo di gate viene applicato su tutti i rami, fornendo un controllo flessibile sulla generazione del video. Per garantire una coordinazione naturale del video controllato sia temporalmente che spazialmente, utilizziamo la struttura mamba, che consente ai segnali di guida di manipolare i token di feature attraverso entrambe le dimensioni in ciascun ramo. Inoltre, introduciamo una strategia di mask-drop che permette a ciascun segnale di guida di controllare in modo indipendente la propria regione facciale corrispondente all'interno della struttura mamba, prevenendo conflitti di controllo. I risultati sperimentali dimostrano che il nostro metodo produce video facciali dall'aspetto naturale guidati da segnali diversi e che il livello mamba integra perfettamente multiple modalità di guida senza conflitti.
Questo articolo presenta SkyReels-A2, un framework di generazione video controllabile in grado di assemblare elementi visivi arbitrari (ad esempio, personaggi, oggetti, sfondi) in video sintetizzati basati su prompt testuali, mantenendo una stretta coerenza con immagini di riferimento per ciascun elemento. Definiamo questo compito come "elementi-a-video" (E2V), le cui principali sfide risiedono nel preservare la fedeltà di ciascun elemento di riferimento, garantire una composizione coerente della scena e ottenere output naturali. Per affrontare queste sfide, progettiamo innanzitutto una pipeline dati completa per costruire triplette prompt-riferimento-video per l'addestramento del modello. Successivamente, proponiamo un nuovo modello di embedding congiunto immagine-testo per iniettare rappresentazioni multi-elemento nel processo generativo, bilanciando la coerenza specifica degli elementi con la coerenza globale e l'allineamento al testo. Ottimizziamo inoltre la pipeline di inferenza sia per la velocità che per la stabilità dell'output. Inoltre, introduciamo un benchmark accuratamente curato per la valutazione sistematica, denominato A2 Bench. Gli esperimenti dimostrano che il nostro framework può generare video diversificati e di alta qualità con un controllo preciso degli elementi. SkyReels-A2 è il primo modello open-source di livello commerciale per la generazione di E2V, ottenendo risultati favorevoli rispetto a modelli commerciali avanzati a codice chiuso. Prevediamo che SkyReels-A2 avanzerà applicazioni creative come il dramma e l'e-commerce virtuale, spingendo i confini della generazione video controllabile.
Presentiamo la sfida di creare automaticamente un articolo di alto livello in stile Wikipedia che aggreghi informazioni provenienti da video diversi su eventi del mondo reale, come disastri naturali o elezioni politiche. I video sono fonti intuitive per la generazione aumentata dal recupero (RAG), ma la maggior parte dei flussi di lavoro RAG contemporanei si concentra principalmente sul testo, e i metodi esistenti per la sintesi basata su video si focalizzano sulla comprensione a basso livello delle scene piuttosto che sulla semantica ad alto livello degli eventi. Per colmare questa lacuna, introduciamo WikiVideo, un benchmark costituito da articoli scritti da esperti e video densamente annotati che forniscono prove per le affermazioni degli articoli, facilitando l'integrazione dei video nelle pipeline RAG e consentendo la creazione di contenuti approfonditi basati su fonti multimodali. Proponiamo inoltre la Generazione Collaborativa di Articoli (CAG), un metodo interattivo innovativo per la creazione di articoli da più video. CAG sfrutta un'interazione iterativa tra un modello di ragionamento in stile r1 e un VideoLLM per trarre inferenze di livello superiore sull'evento target rispetto a quanto è possibile con i soli VideoLLM, che si concentrano su caratteristiche visive di basso livello. Valutiamo i VideoLLM all'avanguardia e CAG sia in contesti di recupero oracolare che RAG, e scopriamo che CAG supera costantemente i metodi alternativi, suggerendo al contempo interessanti direzioni per futuri lavori.
L'apprendimento per rinforzo (Reinforcement Learning, RL) ha recentemente dimostrato un forte potenziale nel migliorare le capacità di ragionamento dei grandi modelli linguistici e viene ora attivamente esteso ai modelli visione-linguaggio (Vision-Language Models, VLMs). Tuttavia, le applicazioni esistenti di RL nei VLMs spesso si basano su framework altamente ingegnerizzati che ostacolano la riproducibilità e l'accessibilità, mentre mancano di protocolli di valutazione standardizzati, rendendo difficile confrontare i risultati o interpretare le dinamiche di addestramento. Questo lavoro introduce un framework trasparente e costruito da zero per l'RL nei VLMs, offrendo una pipeline minimale ma funzionale in quattro fasi, validata su più modelli e dataset. Inoltre, viene proposto uno schema di valutazione standardizzato per analizzare le dinamiche di addestramento e i comportamenti riflessivi. Esperimenti estesi su compiti di ragionamento visivo rivelano risultati empirici chiave: la lunghezza delle risposte è sensibile ai semi casuali, la riflessione è correlata alla lunghezza dell'output, e l'RL supera costantemente il fine-tuning supervisionato (Supervised Fine-Tuning, SFT) nella generalizzazione, anche con dati di alta qualità. Questi risultati, insieme al framework proposto, mirano a stabilire una baseline riproducibile e a supportare un coinvolgimento più ampio nella ricerca sui VLMs basati su RL.
L'analisi di scalabilità degli esistenti Speech Language Model (SLM) dipinge un quadro piuttosto desolante. Si prevede che gli SLM richiedano molta più potenza di calcolo e dati rispetto ai modelli di testo, portando alcuni a mettere in dubbio la fattibilità di addestrare SLM di alta qualità. Tuttavia, gli SLM moderni vengono spesso inizializzati a partire da TextLM pre-addestrati utilizzando l'interpolazione tra parlato e testo per consentire il trasferimento di conoscenza. Ciò solleva la domanda: gli SLM interpolati scalano in modo più efficiente rispetto agli SLM senza testo? In questo articolo rispondiamo con un sonoro sì! Conduciamo un'analisi di scalabilità degli SLM interpolati addestrandone diverse decine e analizzando le tendenze di scalabilità. Osserviamo che, in questa configurazione, gli SLM scalano in modo più efficiente con la potenza di calcolo. Inoltre, i nostri risultati indicano che le dinamiche di scalabilità sono significativamente diverse rispetto agli SLM senza testo, suggerendo che si dovrebbe allocare una quota notevolmente maggiore del budget di calcolo per aumentare le dimensioni del modello piuttosto che il numero di token di addestramento. Studiamo anche il ruolo dei dati sintetici e delle famiglie di modelli TextLM nello sbloccare questo potenziale. I risultati suggeriscono che il nostro modello scalato raggiunge prestazioni comparabili con i modelli leader nelle metriche semantiche del parlato, utilizzando meno potenza di calcolo e dati rispetto ad altri approcci. Rendiamo disponibili in open source modelli, campioni e dati - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) soffrono di elevati costi computazionali a causa delle loro dimensioni massicce e del gran numero di token visivi. In questo articolo, indaghiamo la ridondanza strato per strato negli MLLM introducendo una nuova metrica, il Contributo dello Strato (LC), che quantifica l'impatto delle trasformazioni di uno strato sui token visivi e testuali, rispettivamente. Il calcolo di LC implica la misurazione della divergenza nell'output del modello che risulta dalla rimozione delle trasformazioni dello strato sui token specificati. Il nostro esperimento pilota rivela che molti strati degli MLLM mostrano un contributo minimo durante l'elaborazione dei token visivi. Motivati da questa osservazione, proponiamo ShortV, un metodo senza addestramento che sfrutta LC per identificare gli strati inefficaci e congela gli aggiornamenti dei token visivi in questi strati. Gli esperimenti dimostrano che ShortV può congelare i token visivi in circa il 60\% degli strati degli MLLM, riducendo così drasticamente i costi computazionali legati all'aggiornamento dei token visivi. Ad esempio, ottiene una riduzione del 50\% delle FLOP su LLaVA-NeXT-13B mantenendo prestazioni superiori. Il codice sarà disponibile pubblicamente all'indirizzo https://github.com/icip-cas/ShortV.
I modelli di diffusione offrono un impressionante controllo per le attività legate alle immagini, principalmente attraverso previsioni del rumore che codificano informazioni specifiche per il compito e una guida senza classificatore che consente una scalabilità regolabile. Questo meccanismo di scalabilità definisce implicitamente uno "spazio di scalabilità" il cui potenziale per la manipolazione semantica fine rimane ancora poco esplorato. Investigiamo questo spazio, partendo dall'editing basato sull'inversione, dove la differenza tra le previsioni condizionate e non condizionate del rumore trasporta informazioni semantiche chiave. Il nostro contributo principale deriva da un'analisi di Fourier delle previsioni del rumore, rivelando che le sue componenti a bassa e alta frequenza evolvono in modo diverso durante la diffusione. Basandoci su questa intuizione, introduciamo FreSca, un metodo semplice che applica la scalabilità della guida in modo indipendente a diverse bande di frequenza nel dominio di Fourier. FreSca migliora in modo dimostrabile i metodi esistenti di editing delle immagini senza necessità di riaddestramento. In modo entusiasmante, la sua efficacia si estende anche a compiti di comprensione delle immagini come la stima della profondità, producendo guadagni quantitativi su più dataset.
La selezione del modello è un passaggio cruciale nella previsione di serie temporali, tradizionalmente che richiede valutazioni approfondite delle prestazioni su vari dataset. Gli approcci di meta-apprendimento mirano ad automatizzare questo processo, ma tipicamente dipendono da matrici di prestazioni pre-costruite, che sono costose da realizzare. In questo lavoro, proponiamo di sfruttare i Large Language Models (LLMs) come alternativa leggera per la selezione del modello. Il nostro metodo elimina la necessità di matrici di prestazioni esplicite utilizzando la conoscenza intrinseca e le capacità di ragionamento degli LLMs. Attraverso esperimenti estesi con LLaMA, GPT e Gemini, dimostriamo che il nostro approccio supera le tecniche tradizionali di meta-apprendimento e i baseline euristici, riducendo significativamente il sovraccarico computazionale. Questi risultati sottolineano il potenziale degli LLMs nella selezione efficiente dei modelli per la previsione di serie temporali.
Dall'avvento dei modelli linguistici di grandi dimensioni basati sul ragionamento, molti hanno ottenuto grande successo distillando le capacità di ragionamento in modelli studente. Tali tecniche hanno significativamente colmato il divario tra il ragionamento e i modelli linguistici standard (LLM) nei compiti di codifica. Nonostante ciò, gran parte dei progressi nella distillazione dei modelli di ragionamento rimane bloccata dietro dataset proprietari o manca di dettagli sulla curatela dei dati, il filtraggio e l'addestramento successivo. Per affrontare questo problema, abbiamo costruito un dataset superiore per il fine-tuning supervisionato (SFT) che utilizziamo per ottenere risultati all'avanguardia nelle capacità di codifica in modelli di varie dimensioni. I nostri modelli distillati utilizzano solo SFT per raggiungere il 61,8% su LiveCodeBench e il 24,6% su CodeContests, superando le alternative addestrate con apprendimento per rinforzo. Successivamente, analizziamo le fonti di dati utilizzate per costruire il nostro dataset, l'impatto del filtraggio tramite esecuzione del codice e l'importanza della diversità delle istruzioni/soluzioni. Osserviamo che il filtraggio tramite esecuzione ha influenzato negativamente l'accuratezza sui benchmark, portandoci a privilegiare la diversità delle istruzioni rispetto alla correttezza delle soluzioni. Infine, analizziamo anche l'efficienza dei token e i modelli di ragionamento utilizzati da questi modelli. Renderemo open-source questi dataset e i modelli distillati alla comunità.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLMs) hanno dimostrato che è promettente utilizzare Modelli di Ricompensa di Processo (PRMs) come verificatori per migliorare le prestazioni degli LLMs. Tuttavia, gli attuali PRMs affrontano tre sfide principali: (1) capacità limitate di supervisione e generalizzazione del processo, (2) dipendenza dalla previsione di valori scalari senza sfruttare le capacità generative degli LLMs, e (3) incapacità di scalare il calcolo al momento del test dei PRMs. In questo lavoro, introduciamo GenPRM, un modello generativo di ricompensa di processo che esegue un ragionamento esplicito a Catena di Pensiero (CoT) con verifica del codice prima di fornire un giudizio per ogni passo del ragionamento. Per ottenere etichette di supervisione del processo e dati di razionale di alta qualità, proponiamo la Stima del Progresso Relativo (RPE) e un framework di sintesi del razionale che incorpora la verifica del codice. I risultati sperimentali su ProcessBench e diverse attività di ragionamento matematico mostrano che GenPRM supera significativamente i precedenti PRMs con solo 23K dati di addestramento dal dataset MATH. Attraverso la scalatura al momento del test, un GenPRM da 1.5B supera GPT-4o, e un GenPRM da 7B supera Qwen2.5-Math-PRM-72B su ProcessBench. Inoltre, GenPRM dimostra forti capacità di servire come modello critico per il perfezionamento del modello di policy. Questo lavoro stabilisce un nuovo paradigma per la supervisione del processo che colma il divario tra PRMs e modelli critici negli LLMs. Il nostro codice, modello e dati saranno disponibili su https://ryanliu112.github.io/GenPRM.
Presentiamo le prime evidenze meccanicistiche che dimostrano come agenti di apprendimento per rinforzo model-free possano imparare a pianificare. Questo risultato è stato ottenuto applicando una metodologia basata sull'interpretabilità concettuale a un agente model-free in Sokoban, un benchmark comunemente utilizzato per studiare la pianificazione. Nello specifico, dimostriamo che DRC, un generico agente model-free introdotto da Guez et al. (2019), utilizza rappresentazioni concettuali apprese per formulare internamente piani che prevedono gli effetti a lungo termine delle azioni sull'ambiente e influenzano la selezione delle azioni. La nostra metodologia prevede: (1) l'individuazione di concetti rilevanti per la pianificazione, (2) l'analisi della formazione dei piani all'interno delle rappresentazioni dell'agente e (3) la verifica, attraverso interventi, che i piani scoperti (nelle rappresentazioni dell'agente) abbiano un effetto causale sul comportamento dell'agente. Mostriamo inoltre che l'emergere di questi piani coincide con l'emergere di una proprietà simile alla pianificazione: la capacità di trarre vantaggio da un calcolo aggiuntivo durante il test. Infine, eseguiamo un'analisi qualitativa dell'algoritmo di pianificazione appreso dall'agente e scopriamo una forte somiglianza con la ricerca bidirezionale parallelizzata. I nostri risultati avanzano la comprensione dei meccanismi interni alla base del comportamento di pianificazione negli agenti, un aspetto importante considerando la recente tendenza di capacità emergenti di pianificazione e ragionamento nei LLM attraverso l'apprendimento per rinforzo.
La scoperta scientifica è pronta per un rapido avanzamento grazie alla robotica avanzata e all'intelligenza artificiale. Le attuali pratiche scientifiche affrontano limitazioni significative, poiché la sperimentazione manuale rimane dispendiosa in termini di tempo e risorse, mentre la ricerca multidisciplinare richiede l'integrazione di conoscenze che vanno oltre i confini dell'esperienza dei singoli ricercatori. Qui, immaginiamo un concetto di Scienziato Generale Autonomo (AGS, Autonomous Generalist Scientist) che combina l'IA agentica e la robotica incarnata per automatizzare l'intero ciclo di vita della ricerca. Questo sistema potrebbe interagire dinamicamente sia con ambienti fisici che virtuali, facilitando l'integrazione di conoscenze tra diverse discipline scientifiche. Implementando queste tecnologie in ogni fase della ricerca — dalla revisione della letteratura alla generazione di ipotesi, dalla sperimentazione alla stesura di manoscritti — e incorporando la riflessione interna insieme al feedback esterno, questo sistema mira a ridurre significativamente il tempo e le risorse necessarie per la scoperta scientifica. Basandosi sull'evoluzione dagli scienziati virtuali basati su IA a robot scienziati generalisti versatili, l'AGS promette un potenziale rivoluzionario. Man mano che questi sistemi autonomi diventano sempre più integrati nel processo di ricerca, ipotizziamo che la scoperta scientifica potrebbe seguire nuove leggi di scala, potenzialmente influenzate dal numero e dalle capacità di questi sistemi autonomi, offrendo nuove prospettive su come la conoscenza viene generata ed evolve. L'adattabilità dei robot incarnati ad ambienti estremi, unita all'effetto volano dell'accumulo di conoscenza scientifica, promette di spingere continuamente oltre sia le frontiere fisiche che intellettuali.
Il 3D Gaussian Splatting (3DGS) dimostra una qualità e una velocità di rendering superiori, ma richiede milioni di Gaussiane 3D con costi significativi di archiviazione e trasmissione. I recenti metodi di compressione per 3DGS si concentrano principalmente sulla compressione di Scaffold-GS, ottenendo prestazioni impressionanti ma con una struttura voxel aggiuntiva e una strategia complessa di codifica e quantizzazione. In questo articolo, miriamo a sviluppare un metodo semplice ma efficace, chiamato NeuralGS, che esplora un approccio alternativo per comprimere il 3DGS originale in una rappresentazione compatta senza la struttura voxel e le complesse strategie di quantizzazione. La nostra osservazione è che i campi neurali come NeRF possono rappresentare scene 3D complesse utilizzando reti neurali Multi-Layer Perceptron (MLP) con solo pochi megabyte. Pertanto, NeuralGS adotta efficacemente la rappresentazione del campo neurale per codificare gli attributi delle Gaussiane 3D con MLP, richiedendo solo una piccola dimensione di archiviazione anche per scene di grandi dimensioni. Per raggiungere questo obiettivo, adottiamo una strategia di clustering e adattiamo le Gaussiane con diversi piccoli MLP per ogni cluster, basandoci sui punteggi di importanza delle Gaussiane come pesi di adattamento. Sperimentiamo su più dataset, ottenendo una riduzione media della dimensione del modello di 45 volte senza compromettere la qualità visiva. Le prestazioni di compressione del nostro metodo sul 3DGS originale sono comparabili ai metodi di compressione dedicati basati su Scaffold-GS, dimostrando il grande potenziale della compressione diretta del 3DGS originale con campi neurali.
Gli Autoencoder Sparse (SAE) hanno recentemente dimostrato di migliorare l'interpretabilità e la controllabilità nei Large Language Models (LLM). In questo lavoro, estendiamo l'applicazione degli SAE ai Vision-Language Models (VLM), come CLIP, e introduciamo un framework completo per valutare la monosemanticità nelle rappresentazioni visive. I nostri risultati sperimentali rivelano che gli SAE addestrati su VLM migliorano significativamente la monosemanticità dei singoli neuroni, mostrando anche rappresentazioni gerarchiche che si allineano bene con strutture definite da esperti (ad esempio, la tassonomia di iNaturalist). In particolare, dimostriamo che l'applicazione degli SAE per intervenire su un encoder visivo di CLIP consente di controllare direttamente l'output di LLM multimodali (ad esempio, LLaVA) senza alcuna modifica al modello sottostante. Questi risultati sottolineano la praticità e l'efficacia degli SAE come approccio non supervisionato per migliorare sia l'interpretabilità che il controllo dei VLM.
I sistemi di riconoscimento vocale automatico hanno indubbiamente fatto progressi con l'integrazione di modelli multilingue e multitask come Whisper, che hanno dimostrato una promettente capacità di comprendere e processare il parlato in un'ampia gamma di lingue. Nonostante la loro robustezza, questi modelli spesso non riescono a gestire le distinzioni linguistiche delle lingue minoritarie. Questo studio affronta tale lacuna integrando modelli linguistici tradizionali e innovativi con modelli Whisper ottimizzati per migliorare le loro prestazioni nelle lingue meno studiate. Attraverso un rigoroso processo di ottimizzazione e valutazione su più dataset, dimostriamo miglioramenti significativi nel tasso di errore sulle parole, specialmente in scenari con risorse limitate. Il nostro approccio non solo sfrutta i vasti dati su cui Whisper è stato pre-addestrato, ma ne completa anche l'adattabilità linguistica incorporando modelli linguistici. Abbiamo ottenuto miglioramenti fino al 51\% per dataset in-distribuzione e fino al 34\% per frasi out-of-distribution utilizzando modelli linguistici statistici, mentre i grandi modelli linguistici hanno fornito miglioramenti moderati ma costantemente robusti in contesti linguistici diversi. I risultati rivelano che, sebbene l'integrazione apporti benefici affidabili per tutte le dimensioni dei modelli, l'entità del miglioramento varia, sottolineando l'importanza di parametri ottimizzati per i modelli linguistici. Infine, evidenziamo l'importanza di selezionare parametri di valutazione appropriati quando si riportano i risultati utilizzando modelli ASR basati su transformer. In sintesi, questa ricerca apre la strada a tecnologie ASR più inclusive che performano meglio in diverse lingue arricchendo la loro conoscenza linguistica. Per ulteriori dettagli implementativi di questo studio, la documentazione tecnica e il codice sorgente sono disponibili all'indirizzo http://www.github.com/hitz-zentroa/whisper-lm.
Imparare a generare parametri di reti neurali condizionati alle descrizioni dei compiti e alle specifiche dell'architettura è fondamentale per migliorare l'adattabilità dei modelli e il trasferimento di conoscenza. I metodi esistenti, in particolare quelli basati su modelli di diffusione, soffrono di una scalabilità limitata per architetture di grandi dimensioni, rigidità nella gestione di profondità di rete variabili e generazione disgiunta dei parametri che compromette la coerenza inter-strato. In questo lavoro, proponiamo IGPG (Instruction Guided Parameter Generation), un framework autoregressivo che unifica la sintesi dei parametri attraverso compiti e architetture diverse. IGPG sfrutta un VQ-VAE e un modello autoregressivo per generare parametri di reti neurali, condizionati alle istruzioni del compito, al dataset e ai dettagli dell'architettura. Generando in modo autoregressivo i token dei pesi della rete neurale, IGPG garantisce la coerenza inter-strato e consente un adattamento efficiente tra modelli e dataset. Operando a livello di token, IGPG cattura efficacemente distribuzioni complesse di parametri aggregate da un ampio spettro di modelli pre-addestrati. Esperimenti estesi su diversi dataset visivi dimostrano che IGPG consolida modelli pre-addestrati diversi in un unico framework generativo flessibile. I parametri sintetizzati raggiungono prestazioni competitive o superiori rispetto ai metodi all'avanguardia, specialmente in termini di scalabilità ed efficienza quando applicati a grandi architetture. Questi risultati sottolineano il potenziale di IGPG come strumento potente per il recupero di pesi pre-addestrati, la selezione di modelli e il fine-tuning rapido specifico per compito.
La segmentazione panottica non supervisionata mira a suddividere un'immagine in regioni semanticamente significative e istanze di oggetti distinti senza addestramento su dati annotati manualmente. A differenza dei lavori precedenti sulla comprensione panottica non supervisionata delle scene, eliminiamo la necessità di dati di addestramento centrati sugli oggetti, consentendo la comprensione non supervisionata di scene complesse. A tal fine, presentiamo il primo metodo panottico non supervisionato che si addestra direttamente su immagini centrate sulla scena. In particolare, proponiamo un approccio per ottenere etichette pseudo panottiche ad alta risoluzione su dati complessi centrati sulla scena, combinando rappresentazioni visive, profondità e segnali di movimento. Utilizzando sia l'addestramento con etichette pseudo che una strategia di auto-addestramento panottico, otteniamo un approccio innovativo che predice accuratamente la segmentazione panottica di scene complesse senza richiedere alcuna annotazione umana. Il nostro approccio migliora significativamente la qualità panottica, ad esempio superando lo stato dell'arte recente nella segmentazione panottica non supervisionata su Cityscapes di 9,4 punti percentuali in PQ.