Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici eccellono nella generazione di codice a livello di funzione e file, ma la creazione di repository completi da zero rimane una sfida fondamentale. Questo processo richiede una pianificazione coerente e affidabile attraverso le fasi di proposta e implementazione, mentre il linguaggio naturale, a causa della sua ambiguità e verbosità, non è adatto a rappresentare fedelmente strutture software complesse. Per affrontare questo problema, introduciamo il Repository Planning Graph (RPG), una rappresentazione persistente che unifica la pianificazione a livello di proposta e implementazione codificando capacità, strutture di file, flussi di dati e funzioni in un unico grafo. RPG sostituisce il linguaggio naturale ambiguo con un progetto esplicito, consentendo una pianificazione a lungo termine e una generazione scalabile di repository. Basandoci su RPG, sviluppiamo ZeroRepo, un framework guidato da grafi per la generazione di repository da zero. Opera in tre fasi: pianificazione a livello di proposta e raffinamento a livello di implementazione per costruire il grafo, seguito dalla generazione di codice guidata dal grafo con validazione dei test. Per valutare questo contesto, costruiamo RepoCraft, un benchmark di sei progetti reali con 1.052 task. Su RepoCraft, ZeroRepo produce repository con una media di quasi 36K LOC, circa 3,9 volte il miglior baseline (Claude Code) e circa 64 volte altri baseline. Raggiunge un'ampiezza funzionale dell'81,5% e un tasso di successo del 69,7%, superando Claude Code rispettivamente di 27,3 e 35,8 punti percentuali. Un'ulteriore analisi mostra che RPG modella dipendenze complesse, consente una pianificazione progressivamente più sofisticata attraverso un ridimensionamento quasi lineare e migliora la comprensione dei repository da parte dei LLM, accelerando così la localizzazione degli agenti.
I modelli linguistici di grandi dimensioni (LLM) multimodali unificati, in grado sia di comprendere che di generare contenuti visivi, possiedono un enorme potenziale. Tuttavia, i modelli open-source esistenti spesso presentano un compromesso tra queste capacità. Presentiamo Manzano, un framework unificato semplice e scalabile che riduce sostanzialmente questa tensione accoppiando un tokenizer ibrido per le immagini con una ricetta di addestramento ben curata. Un singolo encoder visivo condiviso alimenta due adattatori leggeri che producono embedding continui per la comprensione da immagine a testo e token discreti per la generazione da testo a immagine all'interno di uno spazio semantico comune. Un LLM autoregressivo unificato predice la semantica di alto livello sotto forma di token di testo e immagini, con un decoder ausiliario di diffusione che successivamente traduce i token delle immagini in pixel. L'architettura, insieme a una ricetta di addestramento unificata su dati di comprensione e generazione, consente un apprendimento congiunto scalabile di entrambe le capacità. Manzano raggiunge risultati all'avanguardia tra i modelli unificati ed è competitivo con modelli specializzati, in particolare nelle valutazioni ricche di testo. I nostri studi mostrano conflitti minimi tra i compiti e guadagni consistenti derivanti dalla scalabilità delle dimensioni del modello, convalidando la nostra scelta progettuale di un tokenizer ibrido.
La modellazione generativa, l'apprendimento di rappresentazioni e la classificazione sono tre problemi fondamentali nel machine learning (ML), tuttavia le soluzioni state-of-the-art (SoTA) rimangono largamente disgiunte. In questo articolo, ci chiediamo: un principio unificato può affrontare tutti e tre? Tale unificazione potrebbe semplificare le pipeline di ML e favorire una maggiore sinergia tra i compiti. Introduciamo la Latent Zoning Network (LZN) come un passo verso questo obiettivo. Al suo nucleo, LZN crea uno spazio latente gaussiano condiviso che codifica informazioni attraverso tutti i compiti. Ogni tipo di dato (ad esempio, immagini, testo, etichette) è dotato di un encoder che mappa i campioni in zone latenti disgiunte e di un decoder che mappa i latenti di nuovo ai dati. I compiti di ML sono espressi come composizioni di questi encoder e decoder: ad esempio, la generazione condizionata di immagini da etichette utilizza un encoder di etichette e un decoder di immagini; l'embedding di immagini utilizza un encoder di immagini; la classificazione utilizza un encoder di immagini e un decoder di etichette. Dimostriamo il potenziale di LZN in tre scenari di crescente complessità: (1) LZN può migliorare modelli esistenti (generazione di immagini): quando combinato con il modello SoTA Rectified Flow, LZN migliora l'FID su CIFAR10 da 2.76 a 2.59 senza modificare l'obiettivo di addestramento. (2) LZN può risolvere compiti in modo indipendente (apprendimento di rappresentazioni): LZN può implementare l'apprendimento di rappresentazioni non supervisionato senza funzioni di perdita ausiliarie, superando i metodi seminali MoCo e SimCLR rispettivamente del 9.3% e dello 0.2% nella classificazione lineare downstream su ImageNet. (3) LZN può risolvere più compiti simultaneamente (generazione e classificazione congiunte): con encoder/decoder di immagini e etichette, LZN esegue entrambi i compiti congiuntamente per progettazione, migliorando l'FID e raggiungendo l'accuratezza SoTA nella classificazione su CIFAR10. Il codice e i modelli addestrati sono disponibili su https://github.com/microsoft/latent-zoning-networks. Il sito web del progetto è su https://zinanlin.me/blogs/latent_zoning_networks.html.
La creazione di modelli 3D ad alta fedeltà di ambienti interni è essenziale per applicazioni nel design, nella realtà virtuale e nella robotica. Tuttavia, la modellazione 3D manuale rimane dispendiosa in termini di tempo e fatica. Sebbene i recenti progressi nell'IA generativa abbiano reso possibile la sintesi automatizzata di scene, i metodi esistenti spesso incontrano difficoltà nel bilanciare qualità visiva, diversità, coerenza semantica e controllo dell'utente. Un collo di bottiglia significativo è la mancanza di un dataset su larga scala e di alta qualità specificamente progettato per questo compito. Per colmare questa lacuna, introduciamo un dataset sintetico completo, che include 12.328 scene strutturate annotate con 57.440 stanze e 4,7 milioni di rendering fotorealistici 2D. Sfruttando questo dataset, presentiamo SpatialGen, un innovativo modello di diffusione multi-vista e multi-modale che genera scene 3D interne realistiche e semanticamente coerenti. Dato un layout 3D e un'immagine di riferimento (derivata da un prompt testuale), il nostro modello sintetizza l'aspetto (immagine a colori), la geometria (mappa delle coordinate della scena) e la semantica (mappa di segmentazione semantica) da punti di vista arbitrari, preservando la coerenza spaziale tra le modalità. SpatialGen genera costantemente risultati superiori rispetto ai metodi precedenti nei nostri esperimenti. Stiamo rendendo open-source i nostri dati e modelli per potenziare la comunità e far progredire il campo della comprensione e generazione di scene interne.
Il rapido progresso dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) ha reso l'allineamento con le preferenze umane una sfida critica. I Modelli di Ricompensa (RMs) rappresentano una tecnologia fondamentale per raggiungere questo obiettivo, ma attualmente manca una guida sistematica per la costruzione di Modelli di Ricompensa Multimodali (MRMs) all'avanguardia, sia in ambito accademico che industriale. Attraverso un'analisi sperimentale esaustiva, questo articolo mira a fornire una "ricetta" chiara per la costruzione di MRM ad alte prestazioni. Esaminiamo sistematicamente ogni componente cruciale della pipeline di sviluppo degli MRM, inclusi i paradigmi di modellazione della ricompensa (ad esempio, Naive-RM, Critic-based RM e Generative RM), l'architettura della testa di ricompensa, le strategie di addestramento, la cura dei dati (coprendo oltre dieci dataset di preferenze multimodali e solo testuali), il modello di base e la scala del modello, nonché i metodi di ensemble. Sulla base di queste intuizioni sperimentali, introduciamo BaseReward, una linea di base potente ed efficiente per la modellazione della ricompensa multimodale. BaseReward adotta un'architettura semplice ma efficace, costruita su un backbone {Qwen2.5-VL}, caratterizzata da una testa di ricompensa a due strati ottimizzata, ed è addestrata su una miscela accuratamente curata di dati di preferenza multimodali e solo testuali di alta qualità. I nostri risultati dimostrano che BaseReward stabilisce un nuovo stato dell'arte su benchmark principali come MM-RLHF-Reward Bench, VL-Reward Bench e Multimodal Reward Bench, superando i modelli precedenti. Inoltre, per validarne l'utilità pratica oltre i benchmark statici, integriamo BaseReward in una pipeline di apprendimento per rinforzo nel mondo reale, migliorando con successo le prestazioni di un MLLM in vari compiti di percezione, ragionamento e conversazione. Questo lavoro non solo fornisce un MRM di alto livello, ma, cosa ancora più importante, offre alla comunità una guida chiara e supportata empiricamente per lo sviluppo di modelli di ricompensa robusti per la prossima generazione di MLLMs.
L'apprendimento per rinforzo (RL) robotico nel mondo reale con modelli visione-linguaggio-azione (VLA) è limitato da ricompense sparse e artigianali e da un'esplorazione inefficiente. Introduciamo VLAC, un modello generale di ricompensa basato su InternVL e addestrato su vasti dataset eterogenei. Dati osservazioni a coppie e un obiettivo linguistico, produce un delta di progresso denso e un segnale di completamento, eliminando l'ingegnerizzazione specifica delle ricompense e supportando il trasferimento one-shot in contesti a compiti e ambienti non visti. VLAC è addestrato su dataset visione-linguaggio per rafforzare le capacità percettive, dialogiche e di ragionamento, insieme a dati di traiettorie umane e robotiche che ancorano la generazione di azioni e la stima del progresso, ed è ulteriormente potenziato per respingere prompt irrilevanti e rilevare regressioni o stagnazioni attraverso la costruzione di un gran numero di campioni negativi e semanticamente non corrispondenti. Con il controllo dei prompt, un singolo modello VLAC genera alternativamente token di ricompensa e azione, unificando critico e politica. Implementato all'interno di un ciclo RL asincrono nel mondo reale, stratifichiamo un protocollo graduale con l'uomo nel ciclo (replay di dimostrazioni offline, ritorno ed esplorazione, esplorazione guidata dall'uomo) che accelera l'esplorazione e stabilizza l'apprendimento iniziale. In quattro distinti compiti di manipolazione nel mondo reale, VLAC aumenta i tassi di successo da circa il 30% a circa il 90% entro 200 episodi di interazione reale; l'incorporazione di interventi con l'uomo nel ciclo produce un ulteriore miglioramento del 50% nell'efficienza del campionamento e raggiunge fino al 100% di successo finale.
Nel campo dell'automazione dell'interazione uomo-interfaccia grafica (GUI) guidata dall'IA, sebbene i rapidi progressi nei modelli linguistici multimodali di grandi dimensioni e nelle tecniche di fine-tuning basate sul reinforcement learning abbiano portato a risultati notevoli, una sfida fondamentale persiste: la loro logica di interazione si discosta significativamente dai modelli naturali di comunicazione uomo-GUI. Per colmare questa lacuna, proponiamo "Blink-Think-Link" (BTL), un framework ispirato al cervello umano per l'interazione uomo-GUI che imita il processo cognitivo umano tra utenti e interfacce grafiche. Il sistema scompone le interazioni in tre fasi biologicamente plausibili: (1) Blink - rapida rilevazione e attenzione alle aree rilevanti dello schermo, analogo ai movimenti saccadici degli occhi; (2) Think - ragionamento e decisione di livello superiore, che riflette la pianificazione cognitiva; e (3) Link - generazione di comandi eseguibili per un controllo motorio preciso, che emula i meccanismi di selezione delle azioni umane. Inoltre, introduciamo due innovazioni tecniche chiave per il framework BTL: (1) Blink Data Generation - una pipeline di annotazione automatica specificamente ottimizzata per i dati di blink, e (2) BTL Reward - il primo meccanismo di ricompensa basato su regole che consente l'apprendimento per rinforzo guidato sia dal processo che dal risultato. Basandoci su questo framework, sviluppiamo un modello di agente GUI denominato BTL-UI, che dimostra prestazioni costantemente all'avanguardia sia nelle attività di comprensione statica delle GUI che in quelle di interazione dinamica in benchmark completi. Questi risultati forniscono una validazione empirica conclusiva dell'efficacia del framework nello sviluppo di agenti GUI avanzati.
Presentiamo Lynx, un modello ad alta fedeltà per la sintesi personalizzata di video a partire da una singola immagine di input. Basato su un modello fondazionale open-source di Diffusion Transformer (DiT), Lynx introduce due adattatori leggeri per garantire la fedeltà dell'identità. L'ID-adapter utilizza un Perceiver Resampler per convertire gli embedding facciali derivati da ArcFace in token di identità compatti per il condizionamento, mentre il Ref-adapter integra caratteristiche dense VAE da un percorso di riferimento congelato, iniettando dettagli fini in tutti i livelli del transformer attraverso l'attenzione incrociata. Questi moduli consentono collettivamente una robusta preservazione dell'identità, mantenendo al contempo coerenza temporale e realismo visivo. Attraverso la valutazione su un benchmark curato di 40 soggetti e 20 prompt imparziali, che hanno generato 800 casi di test, Lynx ha dimostrato una somiglianza facciale superiore, un'aderenza competitiva ai prompt e una forte qualità video, avanzando così lo stato dell'arte nella generazione personalizzata di video.
Sebbene COLMAP sia rimasto a lungo il metodo predominante per l'ottimizzazione dei parametri della fotocamera in scene statiche, è limitato dal suo tempo di esecuzione prolungato e dalla dipendenza da maschere di movimento di verità fondamentale (GT) per l'applicazione a scene dinamiche. Molti sforzi hanno tentato di migliorarlo incorporando ulteriori informazioni a priori come supervisione, quali la lunghezza focale GT, maschere di movimento, nuvole di punti 3D, pose della fotocamera e profondità metrica, che tuttavia sono tipicamente non disponibili in video RGB acquisiti casualmente. In questo articolo, proponiamo un nuovo metodo per un'ottimizzazione più accurata ed efficiente dei parametri della fotocamera in scene dinamiche supervisionata esclusivamente da un singolo video RGB. Il nostro metodo è composto da tre componenti chiave: (1) Filtri di tracciamento a patch, per stabilire relazioni robuste e massimamente sparse simili a cerniere lungo il video RGB. (2) Ottimizzazione congiunta consapevole degli outlier, per un'ottimizzazione efficiente dei parametri della fotocamera mediante la ponderazione adattiva degli outlier in movimento, senza fare affidamento su informazioni a priori sul movimento. (3) Una strategia di ottimizzazione in due fasi, per migliorare la stabilità e la velocità di ottimizzazione attraverso un compromesso tra i limiti Softplus e i minimi convessi nelle funzioni di perdita. Valutiamo visivamente e numericamente le nostre stime della fotocamera. Per ulteriormente validare l'accuratezza, alimentiamo le stime della fotocamera in un metodo di ricostruzione 4D e valutiamo le scene 3D risultanti, nonché le mappe RGB e di profondità renderizzate in 2D. Eseguiamo esperimenti su 4 dataset del mondo reale (NeRF-DS, DAVIS, iPhone e TUM-dynamics) e 1 dataset sintetico (MPI-Sintel), dimostrando che il nostro metodo stima i parametri della fotocamera in modo più efficiente e accurato con un singolo video RGB come unica supervisione.
Il text-to-speech guidato da istruzioni (ITTS) consente agli utenti di controllare la generazione del parlato attraverso prompt in linguaggio naturale, offrendo un'interfaccia più intuitiva rispetto al tradizionale TTS. Tuttavia, l'allineamento tra le istruzioni sullo stile dell'utente e la percezione dell'ascoltatore rimane in gran parte inesplorato. Questo lavoro presenta innanzitutto un'analisi percettiva della controllabilità dell'ITTS su due dimensioni espressive (avverbi di grado e intensità emotiva graduata) e raccoglie valutazioni umane sugli attributi dell'età del parlante e dell'enfasi a livello di parola. Per rivelare in modo completo il divario tra istruzione e percezione, forniamo una raccolta di dati con valutazioni umane su larga scala, denominata corpus Expressive VOice Control (E-VOC). Inoltre, riveliamo che (1) gpt-4o-mini-tts è il modello ITTS più affidabile, con un ottimo allineamento tra istruzione e enunciati generati attraverso dimensioni acustiche. (2) I 5 sistemi ITTS analizzati tendono a generare voci adulte anche quando le istruzioni richiedono di utilizzare voci di bambini o anziani. (3) Il controllo fine rimane una sfida importante, indicando che la maggior parte dei sistemi ITTS ha un ampio margine di miglioramento nell'interpretazione di istruzioni sugli attributi leggermente diverse.
Gli agenti di role-playing (RPAs) hanno attratto un crescente interesse per la loro capacità di simulare personaggi immersivi e interattivi. Tuttavia, gli approcci esistenti si concentrano principalmente su profili di ruolo statici, trascurando le abilità percettive dinamiche intrinseche agli esseri umani. Per colmare questa lacuna, introduciamo il concetto di profili di ruolo dinamici incorporando la modalità video negli RPAs. A supporto di ciò, costruiamo Role-playing-Video60k, un dataset su larga scala e di alta qualità composto da 60k video e 700k dialoghi corrispondenti. Basandoci su questo dataset, sviluppiamo un framework RPA completo che combina il campionamento temporale adattivo con rappresentazioni sia dinamiche che statiche dei profili di ruolo. Nello specifico, il profilo dinamico viene creato campionando in modo adattivo i fotogrammi video e alimentandoli al LLM in ordine temporale, mentre il profilo statico consiste in (1) dialoghi dei personaggi tratti dai video di training durante il fine-tuning, e (2) un contesto riassuntivo del video di input durante l'inferenza. Questa integrazione congiunta consente agli RPAs di generare risposte più efficaci. Inoltre, proponiamo un metodo di valutazione robusto che copre otto metriche. I risultati sperimentali dimostrano l'efficacia del nostro framework, evidenziando l'importanza dei profili di ruolo dinamici nello sviluppo degli RPAs.
I modelli pre-addestrati di riconoscimento vocale automatico (ASR) come Whisper performano bene, ma richiedono comunque un adattamento al dominio per gestire vocaboli e linguaggi non visti. In molti contesti reali, la raccolta di dati vocali risulta impraticabile, rendendo necessario un adattamento basato esclusivamente sul testo. Proponiamo WhisTLE, un metodo di adattamento profondamente supervisionato e basato solo su testo per modelli ASR pre-addestrati di tipo encoder-decoder. WhisTLE addestra un autoencoder variazionale (VAE) per modellare gli output dell'encoder a partire dal testo e affina il decoder utilizzando l'encoder appreso da testo a latente, eventualmente combinato con un adattamento basato sulla sintesi vocale (TTS). Durante l'inferenza, l'encoder originale viene ripristinato, senza alcun costo aggiuntivo in termini di tempo di esecuzione. Su quattro dataset fuori dominio e quattro modelli ASR, WhisTLE con TTS riduce il tasso di errore sulle parole (WER) del 12,3% rispetto all'adattamento basato solo su TTS e supera tutte le baseline non WhisTLE in 27 su 32 scenari.
La conversazione umana coinvolge linguaggio, parlato e segnali visivi, con ciascun mezzo che fornisce informazioni complementari. Ad esempio, il parlato trasmette un'atmosfera o un tono non completamente catturati dal solo testo. Mentre i modelli linguistici multimodali (LLM) si concentrano sulla generazione di risposte testuali da input diversi, meno attenzione è stata dedicata alla generazione di un parlato naturale e coinvolgente. Proponiamo un agente umanoide che genera risposte vocali basate sull'umore della conversazione e sulle informazioni relative allo stile reattivo. Per raggiungere questo obiettivo, costruiamo un nuovo dataset MultiSensory Conversation focalizzato sul parlato, per consentire agli agenti di generare un parlato naturale. Proponiamo quindi un modello basato su LLM multimodale per generare risposte testuali e descrizioni vocali, che vengono utilizzate per generare un parlato che copre informazioni paralinguistiche. I risultati sperimentali dimostrano l'efficacia dell'utilizzo di entrambe le modalità visive e audio nella conversazione per generare un parlato coinvolgente. Il codice sorgente è disponibile su https://github.com/kimtaesu24/MSenC.
L'obiettivo finale degli agenti incarnati è creare collaboratori in grado di interagire con gli esseri umani, non semplici esecutori che seguono passivamente le istruzioni. Ciò richiede che gli agenti comunichino, si coordinino e adattino le loro azioni in base al feedback umano. Recentemente, i progressi nei VLAs (Vision-Language-Action models) hanno offerto una strada verso questo obiettivo. Tuttavia, la maggior parte degli attuali agenti incarnati basati su VLA opera in modalità unidirezionale: ricevono un'istruzione e la eseguono senza feedback. Questo approccio fallisce negli scenari del mondo reale, dove le istruzioni sono spesso ambigue. In questo articolo, affrontiamo questo problema con il framework Ask-to-Clarify. Il nostro framework risolve prima le istruzioni ambigue ponendo domande in un dialogo a più turni. Poi genera azioni di basso livello end-to-end. Nello specifico, il framework Ask-to-Clarify è composto da due componenti, un VLM per la collaborazione e un modello di diffusione per l'azione. Introduciamo anche un modulo di connessione che genera condizioni per il modello di diffusione basandosi sull'output del VLM. Questo modulo adatta l'osservazione in base alle istruzioni per creare condizioni affidabili. Addestriamo il nostro framework con una strategia di isolamento della conoscenza in due fasi. Prima, ottimizziamo il componente di collaborazione utilizzando dati di dialogo per la risoluzione delle ambiguità. Poi, integriamo il componente di azione mantenendo congelato quello di collaborazione. Ciò preserva le capacità di interazione mentre ottimizziamo il modello di diffusione per generare azioni. La strategia di addestramento garantisce che il nostro framework possa prima porre domande e poi generare azioni. Durante l'inferenza, un rilevatore di segnali funge da router che aiuta il nostro framework a passare dal porre domande all'intraprendere azioni. Valutiamo il framework Ask-to-Clarify in 8 task del mondo reale, dove supera gli attuali VLAs all'avanguardia. I risultati suggeriscono che il nostro framework proposto, insieme alla strategia di addestramento, fornisce una strada verso agenti incarnati collaborativi.