Articoli di ricerca IA selezionati quotidianamente con traduzioni
La mappatura canonica delle superfici generalizza il rilevamento dei punti chiave assegnando a ciascun pixel di un oggetto un punto corrispondente in un template 3D. Resa popolare da DensePose per l'analisi degli esseri umani, gli autori hanno successivamente tentato di applicare il concetto a più categorie, ma con successo limitato a causa dell'elevato costo della supervisione manuale. In questo lavoro, introduciamo SHIC, un metodo per apprendere mappe canoniche senza supervisione manuale che ottiene risultati migliori rispetto ai metodi supervisionati per la maggior parte delle categorie. La nostra idea è sfruttare modelli di visione artificiale di base come DINO e Stable Diffusion, che sono aperti e quindi possiedono eccellenti prior sulle categorie naturali. SHIC riduce il problema della stima delle corrispondenze immagine-template alla previsione delle corrispondenze immagine-immagine utilizzando le caratteristiche dei modelli di base. La riduzione funziona abbinando immagini dell'oggetto a rendering non fotorealistici del template, emulando il processo di raccolta di annotazioni manuali per questo compito. Queste corrispondenze vengono poi utilizzate per supervisionare mappe canoniche di alta qualità per qualsiasi oggetto di interesse. Mostriamo inoltre che i generatori di immagini possono ulteriormente migliorare il realismo delle viste del template, fornendo una fonte aggiuntiva di supervisione per il modello.
Gli agenti autonomi che affrontano compiti digitali quotidiani (ad esempio, ordinare la spesa per una famiglia) non solo devono operare su più app (ad esempio, note, messaggistica, app di shopping) tramite API, ma anche generare codice complesso con un flusso di controllo articolato in modo iterativo, basandosi sulla loro interazione con l'ambiente. Tuttavia, i benchmark esistenti per l'uso di strumenti sono inadeguati, poiché coprono solo compiti che richiedono una semplice sequenza di chiamate API. Per colmare questa lacuna, abbiamo creato AppWorld Engine, un ambiente di esecuzione di alta qualità (60K righe di codice) composto da 9 app quotidiane operabili tramite 457 API e popolato con attività digitali realistiche che simulano la vita di circa 100 utenti fittizi. Abbiamo quindi sviluppato AppWorld Benchmark (40K righe di codice), una suite di 750 compiti naturali, diversificati e impegnativi per agenti autonomi, che richiedono la generazione di codice ricco e interattivo. Supporta una valutazione programmatica robusta con test unitari basati sullo stato, consentendo diversi modi di completare un compito e verificando la presenza di modifiche impreviste, ovvero danni collaterali. Lo stato dell'arte degli LLM, GPT-4o, risolve solo circa il 49% dei nostri compiti "normali" e circa il 30% dei compiti "sfida", mentre altri modelli risolvono almeno il 16% in meno. Ciò evidenzia la difficoltà del benchmark e il potenziale di AppWorld di spingere le frontiere degli agenti di codifica interattiva. Il sito web del progetto è disponibile all'indirizzo https://appworld.dev/.
Proponiamo Wolf, un framework di riepilogo WOrLd per la generazione accurata di didascalie video. Wolf è un framework automatizzato per la creazione di didascalie che adotta un approccio a miscela di esperti, sfruttando i punti di forza complementari dei modelli di linguaggio visivo (VLMs). Utilizzando sia modelli per immagini che per video, il nostro framework cattura diversi livelli di informazione e li riassume in modo efficiente. Il nostro approccio può essere applicato per migliorare la comprensione video, l'etichettatura automatica e la generazione di didascalie. Per valutare la qualità delle didascalie, introduciamo CapScore, una metrica basata su LLM per valutare la somiglianza e la qualità delle didascalie generate rispetto a quelle di riferimento. Inoltre, costruiamo quattro dataset annotati manualmente in tre domini: guida autonoma, scene generali e robotica, per facilitare confronti completi. Dimostriamo che Wolf raggiunge prestazioni superiori nella generazione di didascalie rispetto agli approcci all'avanguardia della comunità di ricerca (VILA1.5, CogAgent) e alle soluzioni commerciali (Gemini-Pro-1.5, GPT-4V). Ad esempio, rispetto a GPT-4V, Wolf migliora CapScore sia in termini di qualità del 55,6% che di somiglianza del 77,4% su video impegnativi di guida. Infine, stabiliamo un benchmark per la generazione di didascalie video e introduciamo una classifica, con l'obiettivo di accelerare i progressi nella comprensione video, nella generazione di didascalie e nell'allineamento dei dati. Classifica: https://wolfv0.github.io/leaderboard.html.
Presentiamo sforzi sistematici nella costruzione di un modello di rappresentazione testuale multilingue a contesto lungo (TRM) e di un sistema di riordinamento (reranker) da zero per il recupero di testi. Iniziamo introducendo un codificatore di testo (dimensione base) potenziato con RoPE e unpadding, pre-addestrato in un contesto nativo di 8192 token (più lungo rispetto ai 512 dei precedenti codificatori multilingue). Successivamente, costruiamo un TRM ibrido e un reranker cross-encoder attraverso l'apprendimento contrastivo. Le valutazioni dimostrano che il nostro codificatore di testo supera il precedente stato dell'arte XLM-R di pari dimensioni. Nel frattempo, il nostro TRM e reranker eguagliano le prestazioni dei modelli BGE-M3 di grandi dimensioni e ottengono risultati migliori nei benchmark di recupero a contesto lungo. Ulteriori analisi mostrano che i nostri modelli proposti presentano una maggiore efficienza sia durante l'addestramento che durante l'inferenza. Crediamo che la loro efficienza ed efficacia possano beneficiare varie ricerche e applicazioni industriali.
La manipolazione manuale di oggetti simili a penne è un'abilità importante nella nostra vita quotidiana, poiché molti strumenti come martelli e cacciaviti hanno una forma analoga. Tuttavia, gli attuali metodi basati sull'apprendimento faticano a svolgere questo compito a causa della mancanza di dimostrazioni di alta qualità e del significativo divario tra simulazione e mondo reale. In questo lavoro, spingiamo i limiti dei sistemi di manipolazione manuale basati sull'apprendimento dimostrando la capacità di far ruotare oggetti simili a penne. Utilizziamo prima il reinforcement learning per addestrare una politica oracolo con informazioni privilegiate e generare un dataset di traiettorie ad alta fedeltà in simulazione. Questo serve a due scopi: 1) pre-addestrare una politica sensomotoria in simulazione; 2) eseguire la riproduzione a ciclo aperto delle traiettorie nel mondo reale. Successivamente, ottimizziamo la politica sensomotoria utilizzando queste traiettorie del mondo reale per adattarla alle dinamiche del mondo reale. Con meno di 50 traiettorie, la nostra politica impara a ruotare più di dieci oggetti simili a penne con diverse proprietà fisiche per più rivoluzioni. Presentiamo un'analisi completa delle nostre scelte progettuali e condividiamo le lezioni apprese durante lo sviluppo.
I recenti progressi nella ricostruzione di oggetti 3D da immagini singole si sono principalmente concentrati sul miglioramento dell'accuratezza delle forme degli oggetti. Tuttavia, queste tecniche spesso non riescono a catturare con precisione l'interrelazione tra l'oggetto, il terreno e la fotocamera. Di conseguenza, gli oggetti ricostruiti spesso appaiono fluttuanti o inclinati quando vengono posizionati su superfici piatte. Questa limitazione influisce significativamente sulle applicazioni di editing di immagini 3D-aware come il rendering delle ombre e la manipolazione della posa degli oggetti. Per affrontare questo problema, introduciamo ORG (Object Reconstruction with Ground), un nuovo compito mirato a ricostruire la geometria 3D degli oggetti insieme alla superficie del terreno. Il nostro metodo utilizza due rappresentazioni compatte a livello di pixel per descrivere la relazione tra fotocamera, oggetto e terreno. Gli esperimenti dimostrano che il modello ORG proposto può ricostruire efficacemente la geometria oggetto-terreno su dati non visti, migliorando significativamente la qualità della generazione delle ombre e della manipolazione della posa rispetto alle tecniche convenzionali di ricostruzione 3D da immagini singole.
I transformer per la visione hanno significativamente avanzato il campo della visione artificiale, offrendo robuste capacità di modellazione e un campo recettivo globale. Tuttavia, le loro elevate esigenze computazionali ne limitano l'applicabilità nell'elaborazione di sequenze lunghe. Per affrontare questo problema, i modelli a spazio di stato (SSM) hanno guadagnato popolarità nei compiti di visione, poiché offrono una complessità computazionale lineare. Recentemente, la Dualità dello Spazio di Stato (SSD), una variante migliorata degli SSM, è stata introdotta in Mamba2 per migliorare le prestazioni e l'efficienza del modello. Tuttavia, la natura intrinsecamente causale di SSD/SSM ne limita le applicazioni nei compiti di visione non causali. Per superare questa limitazione, introduciamo il modello Visual State Space Duality (VSSD), che presenta un formato non causale di SSD. Nello specifico, proponiamo di scartare l'ampiezza delle interazioni tra lo stato nascosto e i token, preservandone i pesi relativi, il che riduce le dipendenze del contributo dei token dai token precedenti. Insieme all'impiego di strategie di scansione multipla, dimostriamo che i risultati della scansione possono essere integrati per ottenere la non-causalità, migliorando non solo le prestazioni di SSD nei compiti di visione, ma anche la sua efficienza. Abbiamo condotto esperimenti approfonditi su vari benchmark, tra cui classificazione di immagini, rilevamento e segmentazione, dove VSSD supera i modelli basati su SSM esistenti all'avanguardia. Codice e pesi sono disponibili all'indirizzo https://github.com/YuHengsss/VSSD.