Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli multimodali più avanzati di oggi rimangono proprietari. I modelli open-weight più potenti si basano pesantemente su dati sintetici provenienti da VLM proprietari per ottenere buone prestazioni, effettivamente distillando questi modelli chiusi in modelli aperti. Di conseguenza, alla comunità manca ancora una conoscenza fondamentale su come costruire VLM performanti da zero. Presentiamo Molmo, una nuova famiglia di VLM che sono all'avanguardia nella loro classe di apertura. La nostra innovazione chiave è un nuovo dataset altamente dettagliato di didascalie per immagini raccolto interamente da annotatori umani utilizzando descrizioni basate su speech. Per consentire una vasta gamma di interazioni utente, introduciamo anche una variegata miscela di dataset per il fine-tuning che include Q&A in-the-wild e dati innovativi di puntamento 2D. Il successo del nostro approccio si basa su scelte oculate per i dettagli dell'architettura del modello, un ben tarato pipeline di addestramento e, soprattutto, sulla qualità dei nostri dataset appena raccolti, tutti i quali saranno resi disponibili. Il modello best-in-class da 72B all'interno della famiglia Molmo non solo supera gli altri nella classe di modelli open weight e dati, ma si confronta favorevolmente anche con sistemi proprietari come GPT-4o, Claude 3.5 e Gemini 1.5 su entrambi i benchmark accademici e le valutazioni umane. Rilasceremo tutti i pesi del nostro modello, i dati di didascalia e di fine-tuning, e il codice sorgente nel prossimo futuro. Alcuni pesi del modello selezionati, il codice di inferenza e la demo sono disponibili su https://molmo.allenai.org.
Il pre-addestramento di grandi modelli linguistici tradizionalmente si è basato su esperti umani per elaborare euristiche per migliorare la qualità delle corpora, risultando in numerose regole sviluppate fino ad oggi. Tuttavia, queste regole mancano della flessibilità necessaria per affrontare efficacemente le caratteristiche uniche di ogni esempio. Nel frattempo, applicare regole personalizzate a ogni esempio è impraticabile per gli esperti umani. In questo articolo, dimostriamo che anche piccoli modelli linguistici, con soli 0,3 miliardi di parametri, possono mostrare notevoli capacità di raffinamento dei dati paragonabili a quelle degli esperti umani. Introduciamo Programming Every Example (ProX), un nuovo framework che tratta il raffinamento dei dati come un compito di programmazione, consentendo ai modelli di raffinare le corpora generando ed eseguendo operazioni dettagliate, come la normalizzazione delle stringhe, per ciascun esempio individuale su larga scala. I risultati sperimentali mostrano che i modelli pre-addestrati su dati curati da ProX superano sia i dati originali che i dati filtrati da altri metodi di selezione di oltre il 2% in vari benchmark successivi. La sua efficacia si estende a varie dimensioni di modelli e corpora di pre-addestramento, inclusi C4, RedPajama-V2 e FineWeb. Inoltre, ProX mostra un significativo potenziale nel pre-addestramento continuo specifico del dominio: senza progettazione specifica del dominio, i modelli addestrati su OpenWebMath raffinati da ProX superano i metodi basati su regole create dall'uomo, migliorando la precisione media del 7,6% rispetto a Mistral-7B, con 14,6% per Llama-2-7B e 20,3% per CodeLlama-7B, il tutto entro 10 miliardi di token per essere paragonabili a modelli come Llemma-7B addestrati su 200 miliardi di token. Ulteriori analisi evidenziano che ProX risparmia significativamente FLOP di addestramento, offrendo un percorso promettente per il pre-addestramento efficiente dei LLM. Stiamo condividendo ProX come open source con >100 miliardi di corpora, modelli e condividendo tutti i dettagli di addestramento e implementazione per una ricerca riproducibile e future innovazioni. Codice: https://github.com/GAIR-NLP/ProX
I Large Language Models (LLM) hanno dimostrato notevoli capacità nel processamento del linguaggio naturale eppure le loro inesattezze factuali e allucinazioni limitano la loro applicazione, in particolare in settori critici come la sanità. I metodi di recupero del contesto, introducendo informazioni rilevanti come input, sono emersi come un approccio cruciale per migliorare la factualità e la affidabilità dei LLM. Questo studio esplora i limiti dei metodi di recupero del contesto nel settore sanitario, ottimizzando i loro componenti e confrontando le loro prestazioni con alternative aperte e chiuse. I nostri risultati rivelano come i LLM aperti, quando potenziati con un sistema di recupero ottimizzato, possano raggiungere prestazioni paragonabili alle più grandi soluzioni private su benchmark sanitari consolidati (risposta a domande a scelta multipla). Riconoscendo la mancanza di realismo nell'includere le possibili risposte all'interno della domanda (una configurazione tipica solo negli esami medici) e dopo aver valutato un forte degrado delle prestazioni dei LLM in assenza di tali opzioni, estendiamo il sistema di recupero del contesto in quella direzione. In particolare, proponiamo OpenMedPrompt, un insieme di strumenti che migliora la generazione di risposte aperte più affidabili, avvicinando così questa tecnologia all'applicazione pratica.
Sfruttando modelli di diffusione 2D preaddestrati e campionamento di distillazione dei punteggi (SDS), recenti metodi hanno mostrato risultati promettenti per la generazione di avatar 3D da testo. Tuttavia, generare avatar 3D di alta qualità capaci di animazioni espressive rimane una sfida. In questo lavoro, presentiamo DreamWaltz-G, un nuovo framework di apprendimento per la generazione di avatar 3D animabili da testo. Il cuore di questo framework risiede nella Distillazione dei Punteggi Guidata dallo Scheletro e nella Rappresentazione Ibrida dell'Avatar 3D Gaussiano. In particolare, la proposta di distillazione dei punteggi guidata dallo scheletro integra i controlli dello scheletro dai modelli umani 3D in modelli di diffusione 2D, migliorando la coerenza della supervisione SDS in termini di vista e posa umana. Ciò facilita la generazione di avatar di alta qualità, mitigando problemi come volti multipli, arti aggiuntivi e sfocature. La proposta di rappresentazione ibrida dell'avatar 3D gaussiano si basa sui gaussiani 3D efficienti, combinando campi impliciti neurali e mesh 3D parametrizzate per consentire il rendering in tempo reale, l'ottimizzazione stabile SDS e animazioni espressive. Estesi esperimenti dimostrano che DreamWaltz-G è altamente efficace nella generazione e animazione di avatar 3D, superando i metodi esistenti sia per la qualità visiva che per l'espressività delle animazioni. Il nostro framework supporta inoltre diverse applicazioni, tra cui la rievocazione video umana e la composizione di scene multi-soggetto.
Gli sviluppi recenti nel rendering differenziabile e neurale hanno ottenuto importanti progressi in una varietà di compiti 2D e 3D, come la sintesi di nuove visuali, la ricostruzione 3D. Tipicamente, il rendering differenziabile si basa su una copertura densa dei punti di vista della scena, in modo che la geometria possa essere disambiguata solo dalle osservazioni dell'aspetto. Sorgono diverse sfide quando sono disponibili solo poche visuali di input, spesso indicate come rendering neurale sparso o a pochi scatti. Poiché si tratta di un problema sottodeterminato, la maggior parte degli approcci esistenti introduce l'uso di regolarizzazione, insieme a una varietà di priori appresi e artigianali. Un problema ricorrente nella letteratura sul rendering sparso è la mancanza di un dataset e di un protocollo di valutazione omogenei e aggiornati. Mentre i dataset ad alta risoluzione sono standard nella letteratura sulla ricostruzione densa, i metodi di rendering sparso spesso vengono valutati con immagini a bassa risoluzione. Inoltre, le divisioni dei dati sono inconsistenti tra i diversi documenti e le immagini di test ground-truth sono spesso disponibili pubblicamente, il che può portare all'overfitting. In questo lavoro, proponiamo il dataset e benchmark di Sparse Rendering (SpaRe). Introduciamo un nuovo dataset che segue la configurazione del dataset DTU MVS. Il dataset è composto da 97 nuove scene basate su asset sintetici di alta qualità. Ogni scena ha fino a 64 visuali della fotocamera e 7 configurazioni di illuminazione, renderizzate alla risoluzione di 1600x1200. Rilasciamo una divisione di addestramento di 82 scene per favorire approcci generalizzabili e forniamo una piattaforma di valutazione online per i set di convalida e test, le cui immagini ground-truth rimangono nascoste. Proponiamo due diverse configurazioni sparse (rispettivamente 3 e 9 immagini di input). Questo fornisce uno strumento potente e conveniente per una valutazione riproducibile e consente ai ricercatori di accedere facilmente a una classifica pubblica con i punteggi delle prestazioni all'avanguardia. Disponibile su: https://sparebenchmark.github.io/
I metodi di super risoluzione (SR) basati sulla diffusione delle immagini hanno ottenuto un notevole successo sfruttando ampi modelli di diffusione pre-addestrati testo-immagine come prior. Tuttavia, questi metodi si trovano ancora di fronte a due sfide: il requisito di diverse fasi di campionamento per ottenere risultati soddisfacenti, che limita l'efficienza in scenari reali, e la trascuratezza dei modelli di degradazione, che costituiscono informazioni ausiliarie critiche nella risoluzione del problema SR. In questo lavoro, abbiamo introdotto un nuovo modello SR in un passaggio, che affronta significativamente il problema dell'efficienza dei metodi SR basati sulla diffusione. A differenza delle strategie di fine-tuning esistenti, abbiamo progettato un modulo di Adattamento Low-Rank (LoRA) guidato dalla degradazione specificamente per SR, che corregge i parametri del modello basandosi sulle informazioni di degradazione pre-stimate dalle immagini a bassa risoluzione. Questo modulo non solo facilita un potente modello SR dipendente dai dati o dalla degradazione, ma preserva anche il prior generativo del modello di diffusione pre-addestrato il più possibile. Inoltre, abbiamo adattato un nuovo processo di addestramento introducendo una strategia di generazione di campioni negativi online. Combinata con la strategia di guida senza classificatore durante l'inferezza, migliora notevolmente la qualità percettiva dei risultati di super risoluzione. Estesi esperimenti hanno dimostrato l'efficienza e l'efficacia superiori del modello proposto rispetto ai recenti metodi all'avanguardia.
Presentiamo un nuovo approccio per sintetizzare movimenti destri per mani simulate fisicamente in compiti che richiedono coordinazione nel controllo di due mani con alta precisione temporale. Invece di apprendere direttamente una politica congiunta per controllare due mani, il nostro approccio esegue il controllo bimanuale attraverso l'apprendimento cooperativo in cui ogni mano è trattata come un agente individuale. Le politiche individuali per ciascuna mano vengono prima addestrate separatamente e poi sincronizzate attraverso la manipolazione dello spazio latente in un ambiente centralizzato per fungere da politica congiunta per il controllo a due mani. In questo modo, evitiamo di eseguire direttamente l'apprendimento della politica nello spazio azione-stato congiunto delle due mani con dimensioni superiori, migliorando notevolmente l'efficienza complessiva dell'addestramento. Dimostriamo l'efficacia del nostro approccio proposto nel complesso compito di suonare la chitarra. Il chitarrista virtuale addestrato con il nostro approccio può sintetizzare movimenti da dati di riferimento non strutturati di movimenti generali di pratica della chitarra e suonare con precisione ritmi diversi con complessi schemi di pressione degli accordi e pizzicato delle corde basati sulle schede della chitarra in ingresso che non esistono nei riferimenti. Insieme a questo articolo, forniamo i dati di acquisizione del movimento che abbiamo raccolto come riferimento per l'addestramento della politica. Il codice è disponibile su: https://pei-xu.github.io/guitar.
I Large Language Models (LLM) hanno rivoluzionato l'ingegneria del software (SE), dimostrando notevoli capacità in vari compiti di codifica. Mentre sforzi recenti hanno prodotto agenti software autonomi basati su LLM per compiti di sviluppo end-to-end, questi sistemi sono tipicamente progettati per compiti SE specifici. Presentiamo HyperAgent, un nuovo sistema multi-agente generalista progettato per affrontare un'ampia gamma di compiti SE in diversi linguaggi di programmazione imitando i flussi di lavoro degli sviluppatori umani. Composto da quattro agenti specializzati - Pianificatore, Navigatore, Editor di Codice ed Esecutore. HyperAgent gestisce l'intero ciclo di vita dei compiti SE, dall'idea iniziale alla verifica finale. Attraverso valutazioni approfondite, HyperAgent raggiunge prestazioni all'avanguardia in vari compiti SE: ottiene un tasso di successo del 25,01% su SWE-Bench-Lite e del 31,40% su SWE-Bench-Verified per la risoluzione dei problemi di GitHub, superando i metodi esistenti. Inoltre, HyperAgent dimostra prestazioni all'avanguardia nella generazione di codice a livello di repository (RepoExec) e nella localizzazione dei difetti e nella riparazione dei programmi (Defects4J), spesso superando i sistemi specializzati. Questo lavoro rappresenta un significativo progresso verso agenti autonomi e versatili capaci di gestire compiti SE complessi e multi-step in vari domini e linguaggi, potenzialmente trasformando le pratiche di sviluppo software assistite dall'IA.
Il video è diventato una forma media molto popolare per la condivisione e il consumo di informazioni. Tuttavia, prendere appunti durante la visione di un video richiede un notevole impegno e tempo. Per affrontare questo problema, proponiamo un nuovo sistema interattivo, NoTeeline, per prendere appunti in tempo reale e personalizzati. NoTeeline consente agli utenti di annotare rapidamente i punti chiave (micronote), che vengono automaticamente espansi in appunti completi che catturano il contenuto delle micronote dell'utente e sono coerenti con lo stile di scrittura dell'utente. In uno studio su soggetti interni (N=12), abbiamo scoperto che NoTeeline aiuta gli utenti a creare appunti di alta qualità che catturano l'essenza delle loro micronote con una correttezza fattuale più elevata (93,2%), riflettendo accuratamente il loro stile di scrittura. Durante l'utilizzo di NoTeeline, i partecipanti hanno sperimentato un significativo ridotto sforzo mentale, hanno ottenuto appunti soddisfacenti scrivendo il 47% di testo in meno e hanno completato la presa di appunti con il 43,9% di tempo in meno rispetto a un punto di riferimento di presa di appunti manuale.
La tecnologia di geo-localizzazione basata sulla visione per UAV, che funge da fonte secondaria di informazioni GPS oltre ai sistemi globali di navigazione satellitare (GNSS), può comunque operare in modo indipendente in un ambiente privo di segnale GPS. Metodi recenti basati sull'apprendimento profondo attribuiscono questa funzione al compito di corrispondenza e recupero delle immagini. Recuperando immagini della visuale del drone nel database di immagini satellitari geotaggate, è possibile ottenere informazioni di localizzazione approssimative. Tuttavia, a causa dei costi elevati e delle preoccupazioni sulla privacy, è generalmente difficile ottenere grandi quantità di immagini della visuale del drone da un'area continua. I dataset esistenti della visuale del drone sono per lo più composti da fotografie aeree su piccola scala con l'assunzione che esista un'immagine di riferimento perfettamente allineata uno-a-uno per ogni interrogazione, lasciando un divario significativo rispetto allo scenario di localizzazione pratico. In questo lavoro, costruiamo un dataset di geo-localizzazione UAV di ampia portata e continua chiamato GTA-UAV, che presenta molteplici altitudini di volo, atteggiamenti, scenari e obiettivi utilizzando moderni videogiochi. Basandoci su questo dataset, introduciamo un compito di geo-localizzazione UAV più pratico che include corrispondenze parziali di dati accoppiati tra viste incrociate, ed espandiamo il recupero a livello di immagine alla localizzazione effettiva in termini di distanza (metri). Per la costruzione di coppie di immagini della visuale del drone e della visuale satellitare, adottiamo un approccio di apprendimento contrastivo basato sul peso, che consente un apprendimento efficace evitando passaggi aggiuntivi di corrispondenza post-elaborazione. Gli esperimenti dimostrano l'efficacia dei nostri dati e del nostro metodo di addestramento per la geo-localizzazione UAV, nonché le capacità di generalizzazione agli scenari del mondo reale.
Introduciamo un nuovo framework che apprende un campo di radianza neurale dinamica (NeRF) per esseri umani parlanti a figura intera da video monoculari. Lavori precedenti rappresentano solo la posa del corpo o il viso. Tuttavia, gli esseri umani comunicano con l'intero corpo, combinando la posa del corpo, i gesti delle mani e le espressioni facciali. In questo lavoro, proponiamo TalkinNeRF, una rete basata su NeRF unificata che rappresenta il movimento umano 4D olistico. Dato un video monocolare di un soggetto, apprendiamo moduli corrispondenti per il corpo, il viso e le mani, che vengono combinati insieme per generare il risultato finale. Per catturare l'articolazione complessa delle dita, apprendiamo un campo di deformazione aggiuntivo per le mani. La nostra rappresentazione multi-identità consente l'addestramento simultaneo per più soggetti, nonché un'animazione robusta in pose completamente inedite. Può inoltre generalizzare a nuove identità, dati solo brevi video in input. Dimostriamo prestazioni all'avanguardia per l'animazione di esseri umani parlanti a figura intera, con articolazione dettagliata delle mani e espressioni facciali.
Presentiamo un approccio semplice e auto-supervisionato al problema del Tracking di Qualsiasi Punto (TAP). Alleniamo un trasformatore di corrispondenza globale per trovare tracce coerenti ciclicamente attraverso video tramite passeggiate casuali contrastive, utilizzando la corrispondenza globale basata sull'attenzione del trasformatore per definire le matrici di transizione per una passeggiata casuale su un grafo spazio-temporale. La capacità di effettuare confronti "tra tutte le coppie" tra i punti consente al modello di ottenere un'alta precisione spaziale e di ottenere un forte segnale di apprendimento contrastivo, evitando molte delle complessità degli approcci recenti (come il matching da grezzo a fine). A tal fine, proponiamo una serie di decisioni progettuali che consentono alle architetture di corrispondenza globale di essere addestrate tramite auto-supervisione utilizzando la coerenza ciclica. Ad esempio, identifichiamo che i metodi basati su trasformatori sono sensibili alle soluzioni di scorciatoia e proponiamo uno schema di aumento dei dati per affrontarle. Il nostro metodo ottiene ottime prestazioni sui benchmark di TapVid, superando i precedenti metodi di tracciamento auto-supervisionati, come DIFT, ed è competitivo con diversi metodi supervisionati.